Regex-First: למה זה חשוב
הגישה שלנו: Regex + NLP
- 317 מזהי regex: תוצאה ניתנת לשחזור מלא לנתונים מובנים
- NLP לשמות ומיקומים עם דירוגי ביטחון
- ניתן לביקורת מלאה — כל זיהוי ניתן למעקב לפי תבנית או מודל
- שקיפות: תמיד תדעו מה זוהה ומדוע
- ביצועים מהירים וצפויים
- 48 שפות בשלושה מנועי NLP
גישות מבוססות AI בלבד
- כל הזיהויים הסתברותיים
- לא ניתן להסביר מדוע משהו סומן
- דורש מערכי נתונים גדולים לאימון
- קשה לביקורת לצורך עמידה ברגולציה
- עלויות חישוב גבוהות (נדרש GPU)
- סטיית מודל פוגעת בדיוק לאורך זמן
תהליך בן 10 שלבים
מהקלט ועד הפלט, כך בדיוק המסמך שלכם מעובד
הזנת טקסט
הגישו את המסמך שלכם דרך הממשק, ה-API או תוסף Office
זיהוי שפה
המערכת מזהה את שפת המסמך לעיבוד מיטבי
פירוק לטוקנים
הטקסט מפורק לטוקנים להתאמת תבניות
התאמת תבניות
317 מזהי regex ומודלי NLP סורקים מעל 320 סוגי ישויות ב-70+ מדינות
ניתוח הקשר
הטקסט הסובב משפר את דיוק הזיהוי
דירוג ביטחון
כל זיהוי מקבל ציון ביטחון (0.0–1.0) המאפשר קבלת החלטות בביקורת אנושית
סיווג ישויות
הפריטים שזוהו מסווגים לפי סוג
ביקורת אנושית
עברו על כל הזיהויים, בטלו חיוביות שגויות ואשרו לפני אנונימיזציה
החלת אנונימיזציה
בחרו שיטה: החלפה, השחרה, גיבוב, הצפנה או מסיכה
פלט המסמך
הורידו את המסמך האנונימי שלכם
שרת MCP: אינטגרציה עם AI תוך שמירה על פרטיות
כיצד המידע שלכם עובר דרך שרת MCP כדי להגן על כלי AI
שרת MCP משמש כמגן פרטיות, חוסם בקשות מכלי AI, מבצע אנונימיזציה ל-PII, מעביר נתונים בטוחים ל-AI, ובאפשרותכם לשחזר ערכים מקוריים.
בקשת כלי AI
כלי ה-AI שלכם (Cursor, Claude) שולח בקשה המכילה PII
שרת MCP חוסם
השרת מנתח ומזהה את כל ישויות ה-PII
אנונימיזציה
ה-PII מוחלף בטוקנים או מושחר
עיבוד AI
ה-AI מקבל ומעבד רק נתונים אנונימיים
החזרת תגובה
תגובת ה-AI חוזרת דרך שרת MCP
הסרת טוקנים
אופציונלי: ערכים מקוריים משוחזרים למשתמש
שאלות נפוצות
האם cloak.business משתמש ב-AI לזיהוי?
לא. הזיהוי מתבצע באמצעות תבניות regex דטרמיניסטיות ומודלי NLP (spaCy, Stanza). כך מתקבלים תוצאות ניתנות לשחזור מלא — אותו קלט תמיד יניב את אותו פלט, בניגוד לגישות AI הסתברותיות.
מדוע להשתמש בתבניות regex ולא ב-AI?
תבניות regex ניתנות לביקורת, לשחזור ותואמות רגולציה. ניתן לבדוק בדיוק מה כל תבנית מזהה. זיהוי מבוסס AI אינו דטרמיניסטי — התוצאות משתנות בין ריצות, מה שמקשה על תיעוד עמידה ברגולציה.
כמה מדויק הזיהוי?
עם 317 מזהי תבניות מותאמים כולל אימות סכום ביקורת (Luhn, IBAN, SSN), cloak.business משיג דיוק גבוה משמעותית לעומת מודלי NER כלליים, במיוחד למזהים מובנים כמו כרטיסי אשראי, מספרי מס ותעודות זהות.
אילו שפות נתמכות?
נתמכות 48 שפות עם מודלי NLP ייעודיים לזיהוי ישויות. זיהוי מבוסס תבניות (regex) פועל בכל השפות מאחר שהוא מתאים דפוסי תווים ללא תלות בשפה.
האם ניתן להוסיף תבניות ישות מותאמות?
כן. ה-API תומך בהגדרת מזהים מותאמים, כך שניתן להוסיף תבניות למזהים ייחודיים, מספרי הפניה פנימיים או פורמטים ייעודיים לתחום.