מדוע Regex-First?
לצורך עמידה ברגולציה, דרושים תוצאות שניתן להסביר ולשחזר. הגישה שלנו מבוססת regex שומרת על זיהוי נתונים מובנים דטרמיניסטי לחלוטין, בעוד ש-NLP מטפל בשמות ומיקומים עם דירוגי ביטחון שקופים.
השוואה מפורטת
| Regex-First (אנחנו) | מבוסס AI/ML | |
|---|---|---|
| יכולת שחזור | נתונים מובנים: זהה ב-100%. שמות: עם דירוג ביטחון | כל התוצאות משתנות בין ריצות |
| יכולת ביקורת | כל זיהוי ניתן למעקב לפי תבנית או מודל NLP | קופסה שחורה — לא ניתן להסביר החלטות |
| נתוני אימון | Regex: לא נדרש. NLP: מודלים מאומנים מראש כלולים | דורש מערכי נתונים מותאמים לאימון |
| סטיית מודל | Regex: אין. NLP: מודלים מגרסאות יציבות | מתדרדר באופן בלתי צפוי לאורך זמן |
| ביצועים | מהיר, דורש CPU בלבד | משתנה, תלוי GPU |
| עלות חישוב | נמוכה (CPU בלבד) | גבוהה (לעיתים נדרש GPU) |
| עמידה ברגולציה | קל — תבניות ודירוגי ביטחון ניתנים לביקורת עם פיקוח אנושי | קשה להוכיח לרגולטורים |
כיצד פועלת התאמת תבניות
לכל סוג ישות יש תבניות regex מדויקות המותאמות לפורמטים מסוימים.
כתובות דוא"ל
מתאים לפורמט דוא"ל סטנדרטי: local-part@domain.tld
מספרי כרטיסי אשראי
מתאים לפורמטים של ויזה, מאסטרקארד, אמריקן אקספרס ואחרים עם אימות Luhn
IBAN גרמני
מתאים לפורמט IBAN גרמני עם רווחים אופציונליים
מותאם לרגולציה
כאשר מבקרים שואלים "מדוע זה זוהה?" דרושה לכם תשובה ברורה. זיהוי מבוסס regex ניתן למעקב לפי תבנית מסוימת. זיהוי NLP כולל שם מודל ודירוג ביטחון. ביקורת אנושית מאפשרת לצוותי ציות לבטל זיהויים לפני אנונימיזציה.
- GDPR סעיף 25: פרטיות כברירת מחדל עם עיבוד ניתן להסבר
- ISO 27001: תהליכים מתועדים וניתנים לשחזור
- Audit Trail: כל זיהוי ניתן למעקב לפי תבנית מסוימת
דוגמה לתשובת ביקורת
ש: מדוע "john.smith@company.com" סומן?
ת: נמצא התאמה לתבנית דוא"ל במיקום 45-68 עם ביטחון 0.95. תבנית: אימות פורמט דוא"ל סטנדרטי.