cloak.business

מדוע Regex-First?

לצורך עמידה ברגולציה, דרושים תוצאות שניתן להסביר ולשחזר. הגישה שלנו מבוססת regex שומרת על זיהוי נתונים מובנים דטרמיניסטי לחלוטין, בעוד ש-NLP מטפל בשמות ומיקומים עם דירוגי ביטחון שקופים.

השוואה מפורטת

Regex-First (אנחנו)מבוסס AI/ML
יכולת שחזורנתונים מובנים: זהה ב-100%. שמות: עם דירוג ביטחוןכל התוצאות משתנות בין ריצות
יכולת ביקורתכל זיהוי ניתן למעקב לפי תבנית או מודל NLPקופסה שחורה — לא ניתן להסביר החלטות
נתוני אימוןRegex: לא נדרש. NLP: מודלים מאומנים מראש כלוליםדורש מערכי נתונים מותאמים לאימון
סטיית מודלRegex: אין. NLP: מודלים מגרסאות יציבותמתדרדר באופן בלתי צפוי לאורך זמן
ביצועיםמהיר, דורש CPU בלבדמשתנה, תלוי GPU
עלות חישובנמוכה (CPU בלבד)גבוהה (לעיתים נדרש GPU)
עמידה ברגולציהקל — תבניות ודירוגי ביטחון ניתנים לביקורת עם פיקוח אנושיקשה להוכיח לרגולטורים

כיצד פועלת התאמת תבניות

לכל סוג ישות יש תבניות regex מדויקות המותאמות לפורמטים מסוימים.

כתובות דוא"ל

מתאים לפורמט דוא"ל סטנדרטי: local-part@domain.tld

מספרי כרטיסי אשראי

מתאים לפורמטים של ויזה, מאסטרקארד, אמריקן אקספרס ואחרים עם אימות Luhn

IBAN גרמני

מתאים לפורמט IBAN גרמני עם רווחים אופציונליים

מותאם לרגולציה

כאשר מבקרים שואלים "מדוע זה זוהה?" דרושה לכם תשובה ברורה. זיהוי מבוסס regex ניתן למעקב לפי תבנית מסוימת. זיהוי NLP כולל שם מודל ודירוג ביטחון. ביקורת אנושית מאפשרת לצוותי ציות לבטל זיהויים לפני אנונימיזציה.

  • GDPR סעיף 25: פרטיות כברירת מחדל עם עיבוד ניתן להסבר
  • ISO 27001: תהליכים מתועדים וניתנים לשחזור
  • Audit Trail: כל זיהוי ניתן למעקב לפי תבנית מסוימת

דוגמה לתשובת ביקורת

ש: מדוע "john.smith@company.com" סומן?

ת: נמצא התאמה לתבנית דוא"ל במיקום 45-68 עם ביטחון 0.95. תבנית: אימות פורמט דוא"ל סטנדרטי.

חוו זיהוי דטרמיניסטי

נסו את זיהוי ה-PII מבוסס regex שלנו בחינם עם 200 טוקנים למחזור.