Чому Regex-підхід?
Для регуляторної відповідності потрібні пояснювані та відтворювані результати. Наш підхід на основі regex забезпечує повністю детерміноване виявлення структурованих даних, а NLP обробляє імена та локації з прозорими оцінками впевненості.
Детальне порівняння
| Regex-підхід (ми) | AI/ML-підхід | |
|---|---|---|
| Відтворюваність | Структуровані дані: 100% ідентичність. Імена: з оцінкою впевненості | Усі результати різняться між запуском |
| Аудиторська перевірка | Кожне виявлення відслідковується до шаблону або NLP-моделі | Чорний ящик — неможливо пояснити рішення |
| Навчальні дані | Regex: не потрібно. NLP: включені попередньо навчені моделі | Потрібні власні навчальні набори |
| Зміщення моделі | Regex: відсутнє. NLP: версіоновані, стабільні моделі | Непередбачувано погіршується з часом |
| Продуктивність | Швидко, лише CPU | Змінна, залежить від GPU |
| Вартість обчислень | Низька (лише CPU) | Висока (часто потрібен GPU) |
| Відповідність вимогам | Просто — шаблони та оцінки впевненості можна перевірити з контролем людини | Складно довести регуляторам |
Як працює пошук за шаблонами
Кожен тип сутності має ретельно розроблені шаблони regex, що відповідають конкретним форматам.
Електронні адреси
Відповідає стандартному формату email: local-part@domain.tld
Номери кредитних карток
Відповідає форматам Visa, Mastercard, Amex та інших карт з перевіркою Luhn
Німецький IBAN
Відповідає формату німецького IBAN з необов’язковими пробілами
Створено для відповідності
Коли аудитори запитують "чому це було виявлено?" — потрібна чітка відповідь. Виявлення regex відслідковується до конкретного шаблону. Виявлення NLP містять назву моделі та оцінку впевненості. Перевірка людиною гарантує, що команда відповідності може змінити виявлення до анонімізації.
- GDPR стаття 25: Приватність за замовчуванням з пояснюваною обробкою
- ISO 27001: Документовані, повторювані процеси
- Аудиторський слід: кожне виявлення можна відслідкувати до конкретного шаблону
Приклад відповіді на аудит
П: Чому "john.smith@company.com" було позначено?
В: Відповідає шаблону email на позиціях 45-68 з впевненістю 0.95. Шаблон: стандартна перевірка формату email.