Почему приоритет у регулярных выражений?
Для соблюдения нормативных требований необходимы объяснимые и воспроизводимые результаты. Наш подход с приоритетом регулярных выражений обеспечивает полную детерминированность для структурированных данных, а NLP обрабатывает имена и местоположения с прозрачной оценкой уверенности.
Детальное сравнение
| Regex-First (наш подход) | На основе AI/ML | |
|---|---|---|
| Воспроизводимость | Структурированные данные: 100% идентично. Имена: с оценкой уверенности | Результаты различаются при каждом запуске |
| Аудируемость | Каждое обнаружение отслеживается до шаблона или NLP-модели | Черный ящик — невозможно объяснить решения |
| Обучающие данные | Regex: не требуется. NLP: включены предобученные модели | Требуются собственные обучающие наборы данных |
| Дрейф модели | Regex: отсутствует. NLP: версионированные, стабильные модели | Точность непредсказуемо снижается со временем |
| Производительность | Быстро, только CPU | Переменно, зависит от GPU |
| Вычислительные затраты | Низкие (только CPU) | Высокие (часто требуется GPU) |
| Соответствие требованиям | Просто — шаблоны и оценки уверенности поддаются аудиту с контролем человеком | Сложно доказать регуляторам |
Как работает сопоставление с шаблонами
Для каждого типа сущности используются тщательно разработанные шаблоны регулярных выражений, соответствующие определённым форматам.
Электронные адреса
Соответствует стандартному формату email: local-part@domain.tld
Номера кредитных карт
Обнаруживает форматы Visa, Mastercard, Amex и других карт с проверкой по алгоритму Луна
Немецкий IBAN
Соответствует немецкому формату IBAN с необязательными пробелами
Разработано для соответствия требованиям
Когда аудиторы спрашивают «почему это было обнаружено?», вам нужен четкий ответ. Обнаружения на основе регулярных выражений отслеживаются до конкретного шаблона. Обнаружения NLP включают название модели и оценку уверенности. Проверка с участием человека позволяет командам по соответствию требованиям отклонять обнаружения до анонимизации.
- GDPR, статья 25: Приватность по умолчанию с объяснимой обработкой
- ISO 27001: Документированные, повторяемые процессы
- Аудит: каждое обнаружение можно отследить до конкретного шаблона
Пример ответа на аудит
В: Почему "john.smith@company.com" был отмечен?
О: Совпадение с шаблоном email на позиции 45-68 с уверенностью 0.95. Шаблон: стандартная проверка формата email.