Dlaczego regex-first?
Aby spełnić wymogi regulacyjne, potrzebujesz wyników, które można wyjaśnić i powtórzyć. Nasze podejście regex-first zapewnia deterministyczne wykrywanie danych strukturalnych, a NLP obsługuje nazwy i lokalizacje z przejrzystymi ocenami pewności.
Szczegółowe porównanie
| Regex-First (My) | Oparte na AI/ML | |
|---|---|---|
| Powtarzalność | Dane strukturalne: 100% identyczne. Nazwy: z oceną pewności | Wyniki różnią się między uruchomieniami |
| Audytowalność | Każde wykrycie można prześledzić do wzorca lub modelu NLP | Czarna skrzynka — brak wyjaśnienia decyzji |
| Dane treningowe | Regex: brak. NLP: wbudowane modele | Wymaga własnych zbiorów treningowych |
| Dryf modelu | Regex: brak. NLP: wersjonowane, stabilne modele | Pogarsza się nieprzewidywalnie z czasem |
| Wydajność | Szybko, tylko CPU | Zmienna, zależna od GPU |
| Koszt obliczeń | Niski (tylko CPU) | Wysoki (często wymagany GPU) |
| Zgodność regulacyjna | Łatwo — wzorce + oceny pewności są audytowalne z nadzorem człowieka | Trudne do udowodnienia regulatorom |
Jak działa dopasowanie wzorców
Każdy typ encji posiada starannie przygotowane wzorce regex dopasowujące określone formaty.
Adresy e-mail
Dopasowuje standardowy format e-mail: local-part@domain.tld
Numery kart kredytowych
Dopasowuje formaty Visa, Mastercard, Amex i innych kart z walidacją Luhn
Niemiecki IBAN
Dopasowuje niemiecki format IBAN z opcjonalnymi spacjami
Stworzone dla zgodności
Gdy audytorzy pytają „dlaczego to zostało wykryte?”, potrzebujesz jasnej odpowiedzi. Wykrycia regex można prześledzić do konkretnego wzorca. Wykrycia NLP zawierają nazwę modelu i ocenę pewności. Weryfikacja przez człowieka pozwala zespołom ds. zgodności korygować wykrycia przed anonimizacją.
- GDPR Artykuł 25: Prywatność w fazie projektowania z wyjaśnialnym przetwarzaniem
- ISO 27001: Udokumentowane, powtarzalne procesy
- Ścieżka audytu: Każde wykrycie można prześledzić do konkretnego wzorca
Przykładowa odpowiedź audytowa
P: Dlaczego „john.smith@company.com” zostało oznaczone?
O: Dopasowano wzorzec e-mail na pozycji 45-68 z pewnością 0,95. Wzorzec: standardowa walidacja formatu e-mail.