Dlaczego regex-first?

Aby spełnić wymogi regulacyjne, potrzebujesz wyników, które można wyjaśnić i powtórzyć. Nasze podejście regex-first zapewnia deterministyczne wykrywanie danych strukturalnych, a NLP obsługuje nazwy i lokalizacje z przejrzystymi ocenami pewności.

Szczegółowe porównanie

Regex-First (My)Oparte na AI/ML
PowtarzalnośćDane strukturalne: 100% identyczne. Nazwy: z oceną pewnościWyniki różnią się między uruchomieniami
AudytowalnośćKażde wykrycie można prześledzić do wzorca lub modelu NLPCzarna skrzynka — brak wyjaśnienia decyzji
Dane treningoweRegex: brak. NLP: wbudowane modeleWymaga własnych zbiorów treningowych
Dryf modeluRegex: brak. NLP: wersjonowane, stabilne modelePogarsza się nieprzewidywalnie z czasem
WydajnośćSzybko, tylko CPUZmienna, zależna od GPU
Koszt obliczeńNiski (tylko CPU)Wysoki (często wymagany GPU)
Zgodność regulacyjnaŁatwo — wzorce + oceny pewności są audytowalne z nadzorem człowiekaTrudne do udowodnienia regulatorom

Jak działa dopasowanie wzorców

Każdy typ encji posiada starannie przygotowane wzorce regex dopasowujące określone formaty.

Adresy e-mail

Dopasowuje standardowy format e-mail: local-part@domain.tld

Numery kart kredytowych

Dopasowuje formaty Visa, Mastercard, Amex i innych kart z walidacją Luhn

Niemiecki IBAN

Dopasowuje niemiecki format IBAN z opcjonalnymi spacjami

Stworzone dla zgodności

Gdy audytorzy pytają „dlaczego to zostało wykryte?”, potrzebujesz jasnej odpowiedzi. Wykrycia regex można prześledzić do konkretnego wzorca. Wykrycia NLP zawierają nazwę modelu i ocenę pewności. Weryfikacja przez człowieka pozwala zespołom ds. zgodności korygować wykrycia przed anonimizacją.

  • GDPR Artykuł 25: Prywatność w fazie projektowania z wyjaśnialnym przetwarzaniem
  • ISO 27001: Udokumentowane, powtarzalne procesy
  • Ścieżka audytu: Każde wykrycie można prześledzić do konkretnego wzorca

Przykładowa odpowiedź audytowa

P: Dlaczego „john.smith@company.com” zostało oznaczone?

O: Dopasowano wzorzec e-mail na pozycji 45-68 z pewnością 0,95. Wzorzec: standardowa walidacja formatu e-mail.

Doświadcz deterministycznego wykrywania

Wypróbuj wykrywanie PII oparte na regex za darmo – 200 tokenów na cykl.