Proč regex na prvním místě?

Pro regulatorní shodu potřebujete výsledky, které lze vysvětlit a zopakovat. Náš přístup s důrazem na regex zajišťuje plně deterministickou detekci strukturovaných dat, zatímco NLP zpracovává jména a lokace s transparentními hodnotami jistoty.

Podrobná srovnání

Regex na prvním místě (my)AI/ML založené
ReprodukovatelnostStrukturovaná data: 100% totožná. Jména: s hodnotou jistotyVšechny výsledky se liší mezi spuštěními
AuditovatelnostKaždá detekce je dohledatelná podle vzoru nebo NLP modeluBlack box — nelze vysvětlit rozhodnutí
Trénovací dataRegex: žádná. NLP: předtrénované modely součástíVyžaduje vlastní trénovací datasety
Drift modeluRegex: žádný. NLP: verzované, stabilní modelyNepředvídatelně se zhoršuje v čase
VýkonRychlý, pouze CPUProměnlivý, závislý na GPU
Náklady na výpočetNízké (pouze CPU)Vysoké (často nutný GPU)
Regulatorní shodaSnadné — vzory + hodnoty jistoty jsou auditovatelné s dohledem člověkaObtížné doložit regulátorům

Jak funguje porovnání vzorů

Každý typ entity má pečlivě navržené regex vzory, které odpovídají specifickým formátům.

E-mailové adresy

Odpovídá standardnímu formátu e-mailu: local-part@domain.tld

Čísla kreditních karet

Odpovídá formátům Visa, Mastercard, Amex a dalším s validací Luhn

Německý IBAN

Odpovídá německému formátu IBAN s volitelnými mezerami

Navrženo pro shodu s předpisy

Když se auditoři ptají „proč bylo toto detekováno?“, potřebujete jasnou odpověď. Detekce pomocí regex lze vysledovat ke konkrétnímu vzoru. Detekce NLP obsahuje název modelu a hodnotu jistoty. Kontrola člověkem umožňuje týmům pro shodu s předpisy upravit detekce před anonymizací.

  • GDPR článek 25: Ochrana soukromí již při návrhu s vysvětlitelným zpracováním
  • ISO 27001: Dokumentované, opakovatelné procesy
  • Auditní stopa: Každou detekci lze vysledovat ke konkrétnímu vzoru

Příklad odpovědi na audit

Otázka: Proč byla označena "john.smith@company.com"?

Odpověď: Odpovídá vzoru e-mailu na pozici 45-68 s hodnotou jistoty 0,95. Vzor: standardní validace formátu e-mailu.

Vyzkoušejte deterministickou detekci

Vyzkoušejte naši detekci PII pomocí regex zdarma s 200 tokeny na cyklus.