Prečo regex na prvom mieste?

Pre regulačný súlad potrebujete výsledky, ktoré môžete vysvetliť a zopakovať. Náš prístup na báze regex zabezpečuje plne deterministickú detekciu štruktúrovaných údajov, zatiaľ čo NLP spracováva mená a lokality s transparentným skóre dôveryhodnosti.

Podrobná porovnávacia tabuľka

Regex na prvom mieste (my)AI/ML založené
ReprodukovateľnosťŠtruktúrované údaje: 100% identické. Mená: hodnotené skóre dôveryhodnostiVšetky výsledky sa líšia medzi spusteniami
AuditovateľnosťKaždá detekcia vysledovateľná k vzoru alebo NLP modeluBlack box — nie je možné vysvetliť rozhodnutia
Trénovacie dátaRegex: žiadne. NLP: predtrénované modely sú súčasťouVyžaduje vlastné trénovacie datasety
Model driftRegex: žiadny. NLP: verzované, stabilné modelyPresnosť sa časom nepredvídateľne zhoršuje
VýkonRýchly, iba CPUPremenlivý, závislý od GPU
Výpočtové nákladyNízke (iba CPU)Vysoké (často potrebné GPU)
Regulačný súladJednoduché — vzory + skóre dôveryhodnosti sú auditovateľné s ľudským dohľadomŤažko preukázateľné regulátorom

Ako funguje porovnávanie vzorov

Každý typ entity má starostlivo navrhnuté regex vzory, ktoré zodpovedajú špecifickým formátom.

E-mailové adresy

Zodpovedá štandardnému formátu e-mailu: local-part@domain.tld

Čísla kreditných kariet

Zodpovedá formátom Visa, Mastercard, Amex a iným kartám s Luhn validáciou

Nemecký IBAN

Zodpovedá nemeckému formátu IBAN s voliteľnými medzerami

Navrhnuté pre súlad

Keď sa audítori opýtajú „prečo bolo toto detegované?“, potrebujete jasnú odpoveď. Detekcie regex sú vysledovateľné ku konkrétnemu vzoru. Detekcie NLP obsahujú názov modelu a skóre dôveryhodnosti. Kontrola s ľudským dohľadom umožňuje tímom pre súlad upraviť detekcie pred anonymizáciou.

  • GDPR článok 25: Ochrana súkromia už pri návrhu s vysvetliteľným spracovaním
  • ISO 27001: Dokumentované, opakovateľné procesy
  • Auditná stopa: Každá detekcia je vysledovateľná ku konkrétnemu vzoru

Príklad odpovede na audit

Otázka: Prečo bola označená „john.smith@company.com“?

Odpoveď: Zhoduje sa s e-mailovým vzorom na pozícii 45-68 so skóre dôveryhodnosti 0,95. Vzor: štandardná validácia formátu e-mailu.

Zažite deterministickú detekciu

Vyskúšajte našu detekciu PII na báze regex zadarmo s 200 tokenmi na cyklus.