Prečo regex na prvom mieste?
Pre regulačný súlad potrebujete výsledky, ktoré môžete vysvetliť a zopakovať. Náš prístup na báze regex zabezpečuje plne deterministickú detekciu štruktúrovaných údajov, zatiaľ čo NLP spracováva mená a lokality s transparentným skóre dôveryhodnosti.
Podrobná porovnávacia tabuľka
| Regex na prvom mieste (my) | AI/ML založené | |
|---|---|---|
| Reprodukovateľnosť | Štruktúrované údaje: 100% identické. Mená: hodnotené skóre dôveryhodnosti | Všetky výsledky sa líšia medzi spusteniami |
| Auditovateľnosť | Každá detekcia vysledovateľná k vzoru alebo NLP modelu | Black box — nie je možné vysvetliť rozhodnutia |
| Trénovacie dáta | Regex: žiadne. NLP: predtrénované modely sú súčasťou | Vyžaduje vlastné trénovacie datasety |
| Model drift | Regex: žiadny. NLP: verzované, stabilné modely | Presnosť sa časom nepredvídateľne zhoršuje |
| Výkon | Rýchly, iba CPU | Premenlivý, závislý od GPU |
| Výpočtové náklady | Nízke (iba CPU) | Vysoké (často potrebné GPU) |
| Regulačný súlad | Jednoduché — vzory + skóre dôveryhodnosti sú auditovateľné s ľudským dohľadom | Ťažko preukázateľné regulátorom |
Ako funguje porovnávanie vzorov
Každý typ entity má starostlivo navrhnuté regex vzory, ktoré zodpovedajú špecifickým formátom.
E-mailové adresy
Zodpovedá štandardnému formátu e-mailu: local-part@domain.tld
Čísla kreditných kariet
Zodpovedá formátom Visa, Mastercard, Amex a iným kartám s Luhn validáciou
Nemecký IBAN
Zodpovedá nemeckému formátu IBAN s voliteľnými medzerami
Navrhnuté pre súlad
Keď sa audítori opýtajú „prečo bolo toto detegované?“, potrebujete jasnú odpoveď. Detekcie regex sú vysledovateľné ku konkrétnemu vzoru. Detekcie NLP obsahujú názov modelu a skóre dôveryhodnosti. Kontrola s ľudským dohľadom umožňuje tímom pre súlad upraviť detekcie pred anonymizáciou.
- GDPR článok 25: Ochrana súkromia už pri návrhu s vysvetliteľným spracovaním
- ISO 27001: Dokumentované, opakovateľné procesy
- Auditná stopa: Každá detekcia je vysledovateľná ku konkrétnemu vzoru
Príklad odpovede na audit
Otázka: Prečo bola označená „john.smith@company.com“?
Odpoveď: Zhoduje sa s e-mailovým vzorom na pozícii 45-68 so skóre dôveryhodnosti 0,95. Vzor: štandardná validácia formátu e-mailu.