Zakaj regex-prva?
Za skladnost s predpisi potrebujete rezultate, ki jih lahko razložite in ponovite. Naš regex-prvi pristop omogoča popolnoma deterministično detekcijo strukturiranih podatkov, medtem ko NLP obravnava imena in lokacije z jasnimi ocenami zaupanja.
Podrobna primerjava
| Regex-prva (mi) | Na osnovi AI/ML | |
|---|---|---|
| Ponovljivost | Strukturirani podatki: 100 % enako. Imena: z oceno zaupanja | Vsi rezultati se razlikujejo med zagoni |
| Preverljivost | Vsaka detekcija je sledljiva vzorcu ali NLP modelu | Črna skrinjica — odločitev ni mogoče pojasniti |
| Učni podatki | Regex: ni potrebnih. NLP: vključeni predtrenirani modeli | Zahteva lastne učne podatkovne baze |
| Sprememba modela | Regex: ni. NLP: verzionirani, stabilni modeli | Natančnost se nepredvidljivo slabša skozi čas |
| Delovanje | Hitro, samo CPU | Spremenljivo, odvisno od GPU |
| Stroški procesiranja | Nizki (samo CPU) | Visoki (pogosto potreben GPU) |
| Skladnost s predpisi | Enostavno — vzorci + ocene zaupanja so preverljivi s človeškim nadzorom | Težko dokazljivo regulatorjem |
Kako deluje iskanje vzorcev
Vsaka vrsta entitete ima skrbno izdelane regex vzorce, ki prepoznajo specifične formate.
E-poštni naslovi
Prepozna standardni format e-pošte: local-part@domain.tld
Številke kreditnih kartic
Prepozna formate kartic Visa, Mastercard, Amex in drugih s preverjanjem po Luhn algoritmu
Nemški IBAN
Prepozna nemški IBAN format z možnostjo presledkov
Zasnovano za skladnost
Ko revizorji vprašajo »zakaj je bilo to zaznano?«, potrebujete jasen odgovor. Detekcije z regex vzorci so sledljive določenemu vzorcu. NLP detekcije vključujejo ime modela in oceno zaupanja. Pregled s strani človeka zagotavlja, da lahko ekipe za skladnost pred anonimizacijo popravijo detekcije.
- GDPR 25. člen: Zasebnost po zasnovi z razložljivo obdelavo
- ISO 27001: Dokumentirani, ponovljivi postopki
- Revizijska sled: Vsaka detekcija je sledljiva določenemu vzorcu
Primer odgovora na revizijo
V: Zakaj je bil »john.smith@company.com« označen?
O: Ujemanje z vzorcem za e-pošto na poziciji 45–68 z oceno zaupanja 0,95. Vzorec: preverjanje standardnega formata e-pošte.