Waarom Regex-First?
Voor naleving van regelgeving heeft u resultaten nodig die u kunt uitleggen en reproduceren. Onze regex-first aanpak houdt detectie van gestructureerde data volledig deterministisch, terwijl NLP namen en locaties verwerkt met transparante betrouwbaarheidscores.
Gedetailleerde Vergelijking
| Regex-First (Wij) | AI/ML-gebaseerd | |
|---|---|---|
| Reproduceerbaarheid | Gestructureerde data: 100% identiek. Namen: met betrouwbaarheidscores | Alle resultaten verschillen per run |
| Controleerbaarheid | Elke detectie is herleidbaar tot een patroon of NLP-model | Black box — beslissingen niet uitlegbaar |
| Trainingsdata | Regex: geen. NLP: vooraf getrainde modellen inbegrepen | Vereist aangepaste trainingsdatasets |
| Modeldrift | Regex: geen. NLP: versiebeheer, stabiele modellen | Onvoorspelbare degradatie in de tijd |
| Prestaties | Snel, alleen CPU | Variabel, afhankelijk van GPU |
| Rekenkosten | Laag (alleen CPU) | Hoog (vaak GPU nodig) |
| Regelgeving Compliance | Eenvoudig — patronen + betrouwbaarheidscores zijn controleerbaar met menselijke controle | Moeilijk te bewijzen aan toezichthouders |
Hoe Patroonherkenning Werkt
Elk entiteitstype heeft zorgvuldig samengestelde regex-patronen die specifieke formaten herkennen.
E-mailadressen
Herkenning van standaard e-mailformaat: local-part@domain.tld
Creditcardnummers
Herkenning van Visa, Mastercard, Amex en andere kaartformaten met Luhn-validatie
Duitse IBAN
Herkenning van Duits IBAN-formaat met optionele spaties
Ontworpen voor Compliance
Wanneer auditors vragen "waarom is dit gedetecteerd?" heeft u een duidelijk antwoord nodig. Regex-detecties zijn herleidbaar tot een specifiek patroon. NLP-detecties bevatten modelnaam en betrouwbaarheids-score. Menselijke controle zorgt ervoor dat compliance-teams detecties kunnen corrigeren vóór anonimisering.
- GDPR Artikel 25: Privacy by design met uitlegbare verwerking
- ISO 27001: Gedocumenteerde, herhaalbare processen
- Audit Trail: Elke detectie is herleidbaar tot een specifiek patroon
Voorbeeld Audit Antwoord
V: Waarom werd "john.smith@company.com" gemarkeerd?
A: E-mailpatroon gematcht op positie 45-68 met betrouwbaarheid 0.95. Patroon: standaard e-mailformaat validatie.