Warum Regex-First?
Für regulatorische Anforderungen benötigen Sie nachvollziehbare und reproduzierbare Ergebnisse. Unser regex-basierter Ansatz hält die Erkennung strukturierter Daten vollständig deterministisch, während NLP Namen und Orte mit transparenten Vertrauenswerten verarbeitet.
Detaillierter Vergleich
| Regex-First (Wir) | KI/ML-basiert | |
|---|---|---|
| Reproduzierbarkeit | Strukturierte Daten: 100% identisch. Namen: mit Vertrauenswert | Alle Ergebnisse variieren zwischen Durchläufen |
| Prüfbarkeit | Jede Erkennung ist einem Muster oder NLP-Modell zuordenbar | Blackbox – Entscheidungen nicht erklärbar |
| Trainingsdaten | Regex: keine. NLP: vortrainierte Modelle enthalten | Benötigt eigene Trainingsdatensätze |
| Modell-Drift | Regex: keine. NLP: versionierte, stabile Modelle | Verschlechtert sich unvorhersehbar im Laufe der Zeit |
| Leistung | Schnell, nur CPU | Variabel, GPU-abhängig |
| Rechenkosten | Niedrig (nur CPU) | Hoch (GPU meist erforderlich) |
| Regulatorische Compliance | Einfach – Muster und Vertrauenswert sind prüfbar mit menschlicher Kontrolle | Schwer gegenüber Behörden nachzuweisen |
So funktioniert Musterabgleich
Jeder Entitätstyp verfügt über sorgfältig entwickelte Regex-Muster, die spezifische Formate erkennen.
E-Mail-Adressen
Erkennt Standard-E-Mail-Format: local-part@domain.tld
Kreditkartennummern
Erkennt Visa, Mastercard, Amex und andere Kartenformate mit Luhn-Prüfung
Deutsche IBAN
Erkennt deutsches IBAN-Format mit optionalen Leerzeichen
Für Compliance entwickelt
Wenn Prüfer fragen „Warum wurde das erkannt?“, benötigen Sie eine klare Antwort. Regex-Erkennungen lassen sich einem spezifischen Muster zuordnen. NLP-Erkennungen enthalten Modellname und Vertrauenswert. Die menschliche Überprüfung stellt sicher, dass Compliance-Teams Erkennungen vor der Anonymisierung anpassen können.
- DSGVO Artikel 25: Datenschutz durch Technikgestaltung mit erklärbarer Verarbeitung
- ISO 27001: Dokumentierte, wiederholbare Prozesse
- Audit-Trail: Jede Erkennung ist einem spezifischen Muster zuordenbar
Beispiel Audit-Antwort
F: Warum wurde „john.smith@company.com“ markiert?
A: E-Mail-Muster an Position 45–68 mit Vertrauenswert 0,95 erkannt. Muster: Standard-E-Mail-Format-Prüfung.