Wie die Erkennung funktioniert
Regex-Mustererkennung (Strukturierte PII)
317 benutzerdefinierte PatternRecognizers mit Regex-Mustern erkennen strukturierte Daten wie nationale IDs, Steuernummern, Pässe und Führerscheine. Jedes Muster verwendet Grenzwerte, um falsche Übereinstimmungen in Code oder strukturierten Daten zu verhindern.
NLP Named Entity Recognition (Namen & Orte)
spaCy (25 Sprachen), Stanza NER (7 Sprachen) und XLM-RoBERTa-Transformer (16 Sprachen) erkennen unstrukturierte PII wie Personennamen, Orte und Organisationen, die nicht allein durch Regex erfasst werden können. Alle Modelle laufen auf unseren eigenen Servern in Deutschland — keine Daten werden jemals an Meta, Google, Stanford oder Dritte gesendet.
Vertrauensbewertung
Jede Erkennung enthält einen Vertrauenswert (0,0–1,0) für menschliche Entscheidungen. Hochspezifische Formate (z.B. deutsche IBAN DE89 3704 0044 0532 0130 00) erzielen 0,85+, während generische Ziffernmuster 0,3–0,5 erreichen und auf Kontextwörter zur Bestätigung angewiesen sind. Compliance-Teams können Erkennungen vor der Anonymisierung überprüfen und überschreiben.
Kontextwortanalyse
Jeder Erkenner verfügt über Kontextwörter in der relevanten Sprache (z.B. 'Personalausweis' für deutsche IDs, 'kitambulisho' für kenianische IDs). Wenn Kontextwörter in der Nähe einer Übereinstimmung erscheinen, wird der Vertrauenswert erhöht.
Unterstützte Entitätstypen
Umfassende Abdeckung von Arten persönlicher Informationen über Kategorien hinweg
Persönliche Identifikatoren
- Personennamen
- E-Mail-Adressen
- Telefonnummern
- Geburtsdatum
- Alter
- Geschlecht
- Nationalität
Finanzinformationen
- Kreditkartennummern
- IBAN
- BIC/SWIFT
- Bankkontonummern
- Steuer-IDs
- Umsatzsteuer-Nummern
Staatliche IDs
- Sozialversicherungsnummern (SSN)
- Nationale ID-Nummern
- Passnummern
- Führerscheine
- Krankenversicherungs-IDs
Standortdaten
- Straßenadressen
- Städte
- PLZ/Postleitzahlen
- Länder
- GPS-Koordinaten
Digitale Identifikatoren
- IP-Adressen (v4/v6)
- MAC-Adressen
- URLs
- Domain-Namen
- Benutzer-IDs
Organisationsdaten
- Firmennamen
- Organisations-IDs
- Registrierungsnummern
- Abteilungsnamen
Zeitliche Daten
- Daten
- Zeiten
- Datumsbereiche
- Zeitstempel
Internationale Formate
- Deutsche ID (Personalausweis)
- UK National Insurance
- Spanische DNI/NIE
- Italienische Codice Fiscale
- Und 70+ weitere länderspezifische Formate
Unterstützung benutzerdefinierter Entitäten
Müssen Sie benutzerdefinierte Muster erkennen? Erstellen Sie Ihre eigenen Entitätstypen mit Regex-Mustern oder nutzen Sie unseren KI-unterstützten Mustergenerator.
Manuelle Mustererstellung
Definieren Sie Regex-Muster für proprietäre Identifikatoren wie interne Mitarbeiter-IDs, Projektcodes oder benutzerdefinierte Referenznummern.
KI-Mustergenerator
Beschreiben Sie, was Sie erkennen möchten, in einfacher Sprache, und unsere KI generiert optimierte Regex-Muster für Sie.
Is This Right For You?
Best For
- ✦Teams needing 320+ entity types across personal, financial, government, and organizational data
- ✦Multilingual PII detection (48 languages) for global compliance and audit requirements
- ✦GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
- ✦Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
- ✦Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns
Not For
- ✦Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
- ✦Image-only PII detection workflows (use the dedicated image-redaction feature instead)
- ✦Simple English-only use cases where basic regex or keyword matching is sufficient