Hoe Opsporing Werk
Regex Patroonpassing (Gestruktureerde PII)
317 pasgemaakte PatternRecognizers met regex-patrone spoor gestruktureerde data op soos nasionale ID's, belastingnommers, paspoorte, en bestuurderslisensies. Elke patroon gebruik grensstellings om vals ooreenkomste in kode of gestruktureerde data te voorkom.
NLP Naam Entiteit Herkenning (Name & Ligging)
spaCy (25 tale), Stanza NER (7 tale), en XLM-RoBERTa transformeerders (16 tale) spoor ongestruktureerde PII op soos persoonsname, liggings, en organisasies wat nie deur slegs regex vasgevang kan word nie. Alle modelle loop op ons eie bedieners in Duitsland — geen data word ooit na Meta, Google, Stanford, of enige derde party gestuur nie.
Vertrouensgradering
Elke opsporing sluit 'n vertrouensgradering (0.0–1.0) in vir mens-in-die-lus besluite. Hoogspesifieke formate (bv. Duitse IBAN DE89 3704 0044 0532 0130 00) kry 'n gradering van 0.85+, terwyl generiese syferpatrone 'n gradering van 0.3–0.5 kry en op kontekswoorde vir bevestiging staatmaak. Nakomingspanne kan opsporings hersien en oorskry voordat anonimisering plaasvind.
Kontekswoordanalise
Elke herkenner het kontekswoorde in die relevante taal (bv. 'Personalausweis' vir Duitse ID's, 'kitambulisho' vir Keniaanse ID's). Wanneer kontekswoorde naby 'n ooreenkoms verskyn, word die vertrouensgradering verhoog.
Ondersteunde Entiteitsoorte
Omvattende dekking van persoonlike inligtingsoorte oor kategorieë
Persoonlike Identifiseerders
- Persoonsname
- E-posadresse
- Telefoonnommers
- Geboortedatum
- Ouderdom
- Geslag
- Nasionaliteit
Finansiële Inligting
- Kredietkaartnommers
- IBAN
- BIC/SWIFT
- Bankrekeningnommers
- Belasting-ID's
- BTW-nommers
Regerings-ID's
- Sosiale Sekuriteitsnommers (SSN)
- Nasionale ID-nommers
- Paspoortnommers
- Bestuurderslisensie
- Gesondheidsversekerings-ID's
Liggingdata
- Straatadresse
- Stede
- Poskode/Poskodes
- Lande
- GPS-koördinate
Digitale Identifiseerders
- IP-adresse (v4/v6)
- MAC-adresse
- URL's
- Domeinname
- Gebruikers-ID's
Organisasiedata
- Maatskappynames
- Organisasie-ID's
- Registrasienommers
- Afdelingsname
Tydelike Data
- Datums
- Tye
- Datumreekse
- Tydstempels
Internasionale Formate
- Duitse ID (Personalausweis)
- VK Nasionale Versekering
- Spaanse DNI/NIE
- Italiaanse Codice Fiscale
- En 70+ meer landspesifieke formate
Pasgemaakte Entiteitondersteuning
Moet u pasgemaakte patrone opspoor? Skep u eie entiteitsoorte met regex-patrone of gebruik ons AI-geassisteerde patroonopwekker.
Handmatige Patroonskepping
Definieer regex-patrone vir eie identifiseerders soos interne werknemer-ID's, projekkodes, of pasgemaakte verwysingsnommers.
AI Patroonopwekker
Beskryf wat u wil opspoor in gewone taal, en ons AI genereer geoptimaliseerde regex-patrone vir u.
Is This Right For You?
Best For
- ✦Teams needing 320+ entity types across personal, financial, government, and organizational data
- ✦Multilingual PII detection (48 languages) for global compliance and audit requirements
- ✦GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
- ✦Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
- ✦Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns
Not For
- ✦Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
- ✦Image-only PII detection workflows (use the dedicated image-redaction feature instead)
- ✦Simple English-only use cases where basic regex or keyword matching is sufficient