Ako funguje detekcia
Regex vzorové porovnávanie (Štruktúrované PII)
317 vlastných PatternRecognizers s regex vzormi detekuje štruktúrované dáta ako národné ID, daňové čísla, pasy a vodičské preukazy. Každý vzor používa hraničné tvrdenia na zabránenie falošným zhôdam v kóde alebo štruktúrovaných dátach.
NLP rozpoznávanie pomenovaných entít (Mená a miesta)
spaCy (25 jazykov), Stanza NER (7 jazykov) a XLM-RoBERTa transformátory (16 jazykov) detekujú neštruktúrované PII ako mená osôb, miesta a organizácie, ktoré nemožno zachytiť iba regexom. Všetky modely bežia na našich serveroch v Nemecku — žiadne dáta sa nikdy neposielajú do Meta, Google, Stanfordu alebo žiadnej tretej strany.
Hodnotenie dôveryhodnosti
Každá detekcia obsahuje skóre dôveryhodnosti (0,0–1,0) pre rozhodovanie s ľudským zásahom. Veľmi špecifické formáty (napr. nemecký IBAN DE89 3704 0044 0532 0130 00) dosahujú skóre 0,85+, zatiaľ čo všeobecné číselné vzory dosahujú skóre 0,3–0,5 a spoliehajú sa na kontextové slová na potvrdenie. Tímy pre súlad môžu preskúmať a prehodnotiť detekcie pred anonymizáciou.
Analýza kontextových slov
Každý rozpoznávač má kontextové slová v príslušnom jazyku (napr. 'Personalausweis' pre nemecké ID, 'kitambulisho' pre keňské ID). Keď sa kontextové slová objavia blízko zhody, skóre dôveryhodnosti sa zvýši.
Podporované typy entít
Komplexné pokrytie typov osobných údajov naprieč kategóriami
Osobné identifikátory
- Mená osôb
- Emailové adresy
- Telefónne čísla
- Dátum narodenia
- Vek
- Pohlavie
- Národnosť
Finančné informácie
- Čísla kreditných kariet
- IBAN
- BIC/SWIFT
- Čísla bankových účtov
- Daňové identifikátory
- Čísla DPH
Vládne identifikátory
- Čísla sociálneho zabezpečenia (SSN)
- Národné identifikačné čísla
- Čísla pasov
- Vodičské preukazy
- ID zdravotného poistenia
Údaje o polohe
- Ulice
- Mestá
- PSČ/Poštové kódy
- Krajiny
- GPS súradnice
Digitálne identifikátory
- IP adresy (v4/v6)
- MAC adresy
- URL
- Doménové mená
- Užívateľské ID
Údaje o organizácii
- Názvy spoločností
- ID organizácií
- Registračné čísla
- Názvy oddelení
Časové údaje
- Dátumy
- Časy
- Časové intervaly
- Časové pečiatky
Medzinárodné formáty
- Nemecké ID (Personalausweis)
- UK National Insurance
- Španielsky DNI/NIE
- Taliansky Codice Fiscale
- A 70+ ďalších formátov špecifických pre krajinu
Podpora vlastných entít
Potrebujete detekovať vlastné vzory? Vytvorte si vlastné typy entít s regex vzormi alebo použite náš AI-asistovaný generátor vzorov.
Ručné vytváranie vzorov
Definujte regex vzory pre proprietárne identifikátory ako interné ID zamestnancov, projektové kódy alebo vlastné referenčné čísla.
AI generátor vzorov
Popíšte, čo chcete detekovať v bežnom jazyku, a náš AI pre vás vygeneruje optimalizované regex vzory.
Is This Right For You?
Best For
- ✦Teams needing 320+ entity types across personal, financial, government, and organizational data
- ✦Multilingual PII detection (48 languages) for global compliance and audit requirements
- ✦GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
- ✦Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
- ✦Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns
Not For
- ✦Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
- ✦Image-only PII detection workflows (use the dedicated image-redaction feature instead)
- ✦Simple English-only use cases where basic regex or keyword matching is sufficient