Jak detekce funguje
Regexové vzorové shody (Strukturované PII)
317 vlastních PatternRecognizers s regexovými vzory detekuje strukturovaná data jako národní identifikátory, daňová čísla, pasy a řidičské průkazy. Každý vzor používá hraniční tvrzení, aby zabránil falešným shodám v kódu nebo strukturovaných datech.
NLP Rozpoznávání pojmenovaných entit (Jména a lokace)
spaCy (25 jazyků), Stanza NER (7 jazyků) a XLM-RoBERTa transformátory (16 jazyků) detekují nestrukturované PII jako jména osob, lokace a organizace, které nelze zachytit pouze regexem. Všechny modely běží na našich vlastních serverech v Německu — žádná data nejsou nikdy odesílána Meta, Google, Stanfordu nebo jakékoli třetí straně.
Hodnocení důvěryhodnosti
Každá detekce obsahuje skóre důvěryhodnosti (0.0–1.0) pro rozhodování s lidským zapojením. Vysoce specifické formáty (např. německý IBAN DE89 3704 0044 0532 0130 00) skórují 0.85+, zatímco obecné číselné vzory skórují 0.3–0.5 a spoléhají se na kontextová slova pro potvrzení. Týmy pro dodržování předpisů mohou přezkoumat a přepsat detekce před anonymizací.
Analýza kontextových slov
Každý rozpoznávač má kontextová slova v příslušném jazyce (např. 'Personalausweis' pro německé ID, 'kitambulisho' pro keňské ID). Když se kontextová slova objeví blízko shody, skóre důvěryhodnosti je zvýšeno.
Podporované typy entit
Komplexní pokrytí typů osobních údajů napříč kategoriemi
Osobní identifikátory
- Jména osob
- Emailové adresy
- Telefonní čísla
- Datum narození
- Věk
- Pohlaví
- Národnost
Finanční informace
- Čísla kreditních karet
- IBAN
- BIC/SWIFT
- Čísla bankovních účtů
- Daňová ID
- DIČ
Vládní ID
- Čísla sociálního zabezpečení (SSN)
- Národní identifikační čísla
- Čísla pasů
- Řidičské průkazy
- ID zdravotního pojištění
Údaje o poloze
- Ulice a čísla
- Města
- PSČ
- Země
- GPS souřadnice
Digitální identifikátory
- IP adresy (v4/v6)
- MAC adresy
- URL
- Doménová jména
- Uživatelská ID
Údaje o organizaci
- Názvy společností
- ID organizací
- Registrační čísla
- Názvy oddělení
Časové údaje
- Data
- Časy
- Časové rozsahy
- Časové značky
Mezinárodní formáty
- Německé ID (Personalausweis)
- UK National Insurance
- Španělské DNI/NIE
- Italský Codice Fiscale
- A dalších 70+ formátů specifických pro země
Podpora vlastních entit
Potřebujete detekovat vlastní vzory? Vytvořte si vlastní typy entit pomocí regex vzorů nebo použijte náš generátor vzorů s podporou AI.
Ruční tvorba vzorů
Definujte regex vzory pro proprietární identifikátory jako interní ID zaměstnanců, projektové kódy nebo vlastní referenční čísla.
Generátor vzorů AI
Popište, co chcete detekovat v běžném jazyce, a naše AI pro vás vygeneruje optimalizované regex vzory.
Is This Right For You?
Best For
- ✦Teams needing 320+ entity types across personal, financial, government, and organizational data
- ✦Multilingual PII detection (48 languages) for global compliance and audit requirements
- ✦GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
- ✦Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
- ✦Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns
Not For
- ✦Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
- ✦Image-only PII detection workflows (use the dedicated image-redaction feature instead)
- ✦Simple English-only use cases where basic regex or keyword matching is sufficient