Detekce PII: 320+ typů entit

Náš detekční engine kombinuje 317 vlastních regex rozpoznávačů s NLP modely pro identifikaci více než 320 typů osobních údajů ve více než 70 zemích. Stejný vstup, stejný výstup - pokaždé.

Jak detekce funguje

Regexové vzorové shody (Strukturované PII)

317 vlastních PatternRecognizers s regexovými vzory detekuje strukturovaná data jako národní identifikátory, daňová čísla, pasy a řidičské průkazy. Každý vzor používá hraniční tvrzení, aby zabránil falešným shodám v kódu nebo strukturovaných datech.

NLP Rozpoznávání pojmenovaných entit (Jména a lokace)

spaCy (25 jazyků), Stanza NER (7 jazyků) a XLM-RoBERTa transformátory (16 jazyků) detekují nestrukturované PII jako jména osob, lokace a organizace, které nelze zachytit pouze regexem. Všechny modely běží na našich vlastních serverech v Německu — žádná data nejsou nikdy odesílána Meta, Google, Stanfordu nebo jakékoli třetí straně.

Hodnocení důvěryhodnosti

Každá detekce obsahuje skóre důvěryhodnosti (0.0–1.0) pro rozhodování s lidským zapojením. Vysoce specifické formáty (např. německý IBAN DE89 3704 0044 0532 0130 00) skórují 0.85+, zatímco obecné číselné vzory skórují 0.3–0.5 a spoléhají se na kontextová slova pro potvrzení. Týmy pro dodržování předpisů mohou přezkoumat a přepsat detekce před anonymizací.

Analýza kontextových slov

Každý rozpoznávač má kontextová slova v příslušném jazyce (např. 'Personalausweis' pro německé ID, 'kitambulisho' pro keňské ID). Když se kontextová slova objeví blízko shody, skóre důvěryhodnosti je zvýšeno.

Podporované typy entit

Komplexní pokrytí typů osobních údajů napříč kategoriemi

Osobní identifikátory

  • Jména osob
  • Emailové adresy
  • Telefonní čísla
  • Datum narození
  • Věk
  • Pohlaví
  • Národnost

Finanční informace

  • Čísla kreditních karet
  • IBAN
  • BIC/SWIFT
  • Čísla bankovních účtů
  • Daňová ID
  • DIČ

Vládní ID

  • Čísla sociálního zabezpečení (SSN)
  • Národní identifikační čísla
  • Čísla pasů
  • Řidičské průkazy
  • ID zdravotního pojištění

Údaje o poloze

  • Ulice a čísla
  • Města
  • PSČ
  • Země
  • GPS souřadnice

Digitální identifikátory

  • IP adresy (v4/v6)
  • MAC adresy
  • URL
  • Doménová jména
  • Uživatelská ID

Údaje o organizaci

  • Názvy společností
  • ID organizací
  • Registrační čísla
  • Názvy oddělení

Časové údaje

  • Data
  • Časy
  • Časové rozsahy
  • Časové značky

Mezinárodní formáty

  • Německé ID (Personalausweis)
  • UK National Insurance
  • Španělské DNI/NIE
  • Italský Codice Fiscale
  • A dalších 70+ formátů specifických pro země

Podpora vlastních entit

Potřebujete detekovat vlastní vzory? Vytvořte si vlastní typy entit pomocí regex vzorů nebo použijte náš generátor vzorů s podporou AI.

Ruční tvorba vzorů

Definujte regex vzory pro proprietární identifikátory jako interní ID zaměstnanců, projektové kódy nebo vlastní referenční čísla.

Generátor vzorů AI

Popište, co chcete detekovat v běžném jazyce, a naše AI pro vás vygeneruje optimalizované regex vzory.

Is This Right For You?

Best For

  • Teams needing 320+ entity types across personal, financial, government, and organizational data
  • Multilingual PII detection (48 languages) for global compliance and audit requirements
  • GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
  • Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
  • Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns

Not For

  • Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
  • Image-only PII detection workflows (use the dedicated image-redaction feature instead)
  • Simple English-only use cases where basic regex or keyword matching is sufficient

Začněte detekovat PII dnes

Vyzkoušejte náš detekční engine zdarma s 200 tokeny na cyklus. Není vyžadována kreditní karta.