Detekcia PII: 320+ typov entít

Náš detekčný engine kombinuje 317 vlastných regex rozpoznávačov s NLP modelmi na identifikáciu viac ako 320 typov osobných údajov v 70+ krajinách. Rovnaký vstup, rovnaký výstup - vždy.

Ako funguje detekcia

Regex vzorové porovnávanie (Štruktúrované PII)

317 vlastných PatternRecognizers s regex vzormi detekuje štruktúrované dáta ako národné ID, daňové čísla, pasy a vodičské preukazy. Každý vzor používa hraničné tvrdenia na zabránenie falošným zhôdam v kóde alebo štruktúrovaných dátach.

NLP rozpoznávanie pomenovaných entít (Mená a miesta)

spaCy (25 jazykov), Stanza NER (7 jazykov) a XLM-RoBERTa transformátory (16 jazykov) detekujú neštruktúrované PII ako mená osôb, miesta a organizácie, ktoré nemožno zachytiť iba regexom. Všetky modely bežia na našich serveroch v Nemecku — žiadne dáta sa nikdy neposielajú do Meta, Google, Stanfordu alebo žiadnej tretej strany.

Hodnotenie dôveryhodnosti

Každá detekcia obsahuje skóre dôveryhodnosti (0,0–1,0) pre rozhodovanie s ľudským zásahom. Veľmi špecifické formáty (napr. nemecký IBAN DE89 3704 0044 0532 0130 00) dosahujú skóre 0,85+, zatiaľ čo všeobecné číselné vzory dosahujú skóre 0,3–0,5 a spoliehajú sa na kontextové slová na potvrdenie. Tímy pre súlad môžu preskúmať a prehodnotiť detekcie pred anonymizáciou.

Analýza kontextových slov

Každý rozpoznávač má kontextové slová v príslušnom jazyku (napr. 'Personalausweis' pre nemecké ID, 'kitambulisho' pre keňské ID). Keď sa kontextové slová objavia blízko zhody, skóre dôveryhodnosti sa zvýši.

Podporované typy entít

Komplexné pokrytie typov osobných údajov naprieč kategóriami

Osobné identifikátory

  • Mená osôb
  • Emailové adresy
  • Telefónne čísla
  • Dátum narodenia
  • Vek
  • Pohlavie
  • Národnosť

Finančné informácie

  • Čísla kreditných kariet
  • IBAN
  • BIC/SWIFT
  • Čísla bankových účtov
  • Daňové identifikátory
  • Čísla DPH

Vládne identifikátory

  • Čísla sociálneho zabezpečenia (SSN)
  • Národné identifikačné čísla
  • Čísla pasov
  • Vodičské preukazy
  • ID zdravotného poistenia

Údaje o polohe

  • Ulice
  • Mestá
  • PSČ/Poštové kódy
  • Krajiny
  • GPS súradnice

Digitálne identifikátory

  • IP adresy (v4/v6)
  • MAC adresy
  • URL
  • Doménové mená
  • Užívateľské ID

Údaje o organizácii

  • Názvy spoločností
  • ID organizácií
  • Registračné čísla
  • Názvy oddelení

Časové údaje

  • Dátumy
  • Časy
  • Časové intervaly
  • Časové pečiatky

Medzinárodné formáty

  • Nemecké ID (Personalausweis)
  • UK National Insurance
  • Španielsky DNI/NIE
  • Taliansky Codice Fiscale
  • A 70+ ďalších formátov špecifických pre krajinu

Podpora vlastných entít

Potrebujete detekovať vlastné vzory? Vytvorte si vlastné typy entít s regex vzormi alebo použite náš AI-asistovaný generátor vzorov.

Ručné vytváranie vzorov

Definujte regex vzory pre proprietárne identifikátory ako interné ID zamestnancov, projektové kódy alebo vlastné referenčné čísla.

AI generátor vzorov

Popíšte, čo chcete detekovať v bežnom jazyku, a náš AI pre vás vygeneruje optimalizované regex vzory.

Is This Right For You?

Best For

  • Teams needing 320+ entity types across personal, financial, government, and organizational data
  • Multilingual PII detection (48 languages) for global compliance and audit requirements
  • GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
  • Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
  • Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns

Not For

  • Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
  • Image-only PII detection workflows (use the dedicated image-redaction feature instead)
  • Simple English-only use cases where basic regex or keyword matching is sufficient

Začnite detekovať PII dnes

Vyskúšajte náš detekčný engine zdarma s 200 tokenmi na cyklus. Nie je potrebná kreditná karta.