Kako deluje zaznavanje
Ujemanje vzorcev Regex (strukturirani PII)
317 prilagojenih PatternRecognizers z regex vzorci zazna strukturirane podatke, kot so nacionalne identifikacijske številke, davčne številke, potni listi in vozniška dovoljenja. Vsak vzorec uporablja mejne trditve za preprečevanje napačnih ujemanj v kodi ali strukturiranih podatkih.
NLP prepoznavanje imenovanih entitet (imena in lokacije)
spaCy (25 jezikov), Stanza NER (7 jezikov) in XLM-RoBERTa transformatorji (16 jezikov) zaznajo nestrukturirane PII, kot so osebna imena, lokacije in organizacije, ki jih regex sam ne more zajeti. Vsi modeli delujejo na naših strežnikih v Nemčiji — podatki se nikoli ne pošiljajo Meta, Google, Stanfordu ali katerikoli tretji strani.
Ocenjevanje zaupanja
Vsako zaznavanje vključuje oceno zaupanja (0,0–1,0) za odločitve s človeškim posredovanjem. Zelo specifični formati (npr. nemški IBAN DE89 3704 0044 0532 0130 00) dosegajo oceno 0,85+, medtem ko generični vzorci številk dosegajo 0,3–0,5 in se zanašajo na kontekstne besede za potrditev. Skladnostne ekipe lahko pregledajo in preglasijo zaznave pred anonimizacijo.
Analiza kontekstnih besed
Vsak prepoznavalec ima kontekstne besede v ustreznem jeziku (npr. 'Personalausweis' za nemške ID-je, 'kitambulisho' za kenijske ID-je). Ko se kontekstne besede pojavijo blizu ujemanja, se ocena zaupanja poveča.
Podprte vrste entitet
Celovita pokritost vrst osebnih podatkov po kategorijah
Osebni identifikatorji
- Osebna imena
- E-poštni naslovi
- Telefonske številke
- Datum rojstva
- Starost
- Spol
- Državljanstvo
Finančne informacije
- Številke kreditnih kartic
- IBAN
- BIC/SWIFT
- Številke bančnih računov
- Davčne številke
- Številke DDV
Vladni ID-ji
- Številke socialnega zavarovanja (SSN)
- Nacionalne identifikacijske številke
- Številke potnih listov
- Vozniška dovoljenja
- ID-ji zdravstvenega zavarovanja
Podatki o lokaciji
- Ulični naslovi
- Mesta
- Poštne številke
- Države
- GPS koordinate
Digitalni identifikatorji
- IP naslovi (v4/v6)
- MAC naslovi
- URL-ji
- Imena domen
- Uporabniški ID-ji
Podatki o organizaciji
- Imena podjetij
- ID-ji organizacij
- Registracijske številke
- Imena oddelkov
Časovni podatki
- Datumi
- Časi
- Časovni razponi
- Časovni žigi
Mednarodni formati
- Nemški ID (Personalausweis)
- Britansko nacionalno zavarovanje
- Španski DNI/NIE
- Italijanski Codice Fiscale
- In več kot 70 drugih formatov, specifičnih za posamezne države
Podpora za prilagojene entitete
Potreba po zaznavanju prilagojenih vzorcev? Ustvarite svoje vrste entitet z regex vzorci ali uporabite naš generator vzorcev, podprt z umetno inteligenco.
Ročno ustvarjanje vzorcev
Določite regex vzorce za lastniške identifikatorje, kot so interne ID-ji zaposlenih, projektne kode ali prilagojene referenčne številke.
Generator vzorcev z umetno inteligenco
Opišite, kaj želite zaznati v preprostem jeziku, in naša umetna inteligenca bo za vas ustvarila optimizirane regex vzorce.
Is This Right For You?
Best For
- ✦Teams needing 320+ entity types across personal, financial, government, and organizational data
- ✦Multilingual PII detection (48 languages) for global compliance and audit requirements
- ✦GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
- ✦Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
- ✦Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns
Not For
- ✦Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
- ✦Image-only PII detection workflows (use the dedicated image-redaction feature instead)
- ✦Simple English-only use cases where basic regex or keyword matching is sufficient