Kako Detekcija Funkcionira
Regex Usporedba Uzoraka (Strukturirani PII)
317 prilagođenih PatternRecognizers s regex uzorcima detektira strukturirane podatke poput nacionalnih ID-ova, poreznih brojeva, putovnica i vozačkih dozvola. Svaki uzorak koristi granične tvrdnje kako bi spriječio lažne podudarnosti u kodu ili strukturiranim podacima.
NLP Prepoznavanje Naziva Entiteta (Imena i Lokacije)
spaCy (25 jezika), Stanza NER (7 jezika) i XLM-RoBERTa transformatori (16 jezika) detektiraju nestrukturirani PII poput imena osoba, lokacija i organizacija koje se ne mogu uhvatiti samo regexom. Svi modeli rade na našim vlastitim poslužiteljima u Njemačkoj — podaci se nikada ne šalju Meta, Google, Stanfordu ili bilo kojoj trećoj strani.
Ocjenjivanje Povjerenja
Svaka detekcija uključuje ocjenu povjerenja (0,0–1,0) za odluke s ljudskom intervencijom. Vrlo specifični formati (npr. njemački IBAN DE89 3704 0044 0532 0130 00) dobivaju ocjenu 0,85+, dok generički uzorci brojeva dobivaju ocjenu 0,3–0,5 i oslanjaju se na kontekstne riječi za potvrdu. Timovi za usklađenost mogu pregledati i nadjačati detekcije prije anonimizacije.
Analiza Kontekstnih Riječi
Svaki prepoznavač ima kontekstne riječi na relevantnom jeziku (npr. 'Personalausweis' za njemačke ID-ove, 'kitambulisho' za kenijske ID-ove). Kada se kontekstne riječi pojave blizu podudarnosti, ocjena povjerenja se povećava.
Podržani Tipovi Entiteta
Sveobuhvatna pokrivenost tipova osobnih informacija kroz kategorije
Osobni Identifikatori
- Imena Osoba
- Email Adrese
- Brojevi Telefona
- Datum Rođenja
- Dob
- Spol
- Nacionalnost
Financijske Informacije
- Brojevi Kreditnih Kartica
- IBAN
- BIC/SWIFT
- Brojevi Bankovnih Računa
- Porezni ID-ovi
- PDV Brojevi
Vladini ID-ovi
- Brojevi Socijalnog Osiguranja (SSN)
- Nacionalni ID Brojevi
- Brojevi Putovnica
- Vozačke Dozvole
- ID-ovi Zdravstvenog Osiguranja
Podaci o Lokaciji
- Adrese Ulica
- Gradovi
- Poštanski Brojevi
- Države
- GPS Koordinate
Digitalni Identifikatori
- IP Adrese (v4/v6)
- MAC Adrese
- URL-ovi
- Nazivi Domena
- Korisnički ID-ovi
Podaci o Organizaciji
- Nazivi Tvrtki
- Organizacijski ID-ovi
- Registracijski Brojevi
- Nazivi Odjela
Vremenski Podaci
- Datumi
- Vremena
- Rasponi Datuma
- Vremenske Oznake
Međunarodni Formati
- Njemački ID (Personalausweis)
- UK Nacionalno Osiguranje
- Španjolski DNI/NIE
- Talijanski Codice Fiscale
- I još 70+ formata specifičnih za zemlju
Podrška za Prilagođene Entitete
Trebate detektirati prilagođene uzorke? Kreirajte vlastite tipove entiteta s regex uzorcima ili koristite naš AI generator uzoraka.
Ručno Kreiranje Uzoraka
Definirajte regex uzorke za vlasničke identifikatore poput internih ID-ova zaposlenika, kodova projekata ili prilagođenih referentnih brojeva.
AI Generator Uzoraka
Opišite što želite detektirati jednostavnim jezikom, a naš AI generira optimizirane regex uzorke za vas.
Is This Right For You?
Best For
- ✦Teams needing 320+ entity types across personal, financial, government, and organizational data
- ✦Multilingual PII detection (48 languages) for global compliance and audit requirements
- ✦GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
- ✦Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
- ✦Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns
Not For
- ✦Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
- ✦Image-only PII detection workflows (use the dedicated image-redaction feature instead)
- ✦Simple English-only use cases where basic regex or keyword matching is sufficient