Miten tunnistus toimii
Regex-kuvion tunnistus (Rakenteellinen PII)
317 mukautettua PatternRecognizeria regex-kuvioilla tunnistaa rakenteellisia tietoja, kuten kansalliset tunnukset, veronumerot, passit ja ajokortit. Jokainen kuvio käyttää rajaväitteitä estääkseen väärät osumat koodissa tai rakenteellisessa datassa.
NLP-nimetyn entiteetin tunnistus (Nimet ja sijainnit)
spaCy (25 kieltä), Stanza NER (7 kieltä) ja XLM-RoBERTa-muuntajat (16 kieltä) tunnistavat jäsentämätöntä PII:tä, kuten henkilön nimiä, sijainteja ja organisaatioita, joita regex ei yksin voi vangita. Kaikki mallit toimivat omilla palvelimillamme Saksassa — tietoja ei koskaan lähetetä Metalle, Googlelle, Stanfordille tai kolmansille osapuolille.
Luottamuspisteytys
Jokainen tunnistus sisältää luottamuspisteet (0,0–1,0) ihmisen päätöksenteon tueksi. Erittäin spesifiset muodot (esim. saksalainen IBAN DE89 3704 0044 0532 0130 00) saavat pisteet 0,85+, kun taas yleiset numerokuviot saavat pisteet 0,3–0,5 ja luottavat kontekstisanoihin vahvistusta varten. Yhteensopivuustiimit voivat tarkistaa ja ohittaa tunnistuksia ennen anonymisointia.
Kontekstisanan analyysi
Jokaisella tunnistimella on kontekstisanoja asiaankuuluvalla kielellä (esim. 'Personalausweis' saksalaisille tunnuksille, 'kitambulisho' kenialaisille tunnuksille). Kun kontekstisanat esiintyvät lähellä osumaa, luottamuspisteet kasvavat.
Tuetut entiteettityypit
Kattava valikoima henkilökohtaisen tiedon tyyppejä eri kategorioissa
Henkilökohtaiset tunnisteet
- Henkilön nimet
- Sähköpostiosoitteet
- Puhelinnumerot
- Syntymäaika
- Ikä
- Sukupuoli
- Kansalaisuus
Rahoitustiedot
- Luottokorttinumerot
- IBAN
- BIC/SWIFT
- Pankkitilinumerot
- Verotunnukset
- ALV-numerot
Valtion tunnukset
- Sosiaaliturvatunnukset (SSN)
- Kansalliset tunnusnumerot
- Passinumerot
- Ajokortti
- Sairausvakuutustunnukset
Sijaintitiedot
- Katuosoitteet
- Kaupungit
- Postinumerot
- Maat
- GPS-koordinaatit
Digitaaliset tunnisteet
- IP-osoitteet (v4/v6)
- MAC-osoitteet
- URL-osoitteet
- Verkkotunnukset
- Käyttäjätunnukset
Organisaatiotiedot
- Yritysten nimet
- Organisaatiotunnukset
- Rekisteröintinumerot
- Osaston nimet
Aikadata
- Päivämäärät
- Ajat
- Päivämääräalueet
- Aikaleimat
Kansainväliset muodot
- Saksalainen ID (Personalausweis)
- UK National Insurance
- Espanjalainen DNI/NIE
- Italialainen Codice Fiscale
- Ja yli 70 muuta maakohtaista muotoa
Mukautettujen entiteettien tuki
Tarvitsetko mukautettujen kuvioiden tunnistamista? Luo omat entiteettityypit regex-kuvioilla tai käytä AI-avusteista kuviogeneraattoriamme.
Manuaalinen kuvioluonti
Määrittele regex-kuviot omille tunnisteille, kuten sisäisille työntekijätunnuksille, projektikoodeille tai mukautetuille viitenumeroille.
AI-kuviogeneraattori
Kuvaile, mitä haluat tunnistaa yksinkertaisella kielellä, ja AI luo optimoidut regex-kuviot puolestasi.
Is This Right For You?
Best For
- ✦Teams needing 320+ entity types across personal, financial, government, and organizational data
- ✦Multilingual PII detection (48 languages) for global compliance and audit requirements
- ✦GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
- ✦Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
- ✦Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns
Not For
- ✦Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
- ✦Image-only PII detection workflows (use the dedicated image-redaction feature instead)
- ✦Simple English-only use cases where basic regex or keyword matching is sufficient