PII Tunnistus: 320+ Entiteettityyppiä

Tunnistusmoottorimme yhdistää 317 mukautettua regex-tunnistinta NLP-malleihin tunnistaakseen yli 320 henkilökohtaisen tiedon tyyppiä yli 70 maassa. Sama syöte, sama tulos - joka kerta.

Miten tunnistus toimii

Regex-kuvion tunnistus (Rakenteellinen PII)

317 mukautettua PatternRecognizeria regex-kuvioilla tunnistaa rakenteellisia tietoja, kuten kansalliset tunnukset, veronumerot, passit ja ajokortit. Jokainen kuvio käyttää rajaväitteitä estääkseen väärät osumat koodissa tai rakenteellisessa datassa.

NLP-nimetyn entiteetin tunnistus (Nimet ja sijainnit)

spaCy (25 kieltä), Stanza NER (7 kieltä) ja XLM-RoBERTa-muuntajat (16 kieltä) tunnistavat jäsentämätöntä PII:tä, kuten henkilön nimiä, sijainteja ja organisaatioita, joita regex ei yksin voi vangita. Kaikki mallit toimivat omilla palvelimillamme Saksassa — tietoja ei koskaan lähetetä Metalle, Googlelle, Stanfordille tai kolmansille osapuolille.

Luottamuspisteytys

Jokainen tunnistus sisältää luottamuspisteet (0,0–1,0) ihmisen päätöksenteon tueksi. Erittäin spesifiset muodot (esim. saksalainen IBAN DE89 3704 0044 0532 0130 00) saavat pisteet 0,85+, kun taas yleiset numerokuviot saavat pisteet 0,3–0,5 ja luottavat kontekstisanoihin vahvistusta varten. Yhteensopivuustiimit voivat tarkistaa ja ohittaa tunnistuksia ennen anonymisointia.

Kontekstisanan analyysi

Jokaisella tunnistimella on kontekstisanoja asiaankuuluvalla kielellä (esim. 'Personalausweis' saksalaisille tunnuksille, 'kitambulisho' kenialaisille tunnuksille). Kun kontekstisanat esiintyvät lähellä osumaa, luottamuspisteet kasvavat.

Tuetut entiteettityypit

Kattava valikoima henkilökohtaisen tiedon tyyppejä eri kategorioissa

Henkilökohtaiset tunnisteet

  • Henkilön nimet
  • Sähköpostiosoitteet
  • Puhelinnumerot
  • Syntymäaika
  • Ikä
  • Sukupuoli
  • Kansalaisuus

Rahoitustiedot

  • Luottokorttinumerot
  • IBAN
  • BIC/SWIFT
  • Pankkitilinumerot
  • Verotunnukset
  • ALV-numerot

Valtion tunnukset

  • Sosiaaliturvatunnukset (SSN)
  • Kansalliset tunnusnumerot
  • Passinumerot
  • Ajokortti
  • Sairausvakuutustunnukset

Sijaintitiedot

  • Katuosoitteet
  • Kaupungit
  • Postinumerot
  • Maat
  • GPS-koordinaatit

Digitaaliset tunnisteet

  • IP-osoitteet (v4/v6)
  • MAC-osoitteet
  • URL-osoitteet
  • Verkkotunnukset
  • Käyttäjätunnukset

Organisaatiotiedot

  • Yritysten nimet
  • Organisaatiotunnukset
  • Rekisteröintinumerot
  • Osaston nimet

Aikadata

  • Päivämäärät
  • Ajat
  • Päivämääräalueet
  • Aikaleimat

Kansainväliset muodot

  • Saksalainen ID (Personalausweis)
  • UK National Insurance
  • Espanjalainen DNI/NIE
  • Italialainen Codice Fiscale
  • Ja yli 70 muuta maakohtaista muotoa

Mukautettujen entiteettien tuki

Tarvitsetko mukautettujen kuvioiden tunnistamista? Luo omat entiteettityypit regex-kuvioilla tai käytä AI-avusteista kuviogeneraattoriamme.

Manuaalinen kuvioluonti

Määrittele regex-kuviot omille tunnisteille, kuten sisäisille työntekijätunnuksille, projektikoodeille tai mukautetuille viitenumeroille.

AI-kuviogeneraattori

Kuvaile, mitä haluat tunnistaa yksinkertaisella kielellä, ja AI luo optimoidut regex-kuviot puolestasi.

Is This Right For You?

Best For

  • Teams needing 320+ entity types across personal, financial, government, and organizational data
  • Multilingual PII detection (48 languages) for global compliance and audit requirements
  • GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
  • Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
  • Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns

Not For

  • Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
  • Image-only PII detection workflows (use the dedicated image-redaction feature instead)
  • Simple English-only use cases where basic regex or keyword matching is sufficient

Aloita PII:n tunnistaminen tänään

Kokeile tunnistusmoottoriamme ilmaiseksi 200 tokenilla per sykli. Ei luottokorttia vaadita.