PII-tunnistus 48 kielellä

Tunnista ja anonymisoi PII 48 kielellä natiivikuvioiden tuella. Täysi RTL-tuki arabiaksi, hepreaksi, farsiksi ja urduksi.

48 kieltä tuettuna

Täysi PII-tunnistus ja anonymisointi koko alustalla

spaCy NLP - Toimii paikallisesti (25 kieltä)

EnglantiSaksaEspanjaRanskaItaliaPortugaliHollantiPuolaVenäjäJapaniKiinaKoreaRomaniaKreikkaKroatiaSloveniaMakedoniaRuotsiTanskaNorjaSuomiUkrainaLiettuaKatalaaniTurkki

Stanza NER - Toimii paikallisesti (7 kieltä)

BulgariaUnkariHeprea (RTL)VietnamAfrikaansArmeniaBaski

XLM-RoBERTa Transformer - Toimii paikallisesti (16 kieltä)

Arabia (RTL)HindiTšekkiSlovakkiIndonesiaThaiFarsi (RTL)SerbiaLatviaViroMalaijiBengaliUrdu (RTL)SwahiliTagalogIslanti

RTL-tuki

ArabiaHepreaFarsiUrdu

Kehittyneen NLP:n voimalla

Kolme NLP-moottoria työskentelee yhdessä maksimaalisen kielikattavuuden saavuttamiseksi

  • Laiskasti ladatut mallit (enintään 5 välimuistissa) muistin tehokkuuden parantamiseksi
  • Automaattinen kielen tunnistus
  • Sekakielisten asiakirjojen käsittely
  • Kielikohtaiset entiteettikuviot

Maakohtaiset muodot

Tunnistamme PII:n kullekin maalle ja alueelle ominaisissa muodoissa.

Eurooppalaiset muodot

  • Saksa: Henkilökortti, Verotunnus, Passi
  • Ranska: NIR, Kansallinen kortti, Ajokortti
  • Italia: Verokoodi, Henkilökortti
  • Espanja: DNI, NIE, NIF
  • Hollanti: BSN, Ajokortti
  • Puola: PESEL, NIP, REGON

Aasia-Tyynenmeren muodot

  • Japani: Oma numero, Passi
  • Intia: Aadhaar, PAN, GSTIN, Ajoneuvorekisteri
  • Thaimaa: Kansallinen ID, Verotunnus, Passi
  • Indonesia: NIK, NPWP, Passi
  • Vietnam: CCCD, Verokoodi, Passi
  • Malesia: MyKad, Verotunnus, Passi

Amerikat, Afrikka & Lähi-itä

  • Yhdysvallat: SSN, Ajokortti, Passi
  • Iso-Britannia: Kansallinen vakuutus, NHS-numero
  • Kanada: SIN, Ajokortti
  • Australia: TFN, Medicare, ABN
  • Kenia: Kansallinen ID, KRA PIN, Passi
  • Etelä-Afrikka: ID-numero, Veronumero, Passi

Usein kysytyt kysymykset

Mitä 48 kieltä cloak.business tukee?

cloak.business tukee afrikaansia, arabiaa, armeniaa, baskia, bengalia, bulgariaa, katalaania, kiinaa, kroatiaa, tšekkiä, tanskaa, hollantia, englantia, viroa, suomea, ranskaa, saksaa, kreikkaa, hepreaa, hindiä, unkaria, islantia, indonesiaa, italiaa, japania, koreaa, latviaa, liettuaa, makedoniaa, malaijia, norjaa, farsia, puolaa, portugalia, romaniaa, venäjää, serbiaa, slovakkia, sloveniaa, espanjaa, swahilia, ruotsia, tagalogia, thaita, turkkia, ukrainaa, urdua ja vietnamia — täysi RTL-tuki arabiaksi, hepreaksi, farsiksi ja urduksi.

Toimiiko PII-tunnistus samalla tavalla kaikilla kielillä?

Tunnistus käyttää kahta lähestymistapaa: regex-pohjaista kuvioiden tunnistusta rakenteelliselle datalle (tunnukset, puhelinnumerot, veronumerot) ja NLP-malleja rakenteettomille entiteeteille (nimet, sijainnit). Kuvioihin perustuva tunnistus kattaa kaikki 48 kieltä. NLP-pohjainen tunnistus on saatavilla kielillä, joilla on koulutetut mallit.

Miten maakohtaiset tunnusmuodot käsitellään?

cloak.business sisältää 317 kuviotunnistajaa, jotka kattavat yli 70 maata. Jokainen tunnistaja validoi kyseisen maan kansallisten tunnusten, veronumeroiden, terveysidentifikaattoreiden ja taloudellisten tietojen erityisen muodon, tarkistussumman ja rakenteen.

Voinko tunnistaa PII:tä useilla kielillä samassa asiakirjassa?

Kyllä. cloak.business voi käsitellä monikielisiä asiakirjoja ja tunnistaa PII:tä eri kielillä yhdellä pyynnöllä. Järjestelmä tunnistaa automaattisesti, mitä kielikuvioita sovelletaan.

Miten voin lisätä tuen uudelle kielelle tai entiteettityypille?

Voit luoda mukautettuja entiteettitunnistajia käyttämällä regex-kuvioita tai kieltolistoja. Tämä mahdollistaa alakohtaisten tunnisteiden lisäämisen tai kattavuuden laajentamisen lisämuotoihin, joita ei vielä ole sisäänrakennetussa tunnistajakirjastossa.

Is This Right for You?

Best For

  • Global enterprises with multilingual document workflows requiring consistent GDPR and privacy compliance
  • Translation and localization agencies that process PII-containing content in multiple languages
  • Government agencies and NGOs processing citizen data across EU, APAC, and LATAM jurisdictions
  • Legal discovery and compliance teams working with 48 supported language jurisdictions

Not Ideal For

  • Monolingual English-only workflows — the standard plan is sufficient without the overhead of language detection
  • Languages not in the supported 48 — check the entity catalog for specific language and entity coverage
  • Real-time sub-10ms latency requirements — language detection adds processing overhead over English-only

Anonymisoi millä tahansa kielellä

Aloita 200 ilmaisella tokenilla. Toimii kaikilla 48 kielellä.