Detekce PII ve 48 jazycích

Detekujte a anonymizujte PII ve 48 jazycích s podporou nativních vzorů. Plná podpora RTL pro arabštinu, hebrejštinu, perštinu a urdštinu.

Podpora 48 jazyků

Plná detekce a anonymizace PII na celé platformě

spaCy NLP - Lokální provoz (25 jazyků)

AngličtinaNěmčinaŠpanělštinaFrancouzštinaItalštinaPortugalštinaNizozemštinaPolštinaRuštinaJaponštinaČínštinaKorejštinaRumunštinaŘečtinaChorvatštinaSlovinštinaMakedonštinaŠvédštinaDánštinaNorštinaFinštinaUkrajinštinaLitevštinaKatalánštinaTurečtina

Stanza NER - Lokální provoz (7 jazyků)

BulharštinaMaďarštinaHebrejština (RTL)VietnamštinaAfrikánštinaArménštinaBaskičtina

XLM-RoBERTa Transformer - Lokální provoz (16 jazyků)

Arabština (RTL)HindštinaČeštinaSlovenštinaIndonéštinaThajštinaPerština (RTL)SrbštinaLotyštinaEstonštinaMalajštinaBengálštinaUrdština (RTL)SvahilštinaTagalogIslandština

Podpora RTL

ArabštinaHebrejštinaPerštinaUrdština

Poháněno pokročilým NLP

Tři NLP motory pracující společně pro maximální pokrytí jazyků

  • Modely načítané na vyžádání (max 5 v mezipaměti) pro efektivitu paměti
  • Automatická detekce jazyka
  • Zpracování dokumentů v různých jazycích
  • Vzory entit specifické pro jazyk

Formáty specifické pro země

Detekujeme PII ve formátech specifických pro každou zemi a region.

Evropské formáty

  • Německo: Personalausweis, Steuer-ID, Reisepass
  • Francie: NIR, Carte Nationale, Permis
  • Itálie: Codice Fiscale, Carta d'Identità
  • Španělsko: DNI, NIE, NIF
  • Nizozemsko: BSN, Rijbewijs
  • Polsko: PESEL, NIP, REGON

Formáty Asie a Pacifiku

  • Japonsko: My Number, Passport
  • Indie: Aadhaar, PAN, GSTIN, Registrace vozidel
  • Thajsko: Národní ID, Daňové ID, Pas
  • Indonésie: NIK, NPWP, Pas
  • Vietnam: CCCD, Daňový kód, Pas
  • Malajsie: MyKad, Daňové ID, Pas

Ameriky, Afrika a Střední východ

  • USA: SSN, Řidičský průkaz, Pas
  • UK: Národní pojištění, NHS číslo
  • Kanada: SIN, Řidičský průkaz
  • Austrálie: TFN, Medicare, ABN
  • Keňa: Národní ID, KRA PIN, Pas
  • Jižní Afrika: ID číslo, Daňové číslo, Pas

Často kladené otázky

Které jazyky podporuje cloak.business?

cloak.business podporuje afrikánštinu, arabštinu, arménštinu, baskičtinu, bengálštinu, bulharštinu, katalánštinu, čínštinu, chorvatštinu, češtinu, dánštinu, nizozemštinu, angličtinu, estonštinu, finštinu, francouzštinu, němčinu, řečtinu, hebrejštinu, hindštinu, maďarštinu, islandštinu, indonéštinu, italštinu, japonštinu, korejštinu, lotyštinu, litevštinu, makedonštinu, malajštinu, norštinu, perštinu, polštinu, portugalštinu, rumunštinu, ruštinu, srbštinu, slovenštinu, slovinštinu, španělštinu, svahilštinu, švédštinu, tagalog, thajštinu, turečtinu, ukrajinštinu, urdštinu a vietnamštinu — s plnou podporou RTL pro arabštinu, hebrejštinu, perštinu a urdštinu.

Funguje detekce PII stejně ve všech jazycích?

Detekce používá dva přístupy: regexové vzory pro strukturovaná data (ID, telefonní čísla, daňová čísla) a NLP modely pro nestrukturované entity (jména, místa). Detekce založená na vzorech pokrývá všech 48 jazyků. Detekce založená na NLP je dostupná v jazycích s trénovanými modely.

Jak jsou zpracovány formáty ID specifické pro jednotlivé země?

cloak.business zahrnuje 317 rozpoznávačů vzorů pokrývajících více než 70 zemí. Každý rozpoznávač ověřuje specifický formát, kontrolní součet a strukturu národních ID, daňových čísel, zdravotních identifikátorů a finančních dat pro danou zemi.

Mohu detekovat PII ve více jazycích v rámci jednoho dokumentu?

Ano. cloak.business může zpracovávat vícejazyčné dokumenty a detekovat PII v různých jazycích v rámci jednoho požadavku. Systém automaticky identifikuje, které jazykové vzory aplikovat.

Jak mohu přidat podporu pro nový jazyk nebo typ entity?

Můžete vytvořit vlastní rozpoznávače entit pomocí regexových vzorů nebo seznamů zamítnutí. To vám umožní přidat identifikátory specifické pro doménu nebo rozšířit pokrytí na další formáty, které ještě nejsou zahrnuty v knihovně vestavěných rozpoznávačů.

Is This Right for You?

Best For

  • Global enterprises with multilingual document workflows requiring consistent GDPR and privacy compliance
  • Translation and localization agencies that process PII-containing content in multiple languages
  • Government agencies and NGOs processing citizen data across EU, APAC, and LATAM jurisdictions
  • Legal discovery and compliance teams working with 48 supported language jurisdictions

Not Ideal For

  • Monolingual English-only workflows — the standard plan is sufficient without the overhead of language detection
  • Languages not in the supported 48 — check the entity catalog for specific language and entity coverage
  • Real-time sub-10ms latency requirements — language detection adds processing overhead over English-only

Anonymizujte v jakémkoli jazyce

Začněte s 200 bezplatnými tokeny. Funguje se všemi 48 jazyky.