Detekcia PII v 48 Jazykoch

Detekujte a anonymizujte PII v 48 jazykoch s podporou natívnych vzorov. Plná podpora RTL pre arabčinu, hebrejčinu, perzštinu a urdčinu.

Podporovaných 48 Jazykov

Kompletná detekcia a anonymizácia PII na celej platforme

spaCy NLP - Lokálne Spustenie (25 jazykov)

AngličtinaNemčinaŠpanielčinaFrancúzštinaTaliančinaPortugalčinaHolandčinaPoľštinaRuštinaJapončinaČínštinaKórejčinaRumunčinaGréčtinaChorvátčinaSlovinčinaMacedónčinaŠvédčinaDánčinaNórčinaFínčinaUkrajinčinaLitovčinaKatalánčinaTurečtina

Stanza NER - Lokálne Spustenie (7 jazykov)

BulharčinaMaďarčinaHebrejčina (RTL)VietnamčinaAfrikánčinaArménčinaBaskičtina

XLM-RoBERTa Transformer - Lokálne Spustenie (16 jazykov)

Arabčina (RTL)HindčinaČeštinaSlovenčinaIndonézštinaThajčinaPerzština (RTL)SrbčinaLotyštinaEstónčinaMalajčinaBengálčinaUrdčina (RTL)SwahilčinaTagalogIslandčina

Podpora RTL

ArabčinaHebrejčinaPerzštinaUrdčina

Poháňané Pokročilým NLP

Tri NLP motory spolupracujú pre maximálne pokrytie jazykov

  • Modely načítané na požiadanie (max 5 uložených) pre efektívne využitie pamäte
  • Automatická detekcia jazyka
  • Spracovanie dokumentov s viacerými jazykmi
  • Vzory entít špecifické pre jazyk

Formáty Špecifické pre Krajiny

Detekujeme PII vo formátoch špecifických pre každú krajinu a región.

Európske Formáty

  • Nemecko: Personalausweis, Steuer-ID, Reisepass
  • Francúzsko: NIR, Carte Nationale, Permis
  • Taliansko: Codice Fiscale, Carta d'Identità
  • Španielsko: DNI, NIE, NIF
  • Holandsko: BSN, Rijbewijs
  • Poľsko: PESEL, NIP, REGON

Ázia-Pacifik Formáty

  • Japonsko: My Number, Pas
  • India: Aadhaar, PAN, GSTIN, Registrácia Vozidla
  • Thajsko: Národné ID, Daňové ID, Pas
  • Indonézia: NIK, NPWP, Pas
  • Vietnam: CCCD, Daňový Kód, Pas
  • Malajzia: MyKad, Daňové ID, Pas

Ameriky, Afrika a Blízky Východ

  • USA: SSN, Vodičský Preukaz, Pas
  • UK: Národné Poistenie, NHS Číslo
  • Kanada: SIN, Vodičský Preukaz
  • Austrália: TFN, Medicare, ABN
  • Keňa: Národné ID, KRA PIN, Pas
  • Južná Afrika: ID Číslo, Daňové Číslo, Pas

Často Kladené Otázky

Ktoré 48 jazykov podporuje cloak.business?

cloak.business podporuje afrikánčinu, arabčinu, arménčinu, baskičtinu, bengálčinu, bulharčinu, katalánčinu, čínštinu, chorvátčinu, češtinu, dánčinu, holandčinu, angličtinu, estónčinu, fínčinu, francúzštinu, nemčinu, gréčtinu, hebrejčinu, hindčinu, maďarčinu, islandčinu, indonézštinu, taliančinu, japončinu, kórejčinu, lotyštinu, litovčinu, macedónčinu, malajčinu, nórčinu, perzštinu, poľštinu, portugalčinu, rumunčinu, ruštinu, srbčinu, slovenčinu, slovinčinu, španielčinu, swahilčinu, švédčinu, tagalog, thajčinu, turečtinu, ukrajinčinu, urdčinu a vietnamčinu — s plnou podporou RTL pre arabčinu, hebrejčinu, perzštinu a urdčinu.

Funguje detekcia PII rovnako vo všetkých jazykoch?

Detekcia používa dva prístupy: regex-based vzorové porovnávanie pre štruktúrované dáta (ID, telefónne čísla, daňové čísla) a NLP modely pre neštruktúrované entity (mená, miesta). Detekcia založená na vzoroch pokrýva všetkých 48 jazykov. Detekcia založená na NLP je dostupná v jazykoch s trénovanými modelmi.

Ako sú riešené formáty ID špecifické pre krajiny?

cloak.business obsahuje 317 rozpoznávačov vzorov pokrývajúcich viac ako 70 krajín. Každý rozpoznávač overuje špecifický formát, kontrolný súčet a štruktúru národných ID, daňových čísel, zdravotných identifikátorov a finančných dát pre danú krajinu.

Môžem detekovať PII vo viacerých jazykoch v rámci jedného dokumentu?

Áno. cloak.business môže spracovať viacjazyčné dokumenty a detekovať PII v rôznych jazykoch v jednej požiadavke. Systém automaticky identifikuje, ktoré jazykové vzory aplikovať.

Ako pridám podporu pre nový jazyk alebo typ entity?

Môžete vytvoriť vlastné rozpoznávače entít pomocou regex vzorov alebo zoznamov zamietnutí. To vám umožňuje pridať identifikátory špecifické pre doménu alebo rozšíriť pokrytie na ďalšie formáty, ktoré ešte nie sú zahrnuté v knižnici vstavaných rozpoznávačov.

Is This Right for You?

Best For

  • Global enterprises with multilingual document workflows requiring consistent GDPR and privacy compliance
  • Translation and localization agencies that process PII-containing content in multiple languages
  • Government agencies and NGOs processing citizen data across EU, APAC, and LATAM jurisdictions
  • Legal discovery and compliance teams working with 48 supported language jurisdictions

Not Ideal For

  • Monolingual English-only workflows — the standard plan is sufficient without the overhead of language detection
  • Languages not in the supported 48 — check the entity catalog for specific language and entity coverage
  • Real-time sub-10ms latency requirements — language detection adds processing overhead over English-only

Anonymizujte v Akokoľvek Jazyku

Začnite s 200 bezplatnými tokenmi. Funguje so všetkými 48 jazykmi.