Pagtukoy ng PII sa 48 Wika

Tukuyin at i-anonymize ang PII sa 48 wika na may suporta sa katutubong pattern. Buong suporta sa RTL para sa Arabic, Hebrew, Persian, at Urdu.

48 Wika na Sinusuportahan

Buong pagtukoy at pag-anonymize ng PII sa buong platform

spaCy NLP - Tumatakbo Lokal (25 wika)

InglesAlemanEspanyolPransesItalyanoPortugesOlandesPolishRusoHaponTsinoKoreanoRomanianGriyegoCroatianSlovenianMacedonianSwedishDanishNorwegianFinnishUkrainianLithuanianCatalanTurkish

Stanza NER - Tumatakbo Lokal (7 wika)

BulgarianHungarianHebrew (RTL)VietnameseAfrikaansArmenianBasque

XLM-RoBERTa Transformer - Tumatakbo Lokal (16 wika)

Arabic (RTL)HindiCzechSlovakIndonesianThaiPersian (RTL)SerbianLatvianEstonianMalayBengaliUrdu (RTL)SwahiliTagalogIcelandic

Suporta sa RTL

ArabicHebrewPersianUrdu

Pinapatakbo ng Advanced na NLP

Tatlong NLP engine na nagtutulungan para sa pinakamataas na saklaw ng wika

  • Mga lazy-loaded na modelo (max 5 naka-cache) para sa memory efficiency
  • Awtomatikong pagtukoy ng wika
  • Pagproseso ng dokumento na may halong wika
  • Mga pattern ng entity na partikular sa wika

Mga Format na Partikular sa Bansa

Tinutukoy namin ang PII sa mga format na partikular sa bawat bansa at rehiyon.

Mga Format ng Europa

  • Aleman: Personalausweis, Steuer-ID, Reisepass
  • Pranses: NIR, Carte Nationale, Permis
  • Italyano: Codice Fiscale, Carta d'Identità
  • Espanyol: DNI, NIE, NIF
  • Olandes: BSN, Rijbewijs
  • Polish: PESEL, NIP, REGON

Mga Format ng Asia-Pacific

  • Japan: My Number, Passport
  • India: Aadhaar, PAN, GSTIN, Rehistro ng Sasakyan
  • Thailand: National ID, Tax ID, Passport
  • Indonesia: NIK, NPWP, Passport
  • Vietnam: CCCD, Tax Code, Passport
  • Malaysia: MyKad, Tax ID, Passport

Americas, Africa & Middle East

  • US: SSN, Driver's License, Passport
  • UK: National Insurance, NHS Number
  • Canada: SIN, Driver's License
  • Australia: TFN, Medicare, ABN
  • Kenya: National ID, KRA PIN, Passport
  • South Africa: ID Number, Tax Number, Passport

Madalas na Itanong

Aling 48 wika ang sinusuportahan ng cloak.business?

Sinusuportahan ng cloak.business ang Afrikaans, Arabic, Armenian, Basque, Bengali, Bulgarian, Catalan, Chinese, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Hebrew, Hindi, Hungarian, Icelandic, Indonesian, Italian, Japanese, Korean, Latvian, Lithuanian, Macedonian, Malay, Norwegian, Persian, Polish, Portuguese, Romanian, Russian, Serbian, Slovak, Slovenian, Spanish, Swahili, Swedish, Tagalog, Thai, Turkish, Ukrainian, Urdu, at Vietnamese — na may buong suporta sa RTL para sa Arabic, Hebrew, Persian, at Urdu.

Gumagana ba ang pagtukoy ng PII sa parehong paraan sa lahat ng wika?

Gumagamit ang pagtukoy ng dalawang pamamaraan: regex-based na pattern matching para sa structured data (IDs, mga numero ng telepono, mga numero ng buwis) at mga NLP model para sa unstructured na mga entity (mga pangalan, lokasyon). Ang pattern-based na pagtukoy ay sumasaklaw sa lahat ng 48 wika. Ang NLP-based na pagtukoy ay magagamit sa mga wikang may sinanay na mga modelo.

Paano hinahawakan ang mga format ng ID na partikular sa bansa?

Kasama sa cloak.business ang 317 pattern recognizers na sumasaklaw sa 70+ bansa. Ang bawat recognizer ay nagva-validate ng partikular na format, checksum, at istruktura ng mga pambansang ID, mga numero ng buwis, mga tagapagpakilala ng kalusugan, at mga pinansyal na data para sa bansang iyon.

Maaari ko bang tukuyin ang PII sa maraming wika sa loob ng parehong dokumento?

Oo. Ang cloak.business ay maaaring magproseso ng mga multilingual na dokumento at tukuyin ang PII sa iba't ibang wika sa isang solong kahilingan. Awtomatikong kinikilala ng sistema kung aling mga pattern ng wika ang ilalapat.

Paano ko idaragdag ang suporta para sa isang bagong wika o uri ng entity?

Maaari kang lumikha ng mga custom na entity recognizers gamit ang regex patterns o deny lists. Pinapayagan ka nitong magdagdag ng mga domain-specific na tagapagpakilala o palawakin ang saklaw sa karagdagang mga format na hindi pa kasama sa built-in na recognizer library.

Is This Right for You?

Best For

  • Global enterprises with multilingual document workflows requiring consistent GDPR and privacy compliance
  • Translation and localization agencies that process PII-containing content in multiple languages
  • Government agencies and NGOs processing citizen data across EU, APAC, and LATAM jurisdictions
  • Legal discovery and compliance teams working with 48 supported language jurisdictions

Not Ideal For

  • Monolingual English-only workflows — the standard plan is sufficient without the overhead of language detection
  • Languages not in the supported 48 — check the entity catalog for specific language and entity coverage
  • Real-time sub-10ms latency requirements — language detection adds processing overhead over English-only

I-anonymize sa Anumang Wika

Simulan sa 200 libreng token. Gumagana sa lahat ng 48 wika.