Pengesanan PII dalam 48 Bahasa

Kesan dan anonimisasi PII dalam 48 bahasa dengan sokongan corak asli. Sokongan penuh RTL untuk Arab, Ibrani, Parsi, dan Urdu.

48 Bahasa Disokong

Pengesanan dan anonimisasi PII penuh di seluruh platform

spaCy NLP - Berjalan Secara Lokal (25 bahasa)

InggerisJermanSepanyolPerancisItaliPortugisBelandaPolandRusiaJepunCinaKoreaRomaniaYunaniCroatiaSloveniaMakedoniaSwedenDenmarkNorwayFinlandUkraineLithuaniaCatalanTurki

Stanza NER - Berjalan Secara Lokal (7 bahasa)

BulgariaHungaryIbrani (RTL)VietnamAfrikaansArmeniaBasque

XLM-RoBERTa Transformer - Berjalan Secara Lokal (16 bahasa)

Arab (RTL)HindiCzechSlovakIndonesiaThaiParsi (RTL)SerbiaLatviaEstoniaMelayuBengaliUrdu (RTL)SwahiliTagalogIceland

Sokongan RTL

ArabIbraniParsiUrdu

Dikuasakan oleh NLP Lanjutan

Tiga enjin NLP bekerja bersama untuk liputan bahasa maksimum

  • Model dimuat secara malas (maksimum 5 disimpan) untuk kecekapan memori
  • Pengesanan bahasa automatik
  • Pemprosesan dokumen pelbagai bahasa
  • Corak entiti khusus bahasa

Format Khusus Negara

Kami mengesan PII dalam format khusus untuk setiap negara dan wilayah.

Format Eropah

  • Jerman: Personalausweis, Steuer-ID, Reisepass
  • Perancis: NIR, Carte Nationale, Permis
  • Itali: Codice Fiscale, Carta d'Identità
  • Sepanyol: DNI, NIE, NIF
  • Belanda: BSN, Rijbewijs
  • Poland: PESEL, NIP, REGON

Format Asia-Pasifik

  • Jepun: My Number, Passport
  • India: Aadhaar, PAN, GSTIN, Pendaftaran Kenderaan
  • Thailand: ID Nasional, ID Cukai, Passport
  • Indonesia: NIK, NPWP, Passport
  • Vietnam: CCCD, Kod Cukai, Passport
  • Malaysia: MyKad, ID Cukai, Passport

Amerika, Afrika & Timur Tengah

  • AS: SSN, Lesen Memandu, Passport
  • UK: Insurans Nasional, Nombor NHS
  • Kanada: SIN, Lesen Memandu
  • Australia: TFN, Medicare, ABN
  • Kenya: ID Nasional, KRA PIN, Passport
  • Afrika Selatan: Nombor ID, Nombor Cukai, Passport

Soalan Lazim

Apakah 48 bahasa yang disokong oleh cloak.business?

cloak.business menyokong Afrikaans, Arab, Armenia, Basque, Bengali, Bulgaria, Catalan, Cina, Croatia, Czech, Denmark, Belanda, Inggeris, Estonia, Finland, Perancis, Jerman, Yunani, Ibrani, Hindi, Hungary, Iceland, Indonesia, Itali, Jepun, Korea, Latvia, Lithuania, Makedonia, Melayu, Norway, Parsi, Poland, Portugis, Romania, Rusia, Serbia, Slovak, Slovenia, Sepanyol, Swahili, Sweden, Tagalog, Thai, Turki, Ukraine, Urdu, dan Vietnam — dengan sokongan RTL penuh untuk Arab, Ibrani, Parsi, dan Urdu.

Adakah pengesanan PII berfungsi sama dalam semua bahasa?

Pengesanan menggunakan dua pendekatan: pencocokan corak berasaskan regex untuk data berstruktur (ID, nombor telefon, nombor cukai) dan model NLP untuk entiti tidak berstruktur (nama, lokasi). Pengesanan berasaskan corak merangkumi semua 48 bahasa. Pengesanan berasaskan NLP tersedia dalam bahasa dengan model yang dilatih.

Bagaimana format ID khusus negara ditangani?

cloak.business merangkumi 317 pengecam corak yang meliputi lebih 70 negara. Setiap pengecam mengesahkan format khusus, checksum, dan struktur ID nasional, nombor cukai, pengecam kesihatan, dan data kewangan untuk negara tersebut.

Bolehkah saya mengesan PII dalam pelbagai bahasa dalam dokumen yang sama?

Ya. cloak.business boleh memproses dokumen pelbagai bahasa dan mengesan PII merentasi bahasa yang berbeza dalam satu permintaan. Sistem secara automatik mengenal pasti corak bahasa mana yang perlu digunakan.

Bagaimana saya menambah sokongan untuk bahasa atau jenis entiti baru?

Anda boleh membuat pengecam entiti khusus menggunakan corak regex atau senarai penafian. Ini membolehkan anda menambah pengecam khusus domain atau memperluaskan liputan kepada format tambahan yang belum termasuk dalam perpustakaan pengecam terbina dalam.

Is This Right for You?

Best For

  • Global enterprises with multilingual document workflows requiring consistent GDPR and privacy compliance
  • Translation and localization agencies that process PII-containing content in multiple languages
  • Government agencies and NGOs processing citizen data across EU, APAC, and LATAM jurisdictions
  • Legal discovery and compliance teams working with 48 supported language jurisdictions

Not Ideal For

  • Monolingual English-only workflows — the standard plan is sufficient without the overhead of language detection
  • Languages not in the supported 48 — check the entity catalog for specific language and entity coverage
  • Real-time sub-10ms latency requirements — language detection adds processing overhead over English-only

Anonimkan dalam Mana-mana Bahasa

Mulakan dengan 200 token percuma. Berfungsi dengan semua 48 bahasa.