cloak.business

Phát Hiện PII Trong 48 Ngôn Ngữ

Phát hiện và ẩn danh PII trong 48 ngôn ngữ với hỗ trợ mẫu gốc. Hỗ trợ RTL đầy đủ cho tiếng Ả Rập, Do Thái, Ba Tư và Urdu.

Hỗ Trợ 48 Ngôn Ngữ

Phát hiện và ẩn danh PII đầy đủ trên toàn bộ nền tảng

spaCy NLP - Chạy Cục Bộ (25 ngôn ngữ)

Tiếng AnhTiếng ĐứcTiếng Tây Ban NhaTiếng PhápTiếng ÝTiếng Bồ Đào NhaTiếng Hà LanTiếng Ba LanTiếng NgaTiếng NhậtTiếng TrungTiếng HànTiếng RomaniaTiếng Hy LạpTiếng CroatiaTiếng SloveniaTiếng MacedoniaTiếng Thụy ĐiểnTiếng Đan MạchTiếng Na UyTiếng Phần LanTiếng UkrainaTiếng LitvaTiếng CatalanTiếng Thổ Nhĩ Kỳ

Stanza NER - Chạy Cục Bộ (7 ngôn ngữ)

Tiếng BulgariaTiếng HungaryTiếng Do Thái (RTL)Tiếng ViệtTiếng AfrikaansTiếng ArmeniaTiếng Basque

XLM-RoBERTa Transformer - Chạy Cục Bộ (16 ngôn ngữ)

Tiếng Ả Rập (RTL)Tiếng HindiTiếng SécTiếng SlovakTiếng IndonesiaTiếng TháiTiếng Ba Tư (RTL)Tiếng SerbiaTiếng LatviaTiếng EstoniaTiếng Mã LaiTiếng BengalTiếng Urdu (RTL)Tiếng SwahiliTiếng TagalogTiếng Iceland

Hỗ Trợ RTL

Tiếng Ả RậpTiếng Do TháiTiếng Ba TưTiếng Urdu

Được Hỗ Trợ Bởi NLP Tiên Tiến

Ba công cụ NLP hoạt động cùng nhau để bao phủ tối đa ngôn ngữ

  • Mô hình tải lười (tối đa 5 mô hình được lưu trữ) để tiết kiệm bộ nhớ
  • Phát hiện ngôn ngữ tự động
  • Xử lý tài liệu đa ngôn ngữ
  • Mẫu thực thể cụ thể cho từng ngôn ngữ

Định Dạng Cụ Thể Theo Quốc Gia

Chúng tôi phát hiện PII theo định dạng cụ thể của từng quốc gia và khu vực.

Định Dạng Châu Âu

  • Đức: Personalausweis, Steuer-ID, Reisepass
  • Pháp: NIR, Carte Nationale, Permis
  • Ý: Codice Fiscale, Carta d'Identità
  • Tây Ban Nha: DNI, NIE, NIF
  • Hà Lan: BSN, Rijbewijs
  • Ba Lan: PESEL, NIP, REGON

Định Dạng Châu Á - Thái Bình Dương

  • Nhật Bản: My Number, Hộ chiếu
  • Ấn Độ: Aadhaar, PAN, GSTIN, Đăng ký xe
  • Thái Lan: ID Quốc gia, Mã số thuế, Hộ chiếu
  • Indonesia: NIK, NPWP, Hộ chiếu
  • Việt Nam: CCCD, Mã số thuế, Hộ chiếu
  • Malaysia: MyKad, Mã số thuế, Hộ chiếu

Châu Mỹ, Châu Phi & Trung Đông

  • Mỹ: SSN, Giấy phép lái xe, Hộ chiếu
  • Anh: Bảo hiểm Quốc gia, Số NHS
  • Canada: SIN, Giấy phép lái xe
  • Úc: TFN, Medicare, ABN
  • Kenya: ID Quốc gia, KRA PIN, Hộ chiếu
  • Nam Phi: Số ID, Số thuế, Hộ chiếu

Câu Hỏi Thường Gặp

cloak.business hỗ trợ 48 ngôn ngữ nào?

cloak.business hỗ trợ tiếng Afrikaans, Ả Rập, Armenia, Basque, Bengal, Bulgaria, Catalan, Trung Quốc, Croatia, Séc, Đan Mạch, Hà Lan, Anh, Estonia, Phần Lan, Pháp, Đức, Hy Lạp, Do Thái, Hindi, Hungary, Iceland, Indonesia, Ý, Nhật, Hàn, Latvia, Litva, Macedonia, Mã Lai, Na Uy, Ba Tư, Ba Lan, Bồ Đào Nha, Romania, Nga, Serbia, Slovak, Slovenia, Tây Ban Nha, Swahili, Thụy Điển, Tagalog, Thái, Thổ Nhĩ Kỳ, Ukraina, Urdu và Việt Nam — với hỗ trợ RTL đầy đủ cho tiếng Ả Rập, Do Thái, Ba Tư và Urdu.

Phát hiện PII hoạt động như thế nào trong tất cả các ngôn ngữ?

Phát hiện sử dụng hai phương pháp: khớp mẫu dựa trên regex cho dữ liệu có cấu trúc (ID, số điện thoại, mã số thuế) và mô hình NLP cho các thực thể không có cấu trúc (tên, địa điểm). Phát hiện dựa trên mẫu bao phủ tất cả 48 ngôn ngữ. Phát hiện dựa trên NLP có sẵn trong các ngôn ngữ có mô hình được huấn luyện.

Các định dạng ID cụ thể theo quốc gia được xử lý như thế nào?

cloak.business bao gồm 317 bộ nhận dạng mẫu bao phủ hơn 70 quốc gia. Mỗi bộ nhận dạng xác thực định dạng cụ thể, tổng kiểm tra và cấu trúc của ID quốc gia, mã số thuế, định danh sức khỏe và dữ liệu tài chính cho quốc gia đó.

Tôi có thể phát hiện PII trong nhiều ngôn ngữ trong cùng một tài liệu không?

Có. cloak.business có thể xử lý tài liệu đa ngôn ngữ và phát hiện PII trên các ngôn ngữ khác nhau trong một yêu cầu duy nhất. Hệ thống tự động xác định các mẫu ngôn ngữ nào cần áp dụng.

Làm thế nào để thêm hỗ trợ cho một ngôn ngữ hoặc loại thực thể mới?

Bạn có thể tạo các bộ nhận dạng thực thể tùy chỉnh bằng cách sử dụng các mẫu regex hoặc danh sách từ chối. Điều này cho phép bạn thêm các định danh cụ thể cho lĩnh vực hoặc mở rộng phạm vi bao phủ đến các định dạng bổ sung chưa được bao gồm trong thư viện nhận dạng tích hợp.

Is This Right for You?

Best For

  • Global enterprises with multilingual document workflows requiring consistent GDPR and privacy compliance
  • Translation and localization agencies that process PII-containing content in multiple languages
  • Government agencies and NGOs processing citizen data across EU, APAC, and LATAM jurisdictions
  • Legal discovery and compliance teams working with 48 supported language jurisdictions

Not Ideal For

  • Monolingual English-only workflows — the standard plan is sufficient without the overhead of language detection
  • Languages not in the supported 48 — check the entity catalog for specific language and entity coverage
  • Real-time sub-10ms latency requirements — language detection adds processing overhead over English-only

Ẩn Danh Trong Bất Kỳ Ngôn Ngữ Nào

Bắt đầu với 200 token miễn phí. Hoạt động với tất cả 48 ngôn ngữ.