支持 48 种语言
整个平台的全面 PII 检测和匿名化
spaCy NLP - 本地运行(25 种语言)
Stanza NER - 本地运行(7 种语言)
XLM-RoBERTa Transformer - 本地运行(16 种语言)
RTL 支持
由先进的 NLP 提供支持
三个 NLP 引擎协同工作,最大化语言覆盖
- 懒加载模型(最多缓存 5 个)以提高内存效率
- 自动语言检测
- 混合语言文档处理
- 语言特定的实体模式
国家特定格式
我们检测每个国家和地区特定格式的 PII。
欧洲格式
- 德国:Personalausweis, Steuer-ID, Reisepass
- 法国:NIR, Carte Nationale, Permis
- 意大利:Codice Fiscale, Carta d'Identità
- 西班牙:DNI, NIE, NIF
- 荷兰:BSN, Rijbewijs
- 波兰:PESEL, NIP, REGON
亚太格式
- 日本:My Number, Passport
- 印度:Aadhaar, PAN, GSTIN, Vehicle Registration
- 泰国:National ID, Tax ID, Passport
- 印度尼西亚:NIK, NPWP, Passport
- 越南:CCCD, Tax Code, Passport
- 马来西亚:MyKad, Tax ID, Passport
美洲、非洲和中东
- 美国:SSN, Driver's License, Passport
- 英国:National Insurance, NHS Number
- 加拿大:SIN, Driver's License
- 澳大利亚:TFN, Medicare, ABN
- 肯尼亚:National ID, KRA PIN, Passport
- 南非:ID Number, Tax Number, Passport
常见问题
cloak.business 支持哪些 48 种语言?
cloak.business 支持南非荷兰语、阿拉伯语、亚美尼亚语、巴斯克语、孟加拉语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、韩语、拉脱维亚语、立陶宛语、马其顿语、马来语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、塔加洛语、泰语、土耳其语、乌克兰语、乌尔都语和越南语 — 完全支持阿拉伯语、希伯来语、波斯语和乌尔都语的 RTL。
PII 检测在所有语言中是否相同?
检测使用两种方法:基于正则表达式的模式匹配用于结构化数据(ID、电话号码、税号),NLP 模型用于非结构化实体(名称、位置)。模式检测涵盖所有 48 种语言。基于 NLP 的检测在有训练模型的语言中可用。
如何处理国家特定的 ID 格式?
cloak.business 包含 317 个模式识别器,涵盖 70 多个国家。每个识别器验证该国的国家 ID、税号、健康标识符和财务数据的特定格式、校验和结构。
我可以在同一文档中检测多种语言的 PII 吗?
可以。cloak.business 可以处理多语言文档,并在单个请求中检测不同语言的 PII。系统会自动识别应用哪种语言模式。
如何添加对新语言或实体类型的支持?
您可以使用正则表达式模式或拒绝列表创建自定义实体识别器。这允许您添加特定领域的标识符或扩展到内置识别器库中尚未包含的其他格式。
Explore Related Features
Multi-language detection works seamlessly with all cloak.business products.
Chrome Extension
Anonymize AI prompts in ChatGPT, Claude, Gemini, and 3 more AI platforms — in any of 48 supported languages.
PII Anonymization API
REST API with JavaScript and Python SDKs. Full multi-language support built in.
Reversible Encryption
Encrypt PII with AES-256-GCM and restore original data anytime with your key.
Is This Right for You?
Best For
- ✦Global enterprises with multilingual document workflows requiring consistent GDPR and privacy compliance
- ✦Translation and localization agencies that process PII-containing content in multiple languages
- ✦Government agencies and NGOs processing citizen data across EU, APAC, and LATAM jurisdictions
- ✦Legal discovery and compliance teams working with 48 supported language jurisdictions
Not Ideal For
- ✦Monolingual English-only workflows — the standard plan is sufficient without the overhead of language detection
- ✦Languages not in the supported 48 — check the entity catalog for specific language and entity coverage
- ✦Real-time sub-10ms latency requirements — language detection adds processing overhead over English-only