48 种语言的 PII 检测

支持 48 种语言的 PII 检测和匿名化,提供本地模式支持。全面支持阿拉伯语、希伯来语、波斯语和乌尔都语的 RTL。

支持 48 种语言

整个平台的全面 PII 检测和匿名化

spaCy NLP - 本地运行(25 种语言)

英语德语西班牙语法语意大利语葡萄牙语荷兰语波兰语俄语日语中文韩语罗马尼亚语希腊语克罗地亚语斯洛文尼亚语马其顿语瑞典语丹麦语挪威语芬兰语乌克兰语立陶宛语加泰罗尼亚语土耳其语

Stanza NER - 本地运行(7 种语言)

保加利亚语匈牙利语希伯来语(RTL)越南语南非荷兰语亚美尼亚语巴斯克语

XLM-RoBERTa Transformer - 本地运行(16 种语言)

阿拉伯语(RTL)印地语捷克语斯洛伐克语印度尼西亚语泰语波斯语(RTL)塞尔维亚语拉脱维亚语爱沙尼亚语马来语孟加拉语乌尔都语(RTL)斯瓦希里语塔加洛语冰岛语

RTL 支持

阿拉伯语希伯来语波斯语乌尔都语

由先进的 NLP 提供支持

三个 NLP 引擎协同工作,最大化语言覆盖

  • 懒加载模型(最多缓存 5 个)以提高内存效率
  • 自动语言检测
  • 混合语言文档处理
  • 语言特定的实体模式

国家特定格式

我们检测每个国家和地区特定格式的 PII。

欧洲格式

  • 德国:Personalausweis, Steuer-ID, Reisepass
  • 法国:NIR, Carte Nationale, Permis
  • 意大利:Codice Fiscale, Carta d'Identità
  • 西班牙:DNI, NIE, NIF
  • 荷兰:BSN, Rijbewijs
  • 波兰:PESEL, NIP, REGON

亚太格式

  • 日本:My Number, Passport
  • 印度:Aadhaar, PAN, GSTIN, Vehicle Registration
  • 泰国:National ID, Tax ID, Passport
  • 印度尼西亚:NIK, NPWP, Passport
  • 越南:CCCD, Tax Code, Passport
  • 马来西亚:MyKad, Tax ID, Passport

美洲、非洲和中东

  • 美国:SSN, Driver's License, Passport
  • 英国:National Insurance, NHS Number
  • 加拿大:SIN, Driver's License
  • 澳大利亚:TFN, Medicare, ABN
  • 肯尼亚:National ID, KRA PIN, Passport
  • 南非:ID Number, Tax Number, Passport

常见问题

cloak.business 支持哪些 48 种语言?

cloak.business 支持南非荷兰语、阿拉伯语、亚美尼亚语、巴斯克语、孟加拉语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、韩语、拉脱维亚语、立陶宛语、马其顿语、马来语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、塔加洛语、泰语、土耳其语、乌克兰语、乌尔都语和越南语 — 完全支持阿拉伯语、希伯来语、波斯语和乌尔都语的 RTL。

PII 检测在所有语言中是否相同?

检测使用两种方法:基于正则表达式的模式匹配用于结构化数据(ID、电话号码、税号),NLP 模型用于非结构化实体(名称、位置)。模式检测涵盖所有 48 种语言。基于 NLP 的检测在有训练模型的语言中可用。

如何处理国家特定的 ID 格式?

cloak.business 包含 317 个模式识别器,涵盖 70 多个国家。每个识别器验证该国的国家 ID、税号、健康标识符和财务数据的特定格式、校验和结构。

我可以在同一文档中检测多种语言的 PII 吗?

可以。cloak.business 可以处理多语言文档,并在单个请求中检测不同语言的 PII。系统会自动识别应用哪种语言模式。

如何添加对新语言或实体类型的支持?

您可以使用正则表达式模式或拒绝列表创建自定义实体识别器。这允许您添加特定领域的标识符或扩展到内置识别器库中尚未包含的其他格式。

Is This Right for You?

Best For

  • Global enterprises with multilingual document workflows requiring consistent GDPR and privacy compliance
  • Translation and localization agencies that process PII-containing content in multiple languages
  • Government agencies and NGOs processing citizen data across EU, APAC, and LATAM jurisdictions
  • Legal discovery and compliance teams working with 48 supported language jurisdictions

Not Ideal For

  • Monolingual English-only workflows — the standard plan is sufficient without the overhead of language detection
  • Languages not in the supported 48 — check the entity catalog for specific language and entity coverage
  • Real-time sub-10ms latency requirements — language detection adds processing overhead over English-only

在任何语言中匿名化

从 200 个免费代币开始。适用于所有 48 种语言。