正则优先:为何重要
我们的方案:正则 + NLP
- 317 个正则识别器:结构化数据 100% 可复现
- NLP 识别人名与地名,并提供置信分数
- 完全可审计——每一次检测都可追溯至具体模式或模型
- 透明:您始终清楚匹配内容及原因
- 高效且性能可预测
- 三大 NLP 引擎支持 48 种语言
纯 AI 方案
- 所有检测均为概率性
- 无法解释为何被标记
- 需大量训练数据集
- 合规审计难度大
- 计算成本高(需 GPU)
- 模型漂移导致准确率随时间下降
十步流程
从输入到输出,您的文档处理全流程一览
1
输入文本
通过网页界面、API 或 Office 插件提交文档
2
语言检测
系统识别文档语言以优化处理
3
分词
文本被拆分为词元以便模式匹配
4
模式匹配
317 个正则识别器和 NLP 模型扫描 70 多个国家的 320+ 实体类型
5
上下文分析
利用上下文提升检测准确率
6
置信评分
每次检测均获得置信分数(0.0–1.0),支持人工审核决策
7
实体分类
检测到的项目按类型分类
8
人工审核
审核所有检测结果,纠正误报,并在匿名化前确认
9
应用匿名化
选择您的处理方式:替换、遮盖、哈希、加密或掩码
10
输出文档
下载已匿名化的文档
MCP 服务器:隐私优先的 AI 集成
您的数据如何通过 MCP 服务器流转,保障 AI 工具安全
MCP 服务器作为隐私防护屏障,拦截 AI 工具请求,匿名化 PII,安全数据经 AI 处理,并可选恢复原值。
AI 工具请求
您的 AI 工具(如 Cursor、Claude)发送包含 PII 的请求
MCP 服务器拦截
服务器分析并检测所有 PII 实体
匿名化
PII 被替换为令牌或遮盖
AI 处理
AI 仅接收并处理匿名化数据
响应返回
AI 响应经 MCP 服务器返回
去令牌化
可选:为用户恢复原始值
常见问题解答
cloak.business 检测是否使用 AI?
不。检测采用确定性正则表达式模式和 NLP 模型(spaCy、Stanza)。确保 100% 可复现——相同输入始终产生相同输出,不同于概率性 AI 方案。
为何用正则模式而非 AI?
正则模式可审计、可复现且合规。您可检查每个模式的匹配内容。基于 AI 的检测为非确定性——结果每次可能不同,合规文档难以编制。
检测准确率如何?
借助 317 个自定义模式识别器及校验(Luhn、IBAN、SSN),cloak.business 在结构化标识符(如信用卡、税号、国民身份证号)检测上远超通用 NER 模型。
支持哪些语言?
支持 48 种语言,配备专用 NLP 模型进行命名实体识别。基于模式的检测(正则)适用于所有语言,因为其匹配字符模式与语言无关。
可以添加自定义实体模式吗?
可以。API 支持自定义识别器定义,您可添加专有标识符、内部参考号或特定领域数据格式的模式。