基于正则的PII检测工作原理

基于正则的 PII 检测：317 个确定性模式识别器用于结构化数据（证件号、税号、信用卡），并结合 spaCy、Stanza 和 XLM-RoBERTa NLP，支持 48 种语言的人名与地名识别。

免费试用技术文档

正则优先：为何重要

我们的方案：正则 + NLP

317 个正则识别器：结构化数据 100% 可复现
NLP 识别人名与地名，并提供置信分数
完全可审计——每一次检测都可追溯至具体模式或模型
透明：您始终清楚匹配内容及原因
高效且性能可预测
三大 NLP 引擎支持 48 种语言

纯 AI 方案

所有检测均为概率性
无法解释为何被标记
需大量训练数据集
合规审计难度大
计算成本高（需 GPU）
模型漂移导致准确率随时间下降

十步流程

从输入到输出，您的文档处理全流程一览

输入文本

通过网页界面、API 或 Office 插件提交文档

语言检测

系统识别文档语言以优化处理

分词

文本被拆分为词元以便模式匹配

模式匹配

317 个正则识别器和 NLP 模型扫描 70 多个国家的 317 实体类型

上下文分析

利用上下文提升检测准确率

置信评分

每次检测均获得置信分数（0.0–1.0），支持人工审核决策

实体分类

检测到的项目按类型分类

人工审核

审核所有检测结果，纠正误报，并在匿名化前确认

应用匿名化

选择您的处理方式：替换、遮盖、哈希、加密或掩码

输出文档

下载已匿名化的文档

MCP 服务器：隐私优先的 AI 集成

您的数据如何通过 MCP 服务器流转，保障 AI 工具安全

MCP 服务器作为隐私防护屏障，拦截 AI 工具请求，匿名化 PII，安全数据经 AI 处理，并可选恢复原值。

AI 工具请求

您的 AI 工具（如 Cursor、Claude）发送包含 PII 的请求

MCP 服务器拦截

服务器分析并检测所有 PII 实体

匿名化

PII 被替换为令牌或遮盖

AI 处理

AI 仅接收并处理匿名化数据

响应返回

AI 响应经 MCP 服务器返回

去令牌化

可选：为用户恢复原始值

了解 MCP 服务器 →

深入探索

技术

深入了解基于正则的检测及其合规优势

架构

系统架构及各组件协作方式

安全

五重安全防护，保障数据全流程安全

常见问题解答

cloak.business 检测是否使用 AI？

不。检测采用确定性正则表达式模式和 NLP 模型（spaCy、Stanza）。确保 100% 可复现——相同输入始终产生相同输出，不同于概率性 AI 方案。

为何用正则模式而非 AI？

正则模式可审计、可复现且合规。您可检查每个模式的匹配内容。基于 AI 的检测为非确定性——结果每次可能不同，合规文档难以编制。

检测准确率如何？

借助 317 个自定义模式识别器及校验（Luhn、IBAN、SSN），cloak.business 在结构化标识符（如信用卡、税号、国民身份证号）检测上远超通用 NER 模型。

支持哪些语言？

支持 48 种语言，配备专用 NLP 模型进行命名实体识别。基于模式的检测（正则）适用于所有语言，因为其匹配字符模式与语言无关。

可以添加自定义实体模式吗？

可以。API 支持自定义识别器定义，您可添加专有标识符、内部参考号或特定领域数据格式的模式。

实际体验

免费试用 PII 检测与匿名化，每周期 200 个令牌。