为何选择正则优先?

为符合法规,您需要可解释、可复现的结果。我们的正则优先方案确保结构化数据检测完全确定性,NLP 负责识别人名与地名,并提供透明的置信分数。

详细对比

正则优先(我们)基于 AI/ML
可复现性结构化数据:100% 一致。人名:带置信分数每次运行结果均不同
可审计性每次检测可追溯至具体模式或 NLP 模型黑盒——无法解释决策
训练数据正则:无需。NLP:内置预训练模型需自定义训练数据集
模型漂移正则:无。NLP:版本化、稳定模型随时间不可预测地退化
性能高效,仅需 CPU性能不定,依赖 GPU
计算成本低(仅需 CPU)高(通常需 GPU)
法规合规简单——模式与置信分数可审计,支持人工监督难以向监管机构证明

模式匹配原理

每种实体类型均有精心设计的正则表达式,匹配特定格式。

电子邮箱地址

匹配标准邮箱格式:local-part@domain.tld

信用卡号

匹配 Visa、Mastercard、Amex 及其他卡片格式,并进行 Luhn 校验

德国 IBAN

匹配德国 IBAN 格式,支持可选空格

为合规而生

当审计员问“为何检测到此项?”时,您需要明确答复。正则检测可追溯至具体模式,NLP 检测包含模型名称及置信分数。人工审核确保合规团队可在匿名化前校正检测结果。

  • GDPR 第 25 条:以隐私为设计原则,处理过程可解释
  • ISO 27001:流程有据可查、可重复
  • 审计追踪:每次检测均可追溯至具体模式

审计答复示例

问:为何“john.smith@company.com”被标记?

答:在位置 45-68 匹配邮箱模式,置信度 0.95。模式:标准邮箱格式校验。

体验确定性检测

免费试用基于正则的 PII 检测,每周期 200 个令牌。