为何选择正则优先?
为符合法规,您需要可解释、可复现的结果。我们的正则优先方案确保结构化数据检测完全确定性,NLP 负责识别人名与地名,并提供透明的置信分数。
详细对比
| 正则优先(我们) | 基于 AI/ML | |
|---|---|---|
| 可复现性 | 结构化数据:100% 一致。人名:带置信分数 | 每次运行结果均不同 |
| 可审计性 | 每次检测可追溯至具体模式或 NLP 模型 | 黑盒——无法解释决策 |
| 训练数据 | 正则:无需。NLP:内置预训练模型 | 需自定义训练数据集 |
| 模型漂移 | 正则:无。NLP:版本化、稳定模型 | 随时间不可预测地退化 |
| 性能 | 高效,仅需 CPU | 性能不定,依赖 GPU |
| 计算成本 | 低(仅需 CPU) | 高(通常需 GPU) |
| 法规合规 | 简单——模式与置信分数可审计,支持人工监督 | 难以向监管机构证明 |
模式匹配原理
每种实体类型均有精心设计的正则表达式,匹配特定格式。
电子邮箱地址
匹配标准邮箱格式:local-part@domain.tld
信用卡号
匹配 Visa、Mastercard、Amex 及其他卡片格式,并进行 Luhn 校验
德国 IBAN
匹配德国 IBAN 格式,支持可选空格
为合规而生
当审计员问“为何检测到此项?”时,您需要明确答复。正则检测可追溯至具体模式,NLP 检测包含模型名称及置信分数。人工审核确保合规团队可在匿名化前校正检测结果。
- GDPR 第 25 条:以隐私为设计原则,处理过程可解释
- ISO 27001:流程有据可查、可重复
- 审计追踪:每次检测均可追溯至具体模式
审计答复示例
问:为何“john.smith@company.com”被标记?
答:在位置 45-68 匹配邮箱模式,置信度 0.95。模式:标准邮箱格式校验。