检测原理
正则表达式模式匹配(结构化 PII)
317 个带有正则表达式模式的自定义 PatternRecognizers 检测结构化数据,如国家 ID、税号、护照和驾照。每个模式使用边界断言以防止在代码或结构化数据中出现误匹配。
NLP 命名实体识别(姓名和位置)
spaCy(25 种语言)、Stanza NER(7 种语言)和 XLM-RoBERTa 转换器(16 种语言)检测无法仅通过正则表达式捕获的非结构化 PII,如人名、位置和组织。所有模型均在我们位于德国的服务器上运行——数据绝不会发送给 Meta、Google、Stanford 或任何第三方。
置信评分
每次检测都包含一个置信评分(0.0–1.0),用于人机协作决策。高度特定的格式(例如,德国 IBAN DE89 3704 0044 0532 0130 00)得分 0.85+,而通用数字模式得分 0.3–0.5,并依赖上下文词进行确认。合规团队可以在匿名化之前审查和覆盖检测结果。
上下文词分析
每个识别器都有相关语言的上下文词(例如,德国 ID 的“Personalausweis”,肯尼亚 ID 的“kitambulisho”)。当上下文词出现在匹配附近时,置信评分会提高。
支持的实体类型
全面覆盖各类别的个人信息类型
个人标识符
- 人名
- 电子邮件地址
- 电话号码
- 出生日期
- 年龄
- 性别
- 国籍
财务信息
- 信用卡号码
- IBAN
- BIC/SWIFT
- 银行账户号码
- 税号
- 增值税号
政府 ID
- 社会安全号码 (SSN)
- 国家 ID 号码
- 护照号码
- 驾照
- 健康保险 ID
位置信息
- 街道地址
- 城市
- 邮政编码
- 国家
- GPS 坐标
数字标识符
- IP 地址 (v4/v6)
- MAC 地址
- URL
- 域名
- 用户 ID
组织数据
- 公司名称
- 组织 ID
- 注册号
- 部门名称
时间数据
- 日期
- 时间
- 日期范围
- 时间戳
国际格式
- 德国 ID (Personalausweis)
- 英国国家保险
- 西班牙 DNI/NIE
- 意大利税号
- 以及 70 多种国家特定格式
自定义实体支持
需要检测自定义模式?使用正则表达式模式创建您自己的实体类型,或使用我们的 AI 辅助模式生成器。
手动模式创建
为专有标识符定义正则表达式模式,如内部员工 ID、项目代码或自定义参考编号。
AI 模式生成器
用简单语言描述您想检测的内容,我们的 AI 为您生成优化的正则表达式模式。
Is This Right For You?
Best For
- ✦Teams needing 320+ entity types across personal, financial, government, and organizational data
- ✦Multilingual PII detection (48 languages) for global compliance and audit requirements
- ✦GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
- ✦Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
- ✦Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns
Not For
- ✦Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
- ✦Image-only PII detection workflows (use the dedicated image-redaction feature instead)
- ✦Simple English-only use cases where basic regex or keyword matching is sufficient