检测工作原理
模式匹配
为每种实体类型使用精心设计的正则表达式模式,确保在所有文档中结果一致且可预测。
NLP Named Entity Recognition (Names & Locations)
spaCy (25 languages), Stanza NER (7 languages), and XLM-RoBERTa transformers (16 languages) detect unstructured PII like person names, locations, and organizations that cannot be captured by regex alone. All models run on our own servers in Germany — no data is ever sent to Meta, Google, Stanford, or any third party.
置信评分
每次检测都包括一个置信评分(0-1),基于模式强度和上下文,帮助您过滤结果。
上下文意识
周围文本的上下文提高了检测准确性,减少误报,同时捕捉边缘案例。
支持的实体类型
涵盖各类个人信息类型的全面覆盖
个人标识符
- 人名
- 电子邮件地址
- 电话号码
- 出生日期
- 年龄
- 性别
- 国籍
财务信息
- 信用卡号码
- 国际银行账号
- 银行识别码/SWIFT
- 银行账户号码
- 税号
- 增值税号码
政府身份证件
- 社会安全号码 (SSN)
- 国家身份证号码
- 护照号码
- 驾驶执照
- 健康保险身份证
位置信息
- 街道地址
- 城市
- 邮政编码
- 国家
- GPS 坐标
数字标识符
- IP 地址 (v4/v6)
- MAC 地址
- 网址
- 域名
- 用户 ID
组织数据
- 公司名称
- 组织 ID
- 注册号码
- 部门名称
时间数据
- 日期
- 时间
- 日期范围
- 时间戳
国际格式
- 德国身份证 (Personalausweis)
- 英国国家保险号
- 西班牙 DNI/NIE
- 意大利税号
- 以及 20 多种其他国家特定格式
自定义实体支持
需要检测自定义模式?使用正则表达式模式创建您自己的实体类型或使用我们的 AI 辅助模式生成器。
手动模式创建
为内部员工 ID、项目代码或自定义参考号码等专有标识符定义正则表达式模式。
AI 模式生成器
用简单的语言描述您想要检测的内容,我们的 AI 为您生成优化的正则表达式模式。