検出の仕組み
正規表現パターンマッチング(構造化PII)
317のカスタムPatternRecognizersが正規表現パターンを使用して、国民ID、税番号、パスポート、運転免許証などの構造化データを検出します。各パターンは、コードや構造化データでの誤検出を防ぐために境界アサーションを使用します。
NLP固有表現認識(名前と場所)
spaCy(25言語)、Stanza NER(7言語)、XLM-RoBERTaトランスフォーマー(16言語)は、正規表現だけでは捕捉できない人物名、場所、組織などの非構造化PIIを検出します。すべてのモデルはドイツの自社サーバーで実行され、データはMeta、Google、Stanford、または第三者に送信されることはありません。
信頼度スコアリング
各検出には、人間が介入するための信頼度スコア(0.0–1.0)が含まれています。非常に特定的な形式(例:ドイツのIBAN DE89 3704 0044 0532 0130 00)は0.85以上のスコアを持ち、一般的な数字パターンは0.3–0.5のスコアを持ち、確認のためにコンテキストワードに依存します。コンプライアンスチームは、匿名化前に検出をレビューし、上書きすることができます。
コンテキストワード分析
各認識器には関連する言語のコンテキストワードがあります(例:ドイツのIDには「Personalausweis」、ケニアのIDには「kitambulisho」)。コンテキストワードが一致の近くに現れると、信頼度スコアが上がります。
サポートされているエンティティタイプ
カテゴリ全体での個人情報タイプの包括的なカバレッジ
個人識別子
- 人物名
- メールアドレス
- 電話番号
- 生年月日
- 年齢
- 性別
- 国籍
財務情報
- クレジットカード番号
- IBAN
- BIC/SWIFT
- 銀行口座番号
- 税ID
- VAT番号
政府ID
- 社会保障番号(SSN)
- 国民ID番号
- パスポート番号
- 運転免許証
- 健康保険ID
位置データ
- 住所
- 市町村
- 郵便番号
- 国
- GPS座標
デジタル識別子
- IPアドレス(v4/v6)
- MACアドレス
- URL
- ドメイン名
- ユーザーID
組織データ
- 会社名
- 組織ID
- 登録番号
- 部門名
時間データ
- 日付
- 時間
- 日付範囲
- タイムスタンプ
国際フォーマット
- ドイツID(Personalausweis)
- 英国国民保険
- スペインDNI/NIE
- イタリアの納税者番号
- その他70以上の国別フォーマット
カスタムエンティティサポート
カスタムパターンを検出する必要がありますか?正規表現パターンで独自のエンティティタイプを作成するか、AI支援パターンジェネレーターを使用してください。
手動パターン作成
内部社員ID、プロジェクトコード、カスタム参照番号などの独自の識別子のための正規表現パターンを定義します。
AIパターンジェネレーター
検出したい内容を平易な言葉で説明すると、AIが最適化された正規表現パターンを生成します。
Is This Right For You?
Best For
- ✦Teams needing 320+ entity types across personal, financial, government, and organizational data
- ✦Multilingual PII detection (48 languages) for global compliance and audit requirements
- ✦GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
- ✦Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
- ✦Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns
Not For
- ✦Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
- ✦Image-only PII detection workflows (use the dedicated image-redaction feature instead)
- ✦Simple English-only use cases where basic regex or keyword matching is sufficient