PII検出: 320以上のエンティティタイプ

当社の検出エンジンは、317のカスタム正規表現認識器をNLPモデルと組み合わせ、70以上の国で320以上の個人情報タイプを特定します。同じ入力、同じ出力 - 毎回。

検出の仕組み

正規表現パターンマッチング(構造化PII)

317のカスタムPatternRecognizersが正規表現パターンを使用して、国民ID、税番号、パスポート、運転免許証などの構造化データを検出します。各パターンは、コードや構造化データでの誤検出を防ぐために境界アサーションを使用します。

NLP固有表現認識(名前と場所)

spaCy(25言語)、Stanza NER(7言語)、XLM-RoBERTaトランスフォーマー(16言語)は、正規表現だけでは捕捉できない人物名、場所、組織などの非構造化PIIを検出します。すべてのモデルはドイツの自社サーバーで実行され、データはMeta、Google、Stanford、または第三者に送信されることはありません。

信頼度スコアリング

各検出には、人間が介入するための信頼度スコア(0.0–1.0)が含まれています。非常に特定的な形式(例:ドイツのIBAN DE89 3704 0044 0532 0130 00)は0.85以上のスコアを持ち、一般的な数字パターンは0.3–0.5のスコアを持ち、確認のためにコンテキストワードに依存します。コンプライアンスチームは、匿名化前に検出をレビューし、上書きすることができます。

コンテキストワード分析

各認識器には関連する言語のコンテキストワードがあります(例:ドイツのIDには「Personalausweis」、ケニアのIDには「kitambulisho」)。コンテキストワードが一致の近くに現れると、信頼度スコアが上がります。

サポートされているエンティティタイプ

カテゴリ全体での個人情報タイプの包括的なカバレッジ

個人識別子

  • 人物名
  • メールアドレス
  • 電話番号
  • 生年月日
  • 年齢
  • 性別
  • 国籍

財務情報

  • クレジットカード番号
  • IBAN
  • BIC/SWIFT
  • 銀行口座番号
  • 税ID
  • VAT番号

政府ID

  • 社会保障番号(SSN)
  • 国民ID番号
  • パスポート番号
  • 運転免許証
  • 健康保険ID

位置データ

  • 住所
  • 市町村
  • 郵便番号
  • GPS座標

デジタル識別子

  • IPアドレス(v4/v6)
  • MACアドレス
  • URL
  • ドメイン名
  • ユーザーID

組織データ

  • 会社名
  • 組織ID
  • 登録番号
  • 部門名

時間データ

  • 日付
  • 時間
  • 日付範囲
  • タイムスタンプ

国際フォーマット

  • ドイツID(Personalausweis)
  • 英国国民保険
  • スペインDNI/NIE
  • イタリアの納税者番号
  • その他70以上の国別フォーマット

カスタムエンティティサポート

カスタムパターンを検出する必要がありますか?正規表現パターンで独自のエンティティタイプを作成するか、AI支援パターンジェネレーターを使用してください。

手動パターン作成

内部社員ID、プロジェクトコード、カスタム参照番号などの独自の識別子のための正規表現パターンを定義します。

AIパターンジェネレーター

検出したい内容を平易な言葉で説明すると、AIが最適化された正規表現パターンを生成します。

Is This Right For You?

Best For

  • Teams needing 320+ entity types across personal, financial, government, and organizational data
  • Multilingual PII detection (48 languages) for global compliance and audit requirements
  • GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
  • Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
  • Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns

Not For

  • Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
  • Image-only PII detection workflows (use the dedicated image-redaction feature instead)
  • Simple English-only use cases where basic regex or keyword matching is sufficient

今日からPIIを検出開始

サイクルごとに200トークンで、検出エンジンを無料で試してください。クレジットカードは不要です。