なぜ正規表現ベースなのか?

規制対応には説明可能かつ再現可能な結果が必要です。当社の正規表現ベースアプローチは、構造化データの検出を完全に決定論的にし、氏名・所在地はNLPで透明な信頼度スコアを付与します。

詳細な比較

正規表現ベース(当社)AI/MLベース
再現性構造化データ:100%同一。氏名:信頼度スコア付きすべての結果が実行ごとに異なる
監査性すべての検出がパターンまたはNLPモデルに紐づくブラックボックス — 判断理由の説明不可
学習データ正規表現:不要。NLP:事前学習済みモデルを内蔵カスタム学習データセットが必要
モデルドリフト正規表現:なし。NLP:バージョン管理された安定モデル時間経過で予測不能に精度低下
パフォーマンス高速、CPUのみ可変、GPU依存
計算コスト低コスト(CPUのみ)高コスト(GPUが必要な場合が多い)
規制対応容易 — パターン+信頼度スコアが監査可能、人による確認も可能規制当局への証明が困難

パターンマッチングの仕組み

各エンティティタイプごとに、特定形式に合わせて設計された正規表現パターンを用意しています。

メールアドレス

標準的なメール形式(local-part@domain.tld)に一致

クレジットカード番号

Visa、Mastercard、Amex等のカード形式にLuhn検証付きで一致

ドイツIBAN

ドイツのIBAN形式(スペース有無対応)に一致

コンプライアンス対応設計

監査担当者から「なぜ検出されたのか?」と問われた際、明確な回答が必要です。正規表現による検出は特定パターンに紐づきます。NLP検出はモデル名と信頼度スコアを含みます。人によるレビューで匿名化前に検出内容を上書き可能、コンプライアンスチームの要件に対応します。

  • GDPR第25条:説明可能な処理によるプライバシー・バイ・デザイン
  • ISO 27001:文書化された再現可能なプロセス
  • 監査証跡:すべての検出が特定パターンに紐づく

監査対応例

Q: なぜ「john.smith@company.com」がフラグされたのですか?

A: 位置45-68で標準メール形式パターンに一致し、信頼度0.95。パターン:標準メール形式検証。

決定論的検出を体験

正規表現ベースのPII検出を無料で体験(1サイクル200トークンまで)。