正規表現ベース:その重要性
当社のアプローチ:正規表現+NLP
- 317種類の正規表現認識器:構造化データに対して100%再現可能
- 氏名・所在地はNLPで信頼度スコアを付与
- 完全監査可能 — すべての検出がパターンまたはモデルに紐づく
- 透明性:何が、なぜ一致したか常に把握可能
- 高速かつ予測可能なパフォーマンス
- 3つのNLPエンジンで48言語に対応
AIのみのアプローチ
- すべての検出が確率的
- なぜフラグされたか説明できない
- 大規模な学習データセットが必要
- コンプライアンス監査が困難
- 計算コストが高い(GPUが必要)
- モデルドリフトにより精度が低下
10ステップのプロセス
入力から出力まで、ドキュメントに何が起こるかを詳しくご紹介します
テキスト入力
Webインターフェース、API、またはOfficeアドイン経由でドキュメントを送信
言語検出
システムが最適処理のためにドキュメントの言語を特定
トークン化
テキストをパターンマッチング用にトークンへ分割
パターンマッチング
317種類の正規表現認識器とNLPモデルで70カ国以上・320種類以上のエンティティを検出
コンテキスト分析
周辺テキストにより検出精度を向上
信頼度スコア付与
各検出に信頼度スコア(0.0–1.0)を付与し、人による確認判断を支援
エンティティ分類
検出された項目を種類ごとに分類
人によるレビュー
すべての検出内容を確認し、誤検出を修正・承認後に匿名化を実施
匿名化の適用
置換、マスキング、ハッシュ化、暗号化、編集のいずれかを選択
出力ドキュメント
匿名化済みドキュメントをダウンロード
MCPサーバー:プライバシーファーストAI連携
データがMCPサーバーを通じてAIツールを安全に利用する仕組み
MCPサーバーはプライバシーシールドとして機能し、AIツールからのリクエストを受けてPIIを匿名化、安全なデータのみAIで処理し、必要に応じて元の値を復元します。
AIツールからのリクエスト
AIツール(Cursor、Claude等)がPIIを含むリクエストを送信
MCPサーバーが受信・解析
サーバーがすべてのPIIエンティティを検出
匿名化
PIIをトークン化または編集
AIによる処理
AIは匿名化済みデータのみを受信・処理
レスポンス返却
AIのレスポンスがMCPサーバー経由で返却
デトークン化
オプション:元の値をユーザー向けに復元
よくあるご質問
cloak.businessは検出にAIを使っていますか?
いいえ。検出には決定論的な正規表現パターンとNLPモデル(spaCy、Stanza)を使用しています。これにより、同じ入力には常に同じ出力が得られ、確率的AIアプローチとは異なり100%再現可能です。
なぜAIではなく正規表現パターンなのですか?
正規表現パターンは監査可能・再現可能・コンプライアンス対応です。各パターンが何に一致するかを確認できます。AIベース検出は非決定論的で、実行ごとに結果が異なり、コンプライアンス文書化が困難です。
検出精度はどの程度ですか?
317種類のカスタムパターン認識器(Luhn、IBAN、SSN等のチェックサム検証含む)により、cloak.businessは特にクレジットカード、税ID、国民ID番号などの構造化識別子で、汎用NERモデルより大幅に高い精度を実現しています。
対応言語は?
48言語に専用NLPモデルで対応しています。パターンベース検出(正規表現)は言語に依存せず文字パターンを一致させるため、すべての言語で動作します。
カスタムエンティティパターンを追加できますか?
はい。APIでカスタム認識器定義をサポートしており、独自識別子や社内管理番号、業界特有のデータ形式にも対応できます。