cloak.business の仕組み

正規表現ベースのPII検出:構造化データ(ID、税番号、クレジットカード)用に317種類の決定論的パターン認識器、さらに氏名・所在地にはspaCy、Stanza、XLM-RoBERTa NLPを48言語で対応。

正規表現ベース:その重要性

当社のアプローチ:正規表現+NLP

  • 317種類の正規表現認識器:構造化データに対して100%再現可能
  • 氏名・所在地はNLPで信頼度スコアを付与
  • 完全監査可能 — すべての検出がパターンまたはモデルに紐づく
  • 透明性:何が、なぜ一致したか常に把握可能
  • 高速かつ予測可能なパフォーマンス
  • 3つのNLPエンジンで48言語に対応

AIのみのアプローチ

  • すべての検出が確率的
  • なぜフラグされたか説明できない
  • 大規模な学習データセットが必要
  • コンプライアンス監査が困難
  • 計算コストが高い(GPUが必要)
  • モデルドリフトにより精度が低下

10ステップのプロセス

入力から出力まで、ドキュメントに何が起こるかを詳しくご紹介します

1

テキスト入力

Webインターフェース、API、またはOfficeアドイン経由でドキュメントを送信

2

言語検出

システムが最適処理のためにドキュメントの言語を特定

3

トークン化

テキストをパターンマッチング用にトークンへ分割

4

パターンマッチング

317種類の正規表現認識器とNLPモデルで70カ国以上・320種類以上のエンティティを検出

5

コンテキスト分析

周辺テキストにより検出精度を向上

6

信頼度スコア付与

各検出に信頼度スコア(0.0–1.0)を付与し、人による確認判断を支援

7

エンティティ分類

検出された項目を種類ごとに分類

8

人によるレビュー

すべての検出内容を確認し、誤検出を修正・承認後に匿名化を実施

9

匿名化の適用

置換、マスキング、ハッシュ化、暗号化、編集のいずれかを選択

10

出力ドキュメント

匿名化済みドキュメントをダウンロード

MCPサーバー:プライバシーファーストAI連携

データがMCPサーバーを通じてAIツールを安全に利用する仕組み

MCPサーバーはプライバシーシールドとして機能し、AIツールからのリクエストを受けてPIIを匿名化、安全なデータのみAIで処理し、必要に応じて元の値を復元します。

AIツールからのリクエスト

AIツール(Cursor、Claude等)がPIIを含むリクエストを送信

MCPサーバーが受信・解析

サーバーがすべてのPIIエンティティを検出

匿名化

PIIをトークン化または編集

AIによる処理

AIは匿名化済みデータのみを受信・処理

レスポンス返却

AIのレスポンスがMCPサーバー経由で返却

デトークン化

オプション:元の値をユーザー向けに復元

よくあるご質問

cloak.businessは検出にAIを使っていますか?

いいえ。検出には決定論的な正規表現パターンとNLPモデル(spaCy、Stanza)を使用しています。これにより、同じ入力には常に同じ出力が得られ、確率的AIアプローチとは異なり100%再現可能です。

なぜAIではなく正規表現パターンなのですか?

正規表現パターンは監査可能・再現可能・コンプライアンス対応です。各パターンが何に一致するかを確認できます。AIベース検出は非決定論的で、実行ごとに結果が異なり、コンプライアンス文書化が困難です。

検出精度はどの程度ですか?

317種類のカスタムパターン認識器(Luhn、IBAN、SSN等のチェックサム検証含む)により、cloak.businessは特にクレジットカード、税ID、国民ID番号などの構造化識別子で、汎用NERモデルより大幅に高い精度を実現しています。

対応言語は?

48言語に専用NLPモデルで対応しています。パターンベース検出(正規表現)は言語に依存せず文字パターンを一致させるため、すべての言語で動作します。

カスタムエンティティパターンを追加できますか?

はい。APIでカスタム認識器定義をサポートしており、独自識別子や社内管理番号、業界特有のデータ形式にも対応できます。

実際に体験する

PII検出・匿名化を無料で体験(1サイクル200トークンまで)。