Regex-FirstによるPII検出の仕組み

正規表現ベースのPII検出：構造化データ（ID、税番号、クレジットカード）用に317種類の決定論的パターン認識器、さらに氏名・所在地にはspaCy、Stanza、XLM-RoBERTa NLPを48言語で対応。

無料で試す技術ドキュメント

正規表現ベース：その重要性

当社のアプローチ：正規表現＋NLP

317種類の正規表現認識器：構造化データに対して100%再現可能
氏名・所在地はNLPで信頼度スコアを付与
完全監査可能 — すべての検出がパターンまたはモデルに紐づく
透明性：何が、なぜ一致したか常に把握可能
高速かつ予測可能なパフォーマンス
3つのNLPエンジンで48言語に対応

AIのみのアプローチ

すべての検出が確率的
なぜフラグされたか説明できない
大規模な学習データセットが必要
コンプライアンス監査が困難
計算コストが高い（GPUが必要）
モデルドリフトにより精度が低下

10ステップのプロセス

入力から出力まで、ドキュメントに何が起こるかを詳しくご紹介します

テキスト入力

Webインターフェース、API、またはOfficeアドイン経由でドキュメントを送信

言語検出

システムが最適処理のためにドキュメントの言語を特定

トークン化

テキストをパターンマッチング用にトークンへ分割

パターンマッチング

317種類の正規表現認識器とNLPモデルで70カ国以上・317種類以上のエンティティを検出

コンテキスト分析

周辺テキストにより検出精度を向上

信頼度スコア付与

各検出に信頼度スコア（0.0–1.0）を付与し、人による確認判断を支援

エンティティ分類

検出された項目を種類ごとに分類

人によるレビュー

すべての検出内容を確認し、誤検出を修正・承認後に匿名化を実施

匿名化の適用

置換、マスキング、ハッシュ化、暗号化、編集のいずれかを選択

出力ドキュメント

匿名化済みドキュメントをダウンロード

MCPサーバー：プライバシーファーストAI連携

データがMCPサーバーを通じてAIツールを安全に利用する仕組み

MCPサーバーはプライバシーシールドとして機能し、AIツールからのリクエストを受けてPIIを匿名化、安全なデータのみAIで処理し、必要に応じて元の値を復元します。

AIツールからのリクエスト

AIツール（Cursor、Claude等）がPIIを含むリクエストを送信

MCPサーバーが受信・解析

サーバーがすべてのPIIエンティティを検出

匿名化

PIIをトークン化または編集

AIによる処理

AIは匿名化済みデータのみを受信・処理

レスポンス返却

AIのレスポンスがMCPサーバー経由で返却

デトークン化

オプション：元の値をユーザー向けに復元

MCPサーバーについて詳しく →

さらに詳しく知る

技術

正規表現ベース検出の詳細と、なぜコンプライアンスに最適なのか

アーキテクチャ

システム構成と各コンポーネントの連携

セキュリティ

5層のセキュリティでデータを全工程で保護

よくあるご質問

cloak.businessは検出にAIを使っていますか？

いいえ。検出には決定論的な正規表現パターンとNLPモデル（spaCy、Stanza）を使用しています。これにより、同じ入力には常に同じ出力が得られ、確率的AIアプローチとは異なり100%再現可能です。

なぜAIではなく正規表現パターンなのですか？

正規表現パターンは監査可能・再現可能・コンプライアンス対応です。各パターンが何に一致するかを確認できます。AIベース検出は非決定論的で、実行ごとに結果が異なり、コンプライアンス文書化が困難です。

検出精度はどの程度ですか？

317種類のカスタムパターン認識器（Luhn、IBAN、SSN等のチェックサム検証含む）により、cloak.businessは特にクレジットカード、税ID、国民ID番号などの構造化識別子で、汎用NERモデルより大幅に高い精度を実現しています。

対応言語は？

48言語に専用NLPモデルで対応しています。パターンベース検出（正規表現）は言語に依存せず文字パターンを一致させるため、すべての言語で動作します。

カスタムエンティティパターンを追加できますか？

はい。APIでカスタム認識器定義をサポートしており、独自識別子や社内管理番号、業界特有のデータ形式にも対応できます。

実際に体験する

PII検出・匿名化を無料で体験（1サイクル200トークンまで）。