48言語でのPII検出

48言語でのPIIを検出し、匿名化します。アラビア語、ヘブライ語、ペルシャ語、ウルドゥー語の完全なRTLサポート。

48言語に対応

プラットフォーム全体での完全なPII検出と匿名化

spaCy NLP - ローカル実行(25言語)

英語ドイツ語スペイン語フランス語イタリア語ポルトガル語オランダ語ポーランド語ロシア語日本語中国語韓国語ルーマニア語ギリシャ語クロアチア語スロベニア語マケドニア語スウェーデン語デンマーク語ノルウェー語フィンランド語ウクライナ語リトアニア語カタロニア語トルコ語

Stanza NER - ローカル実行(7言語)

ブルガリア語ハンガリー語ヘブライ語(RTL)ベトナム語アフリカーンス語アルメニア語バスク語

XLM-RoBERTa Transformer - ローカル実行(16言語)

アラビア語(RTL)ヒンディー語チェコ語スロバキア語インドネシア語タイ語ペルシャ語(RTL)セルビア語ラトビア語エストニア語マレー語ベンガル語ウルドゥー語(RTL)スワヒリ語タガログ語アイスランド語

RTLサポート

アラビア語ヘブライ語ペルシャ語ウルドゥー語

高度なNLPによる強化

最大の言語カバレッジを実現するための3つのNLPエンジン

  • メモリ効率のための遅延ロードモデル(最大5つのキャッシュ)
  • 自動言語検出
  • 混合言語文書処理
  • 言語固有のエンティティパターン

国別フォーマット

各国および地域固有のフォーマットでPIIを検出します。

ヨーロッパのフォーマット

  • ドイツ: Personalausweis, Steuer-ID, Reisepass
  • フランス: NIR, Carte Nationale, Permis
  • イタリア: Codice Fiscale, Carta d'Identità
  • スペイン: DNI, NIE, NIF
  • オランダ: BSN, Rijbewijs
  • ポーランド: PESEL, NIP, REGON

アジア太平洋のフォーマット

  • 日本: マイナンバー, パスポート
  • インド: Aadhaar, PAN, GSTIN, 車両登録
  • タイ: 国民ID, 税ID, パスポート
  • インドネシア: NIK, NPWP, パスポート
  • ベトナム: CCCD, 税コード, パスポート
  • マレーシア: MyKad, 税ID, パスポート

アメリカ、アフリカ、中東

  • アメリカ: SSN, 運転免許証, パスポート
  • イギリス: 国民保険, NHS番号
  • カナダ: SIN, 運転免許証
  • オーストラリア: TFN, メディケア, ABN
  • ケニア: 国民ID, KRA PIN, パスポート
  • 南アフリカ: ID番号, 税番号, パスポート

よくある質問

cloak.businessはどの48言語をサポートしていますか?

cloak.businessは、アフリカーンス語、アラビア語、アルメニア語、バスク語、ベンガル語、ブルガリア語、カタロニア語、中国語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ヘブライ語、ヒンディー語、ハンガリー語、アイスランド語、インドネシア語、イタリア語、日本語、韓国語、ラトビア語、リトアニア語、マケドニア語、マレー語、ノルウェー語、ペルシャ語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、セルビア語、スロバキア語、スロベニア語、スペイン語、スワヒリ語、スウェーデン語、タガログ語、タイ語、トルコ語、ウクライナ語、ウルドゥー語、ベトナム語をサポートしています。アラビア語、ヘブライ語、ペルシャ語、ウルドゥー語には完全なRTLサポートがあります。

PII検出はすべての言語で同じように機能しますか?

検出は2つのアプローチを使用します:構造化データ(ID、電話番号、税番号)のための正規表現ベースのパターンマッチングと、非構造化エンティティ(名前、場所)のためのNLPモデルです。パターンベースの検出はすべての48言語をカバーします。NLPベースの検出は、訓練されたモデルがある言語で利用可能です。

国別のIDフォーマットはどのように処理されますか?

cloak.businessには70以上の国をカバーする317のパターン認識器が含まれています。各認識器は、その国の国民ID、税番号、健康識別子、金融データの特定のフォーマット、チェックサム、構造を検証します。

同じ文書内で複数の言語のPIIを検出できますか?

はい。cloak.businessは多言語文書を処理し、単一のリクエストで異なる言語のPIIを検出できます。システムは自動的に適用すべき言語パターンを識別します。

新しい言語やエンティティタイプのサポートを追加するにはどうすればよいですか?

正規表現パターンや拒否リストを使用してカスタムエンティティ認識器を作成できます。これにより、ドメイン固有の識別子を追加したり、組み込みの認識器ライブラリにまだ含まれていない追加フォーマットへのカバレッジを拡張したりできます。

Is This Right for You?

Best For

  • Global enterprises with multilingual document workflows requiring consistent GDPR and privacy compliance
  • Translation and localization agencies that process PII-containing content in multiple languages
  • Government agencies and NGOs processing citizen data across EU, APAC, and LATAM jurisdictions
  • Legal discovery and compliance teams working with 48 supported language jurisdictions

Not Ideal For

  • Monolingual English-only workflows — the standard plan is sufficient without the overhead of language detection
  • Languages not in the supported 48 — check the entity catalog for specific language and entity coverage
  • Real-time sub-10ms latency requirements — language detection adds processing overhead over English-only

どの言語でも匿名化

200個の無料トークンで始めましょう。48言語すべてに対応。