PII & データプライバシー用語集

業界で使用される主要なプライバシー、コンプライアンス、データ保護用語の明確な定義。

プライバシー & コンプライアンス用語

個人を特定できる情報 (PII)

名前、メールアドレス、社会保障番号、電話番号など、特定の個人を識別できるデータ。

匿名化

個人が直接または間接的に識別できないようにデータを変更する不可逆的なプロセス。

擬似匿名化

識別可能なデータを人工的な識別子（擬似名）に置き換え、再識別には別に保持されたキーが必要となる。

識別情報の除去

特定の個人にリンクできなくなるように、データから個人識別子を削除または隠すこと。

データ主体

コントローラーまたはプロセッサーによって処理される個人データを持つ特定されたまたは特定可能な自然人。

データコントローラー

個人データの処理の目的と手段を決定する主体。

データプロセッサー

データコントローラーの指示に従って、データコントローラーのために個人データを処理する主体。

同意

データ主体が自らの個人データの処理に同意することを示す自由に与えられた、特定的で、情報に基づいた、明確な表示。

合法的根拠

同意、契約の必要性、法的義務、または正当な利益など、個人データ処理が許可される法的根拠。

データ最小化

収集される個人データは、目的に必要な範囲で適切かつ関連性があり、制限されるべきという原則。

消去の権利

データ主体がもはや必要でない場合に自らの個人データを削除する権利。GDPRの下で「忘れられる権利」とも呼ばれる。

データポータビリティ

データ主体が自らの個人データを構造化された一般的に使用される形式で受け取り、別のコントローラーに転送する権利。

データ保護責任者 (DPO)

組織のデータ保護戦略を監視し、プライバシー規制の遵守を確保する責任を持つ指定された個人。

データ保護影響評価 (DPIA)

プロジェクトのデータ保護リスクを特定し、最小化するプロセス。高リスクの処理活動に対してGDPRの下で要求される。

データ侵害

個人データが無許可でアクセス、開示、変更、または破壊されるセキュリティインシデント。

シャドウAI

IT 部門の承認を得ずに、従業員による AI ツール (ChatGPT、Copilot、Gemini) の不正使用。シャドウ AI は、ユーザーが顧客記録、患者情報、財務データなどの機密ビジネスデータを AI プロンプトに直接貼り付けるため、PII データ漏洩の主な原因となっています。

データの最小化

GDPR 原則 (Art. 5(1)(c)) は、組織が特定の目的に必要な最小限の個人データのみを収集および処理することを要求します。 AI システムにおけるデータの最小化とは、データが AI パイプラインに入る前に PII を匿名化または削除することを意味し、コンプライアンスリスクと侵害対象領域を削減します。

規制フレームワーク

GDPR (一般データ保護規則)

欧州経済領域内の個人の個人データ処理を規制するEUの規則。2018年5月から施行。

CCPA (カリフォルニア消費者プライバシー法)

企業によって収集された個人情報に対する消費者の権利を付与するカリフォルニア州の法律。2020年1月から施行。

HIPAA (健康保険の携帯性と説明責任に関する法律)

同意なしに敏感な患者の健康情報を保護する基準を確立する米国の連邦法。

ISO 27001

情報セキュリティ管理システム（ISMS）に関する国際標準で、セキュリティコントロールの確立、実施、継続的改善の要件を規定。

SOC 2 (システムおよび組織コントロール 2)

サービス組織の監査フレームワークで、セキュリティ、可用性、処理の整合性、機密性、プライバシーに関連するコントロールを評価。

EU AI Act

人工知能に関する欧州連合の規制 (2026 年 8 月から施行)。高リスク AI システムでは、個人データの最小化、文書化、DPIA などのデータガバナンス対策を実装する必要があります。個人に関する意思決定に AI を使用する組織は、トレーニングデータが匿名化または仮名化されていることを確認する必要があります。

ISO 42001

AI 管理システム (AIMS) の国際標準。2023 年に発行。データ品質、バイアス制御、プライバシー保護など、責任ある AI の開発と展開のためのフレームワークを提供します。個人データを使用して AI システムを運用している組織では、ISO 27001 と組み合わせて使用されることがよくあります。

インド DPDP Act

インドのデジタル個人データ保護法 (2023 年)、2025 年から施行。インド居住者の個人データの処理、機密データのデータローカリゼーション、72 時間以内の侵害通知について明示的な同意が必要です。インド国民のデータを処理する世界中の組織に適用されます。

技術用語

固有表現認識 (NER)

テキスト内の固有表現を特定し、分類するNLP技術。人名、場所、組織などの事前定義されたカテゴリに分類。

自然言語処理 (NLP)

コンピュータが人間の言語を理解、解釈、生成できるようにする人工知能の一分野。

パターン認識器

特定のデータパターン（クレジットカード番号や社会保障番号など）を特定するために正規表現と文脈手がかりを使用するルールベースの検出器。

信頼度スコア

特定のエンティティタイプに一致するテキストの検出エンジンの確信度を示す0から1の間の数値。

正規表現 (Regex)

検索パターンを定義する文字のシーケンス。電話番号やメールアドレスなどの構造化データ形式を検証および検出するために一般的に使用される。

AES-256-GCM

256ビットキーを使用した認証暗号化アルゴリズムで、Galois/Counter Modeを使用し、暗号化データの機密性と整合性の検証を提供。

ゼロ知識暗号化

ユーザーのみが復号キーを保持する暗号化アーキテクチャで、サービスプロバイダーでさえプレーンテキストデータにアクセスできない。

トークン化

敏感なデータを非敏感なプレースホルダートークンに置き換え、元のデータに安全に戻せるようにする。

データマスキング

データセット内の特定のデータを隠し、敏感な情報を隠しながらデータをテストや分析に使用できるようにする。

赤削除

文書またはデータセットから敏感な情報を永久に削除し、[REDACTED]などのマーカーで置き換えること。

合成データ

実際の記録を含まずに実際のデータを統計的に模倣した AI 生成データ。匿名化との比較: 匿名化されたデータは、下流の ML の分析精度をより高く保ちます。合成データでは再識別のリスクは排除されますが、統計的なドリフトが生じます。コンプライアンス監査で元の記録が必要になる可能性がある場合は、可逆的な匿名化が推奨されます。

LLM プロンプトインジェクション

悪意のある入力によって大規模な言語モデルを操作して、指示を無視したり、機密情報を漏洩させたりする攻撃手法。 PII 保護コンテキストでは、プロンプトインジェクションにより AI モデルが匿名化されたデータパターンやユーザー情報を明らかにする可能性があります。 LLM に到達する前に入力を事前に匿名化することで、攻撃対象領域が減少します。

プライバシーバイデザイン

GDPR Art. 25 原則では、データ保護を後から追加するのではなく、最初からシステムに組み込むことが求められます。 AI システムの場合、プライバシーバイデザインとは、データが AI パイプラインに入る前に匿名化し、ゼロ知識暗号化を実装し、データ保持を最小限に抑えることを意味します。

匿名化手法

置換

検出されたPIIを同じエンティティタイプの一般的なプレースホルダーに置き換える。例えば、「ジョン・スミス」を「<PERSON>」に置き換える。

マスク

PIIの一部をマスキング記号で置き換えて部分的に隠す。例えば、「123-45-6789」を「***-**-6789」に変える。

赤削除

検出されたPIIをテキストから完全に削除し、元の値の痕跡を残さない。

ハッシュ

PIIを固定長の暗号学的ハッシュに変換し、一貫した置換を可能にし、逆算を計算上不可能にする。

暗号化

ユーザーが保持するキーを使用してPIIをAES-256-GCM暗号化で変換し、必要に応じて認可された逆変換（非匿名化）を可能にする。

よくある質問

匿名化と擬似匿名化の違いは何ですか？

匿名化は、再識別が不可能になるようにすべての識別情報を不可逆的に削除します。擬似匿名化は、識別子を人工的なものに置き換え、再識別を許可するために別のキーを保持します。GDPRの下では、擬似匿名化されたデータも個人データと見なされます。

なぜPII検出はNLPとパターン認識器の両方を使用するのですか？

NLPモデルは、固定フォーマットを持たない人名や場所などの文脈依存のエンティティを検出します。パターン認識器は、社会保障番号、クレジットカード番号、電話番号などの構造化された識別子を捕捉するために正規表現を使用します。両方のアプローチを組み合わせることで、すべてのエンティティタイプに対する検出精度が最大化されます。

ゼロ知識暗号化とは何ですか、そしてなぜ重要ですか？

ゼロ知識暗号化とは、復号キーを持つのはあなたのみであり、サービスプロバイダーはあなたのデータを読むことができないことを意味します。これは、サーバー侵害が発生した場合でも、あなたの暗号化されたデータはあなたのキーなしでは読み取れないため、最も強力なデータ保護を提供します。

可逆暗号化はハッシュ化とどのように異なりますか？

ハッシュ化は一方向の変換です。データがハッシュ化されると、元のデータは回復できません。可逆暗号化（AES-256-GCMを使用）は、正しいキーを持つ認可されたユーザーが復号して元のデータを回復できるようにし、非匿名化が必要なワークフローを可能にします。

敏感なデータを今すぐ保護

317以上のエンティティタイプ、48言語、ゼロ知識暗号化でPIIの匿名化を開始しましょう。