PII & データプライバシー用語集
業界で使用される主要なプライバシー、コンプライアンス、データ保護用語の明確な定義。
プライバシー & コンプライアンス用語
個人を特定できる情報 (PII)
名前、メールアドレス、社会保障番号、電話番号など、特定の個人を識別できるデータ。
匿名化
個人が直接または間接的に識別できないようにデータを変更する不可逆的なプロセス。
擬似匿名化
識別可能なデータを人工的な識別子(擬似名)に置き換え、再識別には別に保持されたキーが必要となる。
識別情報の除去
特定の個人にリンクできなくなるように、データから個人識別子を削除または隠すこと。
データ主体
コントローラーまたはプロセッサーによって処理される個人データを持つ特定されたまたは特定可能な自然人。
データコントローラー
個人データの処理の目的と手段を決定する主体。
データプロセッサー
データコントローラーの指示に従って、データコントローラーのために個人データを処理する主体。
同意
データ主体が自らの個人データの処理に同意することを示す自由に与えられた、特定的で、情報に基づいた、明確な表示。
合法的根拠
同意、契約の必要性、法的義務、または正当な利益など、個人データ処理が許可される法的根拠。
データ最小化
収集される個人データは、目的に必要な範囲で適切かつ関連性があり、制限されるべきという原則。
消去の権利
データ主体がもはや必要でない場合に自らの個人データを削除する権利。GDPRの下で「忘れられる権利」とも呼ばれる。
データポータビリティ
データ主体が自らの個人データを構造化された一般的に使用される形式で受け取り、別のコントローラーに転送する権利。
データ保護責任者 (DPO)
組織のデータ保護戦略を監視し、プライバシー規制の遵守を確保する責任を持つ指定された個人。
データ保護影響評価 (DPIA)
プロジェクトのデータ保護リスクを特定し、最小化するプロセス。高リスクの処理活動に対してGDPRの下で要求される。
データ侵害
個人データが無許可でアクセス、開示、変更、または破壊されるセキュリティインシデント。
規制フレームワーク
GDPR (一般データ保護規則)
欧州経済領域内の個人の個人データ処理を規制するEUの規則。2018年5月から施行。
CCPA (カリフォルニア消費者プライバシー法)
企業によって収集された個人情報に対する消費者の権利を付与するカリフォルニア州の法律。2020年1月から施行。
HIPAA (健康保険の携帯性と説明責任に関する法律)
同意なしに敏感な患者の健康情報を保護する基準を確立する米国の連邦法。
ISO 27001
情報セキュリティ管理システム(ISMS)に関する国際標準で、セキュリティコントロールの確立、実施、継続的改善の要件を規定。
SOC 2 (システムおよび組織コントロール 2)
サービス組織の監査フレームワークで、セキュリティ、可用性、処理の整合性、機密性、プライバシーに関連するコントロールを評価。
技術用語
固有表現認識 (NER)
テキスト内の固有表現を特定し、分類するNLP技術。人名、場所、組織などの事前定義されたカテゴリに分類。
自然言語処理 (NLP)
コンピュータが人間の言語を理解、解釈、生成できるようにする人工知能の一分野。
パターン認識器
特定のデータパターン(クレジットカード番号や社会保障番号など)を特定するために正規表現と文脈手がかりを使用するルールベースの検出器。
信頼度スコア
特定のエンティティタイプに一致するテキストの検出エンジンの確信度を示す0から1の間の数値。
正規表現 (Regex)
検索パターンを定義する文字のシーケンス。電話番号やメールアドレスなどの構造化データ形式を検証および検出するために一般的に使用される。
AES-256-GCM
256ビットキーを使用した認証暗号化アルゴリズムで、Galois/Counter Modeを使用し、暗号化データの機密性と整合性の検証を提供。
ゼロ知識暗号化
ユーザーのみが復号キーを保持する暗号化アーキテクチャで、サービスプロバイダーでさえプレーンテキストデータにアクセスできない。
トークン化
敏感なデータを非敏感なプレースホルダートークンに置き換え、元のデータに安全に戻せるようにする。
データマスキング
データセット内の特定のデータを隠し、敏感な情報を隠しながらデータをテストや分析に使用できるようにする。
赤削除
文書またはデータセットから敏感な情報を永久に削除し、[REDACTED]などのマーカーで置き換えること。
匿名化手法
置換
検出されたPIIを同じエンティティタイプの一般的なプレースホルダーに置き換える。例えば、「ジョン・スミス」を「<PERSON>」に置き換える。
マスク
PIIの一部をマスキング記号で置き換えて部分的に隠す。例えば、「123-45-6789」を「***-**-6789」に変える。
赤削除
検出されたPIIをテキストから完全に削除し、元の値の痕跡を残さない。
ハッシュ
PIIを固定長の暗号学的ハッシュに変換し、一貫した置換を可能にし、逆算を計算上不可能にする。
暗号化
ユーザーが保持するキーを使用してPIIをAES-256-GCM暗号化で変換し、必要に応じて認可された逆変換(非匿名化)を可能にする。
よくある質問
匿名化と擬似匿名化の違いは何ですか?
匿名化は、再識別が不可能になるようにすべての識別情報を不可逆的に削除します。擬似匿名化は、識別子を人工的なものに置き換え、再識別を許可するために別のキーを保持します。GDPRの下では、擬似匿名化されたデータも個人データと見なされます。
なぜPII検出はNLPとパターン認識器の両方を使用するのですか?
NLPモデルは、固定フォーマットを持たない人名や場所などの文脈依存のエンティティを検出します。パターン認識器は、社会保障番号、クレジットカード番号、電話番号などの構造化された識別子を捕捉するために正規表現を使用します。両方のアプローチを組み合わせることで、すべてのエンティティタイプに対する検出精度が最大化されます。
ゼロ知識暗号化とは何ですか、そしてなぜ重要ですか?
ゼロ知識暗号化とは、復号キーを持つのはあなたのみであり、サービスプロバイダーはあなたのデータを読むことができないことを意味します。これは、サーバー侵害が発生した場合でも、あなたの暗号化されたデータはあなたのキーなしでは読み取れないため、最も強力なデータ保護を提供します。
可逆暗号化はハッシュ化とどのように異なりますか?
ハッシュ化は一方向の変換です。データがハッシュ化されると、元のデータは回復できません。可逆暗号化(AES-256-GCMを使用)は、正しいキーを持つ認可されたユーザーが復号して元のデータを回復できるようにし、非匿名化が必要なワークフローを可能にします。