PII & 数据隐私词汇表
行业内使用的关键隐私、合规和数据保护术语的清晰定义。
隐私与合规术语
个人可识别信息 (PII)
任何可以识别特定个人的数据,例如姓名、电子邮件地址、社会安全号码或电话号码。
匿名化
一种不可逆的过程,通过改变数据使个人无法被直接或间接识别。
伪匿名化
用人工标识符(伪名)替换可识别数据,以便重新识别需要单独持有的密钥。
去标识化
从数据中移除或模糊个人标识符,以便在没有额外信息的情况下无法将其链接到特定个人。
数据主体
由控制者或处理者处理其个人数据的已识别或可识别的自然人。
数据控制者
决定处理个人数据的目的和方式的实体。
数据处理者
代表数据控制者处理个人数据的实体,遵循控制者的指示。
同意
数据主体对其个人数据处理的自由、特定、知情和明确的表示。
合法依据
允许处理个人数据的法律依据,例如同意、合同必要性、法律义务或合法利益。
数据最小化
收集的个人数据应当适当、相关,并限于其预期目的所必需的内容的原则。
删除权
数据主体在个人数据不再必要时要求删除其个人数据的权利,也称为GDPR下的“被遗忘权”。
数据可携带性
数据主体以结构化、常用格式接收其个人数据并将其转移到另一个控制者的权利。
数据保护官 (DPO)
负责监督组织的数据保护策略并确保遵守隐私法规的指定个人。
数据保护影响评估 (DPIA)
识别和最小化项目数据保护风险的过程,根据GDPR对高风险处理活动的要求。
数据泄露
未经授权访问、披露、修改或销毁个人数据的安全事件。
监管框架
GDPR (通用数据保护条例)
自2018年5月起生效的欧盟法规,管理欧洲经济区内个人数据的处理。
CCPA (加利福尼亚消费者隐私法)
自2020年1月起生效的加利福尼亚州法律,赋予消费者对企业收集的个人信息的权利。
HIPAA (健康保险流通与问责法案)
一项美国联邦法律,建立保护敏感患者健康信息的标准,以防止未经同意的披露。
ISO 27001
信息安全管理系统(ISMS)的国际标准,规定建立、实施和持续改进安全控制的要求。
SOC 2 (系统与组织控制2)
服务组织的审计框架,评估与安全、可用性、处理完整性、机密性和隐私相关的控制。
技术术语
命名实体识别 (NER)
一种NLP技术,识别和分类文本中的命名实体,分为预定义类别,如人名、地点和组织。
自然语言处理 (NLP)
一种人工智能分支,使计算机能够理解、解释和生成自然语言。
模式识别器
一种基于规则的检测器,使用正则表达式和上下文线索识别特定数据模式,例如信用卡号码或社会安全号码。
置信度分数
介于0和1之间的数值,表示检测引擎对文本与特定实体类型匹配的确定性。
正则表达式 (Regex)
定义搜索模式的字符序列,通常用于验证和检测结构化数据格式,如电话号码或电子邮件地址。
AES-256-GCM
一种使用256位密钥的认证加密算法,采用Galois/Counter模式,提供加密数据的机密性和完整性验证。
零知识加密
一种加密架构,只有用户持有解密密钥,这意味着即使服务提供商也无法访问明文数据。
令牌化
用非敏感占位符令牌替换敏感数据,这些令牌可以通过安全查找映射回原始数据。
数据掩码
在数据集中模糊特定数据,以便隐藏敏感信息,同时数据仍可用于测试或分析。
编辑
从文档或数据集中永久删除敏感信息,用标记如[REDACTED]替换。
匿名化方法
替换
用相同实体类型的通用占位符替换检测到的PII,例如将“约翰·史密斯”替换为“<PERSON>”。
掩码
通过用掩码符号替换字符部分模糊PII,例如将“123-45-6789”变为“***-**-6789”。
编辑
完全从文本中删除检测到的PII,不留原始值的痕迹。
哈希
将PII转换为固定长度的加密哈希,允许一致替换,同时使反转在计算上不可行。
加密
使用用户持有的密钥通过AES-256-GCM加密转换PII,在需要时启用授权的反转(去匿名化)。
常见问题
匿名化和伪匿名化有什么区别?
匿名化不可逆地移除所有识别信息,因此无法重新识别。伪匿名化用人工标识符替换标识符,同时保持一个单独的密钥,在授权时允许重新识别。在GDPR下,伪匿名化的数据仍被视为个人数据。
为什么PII检测同时使用NLP和模式识别器?
NLP模型检测上下文依赖的实体,如人名和缺乏固定格式的位置。模式识别器使用正则表达式捕捉结构化标识符,如社会安全号码、信用卡号码和电话号码。结合这两种方法最大限度地提高了所有实体类型的检测准确性。
什么是零知识加密,为什么重要?
零知识加密意味着只有您持有解密密钥——服务提供商无法读取您的数据。这很重要,因为即使在服务器泄露的情况下,您的加密数据在没有您的密钥的情况下仍然不可读,提供了最强的数据保护。
可逆加密与哈希有什么区别?
哈希是一种单向转换——一旦数据被哈希,原始数据无法恢复。可逆加密(使用AES-256-GCM)允许持有正确密钥的授权用户解密和恢复原始数据,支持需要去匿名化的工作流程。