Từ điển PII & Quyền riêng tư Dữ liệu
Định nghĩa rõ ràng về các thuật ngữ chính liên quan đến quyền riêng tư, tuân thủ và bảo vệ dữ liệu được sử dụng trong ngành.
Thuật ngữ Quyền riêng tư & Tuân thủ
Thông tin nhận dạng cá nhân (PII)
Bất kỳ dữ liệu nào có thể xác định một cá nhân cụ thể, chẳng hạn như tên, địa chỉ email, số an sinh xã hội hoặc số điện thoại.
Ẩn danh
Quá trình không thể đảo ngược của việc thay đổi dữ liệu để các cá nhân không thể được xác định, trực tiếp hoặc gián tiếp.
Giả danh
Thay thế dữ liệu có thể nhận dạng bằng các định danh nhân tạo (bút danh) để việc tái nhận dạng yêu cầu một khóa được giữ riêng.
Xóa nhận dạng
Loại bỏ hoặc làm mờ các định danh cá nhân khỏi dữ liệu để nó không còn có thể liên kết với một cá nhân cụ thể mà không có thông tin bổ sung.
Chủ thể dữ liệu
Một cá nhân tự nhiên đã được xác định hoặc có thể xác định mà dữ liệu cá nhân của họ được xử lý bởi một người kiểm soát hoặc người xử lý.
Người kiểm soát dữ liệu
Thực thể xác định mục đích và phương tiện xử lý dữ liệu cá nhân.
Người xử lý dữ liệu
Một thực thể xử lý dữ liệu cá nhân thay mặt cho một người kiểm soát dữ liệu, theo hướng dẫn của người kiểm soát.
Sự đồng ý
Một chỉ dẫn rõ ràng, cụ thể, có thông tin và không mơ hồ về sự đồng ý của chủ thể dữ liệu đối với việc xử lý dữ liệu cá nhân của họ.
Cơ sở hợp pháp
Một cơ sở pháp lý theo đó việc xử lý dữ liệu cá nhân được phép, chẳng hạn như sự đồng ý, sự cần thiết của hợp đồng, nghĩa vụ pháp lý hoặc lợi ích hợp pháp.
Giảm thiểu dữ liệu
Nguyên tắc rằng dữ liệu cá nhân được thu thập phải đầy đủ, liên quan và giới hạn ở mức cần thiết cho mục đích dự kiến.
Quyền được xóa
Quyền của chủ thể dữ liệu yêu cầu xóa dữ liệu cá nhân của họ khi không còn cần thiết, còn được gọi là 'quyền được quên' theo GDPR.
Di chuyển dữ liệu
Quyền của các chủ thể dữ liệu nhận dữ liệu cá nhân của họ trong định dạng có cấu trúc, thường được sử dụng và chuyển nó đến một người kiểm soát khác.
Nhân viên bảo vệ dữ liệu (DPO)
Một cá nhân được chỉ định có trách nhiệm giám sát chiến lược bảo vệ dữ liệu của tổ chức và đảm bảo tuân thủ các quy định về quyền riêng tư.
Đánh giá tác động bảo vệ dữ liệu (DPIA)
Một quy trình để xác định và giảm thiểu các rủi ro bảo vệ dữ liệu của một dự án, yêu cầu theo GDPR cho các hoạt động xử lý có rủi ro cao.
Vi phạm dữ liệu
Một sự cố bảo mật mà dữ liệu cá nhân bị truy cập, tiết lộ, thay đổi hoặc phá hủy mà không có sự cho phép.
Khung Quy định
GDPR (Quy định chung về bảo vệ dữ liệu)
Quy định của EU governing việc xử lý dữ liệu cá nhân của các cá nhân trong Khu vực Kinh tế Châu Âu, có hiệu lực từ tháng 5 năm 2018.
CCPA (Đạo luật Quyền riêng tư Người tiêu dùng California)
Một luật tiểu bang California cấp quyền cho người tiêu dùng đối với thông tin cá nhân của họ được thu thập bởi các doanh nghiệp, có hiệu lực từ tháng 1 năm 2020.
HIPAA (Đạo luật về Tính di động và Trách nhiệm Bảo hiểm Y tế)
Một luật liên bang của Mỹ thiết lập các tiêu chuẩn để bảo vệ thông tin sức khỏe nhạy cảm của bệnh nhân khỏi việc tiết lộ mà không có sự đồng ý.
ISO 27001
Một tiêu chuẩn quốc tế cho hệ thống quản lý an ninh thông tin (ISMS), xác định các yêu cầu để thiết lập, thực hiện và cải tiến liên tục các biện pháp kiểm soát an ninh.
SOC 2 (Kiểm soát Hệ thống và Tổ chức 2)
Một khung kiểm toán cho các tổ chức dịch vụ đánh giá các biện pháp kiểm soát liên quan đến an ninh, tính khả dụng, tính toàn vẹn của xử lý, tính bảo mật và quyền riêng tư.
Thuật ngữ Kỹ thuật
Nhận dạng thực thể được đặt tên (NER)
Một kỹ thuật NLP xác định và phân loại các thực thể được đặt tên trong văn bản thành các loại đã được xác định trước như tên người, địa điểm và tổ chức.
Xử lý ngôn ngữ tự nhiên (NLP)
Một nhánh của trí tuệ nhân tạo cho phép máy tính hiểu, diễn giải và tạo ra ngôn ngữ con người.
Nhận diện mẫu
Một bộ phát hiện dựa trên quy tắc sử dụng biểu thức chính quy và manh mối ngữ cảnh để xác định các mẫu dữ liệu cụ thể, chẳng hạn như số thẻ tín dụng hoặc số an sinh xã hội.
Điểm tự tin
Một giá trị số giữa 0 và 1 cho biết mức độ chắc chắn của một động cơ phát hiện rằng một đoạn văn bản khớp với một loại thực thể cụ thể.
Biểu thức chính quy (Regex)
Một chuỗi ký tự xác định một mẫu tìm kiếm, thường được sử dụng để xác thực và phát hiện các định dạng dữ liệu có cấu trúc như số điện thoại hoặc địa chỉ email.
AES-256-GCM
Một thuật toán mã hóa xác thực sử dụng khóa 256-bit với Chế độ Galois/Counter, cung cấp cả xác thực tính bảo mật và tính toàn vẹn của dữ liệu được mã hóa.
Mã hóa không biết
Một kiến trúc mã hóa mà chỉ người dùng nắm giữ khóa giải mã, có nghĩa là ngay cả nhà cung cấp dịch vụ cũng không thể truy cập dữ liệu văn bản.
Token hóa
Thay thế dữ liệu nhạy cảm bằng các mã thông báo không nhạy cảm có thể được ánh xạ trở lại dữ liệu gốc thông qua một tìm kiếm an toàn.
Che giấu dữ liệu
Làm mờ các dữ liệu cụ thể trong một tập dữ liệu để thông tin nhạy cảm bị ẩn trong khi dữ liệu vẫn có thể sử dụng cho việc thử nghiệm hoặc phân tích.
Biên tập
Loại bỏ vĩnh viễn thông tin nhạy cảm khỏi một tài liệu hoặc tập dữ liệu, thay thế nó bằng một ký hiệu như [ĐÃ BIÊN TẬP].
Phương pháp Ẩn danh
Thay thế
Thay thế PII đã phát hiện bằng một mã thông báo chung của cùng loại thực thể, chẳng hạn như thay thế 'John Smith' bằng '<PERSON>'.
Che giấu
Làm mờ một phần PII bằng cách thay thế các ký tự bằng các ký hiệu che giấu, ví dụ như biến '123-45-6789' thành '***-**-6789'.
Biên tập
Hoàn toàn loại bỏ PII đã phát hiện khỏi văn bản, không để lại dấu vết của giá trị gốc.
Băm
Chuyển đổi PII thành một băm mật mã cố định, cho phép thay thế nhất quán trong khi làm cho việc đảo ngược trở nên không khả thi về mặt tính toán.
Mã hóa
Chuyển đổi PII bằng cách sử dụng mã hóa AES-256-GCM với một khóa do người dùng nắm giữ, cho phép đảo ngược có thẩm quyền (giải ẩn danh) khi cần thiết.
Câu hỏi thường gặp
Sự khác biệt giữa ẩn danh và giả danh là gì?
Ẩn danh loại bỏ vĩnh viễn tất cả thông tin nhận dạng nên không thể tái nhận dạng. Giả danh thay thế các định danh bằng các định danh nhân tạo trong khi giữ một khóa riêng cho phép tái nhận dạng khi được ủy quyền. Theo GDPR, dữ liệu đã giả danh vẫn được coi là dữ liệu cá nhân.
Tại sao phát hiện PII sử dụng cả NLP và nhận diện mẫu?
Các mô hình NLP phát hiện các thực thể phụ thuộc vào ngữ cảnh như tên người và địa điểm mà không có định dạng cố định. Các bộ nhận diện mẫu sử dụng biểu thức chính quy để bắt các định danh có cấu trúc như số an sinh xã hội, số thẻ tín dụng và số điện thoại. Kết hợp cả hai phương pháp tối đa hóa độ chính xác phát hiện trên tất cả các loại thực thể.
Mã hóa không biết là gì và tại sao nó quan trọng?
Mã hóa không biết có nghĩa là chỉ bạn nắm giữ khóa giải mã — nhà cung cấp dịch vụ không thể đọc dữ liệu của bạn. Điều này quan trọng vì ngay cả trong trường hợp vi phạm máy chủ, dữ liệu đã mã hóa của bạn vẫn không thể đọc được mà không có khóa của bạn, cung cấp mức bảo vệ dữ liệu mạnh mẽ nhất có thể.
Mã hóa có thể đảo ngược khác với băm như thế nào?
Băm là một chuyển đổi một chiều — một khi dữ liệu đã được băm, giá trị gốc không thể được phục hồi. Mã hóa có thể đảo ngược (sử dụng AES-256-GCM) cho phép người dùng có thẩm quyền với khóa đúng để giải mã và phục hồi dữ liệu gốc, cho phép các quy trình làm việc nơi cần thiết phải giải ẩn danh.