Từ điển PII & Quyền riêng tư Dữ liệu

Định nghĩa rõ ràng về các thuật ngữ chính liên quan đến quyền riêng tư, tuân thủ và bảo vệ dữ liệu được sử dụng trong ngành.

Thuật ngữ Quyền riêng tư & Tuân thủ

Thông tin nhận dạng cá nhân (PII)

Bất kỳ dữ liệu nào có thể xác định một cá nhân cụ thể, chẳng hạn như tên, địa chỉ email, số an sinh xã hội hoặc số điện thoại.

Ẩn danh

Quá trình không thể đảo ngược của việc thay đổi dữ liệu để các cá nhân không thể được xác định, trực tiếp hoặc gián tiếp.

Giả danh

Thay thế dữ liệu có thể nhận dạng bằng các định danh nhân tạo (bút danh) để việc tái nhận dạng yêu cầu một khóa được giữ riêng.

Xóa nhận dạng

Loại bỏ hoặc làm mờ các định danh cá nhân khỏi dữ liệu để nó không còn có thể liên kết với một cá nhân cụ thể mà không có thông tin bổ sung.

Chủ thể dữ liệu

Một cá nhân tự nhiên đã được xác định hoặc có thể xác định mà dữ liệu cá nhân của họ được xử lý bởi một người kiểm soát hoặc người xử lý.

Người kiểm soát dữ liệu

Thực thể xác định mục đích và phương tiện xử lý dữ liệu cá nhân.

Người xử lý dữ liệu

Một thực thể xử lý dữ liệu cá nhân thay mặt cho một người kiểm soát dữ liệu, theo hướng dẫn của người kiểm soát.

Sự đồng ý

Một chỉ dẫn rõ ràng, cụ thể, có thông tin và không mơ hồ về sự đồng ý của chủ thể dữ liệu đối với việc xử lý dữ liệu cá nhân của họ.

Cơ sở hợp pháp

Một cơ sở pháp lý theo đó việc xử lý dữ liệu cá nhân được phép, chẳng hạn như sự đồng ý, sự cần thiết của hợp đồng, nghĩa vụ pháp lý hoặc lợi ích hợp pháp.

Giảm thiểu dữ liệu

Nguyên tắc rằng dữ liệu cá nhân được thu thập phải đầy đủ, liên quan và giới hạn ở mức cần thiết cho mục đích dự kiến.

Quyền được xóa

Quyền của chủ thể dữ liệu yêu cầu xóa dữ liệu cá nhân của họ khi không còn cần thiết, còn được gọi là 'quyền được quên' theo GDPR.

Di chuyển dữ liệu

Quyền của các chủ thể dữ liệu nhận dữ liệu cá nhân của họ trong định dạng có cấu trúc, thường được sử dụng và chuyển nó đến một người kiểm soát khác.

Nhân viên bảo vệ dữ liệu (DPO)

Một cá nhân được chỉ định có trách nhiệm giám sát chiến lược bảo vệ dữ liệu của tổ chức và đảm bảo tuân thủ các quy định về quyền riêng tư.

Đánh giá tác động bảo vệ dữ liệu (DPIA)

Một quy trình để xác định và giảm thiểu các rủi ro bảo vệ dữ liệu của một dự án, yêu cầu theo GDPR cho các hoạt động xử lý có rủi ro cao.

Vi phạm dữ liệu

Một sự cố bảo mật mà dữ liệu cá nhân bị truy cập, tiết lộ, thay đổi hoặc phá hủy mà không có sự cho phép.

AI bóng tối

Nhân viên sử dụng trái phép các công cụ AI (ChatGPT, Copilot, Gemini) mà không có sự chấp thuận của bộ phận CNTT. Shadow AI là nguyên nhân hàng đầu gây rò rỉ dữ liệu PII, khi người dùng dán dữ liệu kinh doanh nhạy cảm — hồ sơ khách hàng, thông tin bệnh nhân, dữ liệu tài chính — trực tiếp vào lời nhắc của AI.

Giảm thiểu dữ liệu

Nguyên tắc GDPR (Art. 5(1)(c)) yêu cầu các tổ chức chỉ thu thập và xử lý dữ liệu cá nhân tối thiểu cần thiết cho một mục đích cụ thể. Trong các hệ thống AI, giảm thiểu dữ liệu có nghĩa là ẩn danh hoặc loại bỏ PII trước khi dữ liệu đi vào đường dẫn AI, giảm rủi ro tuân thủ và bề mặt vi phạm.

Khung Quy định

GDPR (Quy định chung về bảo vệ dữ liệu)

Quy định của EU governing việc xử lý dữ liệu cá nhân của các cá nhân trong Khu vực Kinh tế Châu Âu, có hiệu lực từ tháng 5 năm 2018.

CCPA (Đạo luật Quyền riêng tư Người tiêu dùng California)

Một luật tiểu bang California cấp quyền cho người tiêu dùng đối với thông tin cá nhân của họ được thu thập bởi các doanh nghiệp, có hiệu lực từ tháng 1 năm 2020.

HIPAA (Đạo luật về Tính di động và Trách nhiệm Bảo hiểm Y tế)

Một luật liên bang của Mỹ thiết lập các tiêu chuẩn để bảo vệ thông tin sức khỏe nhạy cảm của bệnh nhân khỏi việc tiết lộ mà không có sự đồng ý.

ISO 27001

Một tiêu chuẩn quốc tế cho hệ thống quản lý an ninh thông tin (ISMS), xác định các yêu cầu để thiết lập, thực hiện và cải tiến liên tục các biện pháp kiểm soát an ninh.

SOC 2 (Kiểm soát Hệ thống và Tổ chức 2)

Một khung kiểm toán cho các tổ chức dịch vụ đánh giá các biện pháp kiểm soát liên quan đến an ninh, tính khả dụng, tính toàn vẹn của xử lý, tính bảo mật và quyền riêng tư.

EU AI Act

Quy định của Liên minh Châu Âu về trí tuệ nhân tạo (có hiệu lực từ tháng 8 năm 2026). Các hệ thống AI có rủi ro cao phải triển khai các biện pháp quản trị dữ liệu bao gồm giảm thiểu dữ liệu cá nhân, tài liệu và PPIA. Các tổ chức sử dụng AI để ra quyết định đối với các cá nhân phải đảm bảo dữ liệu đào tạo được ẩn danh hoặc bút danh.

ISO 42001

Tiêu chuẩn quốc tế về Hệ thống quản lý AI (AIMS), được xuất bản vào năm 2023. Cung cấp khuôn khổ để phát triển và triển khai AI có trách nhiệm, bao gồm chất lượng dữ liệu, kiểm soát sai lệch và các biện pháp bảo vệ quyền riêng tư. Thường được ghép nối với ISO 27001 dành cho các tổ chức vận hành hệ thống AI có dữ liệu cá nhân.

Ấn Độ DPDP Act

Đạo luật bảo vệ dữ liệu cá nhân kỹ thuật số của Ấn Độ (2023), có hiệu lực từ năm 2025. Yêu cầu có sự đồng ý rõ ràng để xử lý dữ liệu cá nhân của cư dân Ấn Độ, bản địa hóa dữ liệu cho dữ liệu nhạy cảm và thông báo vi phạm trong vòng 72 giờ. Áp dụng cho các tổ chức trên toàn cầu xử lý dữ liệu của công dân Ấn Độ.

Thuật ngữ Kỹ thuật

Nhận dạng thực thể được đặt tên (NER)

Một kỹ thuật NLP xác định và phân loại các thực thể được đặt tên trong văn bản thành các loại đã được xác định trước như tên người, địa điểm và tổ chức.

Xử lý ngôn ngữ tự nhiên (NLP)

Một nhánh của trí tuệ nhân tạo cho phép máy tính hiểu, diễn giải và tạo ra ngôn ngữ con người.

Nhận diện mẫu

Một bộ phát hiện dựa trên quy tắc sử dụng biểu thức chính quy và manh mối ngữ cảnh để xác định các mẫu dữ liệu cụ thể, chẳng hạn như số thẻ tín dụng hoặc số an sinh xã hội.

Điểm tự tin

Một giá trị số giữa 0 và 1 cho biết mức độ chắc chắn của một động cơ phát hiện rằng một đoạn văn bản khớp với một loại thực thể cụ thể.

Biểu thức chính quy (Regex)

Một chuỗi ký tự xác định một mẫu tìm kiếm, thường được sử dụng để xác thực và phát hiện các định dạng dữ liệu có cấu trúc như số điện thoại hoặc địa chỉ email.

AES-256-GCM

Một thuật toán mã hóa xác thực sử dụng khóa 256-bit với Chế độ Galois/Counter, cung cấp cả xác thực tính bảo mật và tính toàn vẹn của dữ liệu được mã hóa.

Mã hóa không biết

Một kiến trúc mã hóa mà chỉ người dùng nắm giữ khóa giải mã, có nghĩa là ngay cả nhà cung cấp dịch vụ cũng không thể truy cập dữ liệu văn bản.

Token hóa

Thay thế dữ liệu nhạy cảm bằng các mã thông báo không nhạy cảm có thể được ánh xạ trở lại dữ liệu gốc thông qua một tìm kiếm an toàn.

Che giấu dữ liệu

Làm mờ các dữ liệu cụ thể trong một tập dữ liệu để thông tin nhạy cảm bị ẩn trong khi dữ liệu vẫn có thể sử dụng cho việc thử nghiệm hoặc phân tích.

Biên tập

Loại bỏ vĩnh viễn thông tin nhạy cảm khỏi một tài liệu hoặc tập dữ liệu, thay thế nó bằng một ký hiệu như [ĐÃ BIÊN TẬP].

Dữ liệu tổng hợp

Dữ liệu do AI tạo ra bắt chước về mặt thống kê dữ liệu thực mà không chứa các bản ghi thực tế. So với ẩn danh: dữ liệu ẩn danh duy trì độ chính xác phân tích cao hơn cho ML xuôi dòng; dữ liệu tổng hợp giúp loại bỏ rủi ro tái nhận dạng nhưng gây ra sai lệch thống kê. Việc ẩn danh có thể đảo ngược được ưu tiên khi có thể cần hồ sơ gốc cho việc kiểm tra tuân thủ.

Tiêm nhắc LLM

Một kỹ thuật tấn công trong đó đầu vào độc hại thao túng một mô hình ngôn ngữ lớn để bỏ qua các hướng dẫn hoặc rò rỉ thông tin nhạy cảm. Trong bối cảnh bảo vệ PII, việc chèn kịp thời có thể khiến mô hình AI tiết lộ các mẫu dữ liệu ẩn danh hoặc thông tin người dùng. Việc ẩn danh trước các đầu vào trước khi chúng tiếp cận LLM sẽ làm giảm bề mặt tấn công.

Quyền riêng tư theo thiết kế

Nguyên tắc GDPR Art. 25 yêu cầu tính năng bảo vệ dữ liệu phải được tích hợp vào hệ thống ngay từ đầu thay vì bổ sung thêm sau đó. Đối với các hệ thống AI, quyền riêng tư theo thiết kế có nghĩa là ẩn danh dữ liệu trước khi dữ liệu đi vào quy trình AI, triển khai mã hóa không chứa kiến thức và giảm thiểu việc lưu giữ dữ liệu.

Phương pháp Ẩn danh

Thay thế

Thay thế PII đã phát hiện bằng một mã thông báo chung của cùng loại thực thể, chẳng hạn như thay thế 'John Smith' bằng '<PERSON>'.

Che giấu

Làm mờ một phần PII bằng cách thay thế các ký tự bằng các ký hiệu che giấu, ví dụ như biến '123-45-6789' thành '***-**-6789'.

Biên tập

Hoàn toàn loại bỏ PII đã phát hiện khỏi văn bản, không để lại dấu vết của giá trị gốc.

Băm

Chuyển đổi PII thành một băm mật mã cố định, cho phép thay thế nhất quán trong khi làm cho việc đảo ngược trở nên không khả thi về mặt tính toán.

Mã hóa

Chuyển đổi PII bằng cách sử dụng mã hóa AES-256-GCM với một khóa do người dùng nắm giữ, cho phép đảo ngược có thẩm quyền (giải ẩn danh) khi cần thiết.

Câu hỏi thường gặp

Sự khác biệt giữa ẩn danh và giả danh là gì?

Ẩn danh loại bỏ vĩnh viễn tất cả thông tin nhận dạng nên không thể tái nhận dạng. Giả danh thay thế các định danh bằng các định danh nhân tạo trong khi giữ một khóa riêng cho phép tái nhận dạng khi được ủy quyền. Theo GDPR, dữ liệu đã giả danh vẫn được coi là dữ liệu cá nhân.

Tại sao phát hiện PII sử dụng cả NLP và nhận diện mẫu?

Các mô hình NLP phát hiện các thực thể phụ thuộc vào ngữ cảnh như tên người và địa điểm mà không có định dạng cố định. Các bộ nhận diện mẫu sử dụng biểu thức chính quy để bắt các định danh có cấu trúc như số an sinh xã hội, số thẻ tín dụng và số điện thoại. Kết hợp cả hai phương pháp tối đa hóa độ chính xác phát hiện trên tất cả các loại thực thể.

Mã hóa không biết là gì và tại sao nó quan trọng?

Mã hóa không biết có nghĩa là chỉ bạn nắm giữ khóa giải mã — nhà cung cấp dịch vụ không thể đọc dữ liệu của bạn. Điều này quan trọng vì ngay cả trong trường hợp vi phạm máy chủ, dữ liệu đã mã hóa của bạn vẫn không thể đọc được mà không có khóa của bạn, cung cấp mức bảo vệ dữ liệu mạnh mẽ nhất có thể.

Mã hóa có thể đảo ngược khác với băm như thế nào?

Băm là một chuyển đổi một chiều — một khi dữ liệu đã được băm, giá trị gốc không thể được phục hồi. Mã hóa có thể đảo ngược (sử dụng AES-256-GCM) cho phép người dùng có thẩm quyền với khóa đúng để giải mã và phục hồi dữ liệu gốc, cho phép các quy trình làm việc nơi cần thiết phải giải ẩn danh.

Bảo vệ Dữ liệu Nhạy cảm Ngày hôm nay

Bắt đầu ẩn danh PII với 317 loại thực thể, 48 ngôn ngữ và mã hóa không biết.