คำศัพท์เกี่ยวกับ PII & ความเป็นส่วนตัวของข้อมูล

คำจำกัดความที่ชัดเจนของคำสำคัญเกี่ยวกับความเป็นส่วนตัว, การปฏิบัติตามกฎหมาย, และการปกป้องข้อมูลที่ใช้ในอุตสาหกรรม.

คำศัพท์เกี่ยวกับความเป็นส่วนตัว & การปฏิบัติตามกฎหมาย

ข้อมูลที่สามารถระบุตัวตนได้ (PII)

ข้อมูลใด ๆ ที่สามารถระบุบุคคลเฉพาะได้ เช่น ชื่อ, ที่อยู่อีเมล, หมายเลขประกันสังคม, หรือหมายเลขโทรศัพท์.

การทำให้ไม่สามารถระบุได้

กระบวนการที่ไม่สามารถย้อนกลับได้ในการเปลี่ยนแปลงข้อมูลเพื่อให้ไม่สามารถระบุบุคคลได้โดยตรงหรือโดยอ้อม.

การทำให้เป็นนามแฝง

การแทนที่ข้อมูลที่สามารถระบุได้ด้วยตัวระบุเทียม (นามแฝง) เพื่อให้การระบุตัวตนใหม่ต้องการกุญแจที่เก็บแยกต่างหาก.

การทำให้ไม่สามารถระบุได้

การลบหรือทำให้ไม่ชัดเจนตัวระบุส่วนบุคคลจากข้อมูลเพื่อไม่ให้สามารถเชื่อมโยงกับบุคคลเฉพาะได้โดยไม่มีข้อมูลเพิ่มเติม.

เจ้าของข้อมูล

บุคคลธรรมชาติที่ถูกระบุหรือสามารถระบุได้ซึ่งข้อมูลส่วนบุคคลของเขาถูกประมวลผลโดยผู้ควบคุมหรือผู้ประมวลผล.

ผู้ควบคุมข้อมูล

หน่วยงานที่กำหนดวัตถุประสงค์และวิธีการในการประมวลผลข้อมูลส่วนบุคคล.

ผู้ประมวลผลข้อมูล

หน่วยงานที่ประมวลผลข้อมูลส่วนบุคคลในนามของผู้ควบคุมข้อมูลตามคำสั่งของผู้ควบคุม.

ความยินยอม

การแสดงความเห็นชอบที่ให้โดยเสรี, ชัดเจน, มีข้อมูล, และไม่คลุมเครือจากเจ้าของข้อมูลในการประมวลผลข้อมูลส่วนบุคคลของเขา.

ฐานทางกฎหมาย

พื้นฐานทางกฎหมายที่อนุญาตให้มีการประมวลผลข้อมูลส่วนบุคคล เช่น ความยินยอม, ความจำเป็นตามสัญญา, ข้อผูกพันทางกฎหมาย, หรือผลประโยชน์ที่ชอบด้วยกฎหมาย.

การลดข้อมูล

หลักการที่ข้อมูลส่วนบุคคลที่เก็บรวบรวมควรมีความเหมาะสม, เกี่ยวข้อง, และจำกัดอยู่ในสิ่งที่จำเป็นสำหรับวัตถุประสงค์ที่ตั้งใจ.

สิทธิในการลบข้อมูล

สิทธิของเจ้าของข้อมูลในการให้ลบข้อมูลส่วนบุคคลของเขาเมื่อไม่จำเป็นอีกต่อไป ซึ่งเรียกว่า 'สิทธิในการถูกลืม' ตาม GDPR.

การพกพาข้อมูล

สิทธิของเจ้าของข้อมูลในการรับข้อมูลส่วนบุคคลในรูปแบบที่มีโครงสร้างและใช้กันทั่วไปและโอนย้ายไปยังผู้ควบคุมอื่น.

เจ้าหน้าที่ปกป้องข้อมูล (DPO)

บุคคลที่ได้รับการแต่งตั้งให้รับผิดชอบในการดูแลกลยุทธ์การปกป้องข้อมูลขององค์กรและการปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัว.

การประเมินผลกระทบการปกป้องข้อมูล (DPIA)

กระบวนการในการระบุและลดความเสี่ยงด้านการปกป้องข้อมูลของโครงการ ซึ่งจำเป็นต้องมีภายใต้ GDPR สำหรับกิจกรรมการประมวลผลที่มีความเสี่ยงสูง.

การละเมิดข้อมูล

เหตุการณ์ด้านความปลอดภัยที่ข้อมูลส่วนบุคคลถูกเข้าถึง, เปิดเผย, เปลี่ยนแปลง, หรือทำลายโดยไม่ได้รับอนุญาต.

เงาเอไอ

การใช้เครื่องมือ AI โดยไม่ได้รับอนุญาต (ChatGPT, Copilot, Gemini) โดยพนักงานโดยไม่ได้รับการอนุมัติจากฝ่ายไอที Shadow AI เป็นสาเหตุสำคัญของการรั่วไหลของข้อมูล PII เนื่องจากผู้ใช้วางข้อมูลธุรกิจที่ละเอียดอ่อน เช่น บันทึกลูกค้า ข้อมูลผู้ป่วย ข้อมูลทางการเงิน ลงในพร้อมท์ AI โดยตรง

การลดขนาดข้อมูล

หลักการ GDPR (Art. 5(1)(c)) กำหนดให้องค์กรต่างๆ รวบรวมและประมวลผลข้อมูลส่วนบุคคลขั้นต่ำที่จำเป็นสำหรับวัตถุประสงค์เฉพาะเท่านั้น ในระบบ AI การลดขนาดข้อมูลหมายถึงการปิดบังตัวตนหรือลบ PII ก่อนที่ข้อมูลจะเข้าสู่ไปป์ไลน์ AI ซึ่งช่วยลดความเสี่ยงในการปฏิบัติตามข้อกำหนดและการละเมิดพื้นผิว

กรอบกฎหมาย

GDPR (กฎระเบียบการปกป้องข้อมูลทั่วไป)

กฎระเบียบของสหภาพยุโรปที่ควบคุมการประมวลผลข้อมูลส่วนบุคคลของบุคคลภายในเขตเศรษฐกิจยุโรป ซึ่งมีผลตั้งแต่เดือนพฤษภาคม 2018.

CCPA (พระราชบัญญัติความเป็นส่วนตัวของผู้บริโภคในแคลิฟอร์เนีย)

กฎหมายของรัฐแคลิฟอร์เนียที่ให้สิทธิแก่ผู้บริโภคเกี่ยวกับข้อมูลส่วนบุคคลที่เก็บรวบรวมโดยธุรกิจ ซึ่งมีผลตั้งแต่เดือนมกราคม 2020.

HIPAA (พระราชบัญญัติการเคลื่อนย้ายและความรับผิดชอบด้านประกันสุขภาพ)

กฎหมายของรัฐบาลกลางสหรัฐที่กำหนดมาตรฐานในการปกป้องข้อมูลสุขภาพที่ละเอียดอ่อนของผู้ป่วยจากการเปิดเผยโดยไม่ได้รับความยินยอม.

ISO 27001

มาตรฐานสากลสำหรับระบบการจัดการความปลอดภัยของข้อมูล (ISMS) ซึ่งกำหนดข้อกำหนดสำหรับการจัดตั้ง, การดำเนินการ, และการปรับปรุงการควบคุมความปลอดภัยอย่างต่อเนื่อง.

SOC 2 (การควบคุมระบบและองค์กร 2)

กรอบการตรวจสอบสำหรับองค์กรบริการที่ประเมินการควบคุมที่เกี่ยวข้องกับความปลอดภัย, ความพร้อมใช้งาน, ความสมบูรณ์ในการประมวลผล, ความลับ, และความเป็นส่วนตัว.

EU AI Act

กฎระเบียบของสหภาพยุโรปเกี่ยวกับปัญญาประดิษฐ์ (บังคับใช้ตั้งแต่เดือนสิงหาคม 2569) ระบบ AI ที่มีความเสี่ยงสูงต้องใช้มาตรการกำกับดูแลข้อมูล รวมถึงการลดข้อมูลส่วนบุคคล การจัดทำเอกสาร และ DPIA องค์กรที่ใช้ AI ในการตัดสินใจเป็นรายบุคคลจะต้องตรวจสอบให้แน่ใจว่าข้อมูลการฝึกอบรมนั้นไม่มีการระบุชื่อหรือนามแฝง

ISO 42001

มาตรฐานสากลสำหรับระบบการจัดการ AI (AIMS) ที่เผยแพร่ในปี 2023 ให้กรอบการทำงานสำหรับการพัฒนาและการปรับใช้ AI อย่างมีความรับผิดชอบ รวมถึงคุณภาพของข้อมูล การควบคุมอคติ และการปกป้องความเป็นส่วนตัว มักจะจับคู่กับ ISO 27001 สำหรับองค์กรที่ใช้ระบบ AI พร้อมข้อมูลส่วนบุคคล

อินเดีย DPDP Act

พระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคลทางดิจิทัลของอินเดีย (2023) บังคับใช้ตั้งแต่ปี 2025 ต้องได้รับความยินยอมอย่างชัดแจ้งในการประมวลผลข้อมูลส่วนบุคคลของชาวอินเดีย การแปลข้อมูลสำหรับข้อมูลที่ละเอียดอ่อน และการแจ้งเตือนการละเมิดภายใน 72 ชั่วโมง นำไปใช้กับองค์กรทั่วโลกที่ประมวลผลข้อมูลของพลเมืองอินเดีย

คำศัพท์ทางเทคนิค

การรู้จำเอนทิตีที่มีชื่อ (NER)

เทคนิค NLP ที่ใช้ในการระบุและจัดประเภทเอนทิตีที่มีชื่อในข้อความเป็นหมวดหมู่ที่กำหนดไว้ล่วงหน้า เช่น ชื่อบุคคล, สถานที่, และองค์กร.

การประมวลผลภาษาธรรมชาติ (NLP)

สาขาหนึ่งของปัญญาประดิษฐ์ที่ช่วยให้คอมพิวเตอร์เข้าใจ, ตีความ, และสร้างภาษามนุษย์.

ตัวตรวจจับรูปแบบ

ตัวตรวจจับที่ใช้กฎซึ่งใช้การแสดงออกปกติและเบาะแสจากบริบทในการระบุรูปแบบข้อมูลเฉพาะ เช่น หมายเลขบัตรเครดิตหรือหมายเลขประกันสังคม.

คะแนนความเชื่อมั่น

ค่าตัวเลขระหว่าง 0 ถึง 1 ที่บ่งบอกถึงความมั่นใจของเครื่องตรวจจับว่าข้อความชิ้นหนึ่งตรงกับประเภทเอนทิตีเฉพาะ.

การแสดงออกปกติ (Regex)

ลำดับของตัวอักษรที่กำหนดรูปแบบการค้นหา ซึ่งมักใช้ในการตรวจสอบและตรวจจับรูปแบบข้อมูลที่มีโครงสร้าง เช่น หมายเลขโทรศัพท์หรือที่อยู่อีเมล.

AES-256-GCM

อัลกอริธึมการเข้ารหัสที่ได้รับการรับรองโดยใช้กุญแจ 256 บิตในโหมด Galois/Counter ซึ่งให้ทั้งความลับและการตรวจสอบความสมบูรณ์ของข้อมูลที่ถูกเข้ารหัส.

การเข้ารหัสแบบไม่มีความรู้

สถาปัตยกรรมการเข้ารหัสที่ผู้ใช้เท่านั้นที่ถือกุญแจในการถอดรหัส ซึ่งหมายความว่าผู้ให้บริการไม่สามารถเข้าถึงข้อมูลที่เป็นข้อความธรรมชาติได้.

การแทนที่

การแทนที่ข้อมูลที่ละเอียดอ่อนด้วยโทเค็นที่ไม่ละเอียดอ่อนซึ่งสามารถเชื่อมโยงกลับไปยังข้อมูลต้นฉบับผ่านการค้นหาที่ปลอดภัย.

การปกปิดข้อมูล

การทำให้ข้อมูลเฉพาะภายในชุดข้อมูลไม่ชัดเจนเพื่อให้ข้อมูลที่ละเอียดอ่อนถูกซ่อนในขณะที่ข้อมูลยังคงใช้งานได้สำหรับการทดสอบหรือการวิเคราะห์.

การลบข้อมูล

การลบข้อมูลที่ละเอียดอ่อนออกจากเอกสารหรือชุดข้อมูลอย่างถาวร โดยแทนที่ด้วยเครื่องหมายเช่น [REDACTED].

ข้อมูลสังเคราะห์

ข้อมูลที่สร้างโดย AI ซึ่งเลียนแบบข้อมูลจริงทางสถิติโดยไม่มีบันทึกจริง เมื่อเปรียบเทียบกับการลบข้อมูลระบุตัวตน: ข้อมูลที่ไม่ระบุชื่อจะรักษาความแม่นยำในการวิเคราะห์ที่สูงกว่าสำหรับ ML ดาวน์สตรีม ข้อมูลสังเคราะห์ช่วยลดความเสี่ยงในการระบุตัวตนซ้ำแต่ทำให้เกิดความคลาดเคลื่อนทางสถิติ แนะนำให้ใช้การลบข้อมูลระบุตัวตนแบบย้อนกลับได้เมื่ออาจจำเป็นต้องใช้บันทึกต้นฉบับสำหรับการตรวจสอบการปฏิบัติตามข้อกำหนด

การฉีดพร้อมท์ LLM

เทคนิคการโจมตีที่อินพุตที่เป็นอันตรายปรับเปลี่ยนโมเดลภาษาขนาดใหญ่เพื่อเพิกเฉยต่อคำแนะนำหรือทำให้ข้อมูลที่ละเอียดอ่อนรั่วไหล ในบริบทการป้องกัน PII การแทรกทันทีอาจทำให้โมเดล AI เปิดเผยรูปแบบข้อมูลที่ไม่ระบุตัวตนหรือข้อมูลผู้ใช้ อินพุตที่ไม่ระบุชื่อล่วงหน้าก่อนที่จะถึง LLM จะช่วยลดพื้นที่การโจมตี

ความเป็นส่วนตัวโดยการออกแบบ

หลักการ GDPR Art. 25 กำหนดให้ต้องมีการปกป้องข้อมูลไว้ในระบบตั้งแต่เริ่มต้น แทนที่จะเพิ่มไว้ในภายหลัง สำหรับระบบ AI การออกแบบความเป็นส่วนตัวหมายถึงการทำให้ข้อมูลไม่ระบุชื่อก่อนที่จะเข้าสู่ไปป์ไลน์ AI การใช้การเข้ารหัสแบบไม่มีความรู้ และลดการเก็บรักษาข้อมูลให้เหลือน้อยที่สุด

วิธีการทำให้ไม่สามารถระบุได้

แทนที่

แทนที่ PII ที่ตรวจพบด้วยโฮลดิ้งทั่วไปของประเภทเอนทิตีเดียวกัน เช่น การแทนที่ 'John Smith' ด้วย '<PERSON>'.

ปกปิด

ทำให้ PII ไม่ชัดเจนบางส่วนโดยการแทนที่ตัวอักษรด้วยสัญลักษณ์ปกปิด เช่น การเปลี่ยน '123-45-6789' เป็น '***-**-6789'.

ลบ

ลบ PII ที่ตรวจพบออกจากข้อความโดยสิ้นเชิง โดยไม่มีร่องรอยของค่าต้นฉบับ.

แฮช

แปลง PII เป็นแฮชทางเข้ารหัสที่มีความยาวคงที่ ซึ่งทำให้การแทนที่เป็นไปได้อย่างสม่ำเสมอในขณะที่ทำให้การย้อนกลับไม่สามารถทำได้.

เข้ารหัส

แปลง PII โดยใช้การเข้ารหัส AES-256-GCM ด้วยกุญแจที่ผู้ใช้ถืออยู่ ทำให้สามารถย้อนกลับได้ตามที่ได้รับอนุญาต (การทำให้ไม่สามารถระบุได้อีกครั้ง) เมื่อจำเป็น.

คำถามที่พบบ่อย

ความแตกต่างระหว่างการทำให้ไม่สามารถระบุได้และการทำให้เป็นนามแฝงคืออะไร?

การทำให้ไม่สามารถระบุได้จะลบข้อมูลที่ระบุทั้งหมดอย่างถาวร ดังนั้นการระบุตัวตนใหม่จึงเป็นไปไม่ได้. การทำให้เป็นนามแฝงจะแทนที่ตัวระบุด้วยตัวระบุเทียมในขณะที่ยังคงกุญแจแยกต่างหากที่อนุญาตให้มีการระบุตัวตนใหม่เมื่อได้รับอนุญาต. ภายใต้ GDPR ข้อมูลที่ทำให้เป็นนามแฝงยังถือเป็นข้อมูลส่วนบุคคล.

ทำไมการตรวจจับ PII จึงใช้ทั้ง NLP และตัวตรวจจับรูปแบบ?

โมเดล NLP ตรวจจับเอนทิตีที่ขึ้นอยู่กับบริบท เช่น ชื่อบุคคลและสถานที่ที่ไม่มีรูปแบบที่แน่นอน. ตัวตรวจจับรูปแบบใช้การแสดงออกปกติเพื่อจับตัวระบุที่มีโครงสร้าง เช่น หมายเลขประกันสังคม, หมายเลขบัตรเครดิต, และหมายเลขโทรศัพท์. การรวมกันของทั้งสองวิธีจะเพิ่มความแม่นยำในการตรวจจับในทุกประเภทเอนทิตี.

การเข้ารหัสแบบไม่มีความรู้คืออะไรและทำไมถึงสำคัญ?

การเข้ารหัสแบบไม่มีความรู้หมายความว่าคุณเป็นเพียงคนเดียวที่ถือกุญแจในการถอดรหัส — ผู้ให้บริการไม่สามารถอ่านข้อมูลของคุณได้. สิ่งนี้สำคัญเพราะแม้ในกรณีที่เซิร์ฟเวอร์ถูกละเมิด ข้อมูลที่เข้ารหัสของคุณยังคงไม่สามารถอ่านได้โดยไม่มีกุญแจของคุณ ซึ่งให้การปกป้องข้อมูลที่ดีที่สุด.

การเข้ารหัสที่สามารถย้อนกลับได้แตกต่างจากการแฮชอย่างไร?

การแฮชเป็นการเปลี่ยนแปลงแบบทางเดียว — เมื่อข้อมูลถูกแฮชแล้ว ข้อมูลต้นฉบับไม่สามารถกู้คืนได้. การเข้ารหัสที่สามารถย้อนกลับได้ (โดยใช้ AES-256-GCM) อนุญาตให้ผู้ใช้ที่ได้รับอนุญาตที่มีคีย์ที่ถูกต้องถอดรหัสและกู้คืนข้อมูลต้นฉบับได้ ซึ่งช่วยให้มีการทำงานที่ต้องการการทำให้ไม่สามารถระบุได้อีกครั้ง.

ปกป้องข้อมูลที่ละเอียดอ่อนวันนี้

เริ่มทำให้ PII ไม่สามารถระบุได้ด้วยประเภทเอนทิตี317 ประเภท, 48 ภาษา, และการเข้ารหัสแบบไม่มีความรู้.