Kamus PII & Privasi Data

Definisi yang jelas tentang istilah privasi, pematuhan, dan perlindungan data yang digunakan di seluruh industri.

Istilah Privasi & Pematuhan

Maklumat Peribadi yang Boleh Dikenal Pasti (PII)

Sebarang data yang boleh mengenal pasti individu tertentu, seperti nama, alamat emel, nombor keselamatan sosial, atau nombor telefon.

Anonimisasi

Proses tidak boleh balik yang mengubah data supaya individu tidak dapat dikenalpasti, secara langsung atau tidak langsung.

Pseudonimisasi

Menggantikan data yang boleh dikenalpasti dengan pengenalan tiruan (pseudonim) supaya pengenalan semula memerlukan kunci yang disimpan secara berasingan.

De-identifikasi

Mengeluarkan atau menyembunyikan pengenalan peribadi daripada data supaya ia tidak lagi boleh dikaitkan dengan individu tertentu tanpa maklumat tambahan.

Subjek Data

Seseorang yang dikenalpasti atau boleh dikenalpasti yang data peribadinya diproses oleh pengawal atau pemproses.

Pengawal Data

Entiti yang menentukan tujuan dan cara pemprosesan data peribadi.

Pemproses Data

Entiti yang memproses data peribadi bagi pihak pengawal data, mengikut arahan pengawal.

Persetujuan

Indikasi yang diberikan secara bebas, khusus, dimaklumkan, dan tidak samar tentang persetujuan subjek data untuk pemprosesan data peribadi mereka.

Asas Sah

Alasan sah di mana pemprosesan data peribadi dibenarkan, seperti persetujuan, keperluan kontrak, kewajipan undang-undang, atau kepentingan yang sah.

Minimisasi Data

Prinsip bahawa data peribadi yang dikumpulkan harus mencukupi, relevan, dan terhad kepada apa yang diperlukan untuk tujuan yang dimaksudkan.

Hak untuk Dihapuskan

Hak subjek data untuk mempunyai data peribadi mereka dipadamkan apabila ia tidak lagi diperlukan, juga dikenali sebagai 'hak untuk dilupakan' di bawah GDPR.

Portabiliti Data

Hak subjek data untuk menerima data peribadi mereka dalam format yang terstruktur dan biasa digunakan serta memindahkannya kepada pengawal lain.

Pegawai Perlindungan Data (DPO)

Individu yang dilantik bertanggungjawab untuk mengawasi strategi perlindungan data organisasi dan memastikan pematuhan dengan peraturan privasi.

Penilaian Impak Perlindungan Data (DPIA)

Proses untuk mengenal pasti dan meminimumkan risiko perlindungan data bagi satu projek, yang diperlukan di bawah GDPR untuk aktiviti pemprosesan berisiko tinggi.

Pelanggaran Data

Insiden keselamatan di mana data peribadi diakses, didedahkan, diubah, atau dimusnahkan tanpa kebenaran.

Shadow AI

Penggunaan alat AI tanpa kebenaran (ChatGPT, Copilot, Gemini) oleh pekerja tanpa kelulusan IT. Shadow AI ialah punca utama kebocoran data PII, kerana pengguna menampal data perniagaan yang sensitif — rekod pelanggan, maklumat pesakit, data kewangan — terus ke gesaan AI.

Pengurangan Data

Prinsip GDPR (Art. 5(1)(c)) menghendaki organisasi mengumpul dan memproses hanya data peribadi minimum yang diperlukan untuk tujuan tertentu. Dalam sistem AI, pengecilan data bermaksud menyama atau mengalih keluar PII sebelum data memasuki saluran paip AI, mengurangkan risiko pematuhan dan permukaan pelanggaran.

Rangka Kerja Peraturan

GDPR (Peraturan Perlindungan Data Umum)

Peraturan EU yang mengawal pemprosesan data peribadi individu dalam Kawasan Ekonomi Eropah, berkuat kuasa sejak Mei 2018.

CCPA (Akta Privasi Pengguna California)

Undang-undang negeri California yang memberikan hak kepada pengguna ke atas maklumat peribadi mereka yang dikumpulkan oleh perniagaan, berkuat kuasa sejak Januari 2020.

HIPAA (Akta Kebolehcapaian dan Tanggungjawaban Insurans Kesihatan)

Undang-undang persekutuan AS yang menetapkan piawaian untuk melindungi maklumat kesihatan pesakit yang sensitif daripada pendedahan tanpa kebenaran.

ISO 27001

Piawaian antarabangsa untuk sistem pengurusan keselamatan maklumat (ISMS), yang menetapkan keperluan untuk menubuhkan, melaksanakan, dan terus memperbaiki kawalan keselamatan.

SOC 2 (Kawalan Sistem dan Organisasi 2)

Rangka kerja audit untuk organisasi perkhidmatan yang menilai kawalan berkaitan keselamatan, ketersediaan, integriti pemprosesan, kerahsiaan, dan privasi.

EU AI Act

Peraturan Kesatuan Eropah mengenai kecerdasan buatan (dikuatkuasakan mulai Ogos 2026). Sistem AI berisiko tinggi mesti melaksanakan langkah tadbir urus data termasuk pengecilan data peribadi, dokumentasi dan DPIA. Organisasi yang menggunakan AI untuk membuat keputusan ke atas individu mesti memastikan data latihan adalah tanpa nama atau nama samaran.

ISO 42001

Piawaian antarabangsa untuk Sistem Pengurusan AI (AIMS), diterbitkan pada 2023. Menyediakan rangka kerja untuk pembangunan dan penggunaan AI yang bertanggungjawab, termasuk kualiti data, kawalan berat sebelah dan perlindungan privasi. Selalunya dipasangkan dengan ISO 27001 untuk organisasi yang mengendalikan sistem AI dengan data peribadi.

India DPDP Act

Akta Perlindungan Data Peribadi Digital India (2023), dikuatkuasakan mulai 2025. Memerlukan persetujuan yang jelas untuk memproses data peribadi penduduk India, penyetempatan data untuk data sensitif dan pemberitahuan pelanggaran dalam masa 72 jam. Terpakai kepada organisasi di seluruh dunia yang memproses data warganegara India.

Istilah Teknikal

Pengenalan Entiti Bernama (NER)

Satu teknik NLP yang mengenal pasti dan mengklasifikasikan entiti bernama dalam teks ke dalam kategori yang telah ditetapkan seperti nama orang, lokasi, dan organisasi.

Pemprosesan Bahasa Semulajadi (NLP)

Satu cabang kecerdasan buatan yang membolehkan komputer memahami, mentafsir, dan menjana bahasa manusia.

Pengenal Corak

Pengesan berasaskan peraturan yang menggunakan ungkapan biasa dan petunjuk konteks untuk mengenal pasti corak data tertentu, seperti nombor kad kredit atau nombor keselamatan sosial.

Skor Keyakinan

Nilai numerik antara 0 dan 1 yang menunjukkan sejauh mana enjin pengesanan yakin bahawa satu bahagian teks sepadan dengan jenis entiti tertentu.

Ungkapan Biasa (Regex)

Satu urutan watak yang mentakrifkan corak carian, biasanya digunakan untuk mengesahkan dan mengesan format data terstruktur seperti nombor telefon atau alamat emel.

AES-256-GCM

Satu algoritma penyulitan yang disahkan menggunakan kunci 256-bit dengan Mod Galois/Counter, memberikan kedua-dua kerahsiaan dan pengesahan integriti data yang disulitkan.

Penyulitan Zero-Knowledge

Satu seni bina penyulitan di mana hanya pengguna yang memegang kunci penyahsulitan, bermakna bahkan penyedia perkhidmatan tidak dapat mengakses data plaintext.

Tokenisasi

Menggantikan data sensitif dengan token pengganti yang tidak sensitif yang boleh dipetakan semula kepada data asal melalui carian yang selamat.

Penyamaran Data

Menyembunyikan data tertentu dalam satu set data supaya maklumat sensitif tidak kelihatan sementara data tetap boleh digunakan untuk ujian atau analisis.

Redaksi

Penghapusan tetap maklumat sensitif daripada dokumen atau set data, menggantikannya dengan penanda seperti [REDACTED].

Data Sintetik

Data yang dijana AI yang secara statistik meniru data sebenar tanpa mengandungi rekod sebenar. Berbanding dengan anonimasi: data tanpa nama mengekalkan ketepatan analisis yang lebih tinggi untuk ML hiliran; data sintetik menghapuskan risiko pengenalan semula tetapi memperkenalkan hanyutan statistik. Anonim boleh balik lebih disukai apabila rekod asal mungkin diperlukan untuk audit pematuhan.

Suntikan Cepat LLM

Teknik serangan di mana input berniat jahat memanipulasi model bahasa yang besar untuk mengabaikan arahan atau membocorkan maklumat sensitif. Dalam konteks perlindungan PII, suntikan segera boleh menyebabkan model AI mendedahkan corak data awanama atau maklumat pengguna. Input pra-anonim sebelum mencapai LLM mengurangkan permukaan serangan.

Privasi mengikut Reka Bentuk

A GDPR Seni. 25 prinsip yang memerlukan perlindungan data untuk dibina ke dalam sistem dari bawah ke atas dan bukannya ditambah sebagai renungan. Untuk sistem AI, privasi mengikut reka bentuk bermaksud tanpa nama data sebelum ia memasuki saluran paip AI, melaksanakan penyulitan pengetahuan sifar dan meminimumkan pengekalan data.

Kaedah Anonimisasi

Gantikan

Menggantikan PII yang dikesan dengan pengganti umum bagi jenis entiti yang sama, seperti menggantikan 'John Smith' dengan '<PERSON>'.

Sembunyikan

Sebahagian menyembunyikan PII dengan menggantikan watak dengan simbol penyamaran, sebagai contoh menukar '123-45-6789' menjadi '***-**-6789'.

Redak

Mengeluarkan sepenuhnya PII yang dikesan daripada teks, meninggalkan tiada jejak nilai asal.

Hash

Menukar PII kepada hash kriptografi panjang tetap, membolehkan penggantian yang konsisten sambil menjadikan pembalikan tidak dapat dilaksanakan secara pengiraan.

Senyapkan

Mengubah PII menggunakan penyulitan AES-256-GCM dengan kunci yang dipegang oleh pengguna, membolehkan pembalikan yang dibenarkan (de-anonimisasi) apabila diperlukan.

Soalan Lazim

Apakah perbezaan antara anonimisasi dan pseudonimisasi?

Anonimisasi mengeluarkan secara tidak boleh balik semua maklumat pengenalan supaya pengenalan semula tidak mungkin. Pseudonimisasi menggantikan pengenalan dengan yang tiruan sambil mengekalkan kunci berasingan yang membolehkan pengenalan semula apabila dibenarkan. Di bawah GDPR, data yang dipseudonimkan masih dianggap sebagai data peribadi.

Mengapa pengesanan PII menggunakan kedua-dua NLP dan pengenali corak?

Model NLP mengesan entiti bergantung kepada konteks seperti nama orang dan lokasi yang tidak mempunyai format tetap. Pengenali corak menggunakan ungkapan biasa untuk menangkap pengenalan terstruktur seperti nombor keselamatan sosial, nombor kad kredit, dan nombor telefon. Menggabungkan kedua-dua pendekatan memaksimumkan ketepatan pengesanan di seluruh jenis entiti.

Apakah penyulitan zero-knowledge dan mengapa ia penting?

Penyulitan zero-knowledge bermakna hanya anda yang memegang kunci penyahsulitan — penyedia perkhidmatan tidak dapat membaca data anda. Ini penting kerana walaupun dalam kes pelanggaran pelayan, data anda yang disulitkan tetap tidak dapat dibaca tanpa kunci anda, memberikan perlindungan data yang paling kuat.

Bagaimana penyulitan boleh balik berbeza daripada penghashan?

Penghashan adalah transformasi sehala — setelah data dihash, yang asal tidak dapat dipulihkan. Penyulitan boleh balik (menggunakan AES-256-GCM) membolehkan pengguna yang dibenarkan dengan kunci yang betul untuk menyahsulit dan memulihkan data asal, membolehkan aliran kerja di mana de-anonimisasi diperlukan.

Lindungi Data Sensitif Hari Ini

Mulakan proses anonimisasi PII dengan 317 jenis entiti, 48 bahasa, dan penyulitan zero-knowledge.