Kamus PII & Privasi Data
Definisi yang jelas tentang istilah privasi, pematuhan, dan perlindungan data yang digunakan di seluruh industri.
Istilah Privasi & Pematuhan
Maklumat Peribadi yang Boleh Dikenal Pasti (PII)
Sebarang data yang boleh mengenal pasti individu tertentu, seperti nama, alamat emel, nombor keselamatan sosial, atau nombor telefon.
Anonimisasi
Proses tidak boleh balik yang mengubah data supaya individu tidak dapat dikenalpasti, secara langsung atau tidak langsung.
Pseudonimisasi
Menggantikan data yang boleh dikenalpasti dengan pengenalan tiruan (pseudonim) supaya pengenalan semula memerlukan kunci yang disimpan secara berasingan.
De-identifikasi
Mengeluarkan atau menyembunyikan pengenalan peribadi daripada data supaya ia tidak lagi boleh dikaitkan dengan individu tertentu tanpa maklumat tambahan.
Subjek Data
Seseorang yang dikenalpasti atau boleh dikenalpasti yang data peribadinya diproses oleh pengawal atau pemproses.
Pengawal Data
Entiti yang menentukan tujuan dan cara pemprosesan data peribadi.
Pemproses Data
Entiti yang memproses data peribadi bagi pihak pengawal data, mengikut arahan pengawal.
Persetujuan
Indikasi yang diberikan secara bebas, khusus, dimaklumkan, dan tidak samar tentang persetujuan subjek data untuk pemprosesan data peribadi mereka.
Asas Sah
Alasan sah di mana pemprosesan data peribadi dibenarkan, seperti persetujuan, keperluan kontrak, kewajipan undang-undang, atau kepentingan yang sah.
Minimisasi Data
Prinsip bahawa data peribadi yang dikumpulkan harus mencukupi, relevan, dan terhad kepada apa yang diperlukan untuk tujuan yang dimaksudkan.
Hak untuk Dihapuskan
Hak subjek data untuk mempunyai data peribadi mereka dipadamkan apabila ia tidak lagi diperlukan, juga dikenali sebagai 'hak untuk dilupakan' di bawah GDPR.
Portabiliti Data
Hak subjek data untuk menerima data peribadi mereka dalam format yang terstruktur dan biasa digunakan serta memindahkannya kepada pengawal lain.
Pegawai Perlindungan Data (DPO)
Individu yang dilantik bertanggungjawab untuk mengawasi strategi perlindungan data organisasi dan memastikan pematuhan dengan peraturan privasi.
Penilaian Impak Perlindungan Data (DPIA)
Proses untuk mengenal pasti dan meminimumkan risiko perlindungan data bagi satu projek, yang diperlukan di bawah GDPR untuk aktiviti pemprosesan berisiko tinggi.
Pelanggaran Data
Insiden keselamatan di mana data peribadi diakses, didedahkan, diubah, atau dimusnahkan tanpa kebenaran.
Rangka Kerja Peraturan
GDPR (Peraturan Perlindungan Data Umum)
Peraturan EU yang mengawal pemprosesan data peribadi individu dalam Kawasan Ekonomi Eropah, berkuat kuasa sejak Mei 2018.
CCPA (Akta Privasi Pengguna California)
Undang-undang negeri California yang memberikan hak kepada pengguna ke atas maklumat peribadi mereka yang dikumpulkan oleh perniagaan, berkuat kuasa sejak Januari 2020.
HIPAA (Akta Kebolehcapaian dan Tanggungjawaban Insurans Kesihatan)
Undang-undang persekutuan AS yang menetapkan piawaian untuk melindungi maklumat kesihatan pesakit yang sensitif daripada pendedahan tanpa kebenaran.
ISO 27001
Piawaian antarabangsa untuk sistem pengurusan keselamatan maklumat (ISMS), yang menetapkan keperluan untuk menubuhkan, melaksanakan, dan terus memperbaiki kawalan keselamatan.
SOC 2 (Kawalan Sistem dan Organisasi 2)
Rangka kerja audit untuk organisasi perkhidmatan yang menilai kawalan berkaitan keselamatan, ketersediaan, integriti pemprosesan, kerahsiaan, dan privasi.
Istilah Teknikal
Pengenalan Entiti Bernama (NER)
Satu teknik NLP yang mengenal pasti dan mengklasifikasikan entiti bernama dalam teks ke dalam kategori yang telah ditetapkan seperti nama orang, lokasi, dan organisasi.
Pemprosesan Bahasa Semulajadi (NLP)
Satu cabang kecerdasan buatan yang membolehkan komputer memahami, mentafsir, dan menjana bahasa manusia.
Pengenal Corak
Pengesan berasaskan peraturan yang menggunakan ungkapan biasa dan petunjuk konteks untuk mengenal pasti corak data tertentu, seperti nombor kad kredit atau nombor keselamatan sosial.
Skor Keyakinan
Nilai numerik antara 0 dan 1 yang menunjukkan sejauh mana enjin pengesanan yakin bahawa satu bahagian teks sepadan dengan jenis entiti tertentu.
Ungkapan Biasa (Regex)
Satu urutan watak yang mentakrifkan corak carian, biasanya digunakan untuk mengesahkan dan mengesan format data terstruktur seperti nombor telefon atau alamat emel.
AES-256-GCM
Satu algoritma penyulitan yang disahkan menggunakan kunci 256-bit dengan Mod Galois/Counter, memberikan kedua-dua kerahsiaan dan pengesahan integriti data yang disulitkan.
Penyulitan Zero-Knowledge
Satu seni bina penyulitan di mana hanya pengguna yang memegang kunci penyahsulitan, bermakna bahkan penyedia perkhidmatan tidak dapat mengakses data plaintext.
Tokenisasi
Menggantikan data sensitif dengan token pengganti yang tidak sensitif yang boleh dipetakan semula kepada data asal melalui carian yang selamat.
Penyamaran Data
Menyembunyikan data tertentu dalam satu set data supaya maklumat sensitif tidak kelihatan sementara data tetap boleh digunakan untuk ujian atau analisis.
Redaksi
Penghapusan tetap maklumat sensitif daripada dokumen atau set data, menggantikannya dengan penanda seperti [REDACTED].
Kaedah Anonimisasi
Gantikan
Menggantikan PII yang dikesan dengan pengganti umum bagi jenis entiti yang sama, seperti menggantikan 'John Smith' dengan '<PERSON>'.
Sembunyikan
Sebahagian menyembunyikan PII dengan menggantikan watak dengan simbol penyamaran, sebagai contoh menukar '123-45-6789' menjadi '***-**-6789'.
Redak
Mengeluarkan sepenuhnya PII yang dikesan daripada teks, meninggalkan tiada jejak nilai asal.
Hash
Menukar PII kepada hash kriptografi panjang tetap, membolehkan penggantian yang konsisten sambil menjadikan pembalikan tidak dapat dilaksanakan secara pengiraan.
Senyapkan
Mengubah PII menggunakan penyulitan AES-256-GCM dengan kunci yang dipegang oleh pengguna, membolehkan pembalikan yang dibenarkan (de-anonimisasi) apabila diperlukan.
Soalan Lazim
Apakah perbezaan antara anonimisasi dan pseudonimisasi?
Anonimisasi mengeluarkan secara tidak boleh balik semua maklumat pengenalan supaya pengenalan semula tidak mungkin. Pseudonimisasi menggantikan pengenalan dengan yang tiruan sambil mengekalkan kunci berasingan yang membolehkan pengenalan semula apabila dibenarkan. Di bawah GDPR, data yang dipseudonimkan masih dianggap sebagai data peribadi.
Mengapa pengesanan PII menggunakan kedua-dua NLP dan pengenali corak?
Model NLP mengesan entiti bergantung kepada konteks seperti nama orang dan lokasi yang tidak mempunyai format tetap. Pengenali corak menggunakan ungkapan biasa untuk menangkap pengenalan terstruktur seperti nombor keselamatan sosial, nombor kad kredit, dan nombor telefon. Menggabungkan kedua-dua pendekatan memaksimumkan ketepatan pengesanan di seluruh jenis entiti.
Apakah penyulitan zero-knowledge dan mengapa ia penting?
Penyulitan zero-knowledge bermakna hanya anda yang memegang kunci penyahsulitan — penyedia perkhidmatan tidak dapat membaca data anda. Ini penting kerana walaupun dalam kes pelanggaran pelayan, data anda yang disulitkan tetap tidak dapat dibaca tanpa kunci anda, memberikan perlindungan data yang paling kuat.
Bagaimana penyulitan boleh balik berbeza daripada penghashan?
Penghashan adalah transformasi sehala — setelah data dihash, yang asal tidak dapat dipulihkan. Penyulitan boleh balik (menggunakan AES-256-GCM) membolehkan pengguna yang dibenarkan dengan kunci yang betul untuk menyahsulit dan memulihkan data asal, membolehkan aliran kerja di mana de-anonimisasi diperlukan.