Kamus PII & Privasi Data
Definisi yang jelas tentang istilah privasi, pematuhan, dan perlindungan data yang digunakan di seluruh industri.
Istilah Privasi & Pematuhan
Maklumat Peribadi yang Boleh Dikenal Pasti (PII)
Sebarang data yang boleh mengenal pasti individu tertentu, seperti nama, alamat emel, nombor keselamatan sosial, atau nombor telefon.
Anonimisasi
Proses tidak boleh balik yang mengubah data supaya individu tidak dapat dikenalpasti, secara langsung atau tidak langsung.
Pseudonimisasi
Menggantikan data yang boleh dikenalpasti dengan pengenalan tiruan (pseudonim) supaya pengenalan semula memerlukan kunci yang disimpan secara berasingan.
De-identifikasi
Mengeluarkan atau menyembunyikan pengenalan peribadi daripada data supaya ia tidak lagi boleh dikaitkan dengan individu tertentu tanpa maklumat tambahan.
Subjek Data
Seseorang yang dikenalpasti atau boleh dikenalpasti yang data peribadinya diproses oleh pengawal atau pemproses.
Pengawal Data
Entiti yang menentukan tujuan dan cara pemprosesan data peribadi.
Pemproses Data
Entiti yang memproses data peribadi bagi pihak pengawal data, mengikut arahan pengawal.
Persetujuan
Indikasi yang diberikan secara bebas, khusus, dimaklumkan, dan tidak samar tentang persetujuan subjek data untuk pemprosesan data peribadi mereka.
Asas Sah
Alasan sah di mana pemprosesan data peribadi dibenarkan, seperti persetujuan, keperluan kontrak, kewajipan undang-undang, atau kepentingan yang sah.
Minimisasi Data
Prinsip bahawa data peribadi yang dikumpulkan harus mencukupi, relevan, dan terhad kepada apa yang diperlukan untuk tujuan yang dimaksudkan.
Hak untuk Dihapuskan
Hak subjek data untuk mempunyai data peribadi mereka dipadamkan apabila ia tidak lagi diperlukan, juga dikenali sebagai 'hak untuk dilupakan' di bawah GDPR.
Portabiliti Data
Hak subjek data untuk menerima data peribadi mereka dalam format yang terstruktur dan biasa digunakan serta memindahkannya kepada pengawal lain.
Pegawai Perlindungan Data (DPO)
Individu yang dilantik bertanggungjawab untuk mengawasi strategi perlindungan data organisasi dan memastikan pematuhan dengan peraturan privasi.
Penilaian Impak Perlindungan Data (DPIA)
Proses untuk mengenal pasti dan meminimumkan risiko perlindungan data bagi satu projek, yang diperlukan di bawah GDPR untuk aktiviti pemprosesan berisiko tinggi.
Pelanggaran Data
Insiden keselamatan di mana data peribadi diakses, didedahkan, diubah, atau dimusnahkan tanpa kebenaran.
Shadow AI
Penggunaan alat AI tanpa kebenaran (ChatGPT, Copilot, Gemini) oleh pekerja tanpa kelulusan IT. Shadow AI ialah punca utama kebocoran data PII, kerana pengguna menampal data perniagaan yang sensitif — rekod pelanggan, maklumat pesakit, data kewangan — terus ke gesaan AI.
Pengurangan Data
Prinsip GDPR (Art. 5(1)(c)) menghendaki organisasi mengumpul dan memproses hanya data peribadi minimum yang diperlukan untuk tujuan tertentu. Dalam sistem AI, pengecilan data bermaksud menyama atau mengalih keluar PII sebelum data memasuki saluran paip AI, mengurangkan risiko pematuhan dan permukaan pelanggaran.
Rangka Kerja Peraturan
GDPR (Peraturan Perlindungan Data Umum)
Peraturan EU yang mengawal pemprosesan data peribadi individu dalam Kawasan Ekonomi Eropah, berkuat kuasa sejak Mei 2018.
CCPA (Akta Privasi Pengguna California)
Undang-undang negeri California yang memberikan hak kepada pengguna ke atas maklumat peribadi mereka yang dikumpulkan oleh perniagaan, berkuat kuasa sejak Januari 2020.
HIPAA (Akta Kebolehcapaian dan Tanggungjawaban Insurans Kesihatan)
Undang-undang persekutuan AS yang menetapkan piawaian untuk melindungi maklumat kesihatan pesakit yang sensitif daripada pendedahan tanpa kebenaran.
ISO 27001
Piawaian antarabangsa untuk sistem pengurusan keselamatan maklumat (ISMS), yang menetapkan keperluan untuk menubuhkan, melaksanakan, dan terus memperbaiki kawalan keselamatan.
SOC 2 (Kawalan Sistem dan Organisasi 2)
Rangka kerja audit untuk organisasi perkhidmatan yang menilai kawalan berkaitan keselamatan, ketersediaan, integriti pemprosesan, kerahsiaan, dan privasi.
EU AI Act
Peraturan Kesatuan Eropah mengenai kecerdasan buatan (dikuatkuasakan mulai Ogos 2026). Sistem AI berisiko tinggi mesti melaksanakan langkah tadbir urus data termasuk pengecilan data peribadi, dokumentasi dan DPIA. Organisasi yang menggunakan AI untuk membuat keputusan ke atas individu mesti memastikan data latihan adalah tanpa nama atau nama samaran.
ISO 42001
Piawaian antarabangsa untuk Sistem Pengurusan AI (AIMS), diterbitkan pada 2023. Menyediakan rangka kerja untuk pembangunan dan penggunaan AI yang bertanggungjawab, termasuk kualiti data, kawalan berat sebelah dan perlindungan privasi. Selalunya dipasangkan dengan ISO 27001 untuk organisasi yang mengendalikan sistem AI dengan data peribadi.
India DPDP Act
Akta Perlindungan Data Peribadi Digital India (2023), dikuatkuasakan mulai 2025. Memerlukan persetujuan yang jelas untuk memproses data peribadi penduduk India, penyetempatan data untuk data sensitif dan pemberitahuan pelanggaran dalam masa 72 jam. Terpakai kepada organisasi di seluruh dunia yang memproses data warganegara India.
Istilah Teknikal
Pengenalan Entiti Bernama (NER)
Satu teknik NLP yang mengenal pasti dan mengklasifikasikan entiti bernama dalam teks ke dalam kategori yang telah ditetapkan seperti nama orang, lokasi, dan organisasi.
Pemprosesan Bahasa Semulajadi (NLP)
Satu cabang kecerdasan buatan yang membolehkan komputer memahami, mentafsir, dan menjana bahasa manusia.
Pengenal Corak
Pengesan berasaskan peraturan yang menggunakan ungkapan biasa dan petunjuk konteks untuk mengenal pasti corak data tertentu, seperti nombor kad kredit atau nombor keselamatan sosial.
Skor Keyakinan
Nilai numerik antara 0 dan 1 yang menunjukkan sejauh mana enjin pengesanan yakin bahawa satu bahagian teks sepadan dengan jenis entiti tertentu.
Ungkapan Biasa (Regex)
Satu urutan watak yang mentakrifkan corak carian, biasanya digunakan untuk mengesahkan dan mengesan format data terstruktur seperti nombor telefon atau alamat emel.
AES-256-GCM
Satu algoritma penyulitan yang disahkan menggunakan kunci 256-bit dengan Mod Galois/Counter, memberikan kedua-dua kerahsiaan dan pengesahan integriti data yang disulitkan.
Penyulitan Zero-Knowledge
Satu seni bina penyulitan di mana hanya pengguna yang memegang kunci penyahsulitan, bermakna bahkan penyedia perkhidmatan tidak dapat mengakses data plaintext.
Tokenisasi
Menggantikan data sensitif dengan token pengganti yang tidak sensitif yang boleh dipetakan semula kepada data asal melalui carian yang selamat.
Penyamaran Data
Menyembunyikan data tertentu dalam satu set data supaya maklumat sensitif tidak kelihatan sementara data tetap boleh digunakan untuk ujian atau analisis.
Redaksi
Penghapusan tetap maklumat sensitif daripada dokumen atau set data, menggantikannya dengan penanda seperti [REDACTED].
Data Sintetik
Data yang dijana AI yang secara statistik meniru data sebenar tanpa mengandungi rekod sebenar. Berbanding dengan anonimasi: data tanpa nama mengekalkan ketepatan analisis yang lebih tinggi untuk ML hiliran; data sintetik menghapuskan risiko pengenalan semula tetapi memperkenalkan hanyutan statistik. Anonim boleh balik lebih disukai apabila rekod asal mungkin diperlukan untuk audit pematuhan.
Suntikan Cepat LLM
Teknik serangan di mana input berniat jahat memanipulasi model bahasa yang besar untuk mengabaikan arahan atau membocorkan maklumat sensitif. Dalam konteks perlindungan PII, suntikan segera boleh menyebabkan model AI mendedahkan corak data awanama atau maklumat pengguna. Input pra-anonim sebelum mencapai LLM mengurangkan permukaan serangan.
Privasi mengikut Reka Bentuk
A GDPR Seni. 25 prinsip yang memerlukan perlindungan data untuk dibina ke dalam sistem dari bawah ke atas dan bukannya ditambah sebagai renungan. Untuk sistem AI, privasi mengikut reka bentuk bermaksud tanpa nama data sebelum ia memasuki saluran paip AI, melaksanakan penyulitan pengetahuan sifar dan meminimumkan pengekalan data.
Kaedah Anonimisasi
Gantikan
Menggantikan PII yang dikesan dengan pengganti umum bagi jenis entiti yang sama, seperti menggantikan 'John Smith' dengan '<PERSON>'.
Sembunyikan
Sebahagian menyembunyikan PII dengan menggantikan watak dengan simbol penyamaran, sebagai contoh menukar '123-45-6789' menjadi '***-**-6789'.
Redak
Mengeluarkan sepenuhnya PII yang dikesan daripada teks, meninggalkan tiada jejak nilai asal.
Hash
Menukar PII kepada hash kriptografi panjang tetap, membolehkan penggantian yang konsisten sambil menjadikan pembalikan tidak dapat dilaksanakan secara pengiraan.
Senyapkan
Mengubah PII menggunakan penyulitan AES-256-GCM dengan kunci yang dipegang oleh pengguna, membolehkan pembalikan yang dibenarkan (de-anonimisasi) apabila diperlukan.
Soalan Lazim
Apakah perbezaan antara anonimisasi dan pseudonimisasi?
Anonimisasi mengeluarkan secara tidak boleh balik semua maklumat pengenalan supaya pengenalan semula tidak mungkin. Pseudonimisasi menggantikan pengenalan dengan yang tiruan sambil mengekalkan kunci berasingan yang membolehkan pengenalan semula apabila dibenarkan. Di bawah GDPR, data yang dipseudonimkan masih dianggap sebagai data peribadi.
Mengapa pengesanan PII menggunakan kedua-dua NLP dan pengenali corak?
Model NLP mengesan entiti bergantung kepada konteks seperti nama orang dan lokasi yang tidak mempunyai format tetap. Pengenali corak menggunakan ungkapan biasa untuk menangkap pengenalan terstruktur seperti nombor keselamatan sosial, nombor kad kredit, dan nombor telefon. Menggabungkan kedua-dua pendekatan memaksimumkan ketepatan pengesanan di seluruh jenis entiti.
Apakah penyulitan zero-knowledge dan mengapa ia penting?
Penyulitan zero-knowledge bermakna hanya anda yang memegang kunci penyahsulitan — penyedia perkhidmatan tidak dapat membaca data anda. Ini penting kerana walaupun dalam kes pelanggaran pelayan, data anda yang disulitkan tetap tidak dapat dibaca tanpa kunci anda, memberikan perlindungan data yang paling kuat.
Bagaimana penyulitan boleh balik berbeza daripada penghashan?
Penghashan adalah transformasi sehala — setelah data dihash, yang asal tidak dapat dipulihkan. Penyulitan boleh balik (menggunakan AES-256-GCM) membolehkan pengguna yang dibenarkan dengan kunci yang betul untuk menyahsulit dan memulihkan data asal, membolehkan aliran kerja di mana de-anonimisasi diperlukan.