PII & Data Privacy Glossary
Malinaw na mga depinisyon ng mga pangunahing termino sa privacy, pagsunod, at proteksyon ng data na ginagamit sa buong industriya.
Mga Terminolohiya sa Privacy at Pagsunod
Personally Identifiable Information (PII)
Anumang data na makakapagkilala sa isang tiyak na indibidwal, tulad ng mga pangalan, email address, numero ng social security, o mga numero ng telepono.
Anonymization
Ang hindi maibabalik na proseso ng pagbabago ng data upang hindi makilala ang mga indibidwal, direkta man o hindi.
Pseudonymization
Papalitan ang mga makikilalang data ng mga artipisyal na tagapagkilala (pseudonyms) upang ang muling pagkilala ay mangailangan ng hiwalay na hawak na susi.
De-identification
Pag-aalis o pagtakip ng mga personal na tagapagkilala mula sa data upang hindi na ito maikonekta sa isang tiyak na indibidwal nang walang karagdagang impormasyon.
Data Subject
Isang nakilala o makikilalang natural na tao na ang personal na data ay pinoproseso ng isang controller o processor.
Data Controller
Ang entidad na nagtatakda ng mga layunin at paraan ng pagproseso ng personal na data.
Data Processor
Isang entidad na nagpoproseso ng personal na data sa ngalan ng isang data controller, ayon sa mga tagubilin ng controller.
Consent
Isang malayang ibinigay, tiyak, may kaalaman, at hindi malabo na indikasyon ng pagsang-ayon ng isang data subject sa pagproseso ng kanilang personal na data.
Lawful Basis
Isang legal na batayan kung saan pinapayagan ang pagproseso ng personal na data, tulad ng pahintulot, pangangailangan ng kontrata, legal na obligasyon, o lehitimong interes.
Data Minimization
Ang prinsipyo na ang personal na data na nakolekta ay dapat sapat, may kaugnayan, at limitado sa kung ano ang kinakailangan para sa nakatakdang layunin.
Right to Erasure
Karapatan ng isang data subject na magkaroon ng kanilang personal na data na tanggalin kapag hindi na ito kinakailangan, kilala rin bilang 'karapatan na makalimutan' sa ilalim ng GDPR.
Data Portability
Karapatan ng mga data subject na tumanggap ng kanilang personal na data sa isang nakabalangkas, karaniwang ginagamit na format at ilipat ito sa ibang controller.
Data Protection Officer (DPO)
Isang itinalagang indibidwal na responsable sa pangangasiwa ng estratehiya sa proteksyon ng data ng isang organisasyon at pagtitiyak ng pagsunod sa mga regulasyon sa privacy.
Data Protection Impact Assessment (DPIA)
Isang proseso upang tukuyin at bawasan ang mga panganib sa proteksyon ng data ng isang proyekto, na kinakailangan sa ilalim ng GDPR para sa mga aktibidad ng pagproseso na may mataas na panganib.
Data Breach
Isang insidente sa seguridad kung saan ang personal na data ay na-access, naihayag, nabago, o nawasak nang walang pahintulot.
Mga Regulatory Framework
GDPR (General Data Protection Regulation)
Ang regulasyon ng EU na namamahala sa pagproseso ng personal na data ng mga indibidwal sa loob ng European Economic Area, na epektibo mula noong Mayo 2018.
CCPA (California Consumer Privacy Act)
Isang batas ng estado ng California na nagbibigay ng mga karapatan sa mga mamimili sa kanilang personal na impormasyon na nakolekta ng mga negosyo, na epektibo mula noong Enero 2020.
HIPAA (Health Insurance Portability and Accountability Act)
Isang pederal na batas ng US na nagtatakda ng mga pamantayan para sa proteksyon ng sensitibong impormasyon sa kalusugan ng pasyente mula sa paghayag nang walang pahintulot.
ISO 27001
Isang internasyonal na pamantayan para sa mga sistema ng pamamahala ng seguridad ng impormasyon (ISMS), na nagtatakda ng mga kinakailangan para sa pagtatatag, pagpapatupad, at patuloy na pagpapabuti ng mga kontrol sa seguridad.
SOC 2 (System and Organization Controls 2)
Isang auditing framework para sa mga service organization na sumusuri sa mga kontrol na may kaugnayan sa seguridad, availability, processing integrity, confidentiality, at privacy.
Mga Teknikal na Terminolohiya
Named Entity Recognition (NER)
Isang teknik ng NLP na tumutukoy at nag-uuri ng mga nakapangalanang entidad sa teksto sa mga naunang itinatag na kategorya tulad ng mga pangalan ng tao, lokasyon, at mga organisasyon.
Natural Language Processing (NLP)
Isang sangay ng artipisyal na intelihensiya na nagpapahintulot sa mga computer na maunawaan, bigyang-kahulugan, at lumikha ng wika ng tao.
Pattern Recognizer
Isang rule-based detector na gumagamit ng regular expressions at mga konteksto upang tukuyin ang mga tiyak na pattern ng data, tulad ng mga numero ng credit card o mga numero ng social security.
Confidence Score
Isang numerikal na halaga sa pagitan ng 0 at 1 na nagpapahiwatig kung gaano katiyak ang isang detection engine na ang isang piraso ng teksto ay tumutugma sa isang tiyak na uri ng entidad.
Regular Expression (Regex)
Isang sunud-sunod ng mga character na nagtatakda ng isang pattern ng paghahanap, karaniwang ginagamit upang i-validate at tukuyin ang mga nakabalangkas na format ng data tulad ng mga numero ng telepono o email address.
AES-256-GCM
Isang authenticated encryption algorithm na gumagamit ng 256-bit key sa Galois/Counter Mode, na nagbibigay ng parehong kumpidensyalidad at integridad ng na-encrypt na data.
Zero-Knowledge Encryption
Isang arkitektura ng encryption kung saan tanging ang gumagamit ang may hawak ng susi sa decryption, na nangangahulugang kahit ang service provider ay hindi makaka-access sa plaintext na data.
Tokenization
Papalitan ang sensitibong data ng mga hindi sensitibong placeholder tokens na maaaring ma-map pabalik sa orihinal na data sa pamamagitan ng isang secure lookup.
Data Masking
Pagtakip ng tiyak na data sa loob ng isang dataset upang ang sensitibong impormasyon ay maitago habang ang data ay nananatiling magagamit para sa testing o pagsusuri.
Redaction
Ang permanenteng pag-aalis ng sensitibong impormasyon mula sa isang dokumento o dataset, na pinapalitan ito ng isang marker tulad ng [REDACTED].
Mga Paraan ng Anonymization
Replace
Papalitan ang natukoy na PII ng isang generic placeholder ng parehong uri ng entidad, tulad ng pagpapalit ng 'John Smith' ng '<PERSON>'.
Mask
Bahagyang tinatakpan ang PII sa pamamagitan ng pagpapalit ng mga character ng mga simbolo ng masking, halimbawa, ang '123-45-6789' ay nagiging '***-**-6789'.
Redact
Ganap na inaalis ang natukoy na PII mula sa teksto, na hindi nag-iiwan ng bakas ng orihinal na halaga.
Hash
Binabago ang PII sa isang fixed-length cryptographic hash, na nagpapahintulot ng pare-parehong pagpapalit habang ginagawa ang pagbabalik na computationally infeasible.
Encrypt
Binabago ang PII gamit ang AES-256-GCM encryption na may hawak na susi ng gumagamit, na nagpapahintulot sa awtorisadong pagbabalik (de-anonymization) kapag kinakailangan.
Mga Madalas Itanong
Ano ang pagkakaiba ng anonymization at pseudonymization?
Ang anonymization ay hindi maibabalik na nag-aalis ng lahat ng nakikilalang impormasyon kaya't ang muling pagkilala ay imposible. Ang pseudonymization ay nagpapalit ng mga tagapagkilala ng mga artipisyal habang pinapanatili ang isang hiwalay na susi na nagpapahintulot sa muling pagkilala kapag awtorisado. Sa ilalim ng GDPR, ang pseudonymized na data ay itinuturing pa ring personal na data.
Bakit gumagamit ng parehong NLP at pattern recognizers ang PII detection?
Ang mga modelo ng NLP ay tumutukoy sa mga konteksto na nakadepende sa mga entidad tulad ng mga pangalan ng tao at lokasyon na walang tiyak na format. Ang mga pattern recognizers ay gumagamit ng regular expressions upang mahuli ang mga nakabalangkas na tagapagkilala tulad ng mga numero ng social security, mga numero ng credit card, at mga numero ng telepono. Ang pagsasama ng parehong pamamaraan ay nag-maximize ng katumpakan ng pagtukoy sa lahat ng uri ng entidad.
Ano ang zero-knowledge encryption at bakit ito mahalaga?
Ang zero-knowledge encryption ay nangangahulugang tanging ikaw ang may hawak ng susi sa decryption — hindi mababasa ng service provider ang iyong data. Mahalaga ito dahil kahit sa kaganapan ng paglabag sa server, ang iyong na-encrypt na data ay mananatiling hindi mababasa nang walang iyong susi, na nagbibigay ng pinakamalakas na proteksyon ng data.
Paano naiiba ang reversible encryption mula sa hashing?
Ang hashing ay isang one-way transformation — kapag ang data ay na-hash, ang orihinal ay hindi na maibabalik. Ang reversible encryption (gamit ang AES-256-GCM) ay nagpapahintulot sa mga awtorisadong gumagamit na may tamang susi na i-decrypt at ibalik ang orihinal na data, na nagpapahintulot sa mga workflow kung saan kinakailangan ang de-anonymization.