PII & Data Privacy Glossary

Malinaw na mga depinisyon ng mga pangunahing termino sa privacy, pagsunod, at proteksyon ng data na ginagamit sa buong industriya.

Mga Terminolohiya sa Privacy at Pagsunod

Personally Identifiable Information (PII)

Anumang data na makakapagkilala sa isang tiyak na indibidwal, tulad ng mga pangalan, email address, numero ng social security, o mga numero ng telepono.

Anonymization

Ang hindi maibabalik na proseso ng pagbabago ng data upang hindi makilala ang mga indibidwal, direkta man o hindi.

Pseudonymization

Papalitan ang mga makikilalang data ng mga artipisyal na tagapagkilala (pseudonyms) upang ang muling pagkilala ay mangailangan ng hiwalay na hawak na susi.

De-identification

Pag-aalis o pagtakip ng mga personal na tagapagkilala mula sa data upang hindi na ito maikonekta sa isang tiyak na indibidwal nang walang karagdagang impormasyon.

Data Subject

Isang nakilala o makikilalang natural na tao na ang personal na data ay pinoproseso ng isang controller o processor.

Data Controller

Ang entidad na nagtatakda ng mga layunin at paraan ng pagproseso ng personal na data.

Data Processor

Isang entidad na nagpoproseso ng personal na data sa ngalan ng isang data controller, ayon sa mga tagubilin ng controller.

Consent

Isang malayang ibinigay, tiyak, may kaalaman, at hindi malabo na indikasyon ng pagsang-ayon ng isang data subject sa pagproseso ng kanilang personal na data.

Lawful Basis

Isang legal na batayan kung saan pinapayagan ang pagproseso ng personal na data, tulad ng pahintulot, pangangailangan ng kontrata, legal na obligasyon, o lehitimong interes.

Data Minimization

Ang prinsipyo na ang personal na data na nakolekta ay dapat sapat, may kaugnayan, at limitado sa kung ano ang kinakailangan para sa nakatakdang layunin.

Right to Erasure

Karapatan ng isang data subject na magkaroon ng kanilang personal na data na tanggalin kapag hindi na ito kinakailangan, kilala rin bilang 'karapatan na makalimutan' sa ilalim ng GDPR.

Data Portability

Karapatan ng mga data subject na tumanggap ng kanilang personal na data sa isang nakabalangkas, karaniwang ginagamit na format at ilipat ito sa ibang controller.

Data Protection Officer (DPO)

Isang itinalagang indibidwal na responsable sa pangangasiwa ng estratehiya sa proteksyon ng data ng isang organisasyon at pagtitiyak ng pagsunod sa mga regulasyon sa privacy.

Data Protection Impact Assessment (DPIA)

Isang proseso upang tukuyin at bawasan ang mga panganib sa proteksyon ng data ng isang proyekto, na kinakailangan sa ilalim ng GDPR para sa mga aktibidad ng pagproseso na may mataas na panganib.

Data Breach

Isang insidente sa seguridad kung saan ang personal na data ay na-access, naihayag, nabago, o nawasak nang walang pahintulot.

Shadow AI

Hindi awtorisadong paggamit ng mga tool ng AI (ChatGPT, Copilot, Gemini) ng mga empleyado nang walang pag-apruba sa IT. Ang Shadow AI ay isang nangungunang sanhi ng pagtagas ng data ng PII, habang ang mga user ay nagpe-paste ng sensitibong data ng negosyo — mga talaan ng customer, impormasyon ng pasyente, data sa pananalapi — nang direkta sa mga senyas ng AI.

Pag-minimize ng Data

Isang prinsipyo ng GDPR (Art. 5(1)(c)) na nangangailangan ng mga organisasyon na kolektahin at iproseso lamang ang pinakamababang personal na data na kinakailangan para sa isang partikular na layunin. Sa mga system ng AI, ang pag-minimize ng data ay nangangahulugan ng pag-anonymize o pag-alis ng PII bago pumasok ang data sa mga pipeline ng AI, na binabawasan ang panganib sa pagsunod at lumalabas na paglabag.

Mga Regulatory Framework

GDPR (General Data Protection Regulation)

Ang regulasyon ng EU na namamahala sa pagproseso ng personal na data ng mga indibidwal sa loob ng European Economic Area, na epektibo mula noong Mayo 2018.

CCPA (California Consumer Privacy Act)

Isang batas ng estado ng California na nagbibigay ng mga karapatan sa mga mamimili sa kanilang personal na impormasyon na nakolekta ng mga negosyo, na epektibo mula noong Enero 2020.

HIPAA (Health Insurance Portability and Accountability Act)

Isang pederal na batas ng US na nagtatakda ng mga pamantayan para sa proteksyon ng sensitibong impormasyon sa kalusugan ng pasyente mula sa paghayag nang walang pahintulot.

ISO 27001

Isang internasyonal na pamantayan para sa mga sistema ng pamamahala ng seguridad ng impormasyon (ISMS), na nagtatakda ng mga kinakailangan para sa pagtatatag, pagpapatupad, at patuloy na pagpapabuti ng mga kontrol sa seguridad.

SOC 2 (System and Organization Controls 2)

Isang auditing framework para sa mga service organization na sumusuri sa mga kontrol na may kaugnayan sa seguridad, availability, processing integrity, confidentiality, at privacy.

EU AI Act

Regulasyon ng European Union sa artificial intelligence (ipinatupad mula Agosto 2026). Ang mga high-risk na AI system ay dapat magpatupad ng mga hakbang sa pamamahala ng data kabilang ang pag-minimize ng personal na data, dokumentasyon, at DPIA. Dapat tiyakin ng mga organisasyong gumagamit ng AI para sa paggawa ng desisyon sa mga indibidwal na hindi nagpapakilala o pseudonymized ang data ng pagsasanay.

ISO 42001

International standard para sa AI Management Systems (AIMS), na na-publish noong 2023. Nagbibigay ng framework para sa responsableng AI development at deployment, kabilang ang kalidad ng data, bias controls, at privacy safeguards. Madalas na ipinares sa ISO 27001 para sa mga organisasyong nagpapatakbo ng mga AI system na may personal na data.

India DPDP Act

India's Digital Personal Data Protection Act (2023), na ipinatupad mula 2025. Nangangailangan ng tahasang pahintulot para sa pagproseso ng personal na data ng mga residenteng Indian, lokalisasyon ng data para sa sensitibong data, at notification ng paglabag sa loob ng 72 oras. Nalalapat sa mga organisasyon sa buong mundo na nagpoproseso ng data ng mga mamamayang Indian.

Mga Teknikal na Terminolohiya

Named Entity Recognition (NER)

Isang teknik ng NLP na tumutukoy at nag-uuri ng mga nakapangalanang entidad sa teksto sa mga naunang itinatag na kategorya tulad ng mga pangalan ng tao, lokasyon, at mga organisasyon.

Natural Language Processing (NLP)

Isang sangay ng artipisyal na intelihensiya na nagpapahintulot sa mga computer na maunawaan, bigyang-kahulugan, at lumikha ng wika ng tao.

Pattern Recognizer

Isang rule-based detector na gumagamit ng regular expressions at mga konteksto upang tukuyin ang mga tiyak na pattern ng data, tulad ng mga numero ng credit card o mga numero ng social security.

Confidence Score

Isang numerikal na halaga sa pagitan ng 0 at 1 na nagpapahiwatig kung gaano katiyak ang isang detection engine na ang isang piraso ng teksto ay tumutugma sa isang tiyak na uri ng entidad.

Regular Expression (Regex)

Isang sunud-sunod ng mga character na nagtatakda ng isang pattern ng paghahanap, karaniwang ginagamit upang i-validate at tukuyin ang mga nakabalangkas na format ng data tulad ng mga numero ng telepono o email address.

AES-256-GCM

Isang authenticated encryption algorithm na gumagamit ng 256-bit key sa Galois/Counter Mode, na nagbibigay ng parehong kumpidensyalidad at integridad ng na-encrypt na data.

Zero-Knowledge Encryption

Isang arkitektura ng encryption kung saan tanging ang gumagamit ang may hawak ng susi sa decryption, na nangangahulugang kahit ang service provider ay hindi makaka-access sa plaintext na data.

Tokenization

Papalitan ang sensitibong data ng mga hindi sensitibong placeholder tokens na maaaring ma-map pabalik sa orihinal na data sa pamamagitan ng isang secure lookup.

Data Masking

Pagtakip ng tiyak na data sa loob ng isang dataset upang ang sensitibong impormasyon ay maitago habang ang data ay nananatiling magagamit para sa testing o pagsusuri.

Redaction

Ang permanenteng pag-aalis ng sensitibong impormasyon mula sa isang dokumento o dataset, na pinapalitan ito ng isang marker tulad ng [REDACTED].

Sintetikong Data

Data na binuo ng AI na ginagaya ng istatistika ang totoong data nang hindi naglalaman ng mga aktwal na tala. Kung ikukumpara sa anonymization: pinapanatili ng anonymized na data ang mas mataas na katumpakan ng analytical para sa downstream na ML; inaalis ng sintetikong data ang panganib sa muling pagkakakilanlan ngunit nagpapakilala ng statistical drift. Mas gusto ang nababalikang anonymization kapag maaaring kailanganin ang mga orihinal na tala para sa mga pag-audit sa pagsunod.

LLM Prompt Injection

Isang diskarte sa pag-atake kung saan ang nakakahamak na input ay nagmamanipula ng isang malaking modelo ng wika upang huwag pansinin ang mga tagubilin o mag-leak ng sensitibong impormasyon. Sa mga konteksto ng proteksyon ng PII, ang maagang pag-iniksyon ay maaaring maging sanhi ng isang modelo ng AI na magbunyag ng mga pattern ng hindi nakikilalang data o impormasyon ng user. Binabawasan ng mga pre-anonymizing input ang mga ito bago maabot ang mga LLM.

Privacy-by-Design

Isang GDPR Art. 25 na prinsipyo na nangangailangan ng proteksyon ng data na maitayo sa mga system mula sa simula sa halip na idagdag bilang isang nahuling pag-iisip. Para sa mga AI system, ang privacy-by-design ay nangangahulugan ng pag-anonymize ng data bago ito pumasok sa AI pipelines, pagpapatupad ng zero-knowledge encryption, at pagliit ng pagpapanatili ng data.

Mga Paraan ng Anonymization

Replace

Papalitan ang natukoy na PII ng isang generic placeholder ng parehong uri ng entidad, tulad ng pagpapalit ng 'John Smith' ng '<PERSON>'.

Mask

Bahagyang tinatakpan ang PII sa pamamagitan ng pagpapalit ng mga character ng mga simbolo ng masking, halimbawa, ang '123-45-6789' ay nagiging '***-**-6789'.

Redact

Ganap na inaalis ang natukoy na PII mula sa teksto, na hindi nag-iiwan ng bakas ng orihinal na halaga.

Hash

Binabago ang PII sa isang fixed-length cryptographic hash, na nagpapahintulot ng pare-parehong pagpapalit habang ginagawa ang pagbabalik na computationally infeasible.

Encrypt

Binabago ang PII gamit ang AES-256-GCM encryption na may hawak na susi ng gumagamit, na nagpapahintulot sa awtorisadong pagbabalik (de-anonymization) kapag kinakailangan.

Mga Madalas Itanong

Ano ang pagkakaiba ng anonymization at pseudonymization?

Ang anonymization ay hindi maibabalik na nag-aalis ng lahat ng nakikilalang impormasyon kaya't ang muling pagkilala ay imposible. Ang pseudonymization ay nagpapalit ng mga tagapagkilala ng mga artipisyal habang pinapanatili ang isang hiwalay na susi na nagpapahintulot sa muling pagkilala kapag awtorisado. Sa ilalim ng GDPR, ang pseudonymized na data ay itinuturing pa ring personal na data.

Bakit gumagamit ng parehong NLP at pattern recognizers ang PII detection?

Ang mga modelo ng NLP ay tumutukoy sa mga konteksto na nakadepende sa mga entidad tulad ng mga pangalan ng tao at lokasyon na walang tiyak na format. Ang mga pattern recognizers ay gumagamit ng regular expressions upang mahuli ang mga nakabalangkas na tagapagkilala tulad ng mga numero ng social security, mga numero ng credit card, at mga numero ng telepono. Ang pagsasama ng parehong pamamaraan ay nag-maximize ng katumpakan ng pagtukoy sa lahat ng uri ng entidad.

Ano ang zero-knowledge encryption at bakit ito mahalaga?

Ang zero-knowledge encryption ay nangangahulugang tanging ikaw ang may hawak ng susi sa decryption — hindi mababasa ng service provider ang iyong data. Mahalaga ito dahil kahit sa kaganapan ng paglabag sa server, ang iyong na-encrypt na data ay mananatiling hindi mababasa nang walang iyong susi, na nagbibigay ng pinakamalakas na proteksyon ng data.

Paano naiiba ang reversible encryption mula sa hashing?

Ang hashing ay isang one-way transformation — kapag ang data ay na-hash, ang orihinal ay hindi na maibabalik. Ang reversible encryption (gamit ang AES-256-GCM) ay nagpapahintulot sa mga awtorisadong gumagamit na may tamang susi na i-decrypt at ibalik ang orihinal na data, na nagpapahintulot sa mga workflow kung saan kinakailangan ang de-anonymization.

Protektahan ang Sensitibong Data Ngayon

Simulan ang pag-anonymize ng PII gamit ang higit sa 320+ uri ng entidad, 48 wika, at zero-knowledge encryption.