PII & Spletni slovar o varstvu podatkov

Jasne definicije ključnih izrazov o zasebnosti, skladnosti in varstvu podatkov, ki se uporabljajo v industriji.

Izrazi o zasebnosti in skladnosti

Osebno prepoznavne informacije (PII)

Vsak podatek, ki lahko identificira določeno osebo, kot so imena, e-poštni naslovi, številke socialne varnosti ali telefonske številke.

Anonimizacija

Nepovratni postopek spreminjanja podatkov, tako da posamezniki ne morejo biti identificirani, neposredno ali posredno.

Pseudonimizacija

Zamenjava prepoznavnih podatkov z umetnimi identifikatorji (pseudonimi), tako da je za ponovno identifikacijo potreben ločeno hranjen ključ.

De-identifikacija

Odstranitev ali zakrivanje osebnih identifikatorjev iz podatkov, tako da jih ni več mogoče povezati z določeno osebo brez dodatnih informacij.

Subjekt podatkov

Identificirana ali identificirana fizična oseba, katere osebni podatki se obdelujejo s strani upravljavca ali obdelovalca.

Upravljavec podatkov

Subjekt, ki določa namene in sredstva obdelave osebnih podatkov.

Obdelovalec podatkov

Subjekt, ki obdeluje osebne podatke v imenu upravljavca podatkov, v skladu z navodili upravljavca.

Soglasje

Prosto dano, specifično, informirano in nedvoumno izražanje soglasja subjekta podatkov za obdelavo njihovih osebnih podatkov.

Pravna podlaga

Pravna osnova, na kateri je obdelava osebnih podatkov dovoljena, kot so soglasje, nujnost pogodbe, pravna obveznost ali upravičen interes.

Minimizacija podatkov

Načelo, da morajo biti zbrani osebni podatki ustrezni, relevantni in omejeni na tisto, kar je potrebno za njihov predvideni namen.

Pravica do izbrisa

Pravica subjekta podatkov, da se njihovi osebni podatki izbrišejo, ko niso več potrebni, znana tudi kot 'pravica do pozabe' po GDPR.

Prenosljivost podatkov

Pravica subjektov podatkov, da prejmejo svoje osebne podatke v strukturirani, pogosto uporabljeni obliki in jih prenesejo k drugemu upravljavcu.

Pooblaščenec za varstvo podatkov (DPO)

Določena oseba, odgovorna za nadzor strategije varstva podatkov organizacije in zagotavljanje skladnosti s predpisi o varstvu podatkov.

Ocena vpliva na varstvo podatkov (DPIA)

Postopek za identifikacijo in zmanjšanje tveganj varstva podatkov projekta, zahtevan po GDPR za dejavnosti obdelave z visokim tveganjem.

Kršenje podatkov

Varnostni dogodek, pri katerem so osebni podatki dostopani, razkriti, spremenjeni ali uničeni brez pooblastila.

Shadow AI

Nepooblaščena uporaba orodij AI (ChatGPT, Copilot, Gemini) s strani zaposlenih brez odobritve IT. Senčna umetna inteligenca je glavni vzrok za uhajanje osebno določljivih podatkov, saj uporabniki prilepijo občutljive poslovne podatke – zapise o strankah, podatke o bolnikih, finančne podatke – neposredno v pozive umetne inteligence.

Zmanjšanje podatkov

Načelo GDPR (Art. 5(1)(c)), ki od organizacij zahteva, da zbirajo in obdelujejo le minimalno število osebnih podatkov, potrebnih za določen namen. V sistemih umetne inteligence minimizacija podatkov pomeni anonimizacijo ali odstranitev PII, preden podatki vstopijo v cevovode umetne inteligence, kar zmanjša tveganje skladnosti in površino kršitev.

Regulativni okviri

GDPR (Splošna uredba o varstvu podatkov)

Uredba EU, ki ureja obdelavo osebnih podatkov posameznikov znotraj Evropskega gospodarskega prostora, ki velja od maja 2018.

CCPA (Zakon o zasebnosti potrošnikov v Kaliforniji)

Zakon države Kalifornija, ki potrošnikom podeljuje pravice glede njihovih osebnih informacij, ki jih zbirajo podjetja, ki velja od januarja 2020.

HIPAA (Zakon o prenosljivosti in odgovornosti zdravstvenega zavarovanja)

Zvezni zakon ZDA, ki vzpostavlja standarde za zaščito občutljivih zdravstvenih informacij pacientov pred razkritjem brez soglasja.

ISO 27001

Mednarodni standard za sisteme upravljanja varnosti informacij (ISMS), ki določa zahteve za vzpostavitev, izvajanje in nenehno izboljševanje varnostnih kontrol.

SOC 2 (Kontrole sistemov in organizacij 2)

Okvir za revizijo storitvenih organizacij, ki ocenjuje kontrole, povezane z varnostjo, razpoložljivostjo, integriteto obdelave, zaupnostjo in zasebnostjo.

EU AI Act

Uredba Evropske unije o umetni inteligenci (velja od avgusta 2026). Sistemi umetne inteligence z visokim tveganjem morajo izvajati ukrepe za upravljanje podatkov, vključno z minimizacijo osebnih podatkov, dokumentacijo in DPIA. Organizacije, ki uporabljajo AI za odločanje o posameznikih, morajo zagotoviti, da so podatki o usposabljanju anonimizirani ali psevdonimizirani.

ISO 42001

Mednarodni standard za sisteme upravljanja umetne inteligence (AIMS), objavljen leta 2023. Zagotavlja okvir za odgovoren razvoj in uvajanje umetne inteligence, vključno s kakovostjo podatkov, nadzorom pristranskosti in varovali zasebnosti. Pogosto v kombinaciji z ISO 27001 za organizacije, ki upravljajo sisteme AI z osebnimi podatki.

Indija DPDP Act

Indijski zakon o varstvu digitalnih osebnih podatkov (2023), uveljavljen od leta 2025. Zahteva izrecno soglasje za obdelavo osebnih podatkov prebivalcev Indije, lokalizacijo podatkov za občutljive podatke in obvestilo o kršitvi v 72 urah. Velja za organizacije po vsem svetu, ki obdelujejo podatke indijskih državljanov.

Tehnični izrazi

Prepoznavanje imenovanih entitet (NER)

Tehnika NLP, ki identificira in razvršča imenovane entitete v besedilu v vnaprej določene kategorije, kot so imena oseb, lokacije in organizacije.

Obdelava naravnega jezika (NLP)

Ve branch umetne inteligence, ki omogoča računalnikom, da razumejo, interpretirajo in generirajo človeški jezik.

Prepoznavalec vzorcev

Detektor, ki temelji na pravilih in uporablja regularne izraze ter kontekstne namige za prepoznavanje specifičnih podatkovnih vzorcev, kot so številke kreditnih kartic ali številke socialne varnosti.

Ocena zaupanja

Številčna vrednost med 0 in 1, ki kaže, kako prepričan je detekcijski stroj, da določen kos besedila ustreza specifičnemu tipu entitete.

Regularni izraz (Regex)

Zaporedje znakov, ki določa iskalni vzorec, ki se pogosto uporablja za validacijo in zaznavanje strukturiranih podatkovnih formatov, kot so telefonske številke ali e-poštni naslovi.

AES-256-GCM

Algoritem avtorizirane šifriranja, ki uporablja 256-bitni ključ z Galois/Counter načinom, ki zagotavlja tako zaupnost kot preverjanje integritete šifriranih podatkov.

Šifriranje brez znanja

Arhitektura šifriranja, kjer samo uporabnik drži ključ za dešifriranje, kar pomeni, da celo ponudnik storitev ne more dostopati do nešifriranih podatkov.

Tokenizacija

Zamenjava občutljivih podatkov z neobčutljivimi nadomestnimi tokeni, ki jih je mogoče povezati nazaj na izvorne podatke preko varnega iskanja.

Maskiranje podatkov

Zakrivanje specifičnih podatkov znotraj niza podatkov, tako da je občutljive informacije skrite, medtem ko ostajajo podatki uporabni za testiranje ali analizo.

Redakcija

Trajna odstranitev občutljivih informacij iz dokumenta ali niza podatkov, ki jih nadomesti oznaka, kot je [REDAKTIRANO].

Sintetični podatki

Podatki, ustvarjeni z umetno inteligenco, ki statistično posnemajo dejanske podatke, ne da bi vsebovali dejanske zapise. V primerjavi z anonimizacijo: anonimizirani podatki ohranjajo višjo analitično natančnost za nadaljnje ML; sintetični podatki odpravljajo tveganje ponovne identifikacije, vendar uvajajo statistični odmik. Reverzibilna anonimizacija je prednostna, kadar so morda potrebni izvirni zapisi za revizije skladnosti.

LLM takojšnja injekcija

Tehnika napada, pri kateri zlonamerni vnos manipulira z velikim jezikovnim modelom, da prezre navodila ali uhajajo občutljive informacije. V kontekstih zaščite PII lahko takojšnje vstavljanje povzroči, da model AI razkrije anonimizirane vzorce podatkov ali informacije o uporabniku. Predhodna anonimizacija vnosov, preden dosežejo LLM, zmanjša površino napada.

Zasebnost po zasnovi

Načelo GDPR Art. 25, ki zahteva, da je zaščita podatkov vgrajena v sisteme od začetka in ne dodana naknadno. Za sisteme umetne inteligence zasebnost po zasnovi pomeni anonimiziranje podatkov, preden vstopijo v cevovode umetne inteligence, implementacijo šifriranja brez znanja in zmanjšanje hrambe podatkov.

Metode anonimizacije

Zamenjaj

Nadomešča zaznane PII z generičnim nadomestkom iste vrste entitete, na primer zamenjava 'John Smith' z '<OSEBA>'.

Maskiraj

Delno zakriva PII z zamenjavo znakov z maskirnimi simboli, na primer pretvorba '123-45-6789' v '***-**-6789'.

Redaktiraj

Popolnoma odstrani zaznane PII iz besedila, ne puščajoč sledi izvirne vrednosti.

Hash

Pretvori PII v kriptografski hash fiksne dolžine, kar omogoča dosledno zamenjavo, medtem ko je obratna operacija računsko neizvedljiva.

Šifriraj

Pretvori PII z uporabo AES-256-GCM šifriranja s ključem, ki ga drži uporabnik, kar omogoča pooblaščeno obratno delovanje (de-anonimizacijo) po potrebi.

Pogosto zastavljena vprašanja

Kakšna je razlika med anonimizacijo in pseudonimizacijo?

Anonimizacija nepovratno odstrani vse identifikacijske informacije, tako da je ponovna identifikacija nemogoča. Pseudonimizacija zamenja identifikatorje z umetnimi, medtem ko ohranja ločen ključ, ki omogoča ponovno identifikacijo, ko je to pooblaščeno. Po GDPR so pseudonimizirani podatki še vedno obravnavani kot osebni podatki.

Zakaj zaznavanje PII uporablja tako NLP kot prepoznavalce vzorcev?

NLP modeli zaznavajo kontekstualno odvisne entitete, kot so imena oseb in lokacije, ki nimajo fiksne oblike. Prepoznavalci vzorcev uporabljajo regularne izraze za zajemanje strukturiranih identifikatorjev, kot so številke socialne varnosti, številke kreditnih kartic in telefonske številke. Kombinacija obeh pristopov maksimizira natančnost zaznavanja vseh tipov entitet.

Kaj je šifriranje brez znanja in zakaj je pomembno?

Šifriranje brez znanja pomeni, da samo vi držite ključ za dešifriranje — ponudnik storitev ne more prebrati vaših podatkov. To je pomembno, ker tudi v primeru kršitve strežnika vaši šifrirani podatki ostanejo neberljivi brez vašega ključa, kar zagotavlja najmočnejšo možno zaščito podatkov.

Kako se obratno šifriranje razlikuje od hashanja?

Hashanje je enosmerna transformacija — ko so podatki hashanjeni, izvirnih ni mogoče obnoviti. Obratno šifriranje (z uporabo AES-256-GCM) omogoča pooblaščenim uporabnikom s pravilnim ključem, da dešifrirajo in obnovijo izvorne podatke, kar omogoča delovne tokove, kjer je potrebna de-anonimizacija.

Zaščitite občutljive podatke danes

Začnite z anonimizacijo PII z 317 tipi entitet, 48 jeziki in šifriranjem brez znanja.