PII & Tietosuoja Sanasto

Selkeät määritelmät keskeisistä tietosuoja-, sääntö- ja tietoturvatermeistä, joita käytetään alalla.

Tietosuoja & Sääntötermit

Henkilökohtaisesti tunnistettavat tiedot (PII)

Mikä tahansa tieto, joka voi tunnistaa tietyn henkilön, kuten nimet, sähköpostiosoitteet, sosiaaliturvatunnukset tai puhelinnumerot.

Anonymisointi

Irreversiibeli prosessi, jossa tietoja muutetaan siten, että yksilöitä ei voida tunnistaa suoraan tai epäsuorasti.

Pseudonymisointi

Tunnistettavien tietojen korvaaminen keinotekoisilla tunnisteilla (pseudonyymeillä), jolloin uudelleen tunnistaminen vaatii erikseen säilytettävän avaimen.

De-identifiointi

Henkilökohtaisia tunnisteita poistaminen tai peittäminen tiedoista, jotta niitä ei voida enää liittää tiettyyn henkilöön ilman lisätietoja.

Tietoaihe

Tunnistettu tai tunnistettavissa oleva luonnollinen henkilö, jonka henkilötietoja käsitellään rekisterinpitäjän tai käsittelijän toimesta.

Rekisterinpitäjä

Yksikkö, joka määrittää henkilötietojen käsittelyn tarkoitukset ja keinot.

Tietojen käsittelijä

Yksikkö, joka käsittelee henkilötietoja rekisterinpitäjän puolesta rekisterinpitäjän ohjeiden mukaisesti.

Suostumus

Vapaaehtoinen, erityinen, tietoinen ja yksiselitteinen ilmaus tietoaiheen suostumuksesta henkilötietojensa käsittelyyn.

Laillinen peruste

Laillinen peruste, jonka mukaan henkilötietojen käsittely on sallittua, kuten suostumus, sopimustarve, laillinen velvoite tai oikeutettu etu.

Tietojen minimointi

Periaate, jonka mukaan kerättyjen henkilötietojen tulee olla riittäviä, asiaankuuluvia ja rajoitettuja siihen, mikä on tarpeellista tarkoitetun tarkoituksen kannalta.

Oikeus poistamiseen

Tietoaiheen oikeus saada henkilötietonsa poistettua, kun niitä ei enää tarvita, tunnetaan myös nimellä 'oikeus tulla unohdetuksi' GDPR:n mukaan.

Tietojen siirrettävyys

Tietoaiheiden oikeus saada henkilötietonsa rakenteisessa, yleisesti käytetyssä muodossa ja siirtää ne toiselle rekisterinpitäjälle.

Tietosuojavastaava (DPO)

Nimetty henkilö, joka vastaa organisaation tietosuojastrategian valvonnasta ja varmistaa tietosuojalakien noudattamisen.

Tietosuojan vaikutusten arviointi (DPIA)

Prosessi, jolla tunnistetaan ja minimoidaan projektin tietosuojariskit, mikä on vaatimuksena GDPR:n mukaan korkean riskin käsittelytoimille.

Tietomurto

Turvallisuustapahtuma, jossa henkilötietoihin päästään käsiksi, niitä paljastetaan, muutetaan tai tuhotaan ilman valtuutusta.

Shadow AI

Tekoälytyökalujen (ChatGPT, Copilot, Gemini) luvaton käyttö työntekijöiden toimesta ilman IT-hyväksyntää. Shadow AI on johtava henkilökohtaisten tunnistetietojen vuotojen syy, koska käyttäjät liittävät arkaluontoisia yritystietoja – asiakastietoja, potilastietoja ja taloustietoja – suoraan tekoälykehotteisiin.

Tietojen minimointi

GDPR-periaate (5 artiklan 1 kohdan c alakohta), joka edellyttää organisaatioiden keräävän ja käsittelevän vain tiettyä tarkoitusta varten tarpeellisia vähimmäishenkilötietoja. Tekoälyjärjestelmissä tietojen minimointi tarkoittaa henkilökohtaisten tunnistetietojen anonymisointia tai poistamista ennen kuin tiedot saapuvat tekoälyputkiin, mikä vähentää vaatimustenmukaisuuden riskiä ja tietomurron pintaa.

Sääntelykehykset

GDPR (Yleinen tietosuoja-asetus)

EU:n asetus, joka säätelee henkilötietojen käsittelyä Euroopan talousalueen henkilöiden osalta, voimassa toukokuusta 2018 lähtien.

CCPA (Kalifornian kuluttajansuojalaki)

Kalifornian osavaltion laki, joka myöntää kuluttajille oikeuksia heidän yrityksiltä kerättyihin henkilötietoihinsa, voimassa tammikuusta 2020 lähtien.

HIPAA (Terveydenhuollon tietosuoja ja vastuullisuuslaki)

Yhdysvaltain liittovaltion laki, joka asettaa standardit potilaiden arkaluontoisten terveydenhuoltotietojen suojaamiselle ilman suostumusta.

ISO 27001

Kansainvälinen standardi tietoturvahallintajärjestelmille (ISMS), joka määrittelee vaatimukset turvallisuusvalvontojen perustamiselle, toteuttamiselle ja jatkuvalle parantamiselle.

SOC 2 (Järjestelmä- ja organisaatiovalvonnat 2)

Auditointikehys palveluorganisaatioille, joka arvioi turvallisuuteen, saatavuuteen, käsittelyn eheyteen, luottamuksellisuuteen ja tietosuojaan liittyviä valvontoja.

EU AI Act

Euroopan unionin tekoälyä koskeva asetus (voimassa elokuusta 2026). Korkean riskin tekoälyjärjestelmien on otettava käyttöön tiedonhallintatoimenpiteitä, mukaan lukien henkilötietojen minimointi, dokumentointi ja DPIA. Tekoälyä käyttävien organisaatioiden on varmistettava, että koulutustiedot anonymisoidaan tai pseudonyymitetään.

ISO 42001

Kansainvälinen standardi tekoälyn hallintajärjestelmille (AIMS), julkaistu vuonna 2023. Tarjoaa puitteet vastuulliselle tekoälyn kehittämiselle ja käyttöönotolle, mukaan lukien tiedon laatu, harhanhallinta ja yksityisyyden suoja. Usein pariksi ISO 27001:n kanssa organisaatioille, jotka käyttävät tekoälyjärjestelmiä henkilökohtaisilla tiedoilla.

Intia DPDP Act

Intian digitaalisten henkilötietojen suojalaki (2023), voimaan vuodesta 2025. Edellyttää nimenomaista suostumusta Intian asukkaiden henkilötietojen käsittelyyn, arkaluonteisten tietojen tietojen lokalisointiin ja rikkomuksista ilmoittamiseen 72 tunnin sisällä. Koskee organisaatioita maailmanlaajuisesti, jotka käsittelevät Intian kansalaisten tietoja.

Tekniset Termit

Nimien tunnistus (NER)

NLP-tekniikka, joka tunnistaa ja luokittelee nimettyjä entiteettejä tekstissä ennalta määriteltyihin kategorioihin, kuten henkilöiden nimet, sijainnit ja organisaatiot.

Luonnollisen kielen käsittely (NLP)

Tekoälyn haara, joka mahdollistaa tietokoneiden ymmärtää, tulkita ja tuottaa ihmiskieltä.

Kaavion tunnistin

Sääntöperusteinen tunnistin, joka käyttää säännöllisiä lausekkeita ja kontekstitietoja tunnistaakseen erityisiä tietomalleja, kuten luottokorttinumerot tai sosiaaliturvatunnukset.

Luottamusarvo

Numeraalinen arvo 0:n ja 1:n välillä, joka osoittaa, kuinka varma tunnistustekniikka on siitä, että tietty teksti vastaa tiettyä entiteettityyppiä.

Säännöllinen lauseke (Regex)

Merkkiyhdistelmä, joka määrittelee hakumallin, jota käytetään yleisesti rakenteellisten tietomuotojen, kuten puhelinnumeroiden tai sähköpostiosoitteiden, validoimiseen ja tunnistamiseen.

AES-256-GCM

Todennettu salausalgoritmi, joka käyttää 256-bittistä avainta Galois/Counter-tilassa, tarjoten sekä luottamuksellisuuden että eheyden vahvistamisen salatuille tiedoille.

Nollatietoinen salaus

Salausarkkitehtuuri, jossa vain käyttäjä pitää purkuavainta, mikä tarkoittaa, että edes palveluntarjoaja ei voi käyttää selkokielisiä tietoja.

Tokenisointi

Arkaluontoisten tietojen korvaaminen ei-arkaluontoisilla paikkamerkkeillä, jotka voidaan liittää takaisin alkuperäisiin tietoihin turvallisen haun kautta.

Tietojen peittäminen

Erityisten tietojen peittäminen tietojoukossa siten, että arkaluontoiset tiedot pysyvät piilossa, kun taas tiedot pysyvät käytettävinä testaukseen tai analyysiin.

Punaisuus

Arkaluontoisten tietojen pysyvä poistaminen asiakirjasta tai tietojoukosta, korvaten sen merkinnällä, kuten [POISTETTU].

Synteettiset tiedot

Tekoälyn luoma data, joka tilastollisesti jäljittelee todellista dataa sisältämättä todellisia tietueita. Anonymisointiin verrattuna: anonymisoidut tiedot säilyttävät paremman analyyttisen tarkkuuden loppupään ML:ssä; synteettinen data eliminoi uudelleentunnistumisen riskin, mutta tuo mukanaan tilastollista ajautumista. Käännettävää anonymisointia suositellaan, kun alkuperäisiä tietueita voidaan tarvita vaatimustenmukaisuuden tarkastuksiin.

LLM-pikainjektio

Hyökkäystekniikka, jossa haitallinen syöttö manipuloi suurta kielimallia ohittamaan ohjeet tai vuotamaan arkaluonteisia tietoja. Henkilökohtaisten tunnistetietojen suojauskonteksteissa nopea lisäys voi saada tekoälymallin paljastamaan anonymisoituja datamalleja tai käyttäjätietoja. Anonymisoimalla syötteet ennen kuin ne saavuttavat LLM:n, hyökkäyspinta pienenee.

Privacy-by-Design

A GDPR Art. 25 periaate, joka edellyttää tietosuojan sisällyttämistä järjestelmiin alusta alkaen sen sijaan, että se olisi lisätty jälkikäteen. Tekoälyjärjestelmissä yksityisyys by-design tarkoittaa tietojen anonymisointia ennen kuin ne saapuvat tekoälyputkiin, nollatietosalauksen käyttöönottoa ja tietojen säilyttämisen minimoimista.

Anonymisointimenetelmät

Korvata

Korvataan havaittu PII yleisellä paikkamerkillä, joka on samaa entiteettityyppiä, kuten 'John Smith' korvataan '<PERSON>'.

Peittää

Osittain peittää PII:tä korvaamalla merkkejä peittämissymboleilla, esimerkiksi muuntamalla '123-45-6789' muotoon '***-**-6789'.

Poistaa

Poistaa kokonaan havaittu PII tekstistä, jättäen alkuperäisestä arvosta ei mitään jälkeä.

Hajauttaa

Muuntaa PII kiinteän pituiseksi kryptografiseksi hajautukseksi, mikä mahdollistaa johdonmukaisen korvaamisen samalla, kun käänteinen prosessi on laskennallisesti mahdotonta.

Salata

Muuntaa PII AES-256-GCM-salauksella käyttäjän hallitsemalla avaimella, mahdollistaen valtuutetun käänteisen prosessin (de-anonymisointi) tarvittaessa.

Usein Kysytyt Kysymykset

Mikä on ero anonymisoinnin ja pseudonymisoinnin välillä?

Anonymisointi poistaa peruuttamattomasti kaikki tunnistettavat tiedot, joten uudelleen tunnistaminen on mahdotonta. Pseudonymisointi korvasi tunnisteet keinotekoisilla, pitäen erillisen avaimen, joka mahdollistaa uudelleen tunnistamisen, kun se on valtuutettu. GDPR:n mukaan pseudonymisoituja tietoja pidetään edelleen henkilötietoina.

Miksi PII-havainto käyttää sekä NLP:tä että kaavion tunnistajia?

NLP-mallit havaitsevat kontekstiin perustuvia entiteettejä, kuten henkilöiden nimiä ja sijainteja, joilla ei ole kiinteää muotoa. Kaavion tunnistajat käyttävät säännöllisiä lausekkeita rakenteellisten tunnisteiden, kuten sosiaaliturvatunnusten, luottokorttinumeroiden ja puhelinnumeroiden, havaitsemiseen. Molempien lähestymistapojen yhdistäminen maksimoi havaintotarkkuuden kaikissa entiteettityypeissä.

Mikä on nollatietoinen salaus ja miksi se on tärkeää?

Nollatietoinen salaus tarkoittaa, että vain sinä pidät purkuavainta — palveluntarjoaja ei voi lukea tietojasi. Tämä on tärkeää, koska jopa palvelimen tietomurron tapauksessa salatut tietosi pysyvät luettavina ilman avaintasi, tarjoten mahdollisimman vahvan tietosuojan.

Miten käänteinen salaus eroaa hajautuksesta?

Hajautus on yksisuuntainen muunnos — kun tiedot on hajautettu, alkuperäistä ei voida palauttaa. Käänteinen salaus (käyttäen AES-256-GCM:ää) mahdollistaa valtuutettujen käyttäjien, joilla on oikea avain, purkaa ja palauttaa alkuperäiset tiedot, mahdollistaen työnkulut, joissa de-anonymisointi on tarpeen.

Suojaa Arkaluontoiset Tiedot Tänään

Aloita PII:n anonymisointi 317 entiteettityypillä, 48 kielellä ja nollatietoisen salauksen avulla.