PII & Tietosuoja Sanasto
Selkeät määritelmät keskeisistä tietosuoja-, sääntö- ja tietoturvatermeistä, joita käytetään alalla.
Tietosuoja & Sääntötermit
Henkilökohtaisesti tunnistettavat tiedot (PII)
Mikä tahansa tieto, joka voi tunnistaa tietyn henkilön, kuten nimet, sähköpostiosoitteet, sosiaaliturvatunnukset tai puhelinnumerot.
Anonymisointi
Irreversiibeli prosessi, jossa tietoja muutetaan siten, että yksilöitä ei voida tunnistaa suoraan tai epäsuorasti.
Pseudonymisointi
Tunnistettavien tietojen korvaaminen keinotekoisilla tunnisteilla (pseudonyymeillä), jolloin uudelleen tunnistaminen vaatii erikseen säilytettävän avaimen.
De-identifiointi
Henkilökohtaisia tunnisteita poistaminen tai peittäminen tiedoista, jotta niitä ei voida enää liittää tiettyyn henkilöön ilman lisätietoja.
Tietoaihe
Tunnistettu tai tunnistettavissa oleva luonnollinen henkilö, jonka henkilötietoja käsitellään rekisterinpitäjän tai käsittelijän toimesta.
Rekisterinpitäjä
Yksikkö, joka määrittää henkilötietojen käsittelyn tarkoitukset ja keinot.
Tietojen käsittelijä
Yksikkö, joka käsittelee henkilötietoja rekisterinpitäjän puolesta rekisterinpitäjän ohjeiden mukaisesti.
Suostumus
Vapaaehtoinen, erityinen, tietoinen ja yksiselitteinen ilmaus tietoaiheen suostumuksesta henkilötietojensa käsittelyyn.
Laillinen peruste
Laillinen peruste, jonka mukaan henkilötietojen käsittely on sallittua, kuten suostumus, sopimustarve, laillinen velvoite tai oikeutettu etu.
Tietojen minimointi
Periaate, jonka mukaan kerättyjen henkilötietojen tulee olla riittäviä, asiaankuuluvia ja rajoitettuja siihen, mikä on tarpeellista tarkoitetun tarkoituksen kannalta.
Oikeus poistamiseen
Tietoaiheen oikeus saada henkilötietonsa poistettua, kun niitä ei enää tarvita, tunnetaan myös nimellä 'oikeus tulla unohdetuksi' GDPR:n mukaan.
Tietojen siirrettävyys
Tietoaiheiden oikeus saada henkilötietonsa rakenteisessa, yleisesti käytetyssä muodossa ja siirtää ne toiselle rekisterinpitäjälle.
Tietosuojavastaava (DPO)
Nimetty henkilö, joka vastaa organisaation tietosuojastrategian valvonnasta ja varmistaa tietosuojalakien noudattamisen.
Tietosuojan vaikutusten arviointi (DPIA)
Prosessi, jolla tunnistetaan ja minimoidaan projektin tietosuojariskit, mikä on vaatimuksena GDPR:n mukaan korkean riskin käsittelytoimille.
Tietomurto
Turvallisuustapahtuma, jossa henkilötietoihin päästään käsiksi, niitä paljastetaan, muutetaan tai tuhotaan ilman valtuutusta.
Shadow AI
Tekoälytyökalujen (ChatGPT, Copilot, Gemini) luvaton käyttö työntekijöiden toimesta ilman IT-hyväksyntää. Shadow AI on johtava henkilökohtaisten tunnistetietojen vuotojen syy, koska käyttäjät liittävät arkaluontoisia yritystietoja – asiakastietoja, potilastietoja ja taloustietoja – suoraan tekoälykehotteisiin.
Tietojen minimointi
GDPR-periaate (5 artiklan 1 kohdan c alakohta), joka edellyttää organisaatioiden keräävän ja käsittelevän vain tiettyä tarkoitusta varten tarpeellisia vähimmäishenkilötietoja. Tekoälyjärjestelmissä tietojen minimointi tarkoittaa henkilökohtaisten tunnistetietojen anonymisointia tai poistamista ennen kuin tiedot saapuvat tekoälyputkiin, mikä vähentää vaatimustenmukaisuuden riskiä ja tietomurron pintaa.
Sääntelykehykset
GDPR (Yleinen tietosuoja-asetus)
EU:n asetus, joka säätelee henkilötietojen käsittelyä Euroopan talousalueen henkilöiden osalta, voimassa toukokuusta 2018 lähtien.
CCPA (Kalifornian kuluttajansuojalaki)
Kalifornian osavaltion laki, joka myöntää kuluttajille oikeuksia heidän yrityksiltä kerättyihin henkilötietoihinsa, voimassa tammikuusta 2020 lähtien.
HIPAA (Terveydenhuollon tietosuoja ja vastuullisuuslaki)
Yhdysvaltain liittovaltion laki, joka asettaa standardit potilaiden arkaluontoisten terveydenhuoltotietojen suojaamiselle ilman suostumusta.
ISO 27001
Kansainvälinen standardi tietoturvahallintajärjestelmille (ISMS), joka määrittelee vaatimukset turvallisuusvalvontojen perustamiselle, toteuttamiselle ja jatkuvalle parantamiselle.
SOC 2 (Järjestelmä- ja organisaatiovalvonnat 2)
Auditointikehys palveluorganisaatioille, joka arvioi turvallisuuteen, saatavuuteen, käsittelyn eheyteen, luottamuksellisuuteen ja tietosuojaan liittyviä valvontoja.
EU AI Act
Euroopan unionin tekoälyä koskeva asetus (voimassa elokuusta 2026). Korkean riskin tekoälyjärjestelmien on otettava käyttöön tiedonhallintatoimenpiteitä, mukaan lukien henkilötietojen minimointi, dokumentointi ja DPIA. Tekoälyä käyttävien organisaatioiden on varmistettava, että koulutustiedot anonymisoidaan tai pseudonyymitetään.
ISO 42001
Kansainvälinen standardi tekoälyn hallintajärjestelmille (AIMS), julkaistu vuonna 2023. Tarjoaa puitteet vastuulliselle tekoälyn kehittämiselle ja käyttöönotolle, mukaan lukien tiedon laatu, harhanhallinta ja yksityisyyden suoja. Usein pariksi ISO 27001:n kanssa organisaatioille, jotka käyttävät tekoälyjärjestelmiä henkilökohtaisilla tiedoilla.
Intia DPDP Act
Intian digitaalisten henkilötietojen suojalaki (2023), voimaan vuodesta 2025. Edellyttää nimenomaista suostumusta Intian asukkaiden henkilötietojen käsittelyyn, arkaluonteisten tietojen tietojen lokalisointiin ja rikkomuksista ilmoittamiseen 72 tunnin sisällä. Koskee organisaatioita maailmanlaajuisesti, jotka käsittelevät Intian kansalaisten tietoja.
Tekniset Termit
Nimien tunnistus (NER)
NLP-tekniikka, joka tunnistaa ja luokittelee nimettyjä entiteettejä tekstissä ennalta määriteltyihin kategorioihin, kuten henkilöiden nimet, sijainnit ja organisaatiot.
Luonnollisen kielen käsittely (NLP)
Tekoälyn haara, joka mahdollistaa tietokoneiden ymmärtää, tulkita ja tuottaa ihmiskieltä.
Kaavion tunnistin
Sääntöperusteinen tunnistin, joka käyttää säännöllisiä lausekkeita ja kontekstitietoja tunnistaakseen erityisiä tietomalleja, kuten luottokorttinumerot tai sosiaaliturvatunnukset.
Luottamusarvo
Numeraalinen arvo 0:n ja 1:n välillä, joka osoittaa, kuinka varma tunnistustekniikka on siitä, että tietty teksti vastaa tiettyä entiteettityyppiä.
Säännöllinen lauseke (Regex)
Merkkiyhdistelmä, joka määrittelee hakumallin, jota käytetään yleisesti rakenteellisten tietomuotojen, kuten puhelinnumeroiden tai sähköpostiosoitteiden, validoimiseen ja tunnistamiseen.
AES-256-GCM
Todennettu salausalgoritmi, joka käyttää 256-bittistä avainta Galois/Counter-tilassa, tarjoten sekä luottamuksellisuuden että eheyden vahvistamisen salatuille tiedoille.
Nollatietoinen salaus
Salausarkkitehtuuri, jossa vain käyttäjä pitää purkuavainta, mikä tarkoittaa, että edes palveluntarjoaja ei voi käyttää selkokielisiä tietoja.
Tokenisointi
Arkaluontoisten tietojen korvaaminen ei-arkaluontoisilla paikkamerkkeillä, jotka voidaan liittää takaisin alkuperäisiin tietoihin turvallisen haun kautta.
Tietojen peittäminen
Erityisten tietojen peittäminen tietojoukossa siten, että arkaluontoiset tiedot pysyvät piilossa, kun taas tiedot pysyvät käytettävinä testaukseen tai analyysiin.
Punaisuus
Arkaluontoisten tietojen pysyvä poistaminen asiakirjasta tai tietojoukosta, korvaten sen merkinnällä, kuten [POISTETTU].
Synteettiset tiedot
Tekoälyn luoma data, joka tilastollisesti jäljittelee todellista dataa sisältämättä todellisia tietueita. Anonymisointiin verrattuna: anonymisoidut tiedot säilyttävät paremman analyyttisen tarkkuuden loppupään ML:ssä; synteettinen data eliminoi uudelleentunnistumisen riskin, mutta tuo mukanaan tilastollista ajautumista. Käännettävää anonymisointia suositellaan, kun alkuperäisiä tietueita voidaan tarvita vaatimustenmukaisuuden tarkastuksiin.
LLM-pikainjektio
Hyökkäystekniikka, jossa haitallinen syöttö manipuloi suurta kielimallia ohittamaan ohjeet tai vuotamaan arkaluonteisia tietoja. Henkilökohtaisten tunnistetietojen suojauskonteksteissa nopea lisäys voi saada tekoälymallin paljastamaan anonymisoituja datamalleja tai käyttäjätietoja. Anonymisoimalla syötteet ennen kuin ne saavuttavat LLM:n, hyökkäyspinta pienenee.
Privacy-by-Design
A GDPR Art. 25 periaate, joka edellyttää tietosuojan sisällyttämistä järjestelmiin alusta alkaen sen sijaan, että se olisi lisätty jälkikäteen. Tekoälyjärjestelmissä yksityisyys by-design tarkoittaa tietojen anonymisointia ennen kuin ne saapuvat tekoälyputkiin, nollatietosalauksen käyttöönottoa ja tietojen säilyttämisen minimoimista.
Anonymisointimenetelmät
Korvata
Korvataan havaittu PII yleisellä paikkamerkillä, joka on samaa entiteettityyppiä, kuten 'John Smith' korvataan '<PERSON>'.
Peittää
Osittain peittää PII:tä korvaamalla merkkejä peittämissymboleilla, esimerkiksi muuntamalla '123-45-6789' muotoon '***-**-6789'.
Poistaa
Poistaa kokonaan havaittu PII tekstistä, jättäen alkuperäisestä arvosta ei mitään jälkeä.
Hajauttaa
Muuntaa PII kiinteän pituiseksi kryptografiseksi hajautukseksi, mikä mahdollistaa johdonmukaisen korvaamisen samalla, kun käänteinen prosessi on laskennallisesti mahdotonta.
Salata
Muuntaa PII AES-256-GCM-salauksella käyttäjän hallitsemalla avaimella, mahdollistaen valtuutetun käänteisen prosessin (de-anonymisointi) tarvittaessa.
Usein Kysytyt Kysymykset
Mikä on ero anonymisoinnin ja pseudonymisoinnin välillä?
Anonymisointi poistaa peruuttamattomasti kaikki tunnistettavat tiedot, joten uudelleen tunnistaminen on mahdotonta. Pseudonymisointi korvasi tunnisteet keinotekoisilla, pitäen erillisen avaimen, joka mahdollistaa uudelleen tunnistamisen, kun se on valtuutettu. GDPR:n mukaan pseudonymisoituja tietoja pidetään edelleen henkilötietoina.
Miksi PII-havainto käyttää sekä NLP:tä että kaavion tunnistajia?
NLP-mallit havaitsevat kontekstiin perustuvia entiteettejä, kuten henkilöiden nimiä ja sijainteja, joilla ei ole kiinteää muotoa. Kaavion tunnistajat käyttävät säännöllisiä lausekkeita rakenteellisten tunnisteiden, kuten sosiaaliturvatunnusten, luottokorttinumeroiden ja puhelinnumeroiden, havaitsemiseen. Molempien lähestymistapojen yhdistäminen maksimoi havaintotarkkuuden kaikissa entiteettityypeissä.
Mikä on nollatietoinen salaus ja miksi se on tärkeää?
Nollatietoinen salaus tarkoittaa, että vain sinä pidät purkuavainta — palveluntarjoaja ei voi lukea tietojasi. Tämä on tärkeää, koska jopa palvelimen tietomurron tapauksessa salatut tietosi pysyvät luettavina ilman avaintasi, tarjoten mahdollisimman vahvan tietosuojan.
Miten käänteinen salaus eroaa hajautuksesta?
Hajautus on yksisuuntainen muunnos — kun tiedot on hajautettu, alkuperäistä ei voida palauttaa. Käänteinen salaus (käyttäen AES-256-GCM:ää) mahdollistaa valtuutettujen käyttäjien, joilla on oikea avain, purkaa ja palauttaa alkuperäiset tiedot, mahdollistaen työnkulut, joissa de-anonymisointi on tarpeen.