PII & Gegevensprivacy Glossarium

Duidelijke definities van belangrijke privacy-, compliance- en gegevensbeschermingstermen die in de industrie worden gebruikt.

Privacy- & Compliance-termen

Persoonlijk Identificeerbare Informatie (PII)

Gegevens die een specifieke persoon kunnen identificeren, zoals namen, e-mailadressen, burgerservicenummers of telefoonnummers.

Anonimisatie

Het onomkeerbare proces van het wijzigen van gegevens zodat individuen niet direct of indirect kunnen worden geïdentificeerd.

Pseudonimisering

Identificeerbare gegevens vervangen door kunstmatige identificatoren (pseudoniemen) zodat heridentificatie een afzonderlijk bewaard sleutel vereist.

De-identificatie

Het verwijderen of verdoezelen van persoonlijke identificatoren uit gegevens zodat deze niet meer aan een specifieke persoon kunnen worden gekoppeld zonder aanvullende informatie.

Gegevenssubject

Een geïdentificeerde of identificeerbare natuurlijke persoon wiens persoonlijke gegevens worden verwerkt door een verwerkingsverantwoordelijke of verwerker.

Gegevensverantwoordelijke

De entiteit die de doeleinden en middelen van de verwerking van persoonlijke gegevens bepaalt.

Gegevensverwerker

Een entiteit die persoonlijke gegevens verwerkt namens een gegevensverantwoordelijke, volgens de instructies van de verantwoordelijke.

Toestemming

Een vrijgegeven, specifieke, geïnformeerde en ondubbelzinnige aanwijzing van de instemming van een gegevenssubject met de verwerking van hun persoonlijke gegevens.

Wettige Basis

Een juridische grond waarop de verwerking van persoonlijke gegevens is toegestaan, zoals toestemming, contractuele noodzaak, wettelijke verplichting of gerechtvaardigd belang.

Gegevensminimalisatie

Het principe dat de verzamelde persoonlijke gegevens adequaat, relevant en beperkt moeten zijn tot wat noodzakelijk is voor het beoogde doel.

Recht op Vergetelheid

Het recht van een gegevenssubject om hun persoonlijke gegevens te laten verwijderen wanneer deze niet langer noodzakelijk zijn, ook wel bekend als het 'recht om vergeten te worden' onder GDPR.

Gegevensportabiliteit

Het recht van gegevenssubjecten om hun persoonlijke gegevens te ontvangen in een gestructureerd, veelgebruikt formaat en deze over te dragen aan een andere verantwoordelijke.

Functionaris voor Gegevensbescherming (DPO)

Een aangewezen persoon die verantwoordelijk is voor het toezicht op de gegevensbeschermingsstrategie van een organisatie en ervoor zorgt dat deze voldoet aan privacyregelgeving.

Gegevensbeschermingseffectbeoordeling (DPIA)

Een proces om de gegevensbeschermingsrisico's van een project te identificeren en te minimaliseren, vereist onder GDPR voor risicovolle verwerkingsactiviteiten.

Gegevensinbreuk

Een beveiligingsincident waarbij persoonlijke gegevens zonder autorisatie worden benaderd, bekendgemaakt, gewijzigd of vernietigd.

Schaduw-AI

Ongeautoriseerd gebruik van AI-tools (ChatGPT, Copilot, Gemini) door medewerkers zonder IT-goedkeuring. Shadow AI is een belangrijke oorzaak van PII-datalekken, omdat gebruikers gevoelige bedrijfsgegevens (klantgegevens, patiëntinformatie, financiële gegevens) rechtstreeks in AI-prompts plakken.

Gegevensminimalisatie

Een GDPR-beginsel (Art. 5(1)(c)) dat vereist dat organisaties alleen de minimale persoonsgegevens verzamelen en verwerken die nodig zijn voor een specifiek doel. In AI-systemen betekent dataminimalisatie het anonimiseren of verwijderen van PII voordat gegevens de AI-pijplijnen binnenkomen, waardoor het nalevingsrisico en het oppervlak van inbreuken worden verminderd.

Regelgevende Kaders

GDPR (Algemene Verordening Gegevensbescherming)

De EU-verordening die de verwerking van persoonlijke gegevens van individuen binnen de Europese Economische Ruimte reguleert, van kracht sinds mei 2018.

CCPA (California Consumer Privacy Act)

Een Californische staatswet die consumenten rechten verleent over hun persoonlijke informatie die door bedrijven is verzameld, van kracht sinds januari 2020.

HIPAA (Health Insurance Portability and Accountability Act)

Een Amerikaanse federale wet die normen vaststelt voor de bescherming van gevoelige patiëntgezondheidsinformatie tegen openbaarmaking zonder toestemming.

ISO 27001

Een internationale norm voor informatiebeveiligingsbeheersystemen (ISMS), die eisen specificeert voor het opzetten, implementeren en continu verbeteren van beveiligingsmaatregelen.

SOC 2 (System and Organization Controls 2)

Een auditkader voor serviceorganisaties dat controles evalueert met betrekking tot beveiliging, beschikbaarheid, verwerkingsintegriteit, vertrouwelijkheid en privacy.

EU AI Act

Regelgeving van de Europese Unie inzake kunstmatige intelligentie (van kracht vanaf augustus 2026). AI-systemen met een hoog risico moeten maatregelen voor gegevensbeheer implementeren, waaronder minimalisatie van persoonlijke gegevens, documentatie en DPIA. Organisaties die AI gebruiken voor besluitvorming over individuen moeten ervoor zorgen dat trainingsgegevens geanonimiseerd of gepseudonimiseerd worden.

ISO 42001

Internationale standaard voor AI Management Systems (AIMS), gepubliceerd in 2023. Biedt een raamwerk voor verantwoorde AI-ontwikkeling en inzet, inclusief datakwaliteit, bias-controles en privacywaarborgen. Vaak gecombineerd met ISO 27001 voor organisaties die AI-systemen met persoonlijke gegevens gebruiken.

India DPDP Act

India's Digital Personal Data Protection Act (2023), van kracht vanaf 2025. Vereist uitdrukkelijke toestemming voor de verwerking van persoonlijke gegevens van Indiase inwoners, gegevenslokalisatie voor gevoelige gegevens en melding van inbreuken binnen 72 uur. Geldt voor organisaties wereldwijd die gegevens van Indiase burgers verwerken.

Technische Termen

Named Entity Recognition (NER)

Een NLP-techniek die benoembare entiteiten in tekst identificeert en classificeert in vooraf gedefinieerde categorieën zoals persoonsnamen, locaties en organisaties.

Natural Language Processing (NLP)

Een tak van kunstmatige intelligentie die computers in staat stelt menselijke taal te begrijpen, te interpreteren en te genereren.

Pattern Recognizer

Een regelgebaseerde detector die reguliere expressies en contextuele aanwijzingen gebruikt om specifieke gegevenspatronen te identificeren, zoals creditcardnummers of burgerservicenummers.

Confidence Score

Een numerieke waarde tussen 0 en 1 die aangeeft hoe zeker een detectiemachine is dat een stuk tekst overeenkomt met een specifiek type entiteit.

Regular Expression (Regex)

Een reeks karakters die een zoekpatroon definieert, vaak gebruikt om gestructureerde gegevensformaten zoals telefoonnummers of e-mailadressen te valideren en te detecteren.

AES-256-GCM

Een geauthenticeerd encryptie-algoritme dat een 256-bits sleutel gebruikt met Galois/Counter Mode, dat zowel vertrouwelijkheid als integriteitsverificatie van versleutelde gegevens biedt.

Zero-Knowledge Encryption

Een encryptiearchitectuur waarbij alleen de gebruiker de ontsleutelingssleutel heeft, wat betekent dat zelfs de serviceprovider geen toegang heeft tot de platte gegevens.

Tokenization

Het vervangen van gevoelige gegevens door niet-gevoelige plaatsvervangende tokens die kunnen worden teruggekoppeld naar de oorspronkelijke gegevens via een veilige lookup.

Data Masking

Het verdoezelen van specifieke gegevens binnen een dataset zodat gevoelige informatie verborgen blijft terwijl de gegevens bruikbaar blijven voor testen of analyse.

Redaction

Het permanent verwijderen van gevoelige informatie uit een document of dataset, waarbij deze wordt vervangen door een marker zoals [REDACTED].

Synthetische gegevens

Door AI gegenereerde gegevens die statistisch echte gegevens nabootsen zonder echte records te bevatten. Vergeleken met anonimisering: geanonimiseerde gegevens behouden een hogere analytische nauwkeurigheid voor downstream ML; Synthetische gegevens elimineren het risico van heridentificatie, maar introduceren statistische drift. Omkeerbare anonimisering heeft de voorkeur wanneer originele gegevens nodig kunnen zijn voor nalevingsaudits.

LLM snelle injectie

Een aanvalstechniek waarbij kwaadaardige invoer een groot taalmodel manipuleert om instructies te negeren of gevoelige informatie te lekken. In PII-beschermingscontexten kan snelle injectie ervoor zorgen dat een AI-model geanonimiseerde gegevenspatronen of gebruikersinformatie onthult. Het vooraf anonimiseren van invoer voordat deze LLM's bereiken, verkleint het aanvalsoppervlak.

Privacy-door-ontwerp

A GDPR Art. Dit beginsel houdt in dat gegevensbescherming vanaf de basis in systemen moet worden ingebouwd en niet achteraf moet worden toegevoegd. Voor AI-systemen betekent privacy-by-design het anonimiseren van gegevens voordat deze in de AI-pijplijnen terechtkomen, het implementeren van zero-knowledge-encryptie en het minimaliseren van het bewaren van gegevens.

Anonimiseringsmethoden

Vervangen

Vervangt gedetecteerde PII door een generieke plaatsvervanger van hetzelfde entiteitstype, zoals het vervangen van 'John Smith' door '<PERSON>'.

Maskeren

Verdoezelt gedeeltelijk PII door karakters te vervangen door masker-symbolen, bijvoorbeeld '123-45-6789' omzetten in '***-**-6789'.

Redigeren

Verwijdert volledig gedetecteerde PII uit de tekst, zonder enige sporen van de oorspronkelijke waarde achter te laten.

Hashen

Converteert PII naar een cryptografische hash met een vaste lengte, waardoor consistente vervanging mogelijk is terwijl omkering computationeel onhaalbaar wordt.

Versleutelen

Transformeert PII met AES-256-GCM-versleuteling met een door de gebruiker gehouden sleutel, waardoor geautoriseerde omkering (de-anonimisatie) mogelijk is wanneer nodig.

Veelgestelde Vragen

Wat is het verschil tussen anonimisatie en pseudonimisering?

Anonimisatie verwijdert onomkeerbaar alle identificerende informatie zodat heridentificatie onmogelijk is. Pseudonimisering vervangt identificatoren door kunstmatige terwijl een aparte sleutel wordt bewaard die heridentificatie mogelijk maakt wanneer geautoriseerd. Onder GDPR wordt pseudonimisierte data nog steeds als persoonlijke gegevens beschouwd.

Waarom gebruikt PII-detectie zowel NLP als patroonherkenners?

NLP-modellen detecteren contextafhankelijke entiteiten zoals persoonsnamen en locaties die geen vast formaat hebben. Patroonherkenners gebruiken reguliere expressies om gestructureerde identificatoren zoals burgerservicenummers, creditcardnummers en telefoonnummers te vangen. Het combineren van beide benaderingen maximaliseert de detectieprecisie voor alle entiteitstypes.

Wat is zero-knowledge encryptie en waarom is het belangrijk?

Zero-knowledge encryptie betekent dat alleen jij de ontsleutelingssleutel hebt — de serviceprovider kan je gegevens niet lezen. Dit is belangrijk omdat zelfs in het geval van een serverinbreuk, je versleutelde gegevens onleesbaar blijven zonder jouw sleutel, wat de sterkste mogelijke gegevensbescherming biedt.

Hoe verschilt omkeerbare encryptie van hashing?

Hashing is een eenrichtingsverandering — zodra gegevens zijn gehasht, kan de oorspronkelijke niet worden hersteld. Omkeerbare encryptie (met AES-256-GCM) stelt geautoriseerde gebruikers met de juiste sleutel in staat om te ontsleutelen en de oorspronkelijke gegevens te herstellen, waardoor workflows mogelijk zijn waarin de-anonimisatie nodig is.

Bescherm Gevoelige Gegevens Vandaag

Begin met het anonimiseren van PII met 317 entiteitstypes, 48 talen en zero-knowledge encryptie.