PII & Datenschutz Glossar
Klare Definitionen wichtiger Begriffe zu Datenschutz, Compliance und Datensicherheit, die in der Branche verwendet werden.
Datenschutz- & Compliance-Begriffe
Personenbezogene Daten (PII)
Alle Daten, die eine bestimmte Person identifizieren können, wie Namen, E-Mail-Adressen, Sozialversicherungsnummern oder Telefonnummern.
Anonymisierung
Der irreversible Prozess der Veränderung von Daten, sodass Personen nicht mehr direkt oder indirekt identifiziert werden können.
Pseudonymisierung
Austausch identifizierbarer Daten durch künstliche Identifikatoren (Pseudonyme), sodass eine Re-Identifizierung einen separat gehaltenen Schlüssel erfordert.
De-Identifizierung
Entfernen oder Verschleiern persönlicher Identifikatoren aus Daten, sodass diese nicht mehr ohne zusätzliche Informationen einer bestimmten Person zugeordnet werden können.
Betroffene Person
Eine identifizierte oder identifizierbare natürliche Person, deren personenbezogene Daten von einem Verantwortlichen oder Auftragsverarbeiter verarbeitet werden.
Datenverantwortlicher
Die Stelle, die die Zwecke und Mittel der Verarbeitung personenbezogener Daten festlegt.
Auftragsverarbeiter
Eine Stelle, die personenbezogene Daten im Auftrag eines Datenverantwortlichen verarbeitet und den Anweisungen des Verantwortlichen folgt.
Einwilligung
Eine freiwillige, spezifische, informierte und eindeutige Angabe der Zustimmung einer betroffenen Person zur Verarbeitung ihrer personenbezogenen Daten.
Rechtsgrundlage
Ein rechtlicher Grund, unter dem die Verarbeitung personenbezogener Daten zulässig ist, wie Einwilligung, Vertragsnotwendigkeit, rechtliche Verpflichtung oder berechtigtes Interesse.
Datenminimierung
Das Prinzip, dass die gesammelten personenbezogenen Daten angemessen, relevant und auf das notwendige Maß für den vorgesehenen Zweck beschränkt sein sollten.
Recht auf Löschung
Das Recht einer betroffenen Person, ihre personenbezogenen Daten löschen zu lassen, wenn diese nicht mehr notwendig sind, auch bekannt als das 'Recht auf Vergessenwerden' gemäß GDPR.
Datenübertragbarkeit
Das Recht der betroffenen Personen, ihre personenbezogenen Daten in einem strukturierten, gängigen Format zu erhalten und sie an einen anderen Verantwortlichen zu übertragen.
Datenschutzbeauftragter (DPO)
Eine benannte Person, die für die Überwachung der Datenschutzstrategie einer Organisation und die Einhaltung der Datenschutzvorschriften verantwortlich ist.
Datenschutz-Folgenabschätzung (DPIA)
Ein Prozess zur Identifizierung und Minimierung von Datenschutzrisiken eines Projekts, der gemäß GDPR für risikobehaftete Verarbeitungstätigkeiten erforderlich ist.
Datenpanne
Ein Sicherheitsvorfall, bei dem personenbezogene Daten ohne Autorisierung zugegriffen, offengelegt, verändert oder zerstört werden.
Regulatorische Rahmenbedingungen
GDPR (Allgemeine Datenschutzverordnung)
Die EU-Verordnung, die die Verarbeitung personenbezogener Daten von Personen im Europäischen Wirtschaftsraum regelt, die seit Mai 2018 in Kraft ist.
CCPA (California Consumer Privacy Act)
Ein kalifornisches Gesetz, das Verbrauchern Rechte über ihre persönlichen Informationen, die von Unternehmen gesammelt werden, gewährt und seit Januar 2020 in Kraft ist.
HIPAA (Health Insurance Portability and Accountability Act)
Ein US-Bundesgesetz, das Standards zum Schutz sensibler Gesundheitsinformationen von Patienten vor Offenlegung ohne Einwilligung festlegt.
ISO 27001
Ein internationaler Standard für Informationssicherheits-Managementsysteme (ISMS), der Anforderungen für die Einrichtung, Implementierung und kontinuierliche Verbesserung von Sicherheitskontrollen festlegt.
SOC 2 (System and Organization Controls 2)
Ein Prüfungsrahmen für Dienstleistungsorganisationen, der Kontrollen in Bezug auf Sicherheit, Verfügbarkeit, Integrität der Verarbeitung, Vertraulichkeit und Datenschutz bewertet.
Technische Begriffe
Named Entity Recognition (NER)
Eine NLP-Technik, die benannte Entitäten in Texten identifiziert und in vordefinierte Kategorien wie Personennamen, Standorte und Organisationen klassifiziert.
Natural Language Processing (NLP)
Ein Bereich der künstlichen Intelligenz, der es Computern ermöglicht, menschliche Sprache zu verstehen, zu interpretieren und zu generieren.
Pattern Recognizer
Ein regelbasierter Detektor, der reguläre Ausdrücke und Kontexthinweise verwendet, um spezifische Datenmuster wie Kreditkartennummern oder Sozialversicherungsnummern zu identifizieren.
Confidence Score
Ein numerischer Wert zwischen 0 und 1, der angibt, wie sicher eine Erkennungsmaschine ist, dass ein Textstück einem bestimmten Entitätstyp entspricht.
Regular Expression (Regex)
Eine Zeichenfolge von Zeichen, die ein Suchmuster definiert, das häufig verwendet wird, um strukturierte Datenformate wie Telefonnummern oder E-Mail-Adressen zu validieren und zu erkennen.
AES-256-GCM
Ein authentifizierter Verschlüsselungsalgorithmus, der einen 256-Bit-Schlüssel im Galois/Counter-Modus verwendet und sowohl Vertraulichkeit als auch Integritätsprüfung der verschlüsselten Daten bietet.
Zero-Knowledge Encryption
Eine Verschlüsselungsarchitektur, bei der nur der Benutzer den Entschlüsselungsschlüssel besitzt, was bedeutet, dass selbst der Dienstanbieter nicht auf die Klartextdaten zugreifen kann.
Tokenization
Ersetzt sensible Daten durch nicht-sensible Platzhalter-Tokens, die über eine sichere Abgleichung wieder auf die Originaldaten zurückgeführt werden können.
Data Masking
Verschleiert spezifische Daten innerhalb eines Datensatzes, sodass sensible Informationen verborgen bleiben, während die Daten für Tests oder Analysen weiterhin nutzbar sind.
Redaction
Die permanente Entfernung sensibler Informationen aus einem Dokument oder Datensatz, wobei diese durch ein Markierungssymbol wie [REDACTED] ersetzt werden.
Anonymisierungsmethoden
Ersetzen
Ersetzt erkannte PII durch einen generischen Platzhalter desselben Entitätstyps, z. B. wird 'John Smith' durch '<PERSON>' ersetzt.
Maskieren
Verschleiert teilweise PII, indem Zeichen durch Maskierungssymbole ersetzt werden, zum Beispiel wird '123-45-6789' zu '***-**-6789'.
Redigieren
Entfernt erkannte PII vollständig aus dem Text, ohne Spuren des ursprünglichen Wertes zu hinterlassen.
Hash
Konvertiert PII in einen kryptografischen Hash fester Länge, der eine konsistente Ersetzung ermöglicht, während die Umkehrung rechnerisch nicht durchführbar bleibt.
Verschlüsseln
Transformiert PII unter Verwendung von AES-256-GCM-Verschlüsselung mit einem vom Benutzer gehaltenen Schlüssel, was eine autorisierte Umkehrung (De-Anonymisierung) bei Bedarf ermöglicht.
Häufig gestellte Fragen
Was ist der Unterschied zwischen Anonymisierung und Pseudonymisierung?
Anonymisierung entfernt unwiderruflich alle identifizierenden Informationen, sodass eine Re-Identifizierung unmöglich ist. Pseudonymisierung ersetzt Identifikatoren durch künstliche, während ein separater Schlüssel aufbewahrt wird, der eine Re-Identifizierung bei Autorisierung ermöglicht. Nach GDPR gelten pseudonymisierte Daten weiterhin als personenbezogene Daten.
Warum verwendet die PII-Erkennung sowohl NLP als auch Mustererkennungsalgorithmen?
NLP-Modelle erkennen kontextabhängige Entitäten wie Personennamen und Standorte, die kein festes Format haben. Mustererkennungsalgorithmen verwenden reguläre Ausdrücke, um strukturierte Identifikatoren wie Sozialversicherungsnummern, Kreditkartennummern und Telefonnummern zu erfassen. Die Kombination beider Ansätze maximiert die Erkennungsgenauigkeit über alle Entitätstypen hinweg.
Was ist Zero-Knowledge-Verschlüsselung und warum ist sie wichtig?
Zero-Knowledge-Verschlüsselung bedeutet, dass nur Sie den Entschlüsselungsschlüssel besitzen — der Dienstanbieter kann Ihre Daten nicht lesen. Dies ist wichtig, da selbst im Falle eines Serverangriffs Ihre verschlüsselten Daten ohne Ihren Schlüssel unlesbar bleiben, was den bestmöglichen Datenschutz bietet.
Wie unterscheidet sich reversible Verschlüsselung von Hashing?
Hashing ist eine einseitige Transformation — sobald Daten gehasht sind, kann das Original nicht wiederhergestellt werden. Reversible Verschlüsselung (unter Verwendung von AES-256-GCM) ermöglicht autorisierten Benutzern mit dem richtigen Schlüssel, die ursprünglichen Daten zu entschlüsseln und wiederherzustellen, was Arbeitsabläufe ermöglicht, in denen eine De-Anonymisierung erforderlich ist.