PII & Datenschutz Glossar

Klare Definitionen wichtiger Begriffe zu Datenschutz, Compliance und Datensicherheit, die in der Branche verwendet werden.

Datenschutz- & Compliance-Begriffe

Personenbezogene Daten (PII)

Alle Daten, die eine bestimmte Person identifizieren können, wie Namen, E-Mail-Adressen, Sozialversicherungsnummern oder Telefonnummern.

Anonymisierung

Der irreversible Prozess der Veränderung von Daten, sodass Personen nicht mehr direkt oder indirekt identifiziert werden können.

Pseudonymisierung

Austausch identifizierbarer Daten durch künstliche Identifikatoren (Pseudonyme), sodass eine Re-Identifizierung einen separat gehaltenen Schlüssel erfordert.

De-Identifizierung

Entfernen oder Verschleiern persönlicher Identifikatoren aus Daten, sodass diese nicht mehr ohne zusätzliche Informationen einer bestimmten Person zugeordnet werden können.

Betroffene Person

Eine identifizierte oder identifizierbare natürliche Person, deren personenbezogene Daten von einem Verantwortlichen oder Auftragsverarbeiter verarbeitet werden.

Datenverantwortlicher

Die Stelle, die die Zwecke und Mittel der Verarbeitung personenbezogener Daten festlegt.

Auftragsverarbeiter

Eine Stelle, die personenbezogene Daten im Auftrag eines Datenverantwortlichen verarbeitet und den Anweisungen des Verantwortlichen folgt.

Einwilligung

Eine freiwillige, spezifische, informierte und eindeutige Angabe der Zustimmung einer betroffenen Person zur Verarbeitung ihrer personenbezogenen Daten.

Rechtsgrundlage

Ein rechtlicher Grund, unter dem die Verarbeitung personenbezogener Daten zulässig ist, wie Einwilligung, Vertragsnotwendigkeit, rechtliche Verpflichtung oder berechtigtes Interesse.

Datenminimierung

Das Prinzip, dass die gesammelten personenbezogenen Daten angemessen, relevant und auf das notwendige Maß für den vorgesehenen Zweck beschränkt sein sollten.

Recht auf Löschung

Das Recht einer betroffenen Person, ihre personenbezogenen Daten löschen zu lassen, wenn diese nicht mehr notwendig sind, auch bekannt als das 'Recht auf Vergessenwerden' gemäß GDPR.

Datenübertragbarkeit

Das Recht der betroffenen Personen, ihre personenbezogenen Daten in einem strukturierten, gängigen Format zu erhalten und sie an einen anderen Verantwortlichen zu übertragen.

Datenschutzbeauftragter (DPO)

Eine benannte Person, die für die Überwachung der Datenschutzstrategie einer Organisation und die Einhaltung der Datenschutzvorschriften verantwortlich ist.

Datenschutz-Folgenabschätzung (DPIA)

Ein Prozess zur Identifizierung und Minimierung von Datenschutzrisiken eines Projekts, der gemäß GDPR für risikobehaftete Verarbeitungstätigkeiten erforderlich ist.

Datenpanne

Ein Sicherheitsvorfall, bei dem personenbezogene Daten ohne Autorisierung zugegriffen, offengelegt, verändert oder zerstört werden.

Schatten-KI

Unbefugte Nutzung von KI-Tools (ChatGPT, Copilot, Gemini) durch Mitarbeiter ohne IT-Genehmigung. Schatten-KI ist eine der Hauptursachen für PII-Datenlecks, da Benutzer sensible Geschäftsdaten – Kundendaten, Patienteninformationen, Finanzdaten – direkt in KI-Eingabeaufforderungen einfügen.

Datenminimierung

Ein DSGVO-Grundsatz (Art. 5(1)(c)), der Organisationen verpflichtet, nur das für einen bestimmten Zweck erforderliche Minimum an personenbezogenen Daten zu erheben und zu verarbeiten. In KI-Systemen bedeutet Datenminimierung, personenbezogene Daten zu anonymisieren oder zu entfernen, bevor Daten in KI-Pipelines gelangen, wodurch das Compliance-Risiko und die Angriffsfläche für Sicherheitsverletzungen verringert werden.

Regulatorische Rahmenbedingungen

GDPR (Allgemeine Datenschutzverordnung)

Die EU-Verordnung, die die Verarbeitung personenbezogener Daten von Personen im Europäischen Wirtschaftsraum regelt, die seit Mai 2018 in Kraft ist.

CCPA (California Consumer Privacy Act)

Ein kalifornisches Gesetz, das Verbrauchern Rechte über ihre persönlichen Informationen, die von Unternehmen gesammelt werden, gewährt und seit Januar 2020 in Kraft ist.

HIPAA (Health Insurance Portability and Accountability Act)

Ein US-Bundesgesetz, das Standards zum Schutz sensibler Gesundheitsinformationen von Patienten vor Offenlegung ohne Einwilligung festlegt.

ISO 27001

Ein internationaler Standard für Informationssicherheits-Managementsysteme (ISMS), der Anforderungen für die Einrichtung, Implementierung und kontinuierliche Verbesserung von Sicherheitskontrollen festlegt.

SOC 2 (System and Organization Controls 2)

Ein Prüfungsrahmen für Dienstleistungsorganisationen, der Kontrollen in Bezug auf Sicherheit, Verfügbarkeit, Integrität der Verarbeitung, Vertraulichkeit und Datenschutz bewertet.

EU-KI-Gesetz

Verordnung der Europäischen Union zu künstlicher Intelligenz (in Kraft getreten ab August 2026). KI-Systeme mit hohem Risiko müssen Data-Governance-Maßnahmen implementieren, einschließlich Minimierung personenbezogener Daten, Dokumentation und DSFA. Organisationen, die KI zur Entscheidungsfindung bei Einzelpersonen einsetzen, müssen sicherstellen, dass Trainingsdaten anonymisiert oder pseudonymisiert werden.

ISO 42001

Internationaler Standard für KI-Managementsysteme (AIMS), veröffentlicht im Jahr 2023. Bietet einen Rahmen für eine verantwortungsvolle KI-Entwicklung und -Bereitstellung, einschließlich Datenqualität, Voreingenommenheitskontrollen und Datenschutzgarantien. Wird oft mit ISO 27001 für Organisationen kombiniert, die KI-Systeme mit personenbezogenen Daten betreiben.

Indisches DPDP-Gesetz

Indiens Gesetz zum Schutz digitaler personenbezogener Daten (2023), in Kraft getreten ab 2025. Erfordert eine ausdrückliche Zustimmung zur Verarbeitung personenbezogener Daten indischer Einwohner, die Datenlokalisierung für sensible Daten und die Benachrichtigung bei Verstößen innerhalb von 72 Stunden. Gilt für Organisationen weltweit, die Daten indischer Bürger verarbeiten.

Technische Begriffe

Named Entity Recognition (NER)

Eine NLP-Technik, die benannte Entitäten in Texten identifiziert und in vordefinierte Kategorien wie Personennamen, Standorte und Organisationen klassifiziert.

Natural Language Processing (NLP)

Ein Bereich der künstlichen Intelligenz, der es Computern ermöglicht, menschliche Sprache zu verstehen, zu interpretieren und zu generieren.

Pattern Recognizer

Ein regelbasierter Detektor, der reguläre Ausdrücke und Kontexthinweise verwendet, um spezifische Datenmuster wie Kreditkartennummern oder Sozialversicherungsnummern zu identifizieren.

Confidence Score

Ein numerischer Wert zwischen 0 und 1, der angibt, wie sicher eine Erkennungsmaschine ist, dass ein Textstück einem bestimmten Entitätstyp entspricht.

Regular Expression (Regex)

Eine Zeichenfolge von Zeichen, die ein Suchmuster definiert, das häufig verwendet wird, um strukturierte Datenformate wie Telefonnummern oder E-Mail-Adressen zu validieren und zu erkennen.

AES-256-GCM

Ein authentifizierter Verschlüsselungsalgorithmus, der einen 256-Bit-Schlüssel im Galois/Counter-Modus verwendet und sowohl Vertraulichkeit als auch Integritätsprüfung der verschlüsselten Daten bietet.

Zero-Knowledge Encryption

Eine Verschlüsselungsarchitektur, bei der nur der Benutzer den Entschlüsselungsschlüssel besitzt, was bedeutet, dass selbst der Dienstanbieter nicht auf die Klartextdaten zugreifen kann.

Tokenization

Ersetzt sensible Daten durch nicht-sensible Platzhalter-Tokens, die über eine sichere Abgleichung wieder auf die Originaldaten zurückgeführt werden können.

Data Masking

Verschleiert spezifische Daten innerhalb eines Datensatzes, sodass sensible Informationen verborgen bleiben, während die Daten für Tests oder Analysen weiterhin nutzbar sind.

Redaction

Die permanente Entfernung sensibler Informationen aus einem Dokument oder Datensatz, wobei diese durch ein Markierungssymbol wie [REDACTED] ersetzt werden.

Synthetische Daten

KI-generierte Daten, die reale Daten statistisch nachahmen, ohne tatsächliche Datensätze zu enthalten. Im Vergleich zur Anonymisierung: Anonymisierte Daten gewährleisten eine höhere analytische Genauigkeit für nachgelagerte ML; Synthetische Daten eliminieren das Risiko einer erneuten Identifizierung, führen jedoch zu statistischen Abweichungen. Eine reversible Anonymisierung wird bevorzugt, wenn Originalaufzeichnungen für Compliance-Audits benötigt werden.

LLM-Prompt-Injektion

Eine Angriffstechnik, bei der böswillige Eingaben ein großes Sprachmodell manipulieren, um Anweisungen zu ignorieren oder vertrauliche Informationen preiszugeben. In PII-Schutzkontexten kann die sofortige Injektion dazu führen, dass ein KI-Modell anonymisierte Datenmuster oder Benutzerinformationen offenlegt. Die Voranonymisierung von Eingaben, bevor sie LLMs erreichen, verringert die Angriffsfläche.

Datenschutz durch Design

A DSGVO Art. 25-Prinzip, wonach der Datenschutz von Grund auf in Systeme integriert und nicht erst nachträglich hinzugefügt werden muss. Für KI-Systeme bedeutet Privacy-by-Design, Daten zu anonymisieren, bevor sie in KI-Pipelines gelangen, eine wissensfreie Verschlüsselung zu implementieren und die Datenaufbewahrung zu minimieren.

Anonymisierungsmethoden

Ersetzen

Ersetzt erkannte PII durch einen generischen Platzhalter desselben Entitätstyps, z. B. wird 'John Smith' durch '<PERSON>' ersetzt.

Maskieren

Verschleiert teilweise PII, indem Zeichen durch Maskierungssymbole ersetzt werden, zum Beispiel wird '123-45-6789' zu '***-**-6789'.

Redigieren

Entfernt erkannte PII vollständig aus dem Text, ohne Spuren des ursprünglichen Wertes zu hinterlassen.

Hash

Konvertiert PII in einen kryptografischen Hash fester Länge, der eine konsistente Ersetzung ermöglicht, während die Umkehrung rechnerisch nicht durchführbar bleibt.

Verschlüsseln

Transformiert PII unter Verwendung von AES-256-GCM-Verschlüsselung mit einem vom Benutzer gehaltenen Schlüssel, was eine autorisierte Umkehrung (De-Anonymisierung) bei Bedarf ermöglicht.

Häufig gestellte Fragen

Was ist der Unterschied zwischen Anonymisierung und Pseudonymisierung?

Anonymisierung entfernt unwiderruflich alle identifizierenden Informationen, sodass eine Re-Identifizierung unmöglich ist. Pseudonymisierung ersetzt Identifikatoren durch künstliche, während ein separater Schlüssel aufbewahrt wird, der eine Re-Identifizierung bei Autorisierung ermöglicht. Nach GDPR gelten pseudonymisierte Daten weiterhin als personenbezogene Daten.

Warum verwendet die PII-Erkennung sowohl NLP als auch Mustererkennungsalgorithmen?

NLP-Modelle erkennen kontextabhängige Entitäten wie Personennamen und Standorte, die kein festes Format haben. Mustererkennungsalgorithmen verwenden reguläre Ausdrücke, um strukturierte Identifikatoren wie Sozialversicherungsnummern, Kreditkartennummern und Telefonnummern zu erfassen. Die Kombination beider Ansätze maximiert die Erkennungsgenauigkeit über alle Entitätstypen hinweg.

Was ist Zero-Knowledge-Verschlüsselung und warum ist sie wichtig?

Zero-Knowledge-Verschlüsselung bedeutet, dass nur Sie den Entschlüsselungsschlüssel besitzen — der Dienstanbieter kann Ihre Daten nicht lesen. Dies ist wichtig, da selbst im Falle eines Serverangriffs Ihre verschlüsselten Daten ohne Ihren Schlüssel unlesbar bleiben, was den bestmöglichen Datenschutz bietet.

Wie unterscheidet sich reversible Verschlüsselung von Hashing?

Hashing ist eine einseitige Transformation — sobald Daten gehasht sind, kann das Original nicht wiederhergestellt werden. Reversible Verschlüsselung (unter Verwendung von AES-256-GCM) ermöglicht autorisierten Benutzern mit dem richtigen Schlüssel, die ursprünglichen Daten zu entschlüsseln und wiederherzustellen, was Arbeitsabläufe ermöglicht, in denen eine De-Anonymisierung erforderlich ist.

Schützen Sie sensible Daten noch heute

Beginnen Sie mit der Anonymisierung von PII mit über 320 Entitätstypen, 48 Sprachen und Zero-Knowledge-Verschlüsselung.