Slovník PII a Ochrany Dat

Jasné definice klíčových termínů ochrany soukromí, shody a ochrany dat používaných v oboru.

Termíny Ochrany Soukromí a Shody

Osobně Identifikovatelné Informace (PII)

Jakákoliv data, která mohou identifikovat konkrétní osobu, jako jsou jména, e-mailové adresy, čísla sociálního zabezpečení nebo telefonní čísla.

Anonymizace

Nevratný proces změny dat tak, aby jednotlivci nemohli být identifikováni, přímo nebo nepřímo.

Pseudonymizace

Nahrazení identifikovatelných dat umělými identifikátory (pseudonymy), takže opětovná identifikace vyžaduje samostatně uchovávaný klíč.

De-identifikace

Odstranění nebo zakrytí osobních identifikátorů z dat tak, aby již nemohla být spojena s konkrétní osobou bez dalších informací.

Subjekt údajů

Identifikovaná nebo identifikovatelná fyzická osoba, jejíž osobní údaje jsou zpracovávány správcem nebo zpracovatelem.

Správce údajů

Subjekt, který určuje účely a prostředky zpracování osobních údajů.

Zpracovatel údajů

Subjekt, který zpracovává osobní údaje jménem správce údajů, v souladu s pokyny správce.

Souhlas

Svobodně dané, specifické, informované a jednoznačné vyjádření souhlasu subjektu údajů se zpracováním jeho osobních údajů.

Právní Základ

Právní důvod, na jehož základě je zpracování osobních údajů povoleno, jako je souhlas, nezbytnost smlouvy, právní povinnost nebo oprávněný zájem.

Minimalizace Údajů

Princip, že shromážděné osobní údaje by měly být adekvátní, relevantní a omezené na to, co je nezbytné pro zamýšlený účel.

Právo na Vymazání

Právo subjektu údajů na to, aby byly jeho osobní údaje vymazány, když již nejsou nezbytné, také známé jako 'právo být zapomenut' podle GDPR.

Přenositelnost Údajů

Právo subjektů údajů obdržet své osobní údaje ve strukturovaném, běžně používaném formátu a přenést je k jinému správci.

Úředník pro Ochranu Údajů (DPO)

Určená osoba odpovědná za dozor nad strategií ochrany údajů organizace a zajištění shody s předpisy o ochraně soukromí.

Posouzení Dopadu na Ochranu Údajů (DPIA)

Proces identifikace a minimalizace rizik ochrany údajů projektu, vyžadovaný podle GDPR pro činnosti zpracování s vysokým rizikem.

Únik Údajů

Bezpečnostní incident, při kterém jsou osobní údaje přístupny, zveřejněny, změněny nebo zničeny bez povolení.

Stínová AI

Neoprávněné používání nástrojů AI (ChatGPT, Copilot, Gemini) zaměstnanci bez schválení IT. Shadow AI je hlavní příčinou úniků dat PII, protože uživatelé vkládají citlivá obchodní data – záznamy o zákaznících, informace o pacientech, finanční data – přímo do výzev AI.

Minimalizace dat

Zásada GDPR (čl. 5 odst. 1 písm. c)), která vyžaduje, aby organizace shromažďovaly a zpracovávaly pouze minimum osobních údajů nezbytné pro konkrétní účel. V systémech AI minimalizace dat znamená anonymizaci nebo odstranění PII předtím, než data vstoupí do kanálů AI, čímž se sníží riziko dodržování předpisů a povrch narušení.

Regulační Rámce

GDPR (Obecné nařízení o ochraně osobních údajů)

Nařízení EU, které upravuje zpracování osobních údajů jednotlivců v rámci Evropského hospodářského prostoru, účinné od května 2018.

CCPA (Zákon o ochraně soukromí spotřebitelů v Kalifornii)

Zákon státu Kalifornie, který poskytuje spotřebitelům práva nad jejich osobními informacemi shromážděnými podniky, účinný od ledna 2020.

HIPAA (Zákon o přenositelnosti a odpovědnosti zdravotního pojištění)

Federální zákon USA, který stanovuje standardy pro ochranu citlivých zdravotních informací pacientů před zveřejněním bez souhlasu.

ISO 27001

Mezinárodní norma pro systémy řízení bezpečnosti informací (ISMS), která specifikuje požadavky na zavedení, implementaci a neustálé zlepšování bezpečnostních kontrol.

SOC 2 (Systémové a organizační kontroly 2)

Auditorský rámec pro servisní organizace, který hodnotí kontroly související s bezpečností, dostupností, integritou zpracování, důvěrností a ochranou soukromí.

EU AI Act

Nařízení Evropské unie o umělé inteligenci (v platnosti od srpna 2026). Vysoce rizikové systémy umělé inteligence musí implementovat opatření pro správu dat, včetně minimalizace osobních údajů, dokumentace a DPIA. Organizace využívající umělou inteligenci k rozhodování o jednotlivcích musí zajistit, aby školicí data byla anonymizována nebo pseudonymizována.

ISO 42001

Mezinárodní standard pro systémy řízení umělé inteligence (AIMS), zveřejněný v roce 2023. Poskytuje rámec pro odpovědný vývoj a nasazení umělé inteligence, včetně kvality dat, kontroly zkreslení a ochrany soukromí. Často se spáruje s ISO 27001 pro organizace provozující systémy AI s osobními údaji.

Indie DPDP Act

Indický zákon o ochraně osobních údajů z roku 2023, vynucený od roku 2025. Vyžaduje výslovný souhlas se zpracováním osobních údajů obyvatel Indie, lokalizaci citlivých údajů a oznámení o porušení do 72 hodin. Platí pro organizace po celém světě, které zpracovávají data indických občanů.

Technické Termíny

Rozpoznávání Pojmenovaných Entit (NER)

Technika NLP, která identifikuje a klasifikuje pojmenované entity v textu do předem definovaných kategorií, jako jsou jména osob, místa a organizace.

Zpracování Přirozeného Jazyka (NLP)

Obor umělé inteligence, který umožňuje počítačům rozumět, interpretovat a generovat lidský jazyk.

Rozpoznávač Vzorů

Detektor založený na pravidlech, který používá regulární výrazy a kontextové nápovědy k identifikaci specifických datových vzorů, jako jsou čísla kreditních karet nebo čísla sociálního zabezpečení.

Skóre Důvěry

Číselná hodnota mezi 0 a 1, která ukazuje, jak jistý je detekční engine, že kus textu odpovídá určitému typu entity.

Regulární Výraz (Regex)

Sekvence znaků definující vyhledávací vzor, běžně používaná k validaci a detekci strukturovaných datových formátů, jako jsou telefonní čísla nebo e-mailové adresy.

AES-256-GCM

Algoritmus autentizované šifrování používající 256bitový klíč s Galois/Counter módem, poskytující jak důvěrnost, tak ověření integrity šifrovaných dat.

Šifrování s nulovým znalostem

Architektura šifrování, kde pouze uživatel drží dešifrovací klíč, což znamená, že ani poskytovatel služby nemůže přistupovat k nešifrovaným datům.

Tokenizace

Nahrazení citlivých dat ne-citlivými zástupnými tokeny, které mohou být zpětně mapovány na původní data prostřednictvím bezpečného vyhledávání.

Maskování Údajů

Zakrytí specifických dat v rámci datasetu tak, aby citlivé informace byly skryty, zatímco data zůstávají použitelná pro testování nebo analýzu.

Redakce

Trvalé odstranění citlivých informací z dokumentu nebo datasetu, nahrazení je značkou, jako je [REDACTED].

Syntetická data

Data generovaná AI, která statisticky napodobují skutečná data, aniž by obsahovala skutečné záznamy. Ve srovnání s anonymizací: anonymizovaná data zachovávají vyšší analytickou přesnost pro downstream ML; syntetická data eliminují riziko opětovné identifikace, ale zavádějí statistický posun. Reverzibilní anonymizace je upřednostňována, pokud mohou být pro audity shody potřeba originální záznamy.

LLM Prompt Injection

Technika útoku, kdy škodlivý vstup manipuluje s velkým jazykovým modelem tak, aby ignoroval pokyny nebo unikal citlivé informace. V kontextu ochrany osobních údajů může rychlé vložení způsobit, že model umělé inteligence odhalí vzorce anonymizovaných dat nebo informace o uživateli. Předběžná anonymizace vstupů předtím, než dosáhnou LLM, snižuje plochu útoku.

Privacy-by-Design

A GDPR Art. 25 zásada vyžadující, aby byla ochrana údajů zabudována do systémů od základu, a nikoli jako dodatečná myšlenka. U systémů umělé inteligence ochrana soukromí od návrhu znamená anonymizaci dat před jejich vstupem do kanálů umělé inteligence, implementaci šifrování s nulovými znalostmi a minimalizaci uchovávání dat.

Metody Anonymizace

Nahradit

Nahrazuje detekované PII generickým zástupným symbolem stejného typu entity, například nahrazením 'John Smith' s '<PERSON>'.

Maskovat

Částečně zakrývá PII nahrazením znaků maskovacími symboly, například přeměnou '123-45-6789' na '***-**-6789'.

Redigovat

Úplně odstraňuje detekované PII z textu, aniž by zanechalo jakoukoliv stopu původní hodnoty.

Hash

Převádí PII na hash s pevnou délkou, což umožňuje konzistentní nahrazení, zatímco činí reverzi výpočetně neproveditelnou.

Šifrovat

Transformuje PII pomocí šifrování AES-256-GCM s klíčem drženým uživatelem, což umožňuje autorizovanou reverzi (de-anonymizaci) při potřebě.

Často Kladené Otázky

Jaký je rozdíl mezi anonymizací a pseudonymizací?

Anonymizace nevratně odstraňuje všechny identifikační informace, takže opětovná identifikace je nemožná. Pseudonymizace nahrazuje identifikátory umělými, zatímco uchovává samostatný klíč, který umožňuje opětovnou identifikaci, když je to autorizováno. Podle GDPR jsou pseudonymizovaná data stále považována za osobní údaje.

Proč detekce PII používá jak NLP, tak rozpoznávače vzorů?

Modely NLP detekují kontextově závislé entity, jako jsou jména osob a místa, které nemají pevný formát. Rozpoznávače vzorů používají regulární výrazy k zachycení strukturovaných identifikátorů, jako jsou čísla sociálního zabezpečení, čísla kreditních karet a telefonní čísla. Kombinace obou přístupů maximalizuje přesnost detekce napříč všemi typy entit.

Co je šifrování s nulovým znalostem a proč je důležité?

Šifrování s nulovým znalostem znamená, že pouze vy držíte dešifrovací klíč — poskytovatel služby nemůže číst vaše data. To je důležité, protože i v případě porušení serveru zůstávají vaše šifrovaná data nečitelná bez vašeho klíče, což poskytuje nejvyšší možnou ochranu dat.

Jak se liší reverzibilní šifrování od hashování?

Hashování je jednosměrná transformace — jakmile jsou data zhashována, původní data nelze obnovit. Reverzibilní šifrování (používající AES-256-GCM) umožňuje autorizovaným uživatelům s správným klíčem dešifrovat a obnovit původní data, což umožňuje pracovní postupy, kde je potřeba de-anonymizace.

Chraňte Citlivá Data Dnes

Začněte anonymizovat PII s 317 typy entit, 48 jazyky a šifrováním s nulovým znalostem.