Słownik PII i Prywatności Danych

Jasne definicje kluczowych terminów dotyczących prywatności, zgodności i ochrony danych stosowanych w branży.

Terminy dotyczące Prywatności i Zgodności

Osobowe Informacje Identyfikowalne (PII)

Jakiekolwiek dane, które mogą zidentyfikować konkretną osobę, takie jak imiona, adresy e-mail, numery ubezpieczenia społecznego lub numery telefonów.

Anonimizacja

Nieodwracalny proces zmiany danych, aby osoby nie mogły być identyfikowane, bezpośrednio ani pośrednio.

Pseudonimizacja

Zastępowanie danych identyfikowalnych sztucznymi identyfikatorami (pseudonimami), tak aby ponowna identyfikacja wymagała oddzielnie przechowywanego klucza.

Deidentyfikacja

Usunięcie lub zaciemnienie osobistych identyfikatorów z danych, aby nie można ich było powiązać z konkretną osobą bez dodatkowych informacji.

Podmiot Danych

Zidentyfikowana lub identyfikowalna osoba fizyczna, której dane osobowe są przetwarzane przez administratora lub procesora.

Administrator Danych

Podmiot, który określa cele i środki przetwarzania danych osobowych.

Procesor Danych

Podmiot, który przetwarza dane osobowe w imieniu administratora danych, zgodnie z instrukcjami administratora.

Zgoda

Dobrowolne, konkretne, świadome i jednoznaczne wskazanie zgody podmiotu danych na przetwarzanie jego danych osobowych.

Podstawa Prawna

Podstawa prawna, na której przetwarzanie danych osobowych jest dozwolone, taka jak zgoda, konieczność umowy, obowiązek prawny lub uzasadniony interes.

Minimalizacja Danych

Zasada, że zebrane dane osobowe powinny być odpowiednie, istotne i ograniczone do tego, co jest niezbędne do zamierzonego celu.

Prawo do Usunięcia

Prawo podmiotu danych do usunięcia swoich danych osobowych, gdy nie są już potrzebne, znane również jako 'prawo do bycia zapomnianym' zgodnie z GDPR.

Przenośność Danych

Prawo podmiotów danych do otrzymania swoich danych osobowych w ustrukturyzowanym, powszechnie używanym formacie oraz do ich przeniesienia do innego administratora.

Inspektor Ochrony Danych (DPO)

Wyznaczona osoba odpowiedzialna za nadzorowanie strategii ochrony danych organizacji oraz zapewnienie zgodności z przepisami o ochronie prywatności.

Ocena Skutków dla Ochrony Danych (DPIA)

Proces identyfikacji i minimalizacji ryzyk ochrony danych projektu, wymagany na mocy GDPR dla działań przetwarzania o wysokim ryzyku.

Naruszenie Danych

Incydent bezpieczeństwa, w którym dane osobowe są uzyskiwane, ujawniane, zmieniane lub niszczone bez autoryzacji.

Sztuczna inteligencja cieni

Nieautoryzowane użycie narzędzi AI (ChatGPT, Copilot, Gemini) przez pracowników bez zgody IT. Shadow AI jest główną przyczyną wycieków danych umożliwiających identyfikację, ponieważ użytkownicy wklejają wrażliwe dane biznesowe – dane klientów, informacje o pacjentach, dane finansowe – bezpośrednio do podpowiedzi AI.

Minimalizacja danych

Zasada GDPR (Art. 5(1)(c)) wymagająca od organizacji gromadzenia i przetwarzania jedynie minimalnej ilości danych osobowych niezbędnych do określonego celu. W systemach AI minimalizacja danych oznacza anonimizację lub usuwanie danych osobowych, zanim dane trafią do rurociągów AI, co zmniejsza ryzyko braku zgodności i powierzchnię naruszeń.

Ramowe Przepisy

GDPR (Ogólne Rozporządzenie o Ochronie Danych)

Rozporządzenie UE regulujące przetwarzanie danych osobowych osób w Europejskim Obszarze Gospodarczym, obowiązujące od maja 2018 roku.

CCPA (Ustawa o Prywatności Konsumentów w Kalifornii)

Stanowa ustawa Kalifornii przyznająca konsumentom prawa dotyczące ich osobistych informacji zbieranych przez firmy, obowiązująca od stycznia 2020 roku.

HIPAA (Ustawa o Przenośności i Odpowiedzialności Ubezpieczenia Zdrowotnego)

Federalna ustawa USA ustanawiająca standardy ochrony wrażliwych informacji zdrowotnych pacjentów przed ujawnieniem bez zgody.

ISO 27001

Międzynarodowy standard dla systemów zarządzania bezpieczeństwem informacji (ISMS), określający wymagania dotyczące ustanawiania, wdrażania i ciągłego doskonalenia kontroli bezpieczeństwa.

SOC 2 (Kontrole Systemów i Organizacji 2)

Ramowy system audytowy dla organizacji świadczących usługi, który ocenia kontrole związane z bezpieczeństwem, dostępnością, integralnością przetwarzania, poufnością i prywatnością.

EU AI Act

Rozporządzenie Unii Europejskiej dotyczące sztucznej inteligencji (obowiązuje od sierpnia 2026 r.). Systemy sztucznej inteligencji wysokiego ryzyka muszą wdrażać środki zarządzania danymi, w tym minimalizację danych osobowych, dokumentację i ocenę skutków dla ochrony danych. Organizacje korzystające ze sztucznej inteligencji do podejmowania decyzji dotyczących poszczególnych osób muszą zapewnić anonimowość lub pseudonimizację danych szkoleniowych.

ISO 42001

Międzynarodowy standard dotyczący systemów zarządzania sztuczną inteligencją (AIMS), opublikowany w 2023 r. Zapewnia ramy odpowiedzialnego rozwoju i wdrażania sztucznej inteligencji, w tym jakość danych, kontrolę stronniczości i zabezpieczenia prywatności. Często łączony z ISO 27001 w przypadku organizacji obsługujących systemy AI z danymi osobowymi.

Indie DPDP Act

Indyjska ustawa o ochronie cyfrowych danych osobowych (2023), obowiązująca od 2025 r. Wymaga wyraźnej zgody na przetwarzanie danych osobowych mieszkańców Indii, lokalizację danych wrażliwych i powiadomienie o naruszeniu w ciągu 72 godzin. Dotyczy organizacji na całym świecie przetwarzających dane obywateli Indii.

Terminy Techniczne

Rozpoznawanie Nazwanych Jednostek (NER)

Technika NLP, która identyfikuje i klasyfikuje nazwane jednostki w tekście do zdefiniowanych kategorii, takich jak imiona osób, lokalizacje i organizacje.

Przetwarzanie Języka Naturalnego (NLP)

Gałąź sztucznej inteligencji, która umożliwia komputerom rozumienie, interpretowanie i generowanie ludzkiego języka.

Rozpoznawanie Wzorców

Detektor oparty na regułach, który wykorzystuje wyrażenia regularne i wskazówki kontekstowe do identyfikacji konkretnych wzorców danych, takich jak numery kart kredytowych lub numery ubezpieczenia społecznego.

Wskaźnik Pewności

Wartość numeryczna między 0 a 1, wskazująca, jak pewny jest silnik detekcji, że dany fragment tekstu odpowiada określonemu typowi jednostki.

Wyrażenie Regularne (Regex)

Sekwencja znaków definiująca wzór wyszukiwania, powszechnie używana do walidacji i wykrywania strukturalnych formatów danych, takich jak numery telefonów czy adresy e-mail.

AES-256-GCM

Algorytm szyfrowania uwierzytelnionego wykorzystujący 256-bitowy klucz w trybie Galois/Counter, zapewniający zarówno poufność, jak i weryfikację integralności szyfrowanych danych.

Szyfrowanie Zero-Wiedzy

Architektura szyfrowania, w której tylko użytkownik posiada klucz deszyfrujący, co oznacza, że nawet dostawca usług nie ma dostępu do danych w postaci niezaszyfrowanej.

Tokenizacja

Zastępowanie wrażliwych danych niewrażliwymi tokenami zastępczymi, które mogą być powiązane z oryginalnymi danymi poprzez bezpieczne wyszukiwanie.

Maskowanie Danych

Zaciemnianie konkretnych danych w zbiorze danych, aby wrażliwe informacje były ukryte, podczas gdy dane pozostają użyteczne do testowania lub analizy.

Redakcja

Trwałe usunięcie wrażliwych informacji z dokumentu lub zbioru danych, zastępując je znacznikiem, takim jak [REDACTED].

Dane syntetyczne

Dane generowane przez sztuczną inteligencję, które statystycznie naśladują rzeczywiste dane, ale nie zawierają rzeczywistych zapisów. W porównaniu z anonimizacją: zanonimizowane dane zapewniają wyższą dokładność analityczną w przypadku dalszego uczenia się; dane syntetyczne eliminują ryzyko ponownej identyfikacji, ale wprowadzają dryf statystyczny. Odwracalna anonimizacja jest preferowana, gdy do audytów zgodności mogą być potrzebne oryginalne zapisy.

LLM Szybki zastrzyk

Technika ataku, w której złośliwe dane wejściowe manipulują dużym modelem językowym w celu zignorowania instrukcji lub ujawnienia poufnych informacji. W kontekście ochrony danych osobowych natychmiastowe wstrzyknięcie może spowodować, że model sztucznej inteligencji ujawni anonimowe wzorce danych lub informacje o użytkowniku. Wstępna anonimizacja danych wejściowych, zanim dotrą one do LLM, zmniejsza powierzchnię ataku.

Prywatność już na etapie projektowania

Zasada GDPR Art. 25 wymagająca, aby ochrona danych była wbudowana w systemy od podstaw, a nie dodawana później. W przypadku systemów AI prywatność już w fazie projektowania oznacza anonimizację danych przed ich wprowadzeniem do rurociągów AI, wdrożenie szyfrowania o zerowej wiedzy i minimalizację zatrzymywania danych.

Metody Anonimizacji

Zastąp

Zastępuje wykrytą PII ogólnym tokenem tego samego typu jednostki, na przykład zastępując 'John Smith' z '<PERSON>'.

Maskuj

Częściowo zaciemnia PII, zastępując znaki symbolami maskującymi, na przykład zamieniając '123-45-6789' na '***-**-6789'.

Redaguj

Całkowicie usuwa wykrytą PII z tekstu, nie pozostawiając śladów oryginalnej wartości.

Skrót

Konwertuje PII na skrót kryptograficzny o stałej długości, umożliwiając spójne zastępowanie, jednocześnie czyniąc odwrócenie obliczeniowo nieosiągalnym.

Szyfruj

Przekształca PII przy użyciu szyfrowania AES-256-GCM z kluczem posiadanym przez użytkownika, umożliwiając autoryzowane odwrócenie (deanonimizację) w razie potrzeby.

Najczęściej Zadawane Pytania

Jaka jest różnica między anonimizacją a pseudonimizacją?

Anonimizacja nieodwracalnie usuwa wszystkie informacje identyfikujące, więc ponowna identyfikacja jest niemożliwa. Pseudonimizacja zastępuje identyfikatory sztucznymi, zachowując oddzielny klucz, który pozwala na ponowną identyfikację, gdy jest to autoryzowane. Zgodnie z GDPR, dane pseudonimizowane nadal są uważane za dane osobowe.

Dlaczego wykrywanie PII korzysta zarówno z NLP, jak i rozpoznawania wzorców?

Modele NLP wykrywają jednostki zależne od kontekstu, takie jak imiona osób i lokalizacje, które nie mają stałego formatu. Rozpoznawacze wzorców wykorzystują wyrażenia regularne do wychwytywania strukturalnych identyfikatorów, takich jak numery ubezpieczenia społecznego, numery kart kredytowych i numery telefonów. Połączenie obu podejść maksymalizuje dokładność detekcji we wszystkich typach jednostek.

Czym jest szyfrowanie zero-wiedzy i dlaczego ma znaczenie?

Szyfrowanie zero-wiedzy oznacza, że tylko Ty posiadasz klucz deszyfrujący — dostawca usług nie może odczytać Twoich danych. Ma to znaczenie, ponieważ nawet w przypadku naruszenia serwera, Twoje zaszyfrowane dane pozostają nieczytelne bez Twojego klucza, zapewniając najsilniejszą możliwą ochronę danych.

Jak szyfrowanie odwracalne różni się od haszowania?

Haszowanie to transformacja jednokierunkowa — po zhaszowaniu danych oryginał nie może być odzyskany. Szyfrowanie odwracalne (z użyciem AES-256-GCM) pozwala autoryzowanym użytkownikom z odpowiednim kluczem na deszyfrowanie i odzyskiwanie oryginalnych danych, umożliwiając przepływy pracy, w których potrzebna jest deanonimizacja.

Chroń Wrażliwe Dane Już Dziś

Rozpocznij anonimizację PII z 317 typami jednostek, 48 językami i szyfrowaniem zero-wiedzy.