Глосарій PII та конфіденційності даних
Чіткі визначення ключових термінів конфіденційності, відповідності та захисту даних, що використовуються в галузі.
Терміни конфіденційності та відповідності
Персонально ідентифікована інформація (PII)
Будь-які дані, які можуть ідентифікувати конкретну особу, такі як імена, адреси електронної пошти, номери соціального страхування або телефонні номери.
Анонімізація
Безповоротний процес зміни даних так, щоб особи не могли бути ідентифіковані, безпосередньо чи опосередковано.
Псевдонімізація
Замінювання ідентифікованих даних штучними ідентифікаторами (псевдонімами), так що повторна ідентифікація вимагає окремо збереженого ключа.
Де-ідентифікація
Видалення або затемнення особистих ідентифікаторів з даних так, щоб їх більше не можна було пов'язати з конкретною особою без додаткової інформації.
Суб'єкт даних
Ідентифікована або ідентифікована фізична особа, чиї персональні дані обробляються контролером або обробником.
Контролер даних
Суб'єкт, який визначає цілі та засоби обробки персональних даних.
Обробник даних
Суб'єкт, який обробляє персональні дані від імені контролера даних, відповідно до інструкцій контролера.
Згода
Вільно надане, конкретне, інформоване та однозначне вказівка на згоду суб'єкта даних на обробку їх персональних даних.
Правова основа
Юридична підстава, на якій дозволяється обробка персональних даних, така як згода, необхідність контракту, юридичне зобов'язання або законний інтерес.
Мінімізація даних
Принцип, згідно з яким зібрані персональні дані повинні бути адекватними, релевантними та обмеженими до того, що необхідно для їх призначення.
Право на видалення
Право суб'єкта даних на видалення своїх персональних даних, коли вони більше не є необхідними, також відоме як 'право на забуття' відповідно до GDPR.
Портативність даних
Право суб'єктів даних отримувати свої персональні дані у структурованому, загальновживаному форматі та передавати їх іншому контролеру.
Офіцер з захисту даних (DPO)
Призначена особа, відповідальна за контроль стратегії захисту даних організації та забезпечення відповідності регламентам конфіденційності.
Оцінка впливу на захист даних (DPIA)
Процес виявлення та мінімізації ризиків захисту даних проекту, що вимагається відповідно до GDPR для діяльності з високим ризиком обробки.
Порушення даних
Інцидент безпеки, коли персональні дані отримуються, розкриваються, змінюються або знищуються без дозволу.
Shadow AI
Несанкціоноване використання інструментів штучного інтелекту (ChatGPT, Copilot, Gemini) працівниками без дозволу ІТ. Тіньовий штучний інтелект є основною причиною витоків ідентифікаційної інформації, оскільки користувачі вставляють конфіденційні бізнес-дані — записи клієнтів, інформацію про пацієнтів, фінансові дані — безпосередньо в підказки ШІ.
Мінімізація даних
Принцип GDPR (Art. 5(1)(c)), який вимагає від організацій збирати та обробляти лише мінімальну кількість персональних даних, необхідних для певної мети. У системах штучного інтелекту мінімізація даних означає анонімізацію або видалення ідентифікаційної інформації до того, як дані потраплять у конвеєри штучного інтелекту, що зменшує ризик відповідності та поверхню порушення.
Регуляторні рамки
GDPR (Загальний регламент захисту даних)
Регламент ЄС, що регулює обробку персональних даних осіб у межах Європейської економічної зони, що набрав чинності з травня 2018 року.
CCPA (Закон Каліфорнії про конфіденційність споживачів)
Закон штату Каліфорнія, що надає споживачам права на їх персональну інформацію, зібрану підприємствами, що набрав чинності з січня 2020 року.
HIPAA (Закон США про портативність і підзвітність медичного страхування)
Федеральний закон США, що встановлює стандарти для захисту чутливої інформації про здоров'я пацієнтів від розкриття без згоди.
ISO 27001
Міжнародний стандарт для систем управління інформаційною безпекою (ISMS), що визначає вимоги для встановлення, впровадження та безперервного вдосконалення засобів безпеки.
SOC 2 (Контроль систем і організацій 2)
Аудиторська структура для сервісних організацій, яка оцінює контролі, пов'язані з безпекою, доступністю, цілісністю обробки, конфіденційністю та конфіденційністю.
EU AI Act
Регламент Європейського Союзу щодо штучного інтелекту (вводиться в дію з серпня 2026 року). Системи штучного інтелекту з високим рівнем ризику повинні впроваджувати заходи з управління даними, включаючи мінімізацію персональних даних, документування та DPIA. Організації, які використовують штучний інтелект для прийняття рішень щодо окремих осіб, повинні забезпечити анонімність або псевдонімізацію навчальних даних.
ISO 42001
Міжнародний стандарт для систем управління штучним інтелектом (AIMS), опублікований у 2023 році. Забезпечує основу для відповідальної розробки та впровадження штучного інтелекту, включаючи якість даних, контроль упередженості та гарантії конфіденційності. Часто поєднується з ISO 27001 для організацій, які керують системами ШІ з персональними даними.
Індія DPDP Act
Закон Індії про захист персональних даних у цифровій формі (2023), який набув чинності з 2025 року. Вимагає чіткої згоди на обробку особистих даних жителів Індії, локалізації конфіденційних даних і сповіщення про порушення протягом 72 годин. Застосовується до організацій у всьому світі, які обробляють дані громадян Індії.
Технічні терміни
Визначення названих сутностей (NER)
Техніка NLP, яка ідентифікує та класифікує названі сутності в тексті за попередньо визначеними категоріями, такими як імена осіб, місця та організації.
Обробка природної мови (NLP)
Галузь штучного інтелекту, яка дозволяє комп'ютерам розуміти, інтерпретувати та генерувати людську мову.
Розпізнавач шаблонів
Детектор на основі правил, який використовує регулярні вирази та контекстуальні підказки для ідентифікації специфічних шаблонів даних, таких як номери кредитних карток або номери соціального страхування.
Оцінка впевненості
Числове значення від 0 до 1, що вказує на те, наскільки впевнений детектор у тому, що частина тексту відповідає конкретному типу сутності.
Регулярний вираз (Regex)
Послідовність символів, що визначає шаблон пошуку, зазвичай використовується для перевірки та виявлення структурованих форматів даних, таких як номери телефонів або адреси електронної пошти.
AES-256-GCM
Алгоритм аутентифікованого шифрування, що використовує 256-бітний ключ з режимом Галоїс/лічильника, забезпечуючи як конфіденційність, так і перевірку цілісності зашифрованих даних.
Шифрування з нульовими знаннями
Архітектура шифрування, де лише користувач має ключ для дешифрування, що означає, що навіть постачальник послуг не може отримати доступ до відкритих даних.
Токенізація
Заміна чутливих даних некритичними токенами-заміщеннями, які можуть бути відновлені до оригінальних даних через безпечний пошук.
Маскування даних
Затемнення специфічних даних у наборі даних так, щоб чутлива інформація була прихована, тоді як дані залишаються придатними для тестування або аналізу.
Редакція
Постійне видалення чутливої інформації з документа або набору даних, заміна її маркером, таким як [REDACTED].
Синтетичні дані
Дані, створені ШІ, які статистично імітують реальні дані, не містять фактичних записів. Порівняно з анонімізацією: анонімні дані зберігають вищу аналітичну точність для подальшого ML; синтетичні дані усувають ризик повторної ідентифікації, але вводять статистичний дрейф. Зворотна анонімність є бажаною, коли оригінальні записи можуть знадобитися для аудиту відповідності.
Швидка ін'єкція LLM
Метод атаки, коли зловмисне введення маніпулює великою мовною моделлю, щоб ігнорувати інструкції або витік конфіденційної інформації. У контексті захисту ідентифікаційної інформації миттєва ін’єкція може призвести до того, що модель штучного інтелекту виявить анонімні шаблони даних або інформацію про користувача. Попередня анонімізація вхідних даних до того, як вони досягнуть LLM, зменшує площу атаки.
Конфіденційність за проектом
Принцип GDPR Art. 25 вимагає, щоб захист даних був вбудований у системи з нуля, а не додавався пізніше. Для систем штучного інтелекту конфіденційність за проектом означає анонімізацію даних перед тим, як вони потраплять у конвеєри штучного інтелекту, впровадження шифрування з нульовими знаннями та мінімізацію збереження даних.
Методи анонімізації
Замінити
Замінює виявлену PII загальним маркером того ж типу сутності, наприклад, замінюючи 'Джон Сміт' на '<PERSON>'.
Маскувати
Частково затемнює PII, замінюючи символи символами маскування, наприклад, перетворюючи '123-45-6789' на '***-**-6789'.
Редагувати
Повністю видаляє виявлену PII з тексту, не залишаючи слідів оригінального значення.
Хеш
Перетворює PII в хеш фіксованої довжини, що дозволяє послідовну заміну, ускладнюючи обернення обчислювально.
Шифрувати
Перетворює PII за допомогою шифрування AES-256-GCM з ключем, що належить користувачу, дозволяючи авторизоване обернення (де-анонімізацію) за потреби.
Поширені запитання
Яка різниця між анонімізацією та псевдонімізацією?
Анонімізація безповоротно видаляє всю ідентифікаційну інформацію, тому повторна ідентифікація неможлива. Псевдонімізація замінює ідентифікатори штучними, зберігаючи окремий ключ, який дозволяє повторну ідентифікацію за дозволом. Відповідно до GDPR, псевдонімізовані дані все ще вважаються персональними даними.
Чому виявлення PII використовує як NLP, так і розпізнавачі шаблонів?
Моделі NLP виявляють контекстно залежні сутності, такі як імена осіб і місця, які не мають фіксованого формату. Розпізнавачі шаблонів використовують регулярні вирази для виявлення структурованих ідентифікаторів, таких як номери соціального страхування, номери кредитних карток і телефонні номери. Поєднання обох підходів максимізує точність виявлення для всіх типів сутностей.
Що таке шифрування з нульовими знаннями і чому це важливо?
Шифрування з нульовими знаннями означає, що лише ви маєте ключ для дешифрування — постачальник послуг не може прочитати ваші дані. Це важливо, оскільки навіть у разі порушення безпеки сервера ваші зашифровані дані залишаються недоступними без вашого ключа, забезпечуючи найсильніший захист даних.
Чим зворотне шифрування відрізняється від хешування?
Хешування — це односпрямоване перетворення — після хешування дані не можуть бути відновлені. Зворотне шифрування (з використанням AES-256-GCM) дозволяє авторизованим користувачам з правильним ключем дешифрувати та відновити оригінальні дані, що дозволяє робочі процеси, де потрібна де-анонімізація.