Глосарій PII та конфіденційності даних
Чіткі визначення ключових термінів конфіденційності, відповідності та захисту даних, що використовуються в галузі.
Терміни конфіденційності та відповідності
Персонально ідентифікована інформація (PII)
Будь-які дані, які можуть ідентифікувати конкретну особу, такі як імена, адреси електронної пошти, номери соціального страхування або телефонні номери.
Анонімізація
Безповоротний процес зміни даних так, щоб особи не могли бути ідентифіковані, безпосередньо чи опосередковано.
Псевдонімізація
Замінювання ідентифікованих даних штучними ідентифікаторами (псевдонімами), так що повторна ідентифікація вимагає окремо збереженого ключа.
Де-ідентифікація
Видалення або затемнення особистих ідентифікаторів з даних так, щоб їх більше не можна було пов'язати з конкретною особою без додаткової інформації.
Суб'єкт даних
Ідентифікована або ідентифікована фізична особа, чиї персональні дані обробляються контролером або обробником.
Контролер даних
Суб'єкт, який визначає цілі та засоби обробки персональних даних.
Обробник даних
Суб'єкт, який обробляє персональні дані від імені контролера даних, відповідно до інструкцій контролера.
Згода
Вільно надане, конкретне, інформоване та однозначне вказівка на згоду суб'єкта даних на обробку їх персональних даних.
Правова основа
Юридична підстава, на якій дозволяється обробка персональних даних, така як згода, необхідність контракту, юридичне зобов'язання або законний інтерес.
Мінімізація даних
Принцип, згідно з яким зібрані персональні дані повинні бути адекватними, релевантними та обмеженими до того, що необхідно для їх призначення.
Право на видалення
Право суб'єкта даних на видалення своїх персональних даних, коли вони більше не є необхідними, також відоме як 'право на забуття' відповідно до GDPR.
Портативність даних
Право суб'єктів даних отримувати свої персональні дані у структурованому, загальновживаному форматі та передавати їх іншому контролеру.
Офіцер з захисту даних (DPO)
Призначена особа, відповідальна за контроль стратегії захисту даних організації та забезпечення відповідності регламентам конфіденційності.
Оцінка впливу на захист даних (DPIA)
Процес виявлення та мінімізації ризиків захисту даних проекту, що вимагається відповідно до GDPR для діяльності з високим ризиком обробки.
Порушення даних
Інцидент безпеки, коли персональні дані отримуються, розкриваються, змінюються або знищуються без дозволу.
Регуляторні рамки
GDPR (Загальний регламент захисту даних)
Регламент ЄС, що регулює обробку персональних даних осіб у межах Європейської економічної зони, що набрав чинності з травня 2018 року.
CCPA (Закон Каліфорнії про конфіденційність споживачів)
Закон штату Каліфорнія, що надає споживачам права на їх персональну інформацію, зібрану підприємствами, що набрав чинності з січня 2020 року.
HIPAA (Закон США про портативність і підзвітність медичного страхування)
Федеральний закон США, що встановлює стандарти для захисту чутливої інформації про здоров'я пацієнтів від розкриття без згоди.
ISO 27001
Міжнародний стандарт для систем управління інформаційною безпекою (ISMS), що визначає вимоги для встановлення, впровадження та безперервного вдосконалення засобів безпеки.
SOC 2 (Контроль систем і організацій 2)
Аудиторська структура для сервісних організацій, яка оцінює контролі, пов'язані з безпекою, доступністю, цілісністю обробки, конфіденційністю та конфіденційністю.
Технічні терміни
Визначення названих сутностей (NER)
Техніка NLP, яка ідентифікує та класифікує названі сутності в тексті за попередньо визначеними категоріями, такими як імена осіб, місця та організації.
Обробка природної мови (NLP)
Галузь штучного інтелекту, яка дозволяє комп'ютерам розуміти, інтерпретувати та генерувати людську мову.
Розпізнавач шаблонів
Детектор на основі правил, який використовує регулярні вирази та контекстуальні підказки для ідентифікації специфічних шаблонів даних, таких як номери кредитних карток або номери соціального страхування.
Оцінка впевненості
Числове значення від 0 до 1, що вказує на те, наскільки впевнений детектор у тому, що частина тексту відповідає конкретному типу сутності.
Регулярний вираз (Regex)
Послідовність символів, що визначає шаблон пошуку, зазвичай використовується для перевірки та виявлення структурованих форматів даних, таких як номери телефонів або адреси електронної пошти.
AES-256-GCM
Алгоритм аутентифікованого шифрування, що використовує 256-бітний ключ з режимом Галоїс/лічильника, забезпечуючи як конфіденційність, так і перевірку цілісності зашифрованих даних.
Шифрування з нульовими знаннями
Архітектура шифрування, де лише користувач має ключ для дешифрування, що означає, що навіть постачальник послуг не може отримати доступ до відкритих даних.
Токенізація
Заміна чутливих даних некритичними токенами-заміщеннями, які можуть бути відновлені до оригінальних даних через безпечний пошук.
Маскування даних
Затемнення специфічних даних у наборі даних так, щоб чутлива інформація була прихована, тоді як дані залишаються придатними для тестування або аналізу.
Редакція
Постійне видалення чутливої інформації з документа або набору даних, заміна її маркером, таким як [REDACTED].
Методи анонімізації
Замінити
Замінює виявлену PII загальним маркером того ж типу сутності, наприклад, замінюючи 'Джон Сміт' на '<PERSON>'.
Маскувати
Частково затемнює PII, замінюючи символи символами маскування, наприклад, перетворюючи '123-45-6789' на '***-**-6789'.
Редагувати
Повністю видаляє виявлену PII з тексту, не залишаючи слідів оригінального значення.
Хеш
Перетворює PII в хеш фіксованої довжини, що дозволяє послідовну заміну, ускладнюючи обернення обчислювально.
Шифрувати
Перетворює PII за допомогою шифрування AES-256-GCM з ключем, що належить користувачу, дозволяючи авторизоване обернення (де-анонімізацію) за потреби.
Поширені запитання
Яка різниця між анонімізацією та псевдонімізацією?
Анонімізація безповоротно видаляє всю ідентифікаційну інформацію, тому повторна ідентифікація неможлива. Псевдонімізація замінює ідентифікатори штучними, зберігаючи окремий ключ, який дозволяє повторну ідентифікацію за дозволом. Відповідно до GDPR, псевдонімізовані дані все ще вважаються персональними даними.
Чому виявлення PII використовує як NLP, так і розпізнавачі шаблонів?
Моделі NLP виявляють контекстно залежні сутності, такі як імена осіб і місця, які не мають фіксованого формату. Розпізнавачі шаблонів використовують регулярні вирази для виявлення структурованих ідентифікаторів, таких як номери соціального страхування, номери кредитних карток і телефонні номери. Поєднання обох підходів максимізує точність виявлення для всіх типів сутностей.
Що таке шифрування з нульовими знаннями і чому це важливо?
Шифрування з нульовими знаннями означає, що лише ви маєте ключ для дешифрування — постачальник послуг не може прочитати ваші дані. Це важливо, оскільки навіть у разі порушення безпеки сервера ваші зашифровані дані залишаються недоступними без вашого ключа, забезпечуючи найсильніший захист даних.
Чим зворотне шифрування відрізняється від хешування?
Хешування — це односпрямоване перетворення — після хешування дані не можуть бути відновлені. Зворотне шифрування (з використанням AES-256-GCM) дозволяє авторизованим користувачам з правильним ключем дешифрувати та відновити оригінальні дані, що дозволяє робочі процеси, де потрібна де-анонімізація.