Глоссарий PII и конфиденциальности данных
Четкие определения ключевых терминов конфиденциальности, соблюдения норм и защиты данных, используемых в отрасли.
Термины конфиденциальности и соблюдения норм
Личная идентифицируемая информация (PII)
Любые данные, которые могут идентифицировать конкретное лицо, такие как имена, адреса электронной почты, номера социального страхования или номера телефонов.
Анонимизация
Необратимый процесс изменения данных так, чтобы лица не могли быть идентифицированы, прямо или косвенно.
Псевдонимизация
Замена идентифицируемых данных искусственными идентификаторами (псевдонимами), так что повторная идентификация требует отдельно хранимого ключа.
Деидентификация
Удаление или сокрытие личных идентификаторов из данных, чтобы они больше не могли быть связаны с конкретным лицом без дополнительной информации.
Субъект данных
Определенное или определяемое физическое лицо, чьи персональные данные обрабатываются контроллером или процессором.
Контроллер данных
Субъект, который определяет цели и средства обработки персональных данных.
Процессор данных
Субъект, который обрабатывает персональные данные от имени контроллера данных, следуя инструкциям контроллера.
Согласие
Свободно данное, конкретное, информированное и недвусмысленное выражение согласия субъекта данных на обработку его персональных данных.
Законное основание
Юридическое основание, на котором разрешена обработка персональных данных, такое как согласие, необходимость контракта, юридическое обязательство или законный интерес.
Минимизация данных
Принцип, согласно которому собранные персональные данные должны быть адекватными, актуальными и ограниченными тем, что необходимо для их предполагаемой цели.
Право на удаление
Право субъекта данных на удаление своих персональных данных, когда они больше не нужны, также известное как 'право быть забытым' в соответствии с GDPR.
Портативность данных
Право субъектов данных получать свои персональные данные в структурированном, общепринятом формате и передавать их другому контроллеру.
Офицер по защите данных (DPO)
Назначенное лицо, ответственное за контроль стратегии защиты данных организации и обеспечение соблюдения норм конфиденциальности.
Оценка воздействия на защиту данных (DPIA)
Процесс выявления и минимизации рисков защиты данных проекта, требуемый в соответствии с GDPR для высокорисковых видов обработки.
Утечка данных
Инцидент безопасности, при котором персональные данные получены, раскрыты, изменены или уничтожены без разрешения.
Теневой ИИ
Несанкционированное использование инструментов искусственного интеллекта (ChatGPT, Copilot, Gemini) сотрудниками без разрешения ИТ-специалистов. Теневой ИИ является основной причиной утечек данных, позволяющих идентифицировать личность, поскольку пользователи вставляют конфиденциальные бизнес-данные — записи клиентов, информацию о пациентах, финансовые данные — непосредственно в подсказки ИИ.
Минимизация данных
Принцип GDPR (Art. 5(1)(c)) требует от организаций собирать и обрабатывать только минимум персональных данных, необходимых для конкретной цели. В системах искусственного интеллекта минимизация данных означает анонимизацию или удаление личных данных до того, как данные попадут в конвейеры искусственного интеллекта, что снижает риск нарушения требований и вероятность нарушений.
Регуляторные рамки
GDPR (Общее регламент о защите данных)
Регламент ЕС, регулирующий обработку персональных данных физических лиц в Европейской экономической зоне, действующий с мая 2018 года.
CCPA (Закон Калифорнии о конфиденциальности потребителей)
Закон штата Калифорния, предоставляющий потребителям права на свои персональные данные, собранные бизнесом, действующий с января 2020 года.
HIPAA (Закон о переносимости и подотчетности медицинского страхования)
Федеральный закон США, устанавливающий стандарты защиты конфиденциальной информации о здоровье пациентов от раскрытия без согласия.
ISO 27001
Международный стандарт для систем управления информационной безопасностью (ISMS), определяющий требования к созданию, внедрению и постоянному улучшению средств безопасности.
SOC 2 (Системы и организационные контроли 2)
Рамки аудита для сервисных организаций, которые оценивают контроли, связанные с безопасностью, доступностью, целостностью обработки, конфиденциальностью и защитой данных.
EU AI Act
Регламент Европейского Союза об искусственном интеллекте (вступает в силу с августа 2026 г.). Системы искусственного интеллекта с высоким уровнем риска должны реализовывать меры управления данными, включая минимизацию личных данных, документирование и DPIA. Организации, использующие ИИ для принятия решений в отношении отдельных лиц, должны обеспечить анонимность или псевдонимизацию данных обучения.
ISO 42001
Международный стандарт для систем управления ИИ (AIMS), опубликованный в 2023 году. Обеспечивает основу для ответственной разработки и внедрения ИИ, включая качество данных, контроль предвзятости и защиту конфиденциальности. Часто в сочетании с ISO 27001 для организаций, использующих системы искусственного интеллекта с персональными данными.
Индия DPDP Act
Закон Индии о защите цифровых персональных данных (2023 г.), вступает в силу с 2025 г. Требуется явное согласие на обработку персональных данных жителей Индии, локализацию конфиденциальных данных и уведомление о нарушении в течение 72 часов. Применяется к организациям по всему миру, которые обрабатывают данные граждан Индии.
Технические термины
Распознавание именованных сущностей (NER)
Техника NLP, которая идентифицирует и классифицирует именованные сущности в тексте по заранее определенным категориям, таким как имена людей, местоположения и организации.
Обработка естественного языка (NLP)
Отрасль искусственного интеллекта, позволяющая компьютерам понимать, интерпретировать и генерировать человеческий язык.
Распознаватель шаблонов
Детектор на основе правил, который использует регулярные выражения и контекстные подсказки для идентификации конкретных шаблонов данных, таких как номера кредитных карт или номера социального страхования.
Оценка уверенности
Числовое значение от 0 до 1, указывающее, насколько уверенно движок обнаружения считает, что фрагмент текста соответствует определенному типу сущности.
Регулярное выражение (Regex)
Последовательность символов, определяющая шаблон поиска, обычно используемая для проверки и обнаружения структурированных форматов данных, таких как номера телефонов или адреса электронной почты.
AES-256-GCM
Алгоритм аутентифицированного шифрования, использующий 256-битный ключ в режиме Galois/Counter, обеспечивающий как конфиденциальность, так и проверку целостности зашифрованных данных.
Шифрование с нулевым знанием
Архитектура шифрования, при которой только пользователь имеет ключ для расшифровки, что означает, что даже поставщик услуг не может получить доступ к открытым данным.
Токенизация
Замена конфиденциальных данных неконфиденциальными токенами-заполнителями, которые могут быть сопоставлены с оригинальными данными через безопасный поиск.
Маскирование данных
Сокрытие конкретных данных в наборе данных так, чтобы конфиденциальная информация была скрыта, в то время как данные остаются пригодными для тестирования или анализа.
Редакция
Постоянное удаление конфиденциальной информации из документа или набора данных, заменяя ее маркером, таким как [ЗАЧЕРКНУТО].
Синтетические данные
Данные, сгенерированные искусственным интеллектом, которые статистически имитируют реальные данные, но не содержат фактических записей. По сравнению с анонимизацией: анонимизированные данные сохраняют более высокую аналитическую точность для последующего машинного обучения; синтетические данные исключают риск повторной идентификации, но вносят статистический дрейф. Обратимая анонимизация предпочтительна, когда для проверки соответствия могут потребоваться оригинальные записи.
LLM Быстрое введение
Техника атаки, при которой вредоносный ввод манипулирует большой языковой моделью, игнорируя инструкции или обеспечивая утечку конфиденциальной информации. В контексте защиты PII быстрое внедрение может привести к тому, что модель ИИ раскроет анонимные шаблоны данных или информацию пользователя. Предварительная анонимизация входных данных до того, как они достигнут LLM, снижает поверхность атаки.
Конфиденциальность по замыслу
Принцип GDPR Art. 25 требует, чтобы защита данных была встроена в системы с нуля, а не добавлялась в последнюю очередь. Для систем искусственного интеллекта принцип конфиденциальности означает анонимизацию данных до того, как они попадут в конвейеры искусственного интеллекта, внедрение шифрования с нулевым разглашением и минимизацию хранения данных.
Методы анонимизации
Заменить
Заменяет обнаруженные PII на общий заполнитель того же типа сущности, например, заменяя 'Джон Смит' на '<PERSON>'.
Маска
Частично скрывает PII, заменяя символы символами маскировки, например, превращая '123-45-6789' в '***-**-6789'.
Редактировать
Полностью удаляет обнаруженные PII из текста, не оставляя следов оригинального значения.
Хэш
Преобразует PII в хэш фиксированной длины, позволяя последовательную замену, при этом делая обратное преобразование вычислительно невозможным.
Шифровать
Преобразует PII с использованием шифрования AES-256-GCM с ключом, хранящимся у пользователя, позволяя авторизованное обратное преобразование (деанонимизацию) при необходимости.
Часто задаваемые вопросы
В чем разница между анонимизацией и псевдонимизацией?
Анонимизация необратимо удаляет всю идентифицирующую информацию, поэтому повторная идентификация невозможна. Псевдонимизация заменяет идентификаторы искусственными, сохраняя отдельный ключ, который позволяет повторную идентификацию при авторизации. В соответствии с GDPR псевдонимизированные данные все еще считаются персональными данными.
Почему обнаружение PII использует как NLP, так и распознавателей шаблонов?
Модели NLP обнаруживают контекстно-зависимые сущности, такие как имена людей и местоположения, которые не имеют фиксированного формата. Распознаватели шаблонов используют регулярные выражения для захвата структурированных идентификаторов, таких как номера социального страхования, номера кредитных карт и номера телефонов. Сочетание обоих подходов максимизирует точность обнаружения для всех типов сущностей.
Что такое шифрование с нулевым знанием и почему это важно?
Шифрование с нулевым знанием означает, что только вы обладаете ключом для расшифровки — поставщик услуг не может прочитать ваши данные. Это важно, потому что даже в случае утечки сервера ваши зашифрованные данные остаются нечитаемыми без вашего ключа, обеспечивая максимальную защиту данных.
Как обратимое шифрование отличается от хэширования?
Хэширование — это одностороннее преобразование — после хэширования данные оригинал не могут быть восстановлены. Обратимое шифрование (с использованием AES-256-GCM) позволяет авторизованным пользователям с правильным ключом расшифровывать и восстанавливать оригинальные данные, позволяя рабочие процессы, где требуется деанонимизация.