PII 및 데이터 프라이버시 용어집

업계에서 사용되는 주요 프라이버시, 준수 및 데이터 보호 용어에 대한 명확한 정의.

프라이버시 및 준수 용어

개인 식별 정보 (PII)

이름, 이메일 주소, 사회 보장 번호 또는 전화번호와 같이 특정 개인을 식별할 수 있는 데이터.

익명화

개인이 직접 또는 간접적으로 식별될 수 없도록 데이터를 변경하는 되돌릴 수 없는 과정.

가명화

재식별을 위해 별도로 보관된 키가 필요하도록 식별 가능한 데이터를 인공 식별자(가명)로 대체하는 것.

비식별화

추가 정보 없이 특정 개인과 더 이상 연결될 수 없도록 데이터에서 개인 식별자를 제거하거나 흐리게 하는 것.

데이터 주체

처리자가 개인 데이터를 처리하는 식별된 또는 식별 가능한 자연인.

데이터 관리자

개인 데이터 처리의 목적과 수단을 결정하는 주체.

데이터 처리자

데이터 관리자의 지침에 따라 개인 데이터를 처리하는 주체.

동의

데이터 주체가 자신의 개인 데이터 처리에 동의하는 자유롭고 구체적이며 정보에 기반한 명확한 표시.

법적 근거

동의, 계약 필요성, 법적 의무 또는 정당한 이익과 같은 개인 데이터 처리가 허용되는 법적 근거.

데이터 최소화

수집된 개인 데이터는 적절하고 관련성이 있으며 의도된 목적에 필요한 범위로 제한되어야 한다는 원칙.

삭제 권리

데이터 주체가 더 이상 필요하지 않은 경우 자신의 개인 데이터를 삭제할 권리, GDPR에 따라 '잊혀질 권리'로도 알려져 있습니다.

데이터 이동성

데이터 주체가 자신의 개인 데이터를 구조화된 일반적으로 사용되는 형식으로 수신하고 다른 관리자에게 전송할 권리.

데이터 보호 책임자 (DPO)

조직의 데이터 보호 전략을 감독하고 프라이버시 규정을 준수하도록 보장하는 책임이 있는 지정된 개인.

데이터 보호 영향 평가 (DPIA)

프로젝트의 데이터 보호 위험을 식별하고 최소화하기 위한 과정으로, 고위험 처리 활동에 대해 GDPR에 따라 요구됩니다.

데이터 유출

개인 데이터가 무단으로 접근, 공개, 변경 또는 파괴되는 보안 사고.

규제 프레임워크

GDPR (일반 데이터 보호 규정)

유럽 경제 지역 내 개인 데이터 처리를 규율하는 EU 규정으로, 2018년 5월부터 시행되었습니다.

CCPA (캘리포니아 소비자 프라이버시 법)

기업이 수집한 개인 정보에 대한 소비자의 권리를 부여하는 캘리포니아 주 법으로, 2020년 1월부터 시행되었습니다.

HIPAA (건강 보험 이동성 및 책임 법)

동의 없이 민감한 환자 건강 정보를 보호하기 위한 기준을 설정하는 미국 연방법.

ISO 27001

정보 보안 관리 시스템(ISMS)에 대한 국제 표준으로, 보안 통제를 설정, 구현 및 지속적으로 개선하기 위한 요구 사항을 명시합니다.

SOC 2 (시스템 및 조직 통제 2)

보안, 가용성, 처리 무결성, 기밀성 및 프라이버시와 관련된 통제를 평가하는 서비스 조직을 위한 감사 프레임워크.

기술 용어

명명된 개체 인식 (NER)

텍스트에서 명명된 개체를 식별하고 분류하는 NLP 기술로, 사람 이름, 위치 및 조직과 같은 미리 정의된 범주로 나뉩니다.

자연어 처리 (NLP)

컴퓨터가 인간의 언어를 이해하고 해석하며 생성할 수 있도록 하는 인공지능의 한 분야.

패턴 인식기

정규 표현식과 맥락 단서를 사용하여 신용 카드 번호나 사회 보장 번호와 같은 특정 데이터 패턴을 식별하는 규칙 기반 탐지기.

신뢰 점수

탐지 엔진이 특정 개체 유형과 일치하는 텍스트 조각을 얼마나 확신하는지를 나타내는 0과 1 사이의 숫자 값.

정규 표현식 (Regex)

검색 패턴을 정의하는 문자 시퀀스로, 전화번호나 이메일 주소와 같은 구조화된 데이터 형식을 검증하고 감지하는 데 일반적으로 사용됩니다.

AES-256-GCM

256비트 키를 사용하는 인증된 암호화 알고리즘으로, Galois/Counter 모드를 통해 암호화된 데이터의 기밀성과 무결성 검증을 제공합니다.

제로 지식 암호화

오직 사용자만 복호화 키를 보유하는 암호화 아키텍처로, 서비스 제공자는 평문 데이터에 접근할 수 없습니다.

토큰화

민감한 데이터를 비민감한 자리 표시자 토큰으로 대체하여 안전한 조회를 통해 원래 데이터로 다시 매핑할 수 있도록 하는 것.

데이터 마스킹

데이터 세트 내에서 특정 데이터를 흐리게 하여 민감한 정보는 숨기고 데이터는 테스트나 분석에 사용할 수 있도록 하는 것.

레닥션

문서나 데이터 세트에서 민감한 정보를 영구적으로 제거하고 [REDACTED]와 같은 마커로 대체하는 것.

익명화 방법

대체

감지된 PII를 동일한 개체 유형의 일반 자리 표시자로 대체하는 것으로, 예를 들어 'John Smith'를 '<PERSON>'으로 대체합니다.

마스킹

문자를 마스킹 기호로 대체하여 PII를 부분적으로 흐리게 하는 것으로, 예를 들어 '123-45-6789'를 '***-**-6789'로 변환합니다.

레닥트

감지된 PII를 텍스트에서 완전히 제거하여 원래 값을 남기지 않는 것.

해시

PII를 고정 길이의 암호화 해시로 변환하여 일관된 대체를 가능하게 하며, 역변환이 계산적으로 불가능하게 만듭니다.

암호화

사용자가 보유한 키로 AES-256-GCM 암호화를 사용하여 PII를 변환하여 필요할 때 권한이 있는 역변환(비익명화)을 가능하게 합니다.

자주 묻는 질문

익명화와 가명화의 차이는 무엇인가요?

익명화는 모든 식별 정보를 되돌릴 수 없도록 제거하여 재식별이 불가능하게 만듭니다. 가명화는 식별자를 인공적인 것으로 대체하면서 재식별을 허용하는 별도의 키를 유지합니다. GDPR에 따라 가명화된 데이터는 여전히 개인 데이터로 간주됩니다.

왜 PII 탐지에 NLP와 패턴 인식기를 모두 사용하는가요?

NLP 모델은 고정 형식이 없는 사람 이름과 위치와 같은 맥락에 의존하는 개체를 탐지합니다. 패턴 인식기는 정규 표현식을 사용하여 사회 보장 번호, 신용 카드 번호 및 전화번호와 같은 구조화된 식별자를 포착합니다. 두 가지 접근 방식을 결합하면 모든 개체 유형에 대한 탐지 정확도가 극대화됩니다.

제로 지식 암호화란 무엇이며 왜 중요한가요?

제로 지식 암호화는 오직 당신만 복호화 키를 보유한다는 것을 의미합니다 — 서비스 제공자는 당신의 데이터를 읽을 수 없습니다. 이는 서버 침해 사건이 발생하더라도 암호화된 데이터는 당신의 키 없이는 읽을 수 없으므로 가능한 가장 강력한 데이터 보호를 제공합니다.

가역적 암호화는 해시와 어떻게 다른가요?

해시는 일방향 변환입니다 — 데이터가 해시된 후에는 원래 데이터를 복구할 수 없습니다. 가역적 암호화(AES-256-GCM 사용)는 올바른 키를 가진 권한 있는 사용자가 복호화하고 원래 데이터를 복구할 수 있도록 하여 비익명화가 필요한 워크플로우를 가능하게 합니다.

오늘 민감한 데이터 보호하기

320개 이상의 개체 유형, 48개 언어 및 제로 지식 암호화로 PII 익명화 시작하기.