PII 탐지: 320+ 엔터티 유형

우리의 탐지 엔진은 317개의 맞춤형 정규 표현식 인식기를 NLP 모델과 결합하여 70개 이상의 국가에서 320개 이상의 개인 정보를 식별합니다. 동일한 입력, 동일한 출력 - 항상.

탐지 작동 방식

정규 표현식 패턴 매칭 (구조화된 PII)

317개의 맞춤형 PatternRecognizers가 정규 표현식 패턴을 사용하여 국가 ID, 세금 번호, 여권 및 운전 면허증과 같은 구조화된 데이터를 탐지합니다. 각 패턴은 코드나 구조화된 데이터에서 잘못된 매치를 방지하기 위해 경계 어설션을 사용합니다.

NLP 명명된 엔터티 인식 (이름 및 위치)

spaCy (25개 언어), Stanza NER (7개 언어), XLM-RoBERTa 변환기 (16개 언어)는 정규 표현식만으로는 포착할 수 없는 사람 이름, 위치 및 조직과 같은 비구조화된 PII를 탐지합니다. 모든 모델은 독일에 있는 자체 서버에서 실행되며, 데이터는 Meta, Google, Stanford 또는 제3자에게 전송되지 않습니다.

신뢰도 점수

각 탐지에는 인간의 결정을 위한 신뢰도 점수 (0.0–1.0)가 포함됩니다. 매우 구체적인 형식 (예: 독일 IBAN DE89 3704 0044 0532 0130 00)은 0.85+ 점수를 받으며, 일반적인 숫자 패턴은 0.3–0.5 점수를 받으며 확인을 위해 문맥 단어에 의존합니다. 컴플라이언스 팀은 익명화 전에 탐지를 검토하고 무효화할 수 있습니다.

문맥 단어 분석

각 인식기는 관련 언어의 문맥 단어를 가지고 있습니다 (예: 독일 ID의 'Personalausweis', 케냐 ID의 'kitambulisho'). 문맥 단어가 매치 근처에 나타나면 신뢰도 점수가 상승합니다.

지원되는 엔터티 유형

카테고리별 개인 정보 유형에 대한 포괄적인 커버리지

개인 식별자

  • 사람 이름
  • 이메일 주소
  • 전화번호
  • 생년월일
  • 나이
  • 성별
  • 국적

금융 정보

  • 신용카드 번호
  • IBAN
  • BIC/SWIFT
  • 은행 계좌 번호
  • 세금 ID
  • 부가가치세 번호

정부 ID

  • 사회보장번호 (SSN)
  • 국가 ID 번호
  • 여권 번호
  • 운전 면허증
  • 건강 보험 ID

위치 데이터

  • 거리 주소
  • 도시
  • 우편번호
  • 국가
  • GPS 좌표

디지털 식별자

  • IP 주소 (v4/v6)
  • MAC 주소
  • URL
  • 도메인 이름
  • 사용자 ID

조직 데이터

  • 회사 이름
  • 조직 ID
  • 등록 번호
  • 부서 이름

시간 데이터

  • 날짜
  • 시간
  • 날짜 범위
  • 타임스탬프

국제 형식

  • 독일 ID (Personalausweis)
  • 영국 국민 보험
  • 스페인 DNI/NIE
  • 이탈리아 Codice Fiscale
  • 그리고 70개 이상의 국가별 형식

맞춤형 엔터티 지원

맞춤형 패턴을 탐지해야 하나요? 정규 표현식 패턴으로 자체 엔터티 유형을 생성하거나 AI 지원 패턴 생성기를 사용하세요.

수동 패턴 생성

내부 직원 ID, 프로젝트 코드 또는 맞춤 참조 번호와 같은 독점 식별자를 위한 정규 표현식 패턴을 정의하세요.

AI 패턴 생성기

탐지하고자 하는 내용을 간단한 언어로 설명하면 AI가 최적화된 정규 표현식 패턴을 생성합니다.

Is This Right For You?

Best For

  • Teams needing 320+ entity types across personal, financial, government, and organizational data
  • Multilingual PII detection (48 languages) for global compliance and audit requirements
  • GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
  • Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
  • Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns

Not For

  • Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
  • Image-only PII detection workflows (use the dedicated image-redaction feature instead)
  • Simple English-only use cases where basic regex or keyword matching is sufficient

오늘 PII 탐지를 시작하세요

주기당 200개의 토큰으로 무료로 탐지 엔진을 사용해 보세요. 신용카드가 필요하지 않습니다.