왜 Regex-First인가?

규제 준수를 위해서는 설명 가능하고 재현 가능한 결과가 필수입니다. 우리의 regex 기반 접근법은 구조화된 데이터 탐지를 완전히 결정론적으로 유지하며, 이름과 위치는 투명한 신뢰도 점수로 NLP가 처리합니다.

상세 비교

Regex-First(자사)AI/ML 기반
재현성구조화된 데이터: 100% 동일. 이름: 신뢰도 점수 제공모든 결과가 실행마다 다름
감사 가능성모든 탐지 결과는 패턴 또는 NLP 모델로 추적 가능블랙박스 — 의사결정 설명 불가
학습 데이터Regex: 필요 없음. NLP: 사전 학습 모델 포함맞춤형 학습 데이터셋 필요
모델 드리프트Regex: 없음. NLP: 버전 관리된 안정적 모델시간이 지남에 따라 예측 불가하게 저하
성능빠름, CPU만 사용가변적, GPU 의존
연산 비용낮음(CPU만 사용)높음(GPU 필요)
규제 준수용이 — 패턴 및 신뢰도 점수는 휴먼 리뷰로 감사 가능규제기관에 입증하기 어려움

패턴 매칭 작동 방식

각 엔터티 유형마다 특정 형식을 정확히 매칭하는 정규식 패턴이 설계되어 있습니다.

이메일 주소

표준 이메일 형식 매칭: local-part@domain.tld

신용카드 번호

Visa, Mastercard, Amex 등 다양한 카드 형식과 Luhn 검증 매칭

독일 IBAN

공백 포함 가능 독일 IBAN 형식 매칭

컴플라이언스를 위한 설계

감사자가 "왜 이 항목이 탐지되었나요?"라고 물을 때 명확한 답변이 필요합니다. Regex 탐지는 특정 패턴으로 추적 가능하며, NLP 탐지는 모델명과 신뢰도 점수를 포함합니다. 휴먼 리뷰를 통해 익명화 전 컴플라이언스 팀이 탐지 결과를 수정할 수 있습니다.

  • GDPR 25조: 설명 가능한 처리로 프라이버시 설계
  • ISO 27001: 문서화되고 반복 가능한 프로세스
  • 감사 추적: 모든 탐지 결과는 특정 패턴으로 추적 가능

감사 응답 예시

Q: 왜 "john.smith@company.com"이 탐지되었나요?

A: 위치 45-68에서 표준 이메일 패턴과 신뢰도 0.95로 매칭됨. 패턴: 표준 이메일 형식 검증.

결정론적 탐지 경험

Regex 기반 PII 탐지를 1회당 200 토큰까지 무료로 체험하세요.