왜 Regex-First인가?
규제 준수를 위해서는 설명 가능하고 재현 가능한 결과가 필수입니다. 우리의 regex 기반 접근법은 구조화된 데이터 탐지를 완전히 결정론적으로 유지하며, 이름과 위치는 투명한 신뢰도 점수로 NLP가 처리합니다.
상세 비교
| Regex-First(자사) | AI/ML 기반 | |
|---|---|---|
| 재현성 | 구조화된 데이터: 100% 동일. 이름: 신뢰도 점수 제공 | 모든 결과가 실행마다 다름 |
| 감사 가능성 | 모든 탐지 결과는 패턴 또는 NLP 모델로 추적 가능 | 블랙박스 — 의사결정 설명 불가 |
| 학습 데이터 | Regex: 필요 없음. NLP: 사전 학습 모델 포함 | 맞춤형 학습 데이터셋 필요 |
| 모델 드리프트 | Regex: 없음. NLP: 버전 관리된 안정적 모델 | 시간이 지남에 따라 예측 불가하게 저하 |
| 성능 | 빠름, CPU만 사용 | 가변적, GPU 의존 |
| 연산 비용 | 낮음(CPU만 사용) | 높음(GPU 필요) |
| 규제 준수 | 용이 — 패턴 및 신뢰도 점수는 휴먼 리뷰로 감사 가능 | 규제기관에 입증하기 어려움 |
패턴 매칭 작동 방식
각 엔터티 유형마다 특정 형식을 정확히 매칭하는 정규식 패턴이 설계되어 있습니다.
이메일 주소
표준 이메일 형식 매칭: local-part@domain.tld
신용카드 번호
Visa, Mastercard, Amex 등 다양한 카드 형식과 Luhn 검증 매칭
독일 IBAN
공백 포함 가능 독일 IBAN 형식 매칭
컴플라이언스를 위한 설계
감사자가 "왜 이 항목이 탐지되었나요?"라고 물을 때 명확한 답변이 필요합니다. Regex 탐지는 특정 패턴으로 추적 가능하며, NLP 탐지는 모델명과 신뢰도 점수를 포함합니다. 휴먼 리뷰를 통해 익명화 전 컴플라이언스 팀이 탐지 결과를 수정할 수 있습니다.
- GDPR 25조: 설명 가능한 처리로 프라이버시 설계
- ISO 27001: 문서화되고 반복 가능한 프로세스
- 감사 추적: 모든 탐지 결과는 특정 패턴으로 추적 가능
감사 응답 예시
Q: 왜 "john.smith@company.com"이 탐지되었나요?
A: 위치 45-68에서 표준 이메일 패턴과 신뢰도 0.95로 매칭됨. 패턴: 표준 이메일 형식 검증.