Regex-First: 왜 중요한가
우리의 접근법: Regex + NLP
- 317개 정규식 인식기: 구조화된 데이터에 대해 100% 재현 가능
- 이름 및 위치는 NLP로 신뢰도 점수 제공
- 완전 감사 가능 — 모든 탐지 결과는 패턴 또는 모델로 추적 가능
- 투명성: 어떤 항목이 왜 탐지되었는지 항상 확인 가능
- 빠르고 예측 가능한 성능
- 3가지 NLP 엔진으로 48개 언어 지원
AI 전용 접근법
- 모든 탐지는 확률적임
- 무엇이 탐지되었는지 설명 불가
- 대규모 학습 데이터셋 필요
- 컴플라이언스 감사를 위한 검증이 어려움
- 더 높은 연산 비용(GPU 필요)
- 모델 드리프트로 정확도가 시간에 따라 저하
10단계 프로세스
입력부터 출력까지, 귀하의 문서에 실제로 일어나는 모든 과정
텍스트 입력
웹 인터페이스, API, 또는 Office 애드인으로 문서 제출
언어 감지
시스템이 문서의 언어를 식별하여 최적 처리
토큰화
텍스트를 패턴 매칭을 위한 토큰으로 분할
패턴 매칭
317개 정규식 인식기와 NLP 모델이 70개국 이상, 320개+ 엔터티 유형을 탐지
문맥 분석
주변 텍스트를 분석하여 탐지 정확도 향상
신뢰도 점수 부여
각 탐지 결과에 신뢰도 점수(0.0–1.0)를 부여하여 휴먼 리뷰 의사결정 지원
엔터티 분류
탐지된 항목을 유형별로 분류
휴먼 리뷰
모든 탐지 결과를 검토하고, 오탐을 수정한 후 익명화 전 승인
익명화 적용
치환, 마스킹, 해시, 암호화, 가리기 중 원하는 방식 선택
문서 출력
익명화된 문서 다운로드
MCP 서버: 프라이버시 우선 AI 통합
데이터가 MCP 서버를 통해 AI 도구와 안전하게 연동되는 방식
MCP 서버는 프라이버시 보호막 역할을 하며, AI 도구의 요청을 가로채 PII를 익명화하고, 안전한 데이터를 AI로 처리한 뒤 필요 시 원본 복원도 지원합니다.
AI 도구 요청
귀하의 AI 도구(Cursor, Claude 등)가 PII를 포함한 요청 전송
MCP 서버 가로채기
서버가 모든 PII 엔터티를 분석 및 탐지
익명화
PII가 토큰으로 치환되거나 가려짐
AI 처리
AI는 익명화된 데이터만 수신 및 처리
응답 반환
AI 응답이 MCP 서버를 통해 반환
디토큰화
선택 사항: 사용자에게 원본 값 복원
자주 묻는 질문
cloak.business는 탐지에 AI를 사용하나요?
아니요. 탐지는 결정론적 정규식 패턴과 NLP 모델(spaCy, Stanza)을 사용합니다. 따라서 입력이 동일하면 항상 동일한 결과가 나오며, 확률적 AI 접근법과 달리 100% 재현 가능합니다.
왜 AI 대신 정규식 패턴을 사용하나요?
정규식 패턴은 감사 가능하고, 재현 가능하며, 컴플라이언스에 적합합니다. 각 패턴이 무엇을 매칭하는지 직접 확인할 수 있습니다. AI 기반 탐지는 비결정론적이어서 실행마다 결과가 달라지므로 컴플라이언스 문서화가 어렵습니다.
탐지 정확도는 어느 정도인가요?
317개의 맞춤형 패턴 인식기와 체크섬 검증(Luhn, IBAN, SSN 포함)으로, cloak.business는 특히 신용카드, 세금 ID, 국가 신분증 등 구조화 식별자에 대해 일반 NER 모델보다 훨씬 높은 정확도를 달성합니다.
지원하는 언어는 무엇인가요?
이름 엔터티 인식을 위한 전용 NLP 모델로 48개 언어를 지원합니다. 패턴 기반 탐지(정규식)는 문자 패턴 일치이므로 모든 언어에서 작동합니다.
사용자 정의 엔터티 패턴을 추가할 수 있나요?
네. API에서 맞춤형 인식기 정의를 지원하므로, 사내 식별자, 내부 참조 번호, 도메인별 데이터 형식에 대한 패턴을 추가할 수 있습니다.