cloak.business 작동 방식 | Regex 기반 PII 탐지

Regex 기반 PII 탐지: 구조화된 데이터(신분증, 세금 번호, 신용카드 등)를 위한 317개의 결정론적 패턴 인식기와, 48개 언어에서 이름과 위치를 위한 spaCy, Stanza, XLM-RoBERTa NLP 적용.

무료로 체험하기 기술 문서

Regex-First: 왜 중요한가

우리의 접근법: Regex + NLP

317개 정규식 인식기: 구조화된 데이터에 대해 100% 재현 가능
이름 및 위치는 NLP로 신뢰도 점수 제공
완전 감사 가능 — 모든 탐지 결과는 패턴 또는 모델로 추적 가능
투명성: 어떤 항목이 왜 탐지되었는지 항상 확인 가능
빠르고 예측 가능한 성능
3가지 NLP 엔진으로 48개 언어 지원

AI 전용 접근법

모든 탐지는 확률적임
무엇이 탐지되었는지 설명 불가
대규모 학습 데이터셋 필요
컴플라이언스 감사를 위한 검증이 어려움
더 높은 연산 비용(GPU 필요)
모델 드리프트로 정확도가 시간에 따라 저하

10단계 프로세스

입력부터 출력까지, 귀하의 문서에 실제로 일어나는 모든 과정

텍스트 입력

웹 인터페이스, API, 또는 Office 애드인으로 문서 제출

언어 감지

시스템이 문서의 언어를 식별하여 최적 처리

토큰화

텍스트를 패턴 매칭을 위한 토큰으로 분할

패턴 매칭

317개 정규식 인식기와 NLP 모델이 70개국 이상, 317개+ 엔터티 유형을 탐지

문맥 분석

주변 텍스트를 분석하여 탐지 정확도 향상

신뢰도 점수 부여

각 탐지 결과에 신뢰도 점수(0.0–1.0)를 부여하여 휴먼 리뷰 의사결정 지원

엔터티 분류

탐지된 항목을 유형별로 분류

휴먼 리뷰

모든 탐지 결과를 검토하고, 오탐을 수정한 후 익명화 전 승인

익명화 적용

치환, 마스킹, 해시, 암호화, 가리기 중 원하는 방식 선택

문서 출력

익명화된 문서 다운로드

MCP 서버: 프라이버시 우선 AI 통합

데이터가 MCP 서버를 통해 AI 도구와 안전하게 연동되는 방식

MCP 서버는 프라이버시 보호막 역할을 하며, AI 도구의 요청을 가로채 PII를 익명화하고, 안전한 데이터를 AI로 처리한 뒤 필요 시 원본 복원도 지원합니다.

AI 도구 요청

귀하의 AI 도구(Cursor, Claude 등)가 PII를 포함한 요청 전송

MCP 서버 가로채기

서버가 모든 PII 엔터티를 분석 및 탐지

익명화

PII가 토큰으로 치환되거나 가려짐

AI 처리

AI는 익명화된 데이터만 수신 및 처리

응답 반환

AI 응답이 MCP 서버를 통해 반환

디토큰화

선택 사항: 사용자에게 원본 값 복원

MCP 서버 자세히 알아보기 →

더 알아보기

기술

Regex 기반 탐지 방식과 컴플라이언스에 적합한 이유 심층 분석

아키텍처

시스템 아키텍처 및 각 구성요소의 작동 방식

보안

모든 단계에서 데이터를 보호하는 5중 보안 레이어

자주 묻는 질문

cloak.business는 탐지에 AI를 사용하나요?

아니요. 탐지는 결정론적 정규식 패턴과 NLP 모델(spaCy, Stanza)을 사용합니다. 따라서 입력이 동일하면 항상 동일한 결과가 나오며, 확률적 AI 접근법과 달리 100% 재현 가능합니다.

왜 AI 대신 정규식 패턴을 사용하나요?

정규식 패턴은 감사 가능하고, 재현 가능하며, 컴플라이언스에 적합합니다. 각 패턴이 무엇을 매칭하는지 직접 확인할 수 있습니다. AI 기반 탐지는 비결정론적이어서 실행마다 결과가 달라지므로 컴플라이언스 문서화가 어렵습니다.

탐지 정확도는 어느 정도인가요?

317개의 맞춤형 패턴 인식기와 체크섬 검증(Luhn, IBAN, SSN 포함)으로, cloak.business는 특히 신용카드, 세금 ID, 국가 신분증 등 구조화 식별자에 대해 일반 NER 모델보다 훨씬 높은 정확도를 달성합니다.

지원하는 언어는 무엇인가요?

이름 엔터티 인식을 위한 전용 NLP 모델로 48개 언어를 지원합니다. 패턴 기반 탐지(정규식)는 문자 패턴 일치이므로 모든 언어에서 작동합니다.

사용자 정의 엔터티 패턴을 추가할 수 있나요?

네. API에서 맞춤형 인식기 정의를 지원하므로, 사내 식별자, 내부 참조 번호, 도메인별 데이터 형식에 대한 패턴을 추가할 수 있습니다.

실제 동작 확인

PII 탐지 및 익명화를 무료로 1회당 200 토큰까지 체험하세요.