Regex-First: Tại Sao Quan Trọng
Cách Tiếp Cận Của Chúng Tôi: Regex + NLP
- 317 bộ nhận diện regex: 100% tái tạo được cho dữ liệu có cấu trúc
- NLP cho tên & địa điểm với điểm tin cậy
- Hoàn toàn kiểm toán được — mọi phát hiện đều truy vết được tới mẫu hoặc mô hình
- Minh bạch: bạn luôn biết điều gì đã khớp và lý do
- Hiệu suất nhanh, ổn định
- 48 ngôn ngữ trên 3 công cụ NLP
Cách Tiếp Cận Chỉ Dùng AI
- Tất cả phát hiện đều mang tính xác suất
- Không giải thích được lý do bị đánh dấu
- Cần bộ dữ liệu huấn luyện lớn
- Khó kiểm toán để tuân thủ
- Chi phí tính toán cao hơn (cần GPU)
- Mô hình bị trôi làm giảm độ chính xác theo thời gian
Quy Trình 10 Bước
Từ đầu vào đến đầu ra, đây là những gì xảy ra với tài liệu của bạn
Nhập Văn Bản
Gửi tài liệu qua giao diện web, API hoặc Office Add-in
Nhận Diện Ngôn Ngữ
Hệ thống xác định ngôn ngữ tài liệu để xử lý tối ưu
Tách Token
Văn bản được chia thành các token để so khớp mẫu
So Khớp Mẫu
317 bộ nhận diện regex và mô hình NLP quét hơn 320 loại thực thể tại hơn 70 quốc gia
Phân Tích Ngữ Cảnh
Văn bản xung quanh giúp tăng độ chính xác phát hiện
Chấm Điểm Tin Cậy
Mỗi phát hiện nhận điểm tin cậy (0.0–1.0) hỗ trợ quyết định kiểm duyệt thủ công
Phân Loại Thực Thể
Các mục phát hiện được phân loại theo loại
Kiểm Duyệt Thủ Công
Xem xét tất cả phát hiện, loại bỏ dương tính giả, và phê duyệt trước khi ẩn danh
Áp Dụng Ẩn Danh
Chọn phương pháp: Thay thế, Bôi đen, Băm, Mã hóa hoặc Che
Tài Liệu Đầu Ra
Tải về tài liệu đã được ẩn danh
MCP Server: Tích Hợp AI Ưu Tiên Quyền Riêng Tư
Cách dữ liệu của bạn di chuyển qua MCP Server để bảo vệ an toàn cho công cụ AI
MCP Server hoạt động như một lá chắn quyền riêng tư, chặn các yêu cầu từ công cụ AI, ẩn danh PII, xử lý dữ liệu an toàn qua AI, và tùy chọn khôi phục giá trị gốc.
Yêu Cầu Từ Công Cụ AI
Công cụ AI của bạn (Cursor, Claude) gửi yêu cầu chứa PII
MCP Server Chặn Lại
Máy chủ phân tích và phát hiện tất cả thực thể PII
Ẩn Danh
PII được thay thế bằng token hoặc bôi đen
Xử Lý AI
AI chỉ nhận và xử lý dữ liệu đã được ẩn danh
Trả Kết Quả
Phản hồi AI trả về qua MCP Server
Giải Token
Tùy chọn: Khôi phục giá trị gốc cho người dùng
Câu Hỏi Thường Gặp
cloak.business có sử dụng AI để phát hiện không?
Không. Việc phát hiện sử dụng các mẫu regex xác định và mô hình NLP (spaCy, Stanza). Điều này đảm bảo kết quả 100% tái tạo được — cùng một đầu vào luôn cho ra cùng một đầu ra, khác với cách tiếp cận AI xác suất.
Tại sao dùng mẫu regex thay vì AI?
Mẫu regex có thể kiểm toán, tái tạo và tuân thủ. Bạn có thể kiểm tra chính xác từng mẫu khớp với gì. Phát hiện dựa trên AI là không xác định — kết quả có thể thay đổi giữa các lần chạy, gây khó khăn cho tài liệu tuân thủ.
Độ chính xác của phát hiện như thế nào?
Với 317 bộ nhận diện mẫu tùy chỉnh bao gồm kiểm tra checksum (Luhn, IBAN, SSN), cloak.business đạt độ chính xác cao hơn đáng kể so với các mô hình NER chung, đặc biệt với định danh có cấu trúc như thẻ tín dụng, mã số thuế và số CMND.
Hỗ trợ những ngôn ngữ nào?
Hỗ trợ 48 ngôn ngữ với mô hình NLP riêng cho nhận diện thực thể có tên. Phát hiện dựa trên mẫu (regex) hoạt động trên mọi ngôn ngữ vì khớp theo mẫu ký tự không phụ thuộc ngôn ngữ.
Tôi có thể thêm mẫu thực thể tùy chỉnh không?
Có. API hỗ trợ định nghĩa bộ nhận diện tùy chỉnh để bạn thêm mẫu cho định danh độc quyền, số tham chiếu nội bộ hoặc định dạng dữ liệu chuyên ngành.