cloak.business

Cách cloak.business Hoạt Động

Phát hiện PII ưu tiên regex: 317 bộ nhận diện mẫu xác định cho dữ liệu có cấu trúc (ID, mã số thuế, thẻ tín dụng), cùng spaCy, Stanza và XLM-RoBERTa NLP cho tên và địa điểm trên 48 ngôn ngữ.

Regex-First: Tại Sao Quan Trọng

Cách Tiếp Cận Của Chúng Tôi: Regex + NLP

  • 317 bộ nhận diện regex: 100% tái tạo được cho dữ liệu có cấu trúc
  • NLP cho tên & địa điểm với điểm tin cậy
  • Hoàn toàn kiểm toán được — mọi phát hiện đều truy vết được tới mẫu hoặc mô hình
  • Minh bạch: bạn luôn biết điều gì đã khớp và lý do
  • Hiệu suất nhanh, ổn định
  • 48 ngôn ngữ trên 3 công cụ NLP

Cách Tiếp Cận Chỉ Dùng AI

  • Tất cả phát hiện đều mang tính xác suất
  • Không giải thích được lý do bị đánh dấu
  • Cần bộ dữ liệu huấn luyện lớn
  • Khó kiểm toán để tuân thủ
  • Chi phí tính toán cao hơn (cần GPU)
  • Mô hình bị trôi làm giảm độ chính xác theo thời gian

Quy Trình 10 Bước

Từ đầu vào đến đầu ra, đây là những gì xảy ra với tài liệu của bạn

1

Nhập Văn Bản

Gửi tài liệu qua giao diện web, API hoặc Office Add-in

2

Nhận Diện Ngôn Ngữ

Hệ thống xác định ngôn ngữ tài liệu để xử lý tối ưu

3

Tách Token

Văn bản được chia thành các token để so khớp mẫu

4

So Khớp Mẫu

317 bộ nhận diện regex và mô hình NLP quét hơn 320 loại thực thể tại hơn 70 quốc gia

5

Phân Tích Ngữ Cảnh

Văn bản xung quanh giúp tăng độ chính xác phát hiện

6

Chấm Điểm Tin Cậy

Mỗi phát hiện nhận điểm tin cậy (0.0–1.0) hỗ trợ quyết định kiểm duyệt thủ công

7

Phân Loại Thực Thể

Các mục phát hiện được phân loại theo loại

8

Kiểm Duyệt Thủ Công

Xem xét tất cả phát hiện, loại bỏ dương tính giả, và phê duyệt trước khi ẩn danh

9

Áp Dụng Ẩn Danh

Chọn phương pháp: Thay thế, Bôi đen, Băm, Mã hóa hoặc Che

10

Tài Liệu Đầu Ra

Tải về tài liệu đã được ẩn danh

MCP Server: Tích Hợp AI Ưu Tiên Quyền Riêng Tư

Cách dữ liệu của bạn di chuyển qua MCP Server để bảo vệ an toàn cho công cụ AI

MCP Server hoạt động như một lá chắn quyền riêng tư, chặn các yêu cầu từ công cụ AI, ẩn danh PII, xử lý dữ liệu an toàn qua AI, và tùy chọn khôi phục giá trị gốc.

Yêu Cầu Từ Công Cụ AI

Công cụ AI của bạn (Cursor, Claude) gửi yêu cầu chứa PII

MCP Server Chặn Lại

Máy chủ phân tích và phát hiện tất cả thực thể PII

Ẩn Danh

PII được thay thế bằng token hoặc bôi đen

Xử Lý AI

AI chỉ nhận và xử lý dữ liệu đã được ẩn danh

Trả Kết Quả

Phản hồi AI trả về qua MCP Server

Giải Token

Tùy chọn: Khôi phục giá trị gốc cho người dùng

Câu Hỏi Thường Gặp

cloak.business có sử dụng AI để phát hiện không?

Không. Việc phát hiện sử dụng các mẫu regex xác định và mô hình NLP (spaCy, Stanza). Điều này đảm bảo kết quả 100% tái tạo được — cùng một đầu vào luôn cho ra cùng một đầu ra, khác với cách tiếp cận AI xác suất.

Tại sao dùng mẫu regex thay vì AI?

Mẫu regex có thể kiểm toán, tái tạo và tuân thủ. Bạn có thể kiểm tra chính xác từng mẫu khớp với gì. Phát hiện dựa trên AI là không xác định — kết quả có thể thay đổi giữa các lần chạy, gây khó khăn cho tài liệu tuân thủ.

Độ chính xác của phát hiện như thế nào?

Với 317 bộ nhận diện mẫu tùy chỉnh bao gồm kiểm tra checksum (Luhn, IBAN, SSN), cloak.business đạt độ chính xác cao hơn đáng kể so với các mô hình NER chung, đặc biệt với định danh có cấu trúc như thẻ tín dụng, mã số thuế và số CMND.

Hỗ trợ những ngôn ngữ nào?

Hỗ trợ 48 ngôn ngữ với mô hình NLP riêng cho nhận diện thực thể có tên. Phát hiện dựa trên mẫu (regex) hoạt động trên mọi ngôn ngữ vì khớp theo mẫu ký tự không phụ thuộc ngôn ngữ.

Tôi có thể thêm mẫu thực thể tùy chỉnh không?

Có. API hỗ trợ định nghĩa bộ nhận diện tùy chỉnh để bạn thêm mẫu cho định danh độc quyền, số tham chiếu nội bộ hoặc định dạng dữ liệu chuyên ngành.

Xem Thực Tế

Dùng thử phát hiện và ẩn danh PII miễn phí với 200 token mỗi chu kỳ.