วิธีการทำงานของ cloak.business

การตรวจจับ PII ด้วย Regex เป็นหลัก: ตัวตรวจจับรูปแบบ 317 รายการสำหรับข้อมูลโครงสร้าง (รหัสประจำตัว, หมายเลขภาษี, บัตรเครดิต) พร้อม spaCy, Stanza และ XLM-RoBERTa NLP สำหรับชื่อและสถานที่ใน 48 ภาษา

Regex เป็นหลัก: ทำไมจึงสำคัญ

แนวทางของเรา: Regex + NLP

  • ตัวตรวจจับ regex 317 รายการ: ทำซ้ำได้ 100% สำหรับข้อมูลโครงสร้าง
  • NLP สำหรับชื่อและสถานที่ พร้อมคะแนนความมั่นใจ
  • ตรวจสอบย้อนกลับได้เต็มรูปแบบ — ทุกการตรวจจับสามารถตรวจสอบย้อนกลับไปยังรูปแบบหรือโมเดล
  • โปร่งใส: คุณทราบเสมอว่าอะไรตรงกับรูปแบบและเพราะเหตุใด
  • ประสิทธิภาพรวดเร็ว คาดการณ์ได้
  • รองรับ 48 ภาษาใน 3 เอ็นจิน NLP

แนวทางที่ใช้ AI เพียงอย่างเดียว

  • การตรวจจับทั้งหมดเป็นแบบความน่าจะเป็น
  • ไม่สามารถอธิบายได้ว่าทำไมจึงถูกตั้งค่าสถานะ
  • ต้องใช้ชุดข้อมูลฝึกขนาดใหญ่
  • ตรวจสอบเพื่อให้เป็นไปตามข้อบังคับได้ยาก
  • ต้นทุนคอมพิวเตอร์สูง (ต้องใช้ GPU)
  • ความแม่นยำลดลงเมื่อโมเดลเปลี่ยนแปลงตามเวลา

กระบวนการ 10 ขั้นตอน

ตั้งแต่รับข้อมูลจนถึงผลลัพธ์ นี่คือสิ่งที่เกิดขึ้นกับเอกสารของคุณ

1

ป้อนข้อความ

ส่งเอกสารของคุณผ่านเว็บอินเทอร์เฟซ, API หรือ Office Add-in

2

ตรวจจับภาษา

ระบบระบุภาษาของเอกสารเพื่อประมวลผลอย่างเหมาะสม

3

Tokenization

แบ่งข้อความออกเป็นโทเคนเพื่อจับคู่กับรูปแบบ

4

จับคู่รูปแบบ

ตัวตรวจจับ regex 317 รายการและโมเดล NLP สแกนหาเอนทิตีมากกว่า 320 ประเภทในกว่า 70 ประเทศ

5

วิเคราะห์บริบท

ข้อความโดยรอบช่วยเพิ่มความแม่นยำในการตรวจจับ

6

ให้คะแนนความมั่นใจ

แต่ละการตรวจจับจะได้รับคะแนนความมั่นใจ (0.0–1.0) เพื่อช่วยในการตัดสินใจตรวจสอบโดยมนุษย์

7

จัดประเภทเอนทิตี

รายการที่ตรวจพบจะถูกจัดหมวดหมู่ตามประเภท

8

ตรวจสอบโดยมนุษย์

ตรวจสอบการตรวจจับทั้งหมด แก้ไขข้อผิดพลาด และอนุมัติก่อนทำการปกปิดข้อมูล

9

ดำเนินการปกปิดข้อมูล

เลือกวิธีของคุณ: แทนที่, เซ็นเซอร์, แฮช, เข้ารหัส หรือปิดบัง

10

ส่งออกเอกสาร

ดาวน์โหลดเอกสารที่ปกปิดข้อมูลแล้วของคุณ

MCP Server: การผสาน AI ที่เน้นความเป็นส่วนตัว

ข้อมูลของคุณไหลผ่าน MCP Server อย่างไรเพื่อให้ AI ปลอดภัย

MCP Server ทำหน้าที่เป็นเกราะความเป็นส่วนตัว ดักจับคำขอจากเครื่องมือ AI ปกปิด PII ประมวลผลข้อมูลที่ปลอดภัยผ่าน AI และสามารถคืนค่าต้นฉบับได้หากต้องการ

คำขอจาก AI Tool

เครื่องมือ AI ของคุณ (Cursor, Claude) ส่งคำขอที่มี PII

MCP Server ดักจับ

เซิร์ฟเวอร์วิเคราะห์และตรวจจับเอนทิตี PII ทั้งหมด

ปกปิดข้อมูล

PII ถูกแทนที่ด้วยโทเคนหรือเซ็นเซอร์

AI ประมวลผล

AI ได้รับและประมวลผลเฉพาะข้อมูลที่ปกปิดแล้ว

ส่งคืนผลลัพธ์

ผลลัพธ์จาก AI ถูกส่งกลับผ่าน MCP Server

De-tokenization

ตัวเลือก: คืนค่าต้นฉบับให้ผู้ใช้

คำถามที่พบบ่อย

cloak.business ใช้ AI ในการตรวจจับหรือไม่?

ไม่ การตรวจจับใช้รูปแบบ regex แบบกำหนดได้แน่นอนและโมเดล NLP (spaCy, Stanza) เพื่อให้ได้ผลลัพธ์ที่ทำซ้ำได้ 100% — อินพุตเดียวกันจะได้ผลลัพธ์เหมือนเดิมทุกครั้ง ต่างจากแนวทาง AI แบบความน่าจะเป็น

ทำไมต้องใช้รูปแบบ regex แทน AI?

รูปแบบ regex สามารถตรวจสอบย้อนกลับ ทำซ้ำได้ และเป็นไปตามข้อบังคับ คุณสามารถตรวจสอบได้ว่ารูปแบบแต่ละอันจับอะไรได้บ้าง การตรวจจับด้วย AI เป็นแบบไม่กำหนดแน่นอน — ผลลัพธ์เปลี่ยนไปแต่ละครั้ง ทำให้เอกสาร compliance ยาก

ความแม่นยำในการตรวจจับเป็นอย่างไร?

ด้วยตัวตรวจจับรูปแบบที่ปรับแต่งเอง 317 รายการ รวมถึงการตรวจสอบเลขตรวจสอบ (Luhn, IBAN, SSN) cloak.business มีความแม่นยำสูงกว่าระบบ NER ทั่วไปอย่างมาก โดยเฉพาะสำหรับตัวระบุโครงสร้าง เช่น บัตรเครดิต, หมายเลขภาษี และหมายเลขประจำตัวประชาชน

รองรับภาษาใดบ้าง?

รองรับ 48 ภาษา พร้อมโมเดล NLP สำหรับการรู้จำชื่อเอนทิตี การตรวจจับแบบรูปแบบ (regex) ใช้ได้กับทุกภาษา เพราะจับตามรูปแบบตัวอักษรโดยไม่ขึ้นกับภาษา

สามารถเพิ่มรูปแบบเอนทิตีเองได้หรือไม่?

ได้ API รองรับการกำหนด recognizer เอง คุณจึงเพิ่มรูปแบบสำหรับรหัสเฉพาะ, หมายเลขอ้างอิงภายใน หรือรูปแบบข้อมูลเฉพาะโดเมนได้

ดูการทำงานจริง

ทดลองใช้ฟรีสำหรับการตรวจจับและปกปิด PII พร้อมโควตา 200 โทเคนต่อรอบ