ทำไมต้อง Regex เป็นหลัก?
เพื่อให้เป็นไปตามข้อบังคับ คุณต้องการผลลัพธ์ที่อธิบายและทำซ้ำได้ แนวทาง regex เป็นหลักของเราทำให้การตรวจจับข้อมูลโครงสร้างเป็นแบบกำหนดได้แน่นอน ขณะที่ NLP จัดการชื่อและสถานที่พร้อมคะแนนความมั่นใจที่โปร่งใส
เปรียบเทียบโดยละเอียด
| Regex เป็นหลัก (ของเรา) | AI/ML-Based | |
|---|---|---|
| การทำซ้ำได้ | ข้อมูลโครงสร้าง: เหมือนกัน 100% ชื่อ: มีคะแนนความมั่นใจ | ผลลัพธ์เปลี่ยนแปลงทุกครั้งที่รัน |
| การตรวจสอบย้อนกลับ | ทุกการตรวจจับตรวจสอบย้อนกลับได้ถึงรูปแบบหรือโมเดล NLP | กล่องดำ — ไม่สามารถอธิบายการตัดสินใจได้ |
| ข้อมูลฝึก | Regex: ไม่มี NLP: มีโมเดลฝึกสำเร็จรูป | ต้องใช้ชุดข้อมูลฝึกเฉพาะ |
| Model Drift | Regex: ไม่มี NLP: โมเดลมีเวอร์ชันและเสถียร | ความแม่นยำลดลงโดยไม่คาดคิดเมื่อเวลาผ่านไป |
| ประสิทธิภาพ | รวดเร็ว ใช้ CPU เท่านั้น | แปรผัน ขึ้นกับ GPU |
| ต้นทุนคอมพิวเตอร์ | ต่ำ (ใช้ CPU เท่านั้น) | สูง (มักต้องใช้ GPU) |
| การปฏิบัติตามข้อบังคับ | ง่าย — รูปแบบและคะแนนความมั่นใจตรวจสอบได้ พร้อมการตรวจสอบโดยมนุษย์ | ยากต่อการพิสูจน์ต่อหน่วยงานกำกับดูแล |
การทำงานของการจับคู่รูปแบบ
แต่ละประเภทเอนทิตีมีรูปแบบ regex ที่ออกแบบมาอย่างละเอียดเพื่อจับคู่กับรูปแบบเฉพาะ
ที่อยู่อีเมล
จับคู่รูปแบบอีเมลมาตรฐาน: local-part@domain.tld
หมายเลขบัตรเครดิต
จับคู่รูปแบบบัตร Visa, Mastercard, Amex และอื่น ๆ พร้อมตรวจสอบ Luhn
IBAN เยอรมัน
จับคู่รูปแบบ IBAN ของเยอรมนี พร้อมเว้นวรรคได้
สร้างมาเพื่อการปฏิบัติตามข้อบังคับ
เมื่อผู้ตรวจสอบถามว่า "ทำไมถึงตรวจจับนี้?" คุณต้องมีคำตอบที่ชัดเจน การตรวจจับด้วย regex สามารถตรวจสอบย้อนกลับไปยังรูปแบบเฉพาะ การตรวจจับด้วย NLP มีชื่อโมเดลและคะแนนความมั่นใจ การตรวจสอบโดยมนุษย์ช่วยให้ทีม compliance สามารถแก้ไขก่อนปกปิดข้อมูล
- GDPR มาตรา 25: ความเป็นส่วนตัวโดยการออกแบบ พร้อมกระบวนการที่อธิบายได้
- ISO 27001: กระบวนการที่บันทึกและทำซ้ำได้
- Audit Trail: ทุกการตรวจจับสามารถตรวจสอบย้อนกลับได้ถึงรูปแบบเฉพาะ
ตัวอย่างคำตอบการตรวจสอบ
ถาม: ทำไม "john.smith@company.com" ถึงถูกตั้งค่าสถานะ?
ตอบ: ตรงกับรูปแบบอีเมลที่ตำแหน่ง 45-68 ด้วยความมั่นใจ 0.95 รูปแบบ: การตรวจสอบอีเมลมาตรฐาน