ทำไมต้อง Regex + NLP?
เพื่อความสอดคล้องตามกฎระเบียบ คุณต้องการผลลัพธ์ที่สามารถอธิบายและทำซ้ำได้ แนวทางที่กำหนดได้ของเรามอบสิ่งนั้น—ไม่มีกล่องดำ ไม่มีความประหลาดใจ
การเปรียบเทียบโดยละเอียด
| ใช้ Regex (เรา) | ใช้ AI/ML | |
|---|---|---|
| การทำซ้ำได้ | ผลลัพธ์ที่เหมือนกัน 100% | ผลลัพธ์อาจแตกต่างกัน |
| การตรวจสอบได้ | อธิบายได้อย่างเต็มที่ | กล่องดำ |
| ข้อมูลการฝึกอบรม | ไม่จำเป็น | ต้องการชุดข้อมูลขนาดใหญ่ |
| การเบี่ยงเบนของโมเดล | ไม่มี—รูปแบบคงที่ | เสื่อมสภาพตามเวลา |
| ประสิทธิภาพ | รวดเร็ว คาดการณ์ได้ | แปรผัน ขึ้นอยู่กับ GPU |
| ค่าใช้จ่ายในการคำนวณ | ต่ำ (เฉพาะ CPU) | สูง (มักต้องการ GPU) |
| ความสอดคล้องตามกฎระเบียบ | แสดงได้ง่าย | ยากที่จะพิสูจน์ |
การทำงานของการจับคู่รูปแบบ
แต่ละประเภทเอนทิตีมีรูปแบบ regex ที่ถูกสร้างขึ้นอย่างรอบคอบซึ่งตรงกับรูปแบบเฉพาะ
ที่อยู่อีเมล
ตรงกับรูปแบบอีเมลมาตรฐาน: local-part@domain.tld
หมายเลขบัตรเครดิต
ตรงกับ Visa, Mastercard, Amex และรูปแบบบัตรอื่น ๆ ที่มีการตรวจสอบ Luhn
IBAN เยอรมัน
ตรงกับรูปแบบ IBAN เยอรมันที่มีช่องว่างตามต้องการ
สร้างขึ้นเพื่อความสอดคล้อง
เมื่อผู้ตรวจสอบถามว่า "ทำไมถึงตรวจจับสิ่งนี้?" คุณต้องการคำตอบที่ชัดเจน แนวทางที่ใช้ regex ของเรามอบสิ่งนั้น
- GDPR มาตรา 25: ความเป็นส่วนตัวโดยการออกแบบด้วยการประมวลผลที่อธิบายได้
- ISO 27001: กระบวนการที่มีเอกสารและทำซ้ำได้
- Audit Trail: การตรวจจับแต่ละครั้งสามารถติดตามไปยังรูปแบบเฉพาะ
ตัวอย่างการตอบกลับการตรวจสอบ
Q: ทำไม "john.smith@company.com" ถึงถูกทำเครื่องหมาย?
A: ตรงกับรูปแบบอีเมลที่ตำแหน่ง 45-68 ด้วยความมั่นใจ 0.95 รูปแบบ: การตรวจสอบรูปแบบอีเมลมาตรฐาน