PII Detection: 320+ ประเภทเอนทิตี

เครื่องยนต์ตรวจจับของเราผสมผสาน 317 regex recognizers ที่กำหนดเองกับโมเดล NLP เพื่อระบุข้อมูลส่วนบุคคลกว่า 320 ประเภทในกว่า 70 ประเทศ ข้อมูลเข้าและออกเหมือนเดิมทุกครั้ง

วิธีการตรวจจับ

การจับคู่รูปแบบ Regex (PII ที่มีโครงสร้าง)

317 PatternRecognizers ที่กำหนดเองด้วยรูปแบบ regex ตรวจจับข้อมูลที่มีโครงสร้างเช่น หมายเลขประจำตัวประชาชน, หมายเลขภาษี, หนังสือเดินทาง, และใบขับขี่ แต่ละรูปแบบใช้การยืนยันขอบเขตเพื่อป้องกันการจับคู่ผิดในโค้ดหรือข้อมูลที่มีโครงสร้าง

การรู้จำเอนทิตีชื่อโดย NLP (ชื่อและสถานที่)

spaCy (25 ภาษา), Stanza NER (7 ภาษา), และ XLM-RoBERTa transformers (16 ภาษา) ตรวจจับ PII ที่ไม่มีโครงสร้างเช่น ชื่อบุคคล, สถานที่, และองค์กรที่ไม่สามารถจับได้ด้วย regex เพียงอย่างเดียว โมเดลทั้งหมดทำงานบนเซิร์ฟเวอร์ของเราเองในเยอรมนี — ไม่มีข้อมูลใดถูกส่งไปยัง Meta, Google, Stanford หรือบุคคลที่สามใด ๆ

การให้คะแนนความมั่นใจ

การตรวจจับแต่ละครั้งรวมถึงคะแนนความมั่นใจ (0.0–1.0) สำหรับการตัดสินใจของมนุษย์ในวงจรการทำงาน รูปแบบที่เฉพาะเจาะจงสูง (เช่น German IBAN DE89 3704 0044 0532 0130 00) ได้คะแนน 0.85+ ในขณะที่รูปแบบตัวเลขทั่วไปได้คะแนน 0.3–0.5 และต้องพึ่งพาคำบริบทเพื่อยืนยัน ทีมปฏิบัติตามสามารถตรวจสอบและยกเลิกการตรวจจับก่อนการทำให้ไม่ระบุตัวตน

การวิเคราะห์คำบริบท

แต่ละ recognizer มีคำบริบทในภาษาที่เกี่ยวข้อง (เช่น 'Personalausweis' สำหรับบัตรประจำตัวเยอรมัน, 'kitambulisho' สำหรับบัตรประจำตัวเคนยา) เมื่อคำบริบทปรากฏใกล้การจับคู่ คะแนนความมั่นใจจะเพิ่มขึ้น

ประเภทเอนทิตีที่รองรับ

ครอบคลุมประเภทข้อมูลส่วนบุคคลในหมวดหมู่ต่าง ๆ อย่างครบถ้วน

ตัวระบุส่วนบุคคล

  • ชื่อบุคคล
  • ที่อยู่อีเมล
  • หมายเลขโทรศัพท์
  • วันเกิด
  • อายุ
  • เพศ
  • สัญชาติ

ข้อมูลทางการเงิน

  • หมายเลขบัตรเครดิต
  • IBAN
  • BIC/SWIFT
  • หมายเลขบัญชีธนาคาร
  • รหัสภาษี
  • หมายเลข VAT

รหัสรัฐบาล

  • หมายเลขประกันสังคม (SSN)
  • หมายเลขประจำตัวประชาชน
  • หมายเลขหนังสือเดินทาง
  • ใบขับขี่
  • รหัสประกันสุขภาพ

ข้อมูลสถานที่

  • ที่อยู่ถนน
  • เมือง
  • รหัสไปรษณีย์/รหัสไปรษณีย์
  • ประเทศ
  • พิกัด GPS

ตัวระบุดิจิทัล

  • ที่อยู่ IP (v4/v6)
  • ที่อยู่ MAC
  • URLs
  • ชื่อโดเมน
  • รหัสผู้ใช้

ข้อมูลองค์กร

  • ชื่อบริษัท
  • รหัสองค์กร
  • หมายเลขทะเบียน
  • ชื่อแผนก

ข้อมูลเวลา

  • วันที่
  • เวลา
  • ช่วงวันที่
  • เวลาประทับ

รูปแบบสากล

  • บัตรประจำตัวเยอรมัน (Personalausweis)
  • ประกันสังคมแห่งชาติสหราชอาณาจักร
  • DNI/NIE สเปน
  • Codice Fiscale อิตาลี
  • และรูปแบบเฉพาะประเทศอีกกว่า 70 รูปแบบ

การสนับสนุนเอนทิตีที่กำหนดเอง

ต้องการตรวจจับรูปแบบที่กำหนดเอง? สร้างประเภทเอนทิตีของคุณเองด้วยรูปแบบ regex หรือใช้ตัวสร้างรูปแบบที่ใช้ AI ของเรา

การสร้างรูปแบบด้วยตนเอง

กำหนดรูปแบบ regex สำหรับตัวระบุที่เป็นกรรมสิทธิ์เช่น รหัสพนักงานภายใน, รหัสโครงการ, หรือหมายเลขอ้างอิงที่กำหนดเอง

ตัวสร้างรูปแบบ AI

อธิบายสิ่งที่คุณต้องการตรวจจับในภาษาธรรมดา และ AI ของเราจะสร้างรูปแบบ regex ที่เหมาะสมสำหรับคุณ

Is This Right For You?

Best For

  • Teams needing 320+ entity types across personal, financial, government, and organizational data
  • Multilingual PII detection (48 languages) for global compliance and audit requirements
  • GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
  • Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
  • Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns

Not For

  • Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
  • Image-only PII detection workflows (use the dedicated image-redaction feature instead)
  • Simple English-only use cases where basic regex or keyword matching is sufficient

เริ่มตรวจจับ PII วันนี้

ลองใช้เครื่องยนต์ตรวจจับของเราฟรีด้วย 200 โทเค็นต่อรอบ ไม่ต้องใช้บัตรเครดิต