Cách Hoạt Động Của Phát Hiện
Khớp Mẫu Regex (PII Có Cấu Trúc)
317 công cụ PatternRecognizers tùy chỉnh với các mẫu regex phát hiện dữ liệu có cấu trúc như mã số quốc gia, mã số thuế, hộ chiếu, và giấy phép lái xe. Mỗi mẫu sử dụng các khẳng định biên để ngăn chặn các kết quả sai trong mã hoặc dữ liệu có cấu trúc.
Nhận Diện Thực Thể Được Đặt Tên NLP (Tên & Địa Điểm)
spaCy (25 ngôn ngữ), Stanza NER (7 ngôn ngữ), và các bộ chuyển đổi XLM-RoBERTa (16 ngôn ngữ) phát hiện PII không có cấu trúc như tên người, địa điểm, và tổ chức mà không thể được nhận diện chỉ bằng regex. Tất cả các mô hình chạy trên máy chủ của chúng tôi tại Đức — không có dữ liệu nào được gửi đến Meta, Google, Stanford, hoặc bất kỳ bên thứ ba nào.
Đánh Giá Độ Tin Cậy
Mỗi phát hiện bao gồm một điểm số độ tin cậy (0.0–1.0) cho các quyết định có sự can thiệp của con người. Các định dạng rất cụ thể (ví dụ: IBAN Đức DE89 3704 0044 0532 0130 00) đạt điểm 0.85+, trong khi các mẫu số chung đạt điểm 0.3–0.5 và dựa vào từ ngữ ngữ cảnh để xác nhận. Các nhóm tuân thủ có thể xem xét và ghi đè các phát hiện trước khi ẩn danh.
Phân Tích Từ Ngữ Cảnh
Mỗi công cụ nhận dạng có từ ngữ ngữ cảnh trong ngôn ngữ liên quan (ví dụ: 'Personalausweis' cho mã số ID Đức, 'kitambulisho' cho mã số ID Kenya). Khi từ ngữ ngữ cảnh xuất hiện gần một kết quả khớp, điểm số độ tin cậy được tăng cường.
Các Loại Thực Thể Được Hỗ Trợ
Phạm vi bao phủ toàn diện các loại thông tin cá nhân theo danh mục
Định Danh Cá Nhân
- Tên Người
- Địa Chỉ Email
- Số Điện Thoại
- Ngày Sinh
- Tuổi
- Giới Tính
- Quốc Tịch
Thông Tin Tài Chính
- Số Thẻ Tín Dụng
- IBAN
- BIC/SWIFT
- Số Tài Khoản Ngân Hàng
- Mã Số Thuế
- Số VAT
Mã Số Chính Phủ
- Số An Sinh Xã Hội (SSN)
- Mã Số ID Quốc Gia
- Số Hộ Chiếu
- Giấy Phép Lái Xe
- Mã Số Bảo Hiểm Y Tế
Dữ Liệu Vị Trí
- Địa Chỉ Đường Phố
- Thành Phố
- Mã ZIP/Bưu Điện
- Quốc Gia
- Tọa Độ GPS
Định Danh Kỹ Thuật Số
- Địa Chỉ IP (v4/v6)
- Địa Chỉ MAC
- URL
- Tên Miền
- ID Người Dùng
Dữ Liệu Tổ Chức
- Tên Công Ty
- ID Tổ Chức
- Số Đăng Ký
- Tên Phòng Ban
Dữ Liệu Thời Gian
- Ngày
- Thời Gian
- Khoảng Thời Gian
- Dấu Thời Gian
Định Dạng Quốc Tế
- ID Đức (Personalausweis)
- Bảo Hiểm Quốc Gia Anh
- DNI/NIE Tây Ban Nha
- Mã Số Thuế Ý
- Và hơn 70 định dạng đặc thù quốc gia khác
Hỗ Trợ Thực Thể Tùy Chỉnh
Cần phát hiện các mẫu tùy chỉnh? Tạo loại thực thể của riêng bạn với các mẫu regex hoặc sử dụng trình tạo mẫu AI của chúng tôi.
Tạo Mẫu Thủ Công
Định nghĩa các mẫu regex cho các định danh độc quyền như mã số nhân viên nội bộ, mã dự án, hoặc số tham chiếu tùy chỉnh.
Trình Tạo Mẫu AI
Mô tả những gì bạn muốn phát hiện bằng ngôn ngữ đơn giản, và AI của chúng tôi sẽ tạo ra các mẫu regex tối ưu cho bạn.
Is This Right For You?
Best For
- ✦Teams needing 320+ entity types across personal, financial, government, and organizational data
- ✦Multilingual PII detection (48 languages) for global compliance and audit requirements
- ✦GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
- ✦Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
- ✦Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns
Not For
- ✦Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
- ✦Image-only PII detection workflows (use the dedicated image-redaction feature instead)
- ✦Simple English-only use cases where basic regex or keyword matching is sufficient