Bagaimana Pengesanan Berfungsi
Pencocokan Corak Regex (PII Berstruktur)
317 PatternRecognizers tersuai dengan corak regex mengesan data berstruktur seperti ID nasional, nombor cukai, pasport, dan lesen memandu. Setiap corak menggunakan penegasan sempadan untuk mengelakkan padanan palsu dalam kod atau data berstruktur.
Pengenalan Entiti Bernama NLP (Nama & Lokasi)
spaCy (25 bahasa), NER Stanza (7 bahasa), dan transformer XLM-RoBERTa (16 bahasa) mengesan PII tidak berstruktur seperti nama orang, lokasi, dan organisasi yang tidak dapat ditangkap oleh regex sahaja. Semua model dijalankan di pelayan kami sendiri di Jerman — tiada data dihantar ke Meta, Google, Stanford, atau pihak ketiga.
Penilaian Keyakinan
Setiap pengesanan termasuk skor keyakinan (0.0–1.0) untuk keputusan manusia dalam gelung. Format yang sangat spesifik (contohnya, IBAN Jerman DE89 3704 0044 0532 0130 00) mendapat skor 0.85+, manakala corak digit umum mendapat skor 0.3–0.5 dan bergantung pada kata konteks untuk pengesahan. Pasukan pematuhan boleh menyemak dan menolak pengesanan sebelum penganonyman.
Analisis Kata Konteks
Setiap pengecam mempunyai kata konteks dalam bahasa yang relevan (contohnya, 'Personalausweis' untuk ID Jerman, 'kitambulisho' untuk ID Kenya). Apabila kata konteks muncul berhampiran padanan, skor keyakinan ditingkatkan.
Jenis Entiti yang Disokong
Liputan menyeluruh jenis maklumat peribadi merentasi kategori
Pengecam Peribadi
- Nama Orang
- Alamat Emel
- Nombor Telefon
- Tarikh Lahir
- Umur
- Jantina
- Kewarganegaraan
Maklumat Kewangan
- Nombor Kad Kredit
- IBAN
- BIC/SWIFT
- Nombor Akaun Bank
- ID Cukai
- Nombor VAT
ID Kerajaan
- Nombor Keselamatan Sosial (SSN)
- Nombor ID Nasional
- Nombor Pasport
- Lesen Memandu
- ID Insurans Kesihatan
Data Lokasi
- Alamat Jalan
- Bandar
- Kod ZIP/Pos
- Negara
- Koordinat GPS
Pengecam Digital
- Alamat IP (v4/v6)
- Alamat MAC
- URL
- Nama Domain
- ID Pengguna
Data Organisasi
- Nama Syarikat
- ID Organisasi
- Nombor Pendaftaran
- Nama Jabatan
Data Temporal
- Tarikh
- Masa
- Julat Tarikh
- Cap Masa
Format Antarabangsa
- ID Jerman (Personalausweis)
- Insurans Nasional UK
- DNI/NIE Sepanyol
- Codice Fiscale Itali
- Dan lebih 70 format khusus negara lain
Sokongan Entiti Tersuai
Perlu mengesan corak tersuai? Cipta jenis entiti anda sendiri dengan corak regex atau gunakan penjana corak AI kami.
Penciptaan Corak Manual
Tentukan corak regex untuk pengecam proprietari seperti ID pekerja dalaman, kod projek, atau nombor rujukan tersuai.
Penjana Corak AI
Huraikan apa yang anda ingin kesan dalam bahasa mudah, dan AI kami akan menjana corak regex yang dioptimumkan untuk anda.
Is This Right For You?
Best For
- ✦Teams needing 320+ entity types across personal, financial, government, and organizational data
- ✦Multilingual PII detection (48 languages) for global compliance and audit requirements
- ✦GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
- ✦Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
- ✦Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns
Not For
- ✦Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
- ✦Image-only PII detection workflows (use the dedicated image-redaction feature instead)
- ✦Simple English-only use cases where basic regex or keyword matching is sufficient