Paano Gumagana ang Detection
Regex Pattern Matching (Structured PII)
317 custom PatternRecognizers na may regex patterns ang nagde-detect ng structured data tulad ng national IDs, tax numbers, passports, at driver licenses. Bawat pattern ay gumagamit ng boundary assertions upang maiwasan ang maling pagtutugma sa code o structured data.
NLP Named Entity Recognition (Mga Pangalan at Lokasyon)
Ang spaCy (25 wika), Stanza NER (7 wika), at XLM-RoBERTa transformers (16 wika) ay nagde-detect ng unstructured PII tulad ng mga pangalan ng tao, lokasyon, at organisasyon na hindi kayang makuha ng regex lamang. Lahat ng models ay tumatakbo sa aming sariling mga server sa Germany — walang data ang kailanman ipinapadala sa Meta, Google, Stanford, o anumang third party.
Confidence Scoring
Bawat detection ay may kasamang confidence score (0.0–1.0) para sa mga human-in-the-loop na desisyon. Ang mga highly-specific na format (hal. German IBAN DE89 3704 0044 0532 0130 00) ay nag-score ng 0.85+, habang ang mga generic na digit patterns ay nag-score ng 0.3–0.5 at umaasa sa mga context words para sa kumpirmasyon. Maaaring suriin at i-override ng mga compliance teams ang mga detection bago ang anonymization.
Pagsusuri ng Context Word
Bawat recognizer ay may mga context words sa kaugnay na wika (hal. 'Personalausweis' para sa German IDs, 'kitambulisho' para sa Kenyan IDs). Kapag ang mga context words ay lumitaw malapit sa isang tugma, ang confidence score ay tumataas.
Mga Sinusuportahang Uri ng Entidad
Komprehensibong saklaw ng mga uri ng personal na impormasyon sa iba't ibang kategorya
Mga Personal na Identifiers
- Mga Pangalan ng Tao
- Mga Email Address
- Mga Numero ng Telepono
- Petsa ng Kapanganakan
- Edad
- Kasarian
- Nasyonalidad
Impormasyon sa Pananalapi
- Mga Numero ng Credit Card
- IBAN
- BIC/SWIFT
- Mga Numero ng Bank Account
- Mga Tax ID
- Mga Numero ng VAT
Mga ID ng Pamahalaan
- Mga Social Security Number (SSN)
- Mga Numero ng National ID
- Mga Numero ng Passport
- Lisensya ng Pagmamaneho
- Mga Health Insurance ID
Data ng Lokasyon
- Mga Address ng Kalye
- Mga Lungsod
- ZIP/Postal Codes
- Mga Bansa
- Mga GPS Coordinates
Mga Digital na Identifiers
- Mga IP Address (v4/v6)
- Mga MAC Address
- Mga URL
- Mga Domain Name
- Mga User ID
Data ng Organisasyon
- Mga Pangalan ng Kumpanya
- Mga Organization ID
- Mga Numero ng Rehistrasyon
- Mga Pangalan ng Departamento
Data ng Panahon
- Mga Petsa
- Mga Oras
- Mga Saklaw ng Petsa
- Mga Timestamps
Mga Internasyonal na Format
- German ID (Personalausweis)
- UK National Insurance
- Spanish DNI/NIE
- Italian Codice Fiscale
- At 70+ pang format na partikular sa bansa
Suporta sa Custom na Entidad
Kailangang mag-detect ng custom na mga pattern? Lumikha ng sarili mong mga uri ng entidad gamit ang regex patterns o gamitin ang aming AI-assisted pattern generator.
Manwal na Paglikha ng Pattern
Tukuyin ang regex patterns para sa mga proprietary identifiers tulad ng mga internal employee ID, project codes, o custom reference numbers.
AI Pattern Generator
Ilarawan kung ano ang nais mong i-detect sa simpleng wika, at ang aming AI ay bubuo ng optimized regex patterns para sa iyo.
Is This Right For You?
Best For
- ✦Teams needing 320+ entity types across personal, financial, government, and organizational data
- ✦Multilingual PII detection (48 languages) for global compliance and audit requirements
- ✦GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
- ✦Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
- ✦Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns
Not For
- ✦Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
- ✦Image-only PII detection workflows (use the dedicated image-redaction feature instead)
- ✦Simple English-only use cases where basic regex or keyword matching is sufficient