डिटेक्शन कैसे काम करता है
रेगुलर एक्सप्रेशन पैटर्न मिलान (संरचित PII)
317 कस्टम PatternRecognizers के साथ रेगुलर एक्सप्रेशन पैटर्न राष्ट्रीय आईडी, टैक्स नंबर, पासपोर्ट, और ड्राइवर लाइसेंस जैसे संरचित डेटा का पता लगाते हैं। प्रत्येक पैटर्न कोड या संरचित डेटा में झूठे मेल को रोकने के लिए सीमा अभिकथनों का उपयोग करता है।
NLP नामित एंटिटी पहचान (नाम और स्थान)
spaCy (25 भाषाएँ), Stanza NER (7 भाषाएँ), और XLM-RoBERTa ट्रांसफॉर्मर्स (16 भाषाएँ) असंरचित PII जैसे व्यक्ति के नाम, स्थान, और संगठन का पता लगाते हैं जिन्हें केवल रेगुलर एक्सप्रेशन द्वारा नहीं पकड़ा जा सकता। सभी मॉडल हमारे अपने सर्वरों पर जर्मनी में चलते हैं — कोई भी डेटा Meta, Google, Stanford, या किसी तीसरे पक्ष को कभी नहीं भेजा जाता।
विश्वास स्कोरिंग
प्रत्येक डिटेक्शन में मानव-इन-द-लूप निर्णयों के लिए एक विश्वास स्कोर (0.0–1.0) शामिल होता है। अत्यधिक-विशिष्ट प्रारूप (जैसे, जर्मन IBAN DE89 3704 0044 0532 0130 00) 0.85+ स्कोर करते हैं, जबकि सामान्य अंक पैटर्न 0.3–0.5 स्कोर करते हैं और पुष्टि के लिए संदर्भ शब्दों पर निर्भर करते हैं। अनुपालन टीमें गुमनामी से पहले डिटेक्शन की समीक्षा और ओवरराइड कर सकती हैं।
संदर्भ शब्द विश्लेषण
प्रत्येक पहचानकर्ता के पास संबंधित भाषा में संदर्भ शब्द होते हैं (जैसे, जर्मन आईडी के लिए 'Personalausweis', केन्याई आईडी के लिए 'kitambulisho')। जब संदर्भ शब्द मेल के पास दिखाई देते हैं, तो विश्वास स्कोर को बढ़ावा मिलता है।
समर्थित एंटिटी प्रकार
श्रेणियों में व्यक्तिगत जानकारी प्रकारों का व्यापक कवरेज
व्यक्तिगत पहचानकर्ता
- व्यक्ति के नाम
- ईमेल पते
- फोन नंबर
- जन्म तिथि
- उम्र
- लिंग
- राष्ट्रीयता
वित्तीय जानकारी
- क्रेडिट कार्ड नंबर
- IBAN
- BIC/SWIFT
- बैंक खाता नंबर
- टैक्स आईडी
- VAT नंबर
सरकारी आईडी
- सामाजिक सुरक्षा नंबर (SSN)
- राष्ट्रीय आईडी नंबर
- पासपोर्ट नंबर
- ड्राइवर्स लाइसेंस
- स्वास्थ्य बीमा आईडी
स्थान डेटा
- सड़क पते
- शहर
- ZIP/पोस्टल कोड
- देश
- GPS समन्वय
डिजिटल पहचानकर्ता
- IP पते (v4/v6)
- MAC पते
- URLs
- डोमेन नाम
- उपयोगकर्ता आईडी
संगठन डेटा
- कंपनी के नाम
- संगठन आईडी
- पंजीकरण नंबर
- विभाग के नाम
कालिक डेटा
- तिथियाँ
- समय
- तिथि श्रेणियाँ
- समय चिह्न
अंतरराष्ट्रीय प्रारूप
- जर्मन आईडी (Personalausweis)
- यूके राष्ट्रीय बीमा
- स्पेनिश DNI/NIE
- इतालवी Codice Fiscale
- और 70+ अधिक देश-विशिष्ट प्रारूप
कस्टम एंटिटी समर्थन
कस्टम पैटर्न का पता लगाने की आवश्यकता है? रेगुलर एक्सप्रेशन पैटर्न के साथ अपने खुद के एंटिटी प्रकार बनाएं या हमारे AI-सहायता प्राप्त पैटर्न जनरेटर का उपयोग करें।
मैनुअल पैटर्न निर्माण
आंतरिक कर्मचारी आईडी, परियोजना कोड, या कस्टम संदर्भ नंबर जैसे स्वामित्व पहचानकर्ताओं के लिए रेगुलर एक्सप्रेशन पैटर्न परिभाषित करें।
AI पैटर्न जनरेटर
साधारण भाषा में वर्णन करें कि आप क्या पता लगाना चाहते हैं, और हमारा AI आपके लिए अनुकूलित रेगुलर एक्सप्रेशन पैटर्न उत्पन्न करता है।
Is This Right For You?
Best For
- ✦Teams needing 320+ entity types across personal, financial, government, and organizational data
- ✦Multilingual PII detection (48 languages) for global compliance and audit requirements
- ✦GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
- ✦Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
- ✦Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns
Not For
- ✦Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
- ✦Image-only PII detection workflows (use the dedicated image-redaction feature instead)
- ✦Simple English-only use cases where basic regex or keyword matching is sufficient