شناخت کیسے کام کرتی ہے
Regex پیٹرن میچنگ (ساختی PII)
317 حسب ضرورت PatternRecognizers کے ساتھ regex پیٹرنز قومی IDs، ٹیکس نمبر، پاسپورٹ، اور ڈرائیور لائسنس جیسے ساختی ڈیٹا کی شناخت کرتے ہیں۔ ہر پیٹرن کوڈ یا ساختی ڈیٹا میں غلط میچز کو روکنے کے لئے باؤنڈری اسیرشنز استعمال کرتا ہے۔
NLP نامی ادارہ کی شناخت (نام اور مقامات)
spaCy (25 زبانیں)، Stanza NER (7 زبانیں)، اور XLM-RoBERTa transformers (16 زبانیں) غیر ساختی PII جیسے شخصی نام، مقامات، اور تنظیموں کی شناخت کرتے ہیں جنہیں صرف regex کے ذریعے نہیں پکڑا جا سکتا۔ تمام ماڈلز ہمارے اپنے سرورز پر جرمنی میں چلتے ہیں — کوئی ڈیٹا Meta، Google، Stanford، یا کسی تیسرے فریق کو کبھی نہیں بھیجا جاتا۔
اعتماد کی درجہ بندی
ہر شناخت میں انسانی فیصلوں کے لئے ایک اعتماد کا اسکور (0.0–1.0) شامل ہوتا ہے۔ انتہائی مخصوص فارمیٹس (مثلاً، جرمن IBAN DE89 3704 0044 0532 0130 00) کا اسکور 0.85+ ہوتا ہے، جبکہ عمومی عددی پیٹرنز کا اسکور 0.3–0.5 ہوتا ہے اور تصدیق کے لئے سیاق و سباق کے الفاظ پر انحصار کرتے ہیں۔ تعمیل کی ٹیمیں گمنام کرنے سے پہلے شناختوں کا جائزہ لے سکتی ہیں اور انہیں اووررائڈ کر سکتی ہیں۔
سیاق و سباق کے الفاظ کا تجزیہ
ہر recognizer کے متعلقہ زبان میں سیاق و سباق کے الفاظ ہوتے ہیں (مثلاً، جرمن IDs کے لئے 'Personalausweis'، کینیا کے IDs کے لئے 'kitambulisho')۔ جب سیاق و سباق کے الفاظ میچ کے قریب ظاہر ہوتے ہیں، تو اعتماد کا اسکور بڑھ جاتا ہے۔
مدد یافتہ ادارہ جاتی اقسام
مختلف زمروں میں ذاتی معلومات کی اقسام کا جامع احاطہ
ذاتی شناخت کنندگان
- شخصی نام
- ای میل پتے
- فون نمبر
- پیدائش کی تاریخ
- عمر
- جنس
- قومیت
مالیاتی معلومات
- کریڈٹ کارڈ نمبر
- IBAN
- BIC/SWIFT
- بینک اکاؤنٹ نمبر
- ٹیکس IDs
- VAT نمبر
حکومتی IDs
- سوشل سیکیورٹی نمبر (SSN)
- قومی ID نمبر
- پاسپورٹ نمبر
- ڈرائیور لائسنس
- صحت انشورنس IDs
مقام کا ڈیٹا
- گلی کے پتے
- شہر
- ZIP/پوسٹل کوڈ
- ممالک
- GPS کوآرڈینیٹس
ڈیجیٹل شناخت کنندگان
- IP پتے (v4/v6)
- MAC پتے
- URLs
- ڈومین نام
- صارف IDs
تنظیمی ڈیٹا
- کمپنی کے نام
- تنظیمی IDs
- رجسٹریشن نمبر
- محکمے کے نام
وقتی ڈیٹا
- تاریخیں
- اوقات
- تاریخی حدود
- ٹائم اسٹیمپس
بین الاقوامی فارمیٹس
- جرمن ID (Personalausweis)
- UK قومی انشورنس
- ہسپانوی DNI/NIE
- اطالوی Codice Fiscale
- اور 70+ مزید ملک مخصوص فارمیٹس
حسب ضرورت ادارہ جاتی مدد
حسب ضرورت پیٹرنز کی شناخت کی ضرورت ہے؟ اپنے ادارہ جاتی اقسام کو regex پیٹرنز کے ساتھ بنائیں یا ہمارے AI معاون پیٹرن جنریٹر کا استعمال کریں۔
دستی پیٹرن تخلیق
اندرونی ملازم IDs، پروجیکٹ کوڈز، یا حسب ضرورت حوالہ نمبر جیسے ملکیتی شناخت کنندگان کے لئے regex پیٹرنز کی وضاحت کریں۔
AI پیٹرن جنریٹر
سادہ زبان میں بیان کریں کہ آپ کیا شناخت کرنا چاہتے ہیں، اور ہمارا AI آپ کے لئے بہتر regex پیٹرنز تیار کرتا ہے۔
Is This Right For You?
Best For
- ✦Teams needing 320+ entity types across personal, financial, government, and organizational data
- ✦Multilingual PII detection (48 languages) for global compliance and audit requirements
- ✦GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
- ✦Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
- ✦Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns
Not For
- ✦Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
- ✦Image-only PII detection workflows (use the dedicated image-redaction feature instead)
- ✦Simple English-only use cases where basic regex or keyword matching is sufficient