সনাক্তকরণ কিভাবে কাজ করে
রেগেক্স প্যাটার্ন ম্যাচিং (গঠনমূলক PII)
৩১৭টি কাস্টম PatternRecognizers রেগেক্স প্যাটার্নের সাথে গঠনমূলক ডেটা যেমন জাতীয় আইডি, ট্যাক্স নম্বর, পাসপোর্ট এবং ড্রাইভার লাইসেন্স সনাক্ত করে। প্রতিটি প্যাটার্ন কোড বা গঠনমূলক ডেটায় ভুল মিল প্রতিরোধ করতে বাউন্ডারি অ্যাসারশন ব্যবহার করে।
NLP নামযুক্ত সত্তা সনাক্তকরণ (নাম ও স্থান)
spaCy (২৫ ভাষা), Stanza NER (৭ ভাষা), এবং XLM-RoBERTa ট্রান্সফরমার (১৬ ভাষা) অসম্বদ্ধ PII যেমন ব্যক্তির নাম, স্থান, এবং সংস্থা সনাক্ত করে যা শুধুমাত্র রেগেক্স দ্বারা ধরা যায় না। সমস্ত মডেল আমাদের নিজস্ব সার্ভারে জার্মানিতে চলে — কোনো ডেটা কখনো Meta, Google, Stanford, বা কোনো তৃতীয় পক্ষের কাছে পাঠানো হয় না।
আস্থা স্কোরিং
প্রতিটি সনাক্তকরণের সাথে একটি আস্থা স্কোর (০.০–১.০) থাকে মানব-ইন-দ্য-লুপ সিদ্ধান্তের জন্য। অত্যন্ত নির্দিষ্ট ফরম্যাট (যেমন, জার্মান IBAN DE89 3704 0044 0532 0130 00) ০.৮৫+ স্কোর করে, যখন সাধারণ ডিজিট প্যাটার্ন ০.৩–০.৫ স্কোর করে এবং নিশ্চিতকরণের জন্য প্রসঙ্গ শব্দের উপর নির্ভর করে। সম্মতি দলগুলি গোপন করার আগে সনাক্তকরণ পর্যালোচনা এবং ওভাররাইড করতে পারে।
প্রসঙ্গ শব্দ বিশ্লেষণ
প্রতিটি রিকগনাইজারের প্রাসঙ্গিক ভাষায় প্রসঙ্গ শব্দ থাকে (যেমন, জার্মান আইডির জন্য 'Personalausweis', কেনিয়ান আইডির জন্য 'kitambulisho')। যখন প্রসঙ্গ শব্দগুলি মিলের কাছে উপস্থিত হয়, আস্থা স্কোর বাড়ানো হয়।
সমর্থিত সত্তার ধরন
বিভাগগুলির মধ্যে ব্যক্তিগত তথ্যের প্রকারের ব্যাপক কভারেজ
ব্যক্তিগত শনাক্তকারী
- ব্যক্তির নাম
- ইমেল ঠিকানা
- ফোন নম্বর
- জন্ম তারিখ
- বয়স
- লিঙ্গ
- জাতীয়তা
আর্থিক তথ্য
- ক্রেডিট কার্ড নম্বর
- IBAN
- BIC/SWIFT
- ব্যাংক অ্যাকাউন্ট নম্বর
- ট্যাক্স আইডি
- VAT নম্বর
সরকারি আইডি
- সামাজিক নিরাপত্তা নম্বর (SSN)
- জাতীয় আইডি নম্বর
- পাসপোর্ট নম্বর
- ড্রাইভার লাইসেন্স
- স্বাস্থ্য বীমা আইডি
অবস্থান ডেটা
- রাস্তার ঠিকানা
- শহর
- ZIP/পোস্টাল কোড
- দেশ
- GPS কোঅর্ডিনেট
ডিজিটাল শনাক্তকারী
- IP ঠিকানা (v4/v6)
- MAC ঠিকানা
- URL
- ডোমেইন নাম
- ব্যবহারকারী আইডি
সংগঠন ডেটা
- কোম্পানির নাম
- সংগঠন আইডি
- নিবন্ধন নম্বর
- বিভাগের নাম
কালগত ডেটা
- তারিখ
- সময়
- তারিখের পরিসর
- টাইমস্ট্যাম্প
আন্তর্জাতিক ফরম্যাট
- জার্মান আইডি (Personalausweis)
- UK জাতীয় বীমা
- স্প্যানিশ DNI/NIE
- ইতালীয় কোডিস ফিসকেল
- এবং ৭০+ আরও দেশ-নির্দিষ্ট ফরম্যাট
কাস্টম সত্তা সমর্থন
কাস্টম প্যাটার্ন সনাক্ত করতে চান? রেগেক্স প্যাটার্নের সাথে আপনার নিজস্ব সত্তার ধরন তৈরি করুন বা আমাদের AI-সহায়ক প্যাটার্ন জেনারেটর ব্যবহার করুন।
ম্যানুয়াল প্যাটার্ন তৈরি
অভ্যন্তরীণ কর্মচারী আইডি, প্রকল্প কোড, বা কাস্টম রেফারেন্স নম্বরের মতো মালিকানাধীন শনাক্তকারীর জন্য রেগেক্স প্যাটার্ন সংজ্ঞায়িত করুন।
AI প্যাটার্ন জেনারেটর
আপনি যা সনাক্ত করতে চান তা সাধারণ ভাষায় বর্ণনা করুন, এবং আমাদের AI আপনার জন্য অপ্টিমাইজড রেগেক্স প্যাটার্ন তৈরি করবে।
Is This Right For You?
Best For
- ✦Teams needing 320+ entity types across personal, financial, government, and organizational data
- ✦Multilingual PII detection (48 languages) for global compliance and audit requirements
- ✦GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
- ✦Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
- ✦Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns
Not For
- ✦Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
- ✦Image-only PII detection workflows (use the dedicated image-redaction feature instead)
- ✦Simple English-only use cases where basic regex or keyword matching is sufficient