Regex-First: इसका महत्व क्यों है
हमारा दृष्टिकोण: Regex + NLP
- 317 regex पहचानकर्ता: संरचित डेटा के लिए 100% पुनरुत्पादित
- नाम और स्थान के लिए NLP, आत्मविश्वास स्कोर के साथ
- पूरी तरह ऑडिट योग्य — प्रत्येक पहचान पैटर्न या मॉडल से ट्रेस की जा सकती है
- पारदर्शी: आप हमेशा जानते हैं क्या और क्यों मेल हुआ
- तेज़, अनुमानित प्रदर्शन
- 3 NLP इंजन में 48 भाषाएँ
केवल AI आधारित दृष्टिकोण
- सभी पहचान संभाव्य होती हैं
- यह स्पष्ट नहीं कर सकते कि किसी चीज़ को क्यों चिह्नित किया गया
- बड़े प्रशिक्षण डेटा सेट की आवश्यकता
- अनुपालन के लिए ऑडिट करना कठिन
- अधिक कंप्यूट लागत (GPU आवश्यक)
- मॉडल ड्रिफ्ट से समय के साथ सटीकता घटती है
10-चरणीय प्रक्रिया
इनपुट से आउटपुट तक, आपके दस्तावेज़ के साथ क्या होता है
इनपुट टेक्स्ट
अपने दस्तावेज़ को वेब इंटरफ़ेस, API, या Office Add-in के माध्यम से सबमिट करें
भाषा पहचान
सिस्टम इष्टतम प्रोसेसिंग के लिए दस्तावेज़ की भाषा पहचानता है
टोकनाइज़ेशन
पैटर्न मिलान के लिए टेक्स्ट को टोकन में विभाजित किया जाता है
पैटर्न मिलान
317 regex पहचानकर्ता और NLP मॉडल 70+ देशों में 320+ एंटिटी प्रकारों के लिए स्कैन करते हैं
संदर्भ विश्लेषण
आसपास का टेक्स्ट पहचान की सटीकता बढ़ाता है
आत्मविश्वास स्कोरिंग
प्रत्येक पहचान को आत्मविश्वास स्कोर (0.0–1.0) मिलता है, जिससे मानव समीक्षा निर्णय सक्षम होते हैं
एंटिटी वर्गीकरण
पहचानी गई वस्तुओं को उनके प्रकार के अनुसार वर्गीकृत किया जाता है
मानव समीक्षा
सभी पहचानों की समीक्षा करें, गलत-सकारात्मक को ओवरराइड करें, और गुमनाम करने से पहले स्वीकृत करें
गुमनामी लागू करें
अपना तरीका चुनें: Replace, Redact, Hash, Encrypt, या Mask
आउटपुट दस्तावेज़
अपने गुमनाम दस्तावेज़ को डाउनलोड करें
MCP सर्वर: गोपनीयता-प्रथम AI एकीकरण
AI टूल्स को सुरक्षित रखने के लिए आपका डेटा MCP सर्वर से कैसे प्रवाहित होता है
MCP सर्वर एक गोपनीयता शील्ड के रूप में कार्य करता है, AI टूल्स से अनुरोधों को इंटरसेप्ट करता है, PII को गुमनाम करता है, सुरक्षित डेटा को AI के माध्यम से प्रोसेस करता है, और आवश्यकता होने पर मूल मान पुनर्स्थापित करता है।
AI टूल अनुरोध
आपका AI टूल (Cursor, Claude) PII युक्त अनुरोध भेजता है
MCP सर्वर इंटरसेप्ट करता है
सर्वर सभी PII एंटिटी का विश्लेषण और पहचान करता है
गुमनामीकरण
PII को टोकन से बदल दिया जाता है या हटा दिया जाता है
AI प्रोसेसिंग
AI केवल गुमनाम डेटा प्राप्त करता है और प्रोसेस करता है
प्रतिक्रिया वापसी
AI प्रतिक्रिया MCP सर्वर के माध्यम से वापस आती है
डी-टोकनाइज़ेशन
वैकल्पिक: उपयोगकर्ता के लिए मूल मान पुनर्स्थापित
अक्सर पूछे जाने वाले प्रश्न
क्या cloak.business पहचान के लिए AI का उपयोग करता है?
नहीं। पहचान निर्धारक regex पैटर्न और NLP मॉडल (spaCy, Stanza) का उपयोग करती है। इससे 100% पुनरुत्पादक परिणाम मिलते हैं — समान इनपुट हमेशा समान आउटपुट देता है, संभाव्य AI दृष्टिकोण के विपरीत।
AI के बजाय regex पैटर्न क्यों?
Regex पैटर्न ऑडिट योग्य, पुनरुत्पादक और अनुपालन योग्य हैं। आप देख सकते हैं कि प्रत्येक पैटर्न क्या मेल करता है। AI-आधारित पहचान अनिर्धारित होती है — परिणाम हर बार बदल सकते हैं, जिससे अनुपालन दस्तावेज़ीकरण कठिन हो जाता है।
पहचान कितनी सटीक है?
317 कस्टम पैटर्न पहचानकर्ताओं के साथ, जिसमें चेकसम सत्यापन (Luhn, IBAN, SSN) शामिल है, cloak.business सामान्य NER मॉडल की तुलना में काफी अधिक सटीकता प्राप्त करता है, विशेष रूप से क्रेडिट कार्ड, टैक्स ID और राष्ट्रीय ID नंबर जैसे संरचित पहचानकर्ताओं के लिए।
कौन-कौन सी भाषाएँ समर्थित हैं?
48 भाषाएँ नामित एंटिटी पहचान के लिए समर्पित NLP मॉडल के साथ समर्थित हैं। पैटर्न-आधारित पहचान (regex) सभी भाषाओं में कार्य करती है क्योंकि यह भाषा की परवाह किए बिना अक्षर पैटर्न से मेल करती है।
क्या मैं कस्टम एंटिटी पैटर्न जोड़ सकता हूँ?
हाँ। API कस्टम पहचानकर्ता परिभाषाओं का समर्थन करता है, जिससे आप स्वामित्व पहचानकर्ता, आंतरिक संदर्भ नंबर, या डोमेन-विशिष्ट डेटा फॉर्मेट के लिए पैटर्न जोड़ सकते हैं।