PII & डेटा गोपनीयता शब्दावली
उद्योग में उपयोग किए जाने वाले प्रमुख गोपनीयता, अनुपालन, और डेटा सुरक्षा शर्तों की स्पष्ट परिभाषाएँ।
गोपनीयता & अनुपालन शर्तें
व्यक्तिगत पहचान योग्य जानकारी (PII)
कोई भी डेटा जो किसी विशेष व्यक्ति की पहचान कर सकता है, जैसे नाम, ईमेल पते, सामाजिक सुरक्षा नंबर, या फोन नंबर।
अनामकरण
डेटा को इस प्रकार बदलने की अपरिवर्तनीय प्रक्रिया ताकि व्यक्तियों की पहचान सीधे या अप्रत्यक्ष रूप से न की जा सके।
छद्म नामकरण
पहचान योग्य डेटा को कृत्रिम पहचानकर्ताओं (छद्म नामों) के साथ बदलना ताकि पुनः पहचान के लिए एक अलग कुंजी की आवश्यकता हो।
डेटा की पहचान हटाना
डेटा से व्यक्तिगत पहचानकर्ताओं को हटाना या अस्पष्ट करना ताकि इसे बिना अतिरिक्त जानकारी के किसी विशेष व्यक्ति से जोड़ा न जा सके।
डेटा विषय
एक पहचाना या पहचान योग्य प्राकृतिक व्यक्ति जिसका व्यक्तिगत डेटा एक नियंत्रक या प्रोसेसर द्वारा संसाधित किया जाता है।
डेटा नियंत्रक
वह इकाई जो व्यक्तिगत डेटा के प्रसंस्करण के उद्देश्यों और साधनों का निर्धारण करती है।
डेटा प्रोसेसर
एक इकाई जो डेटा नियंत्रक की ओर से व्यक्तिगत डेटा को संसाधित करती है, नियंत्रक के निर्देशों का पालन करते हुए।
सहमति
एक डेटा विषय की व्यक्तिगत डेटा के प्रसंस्करण के लिए स्वतंत्र रूप से दी गई, विशिष्ट, सूचित, और स्पष्ट संकेत।
कानूनी आधार
एक कानूनी आधार जिसके तहत व्यक्तिगत डेटा का प्रसंस्करण अनुमत है, जैसे सहमति, अनुबंध की आवश्यकता, कानूनी दायित्व, या वैध हित।
डेटा न्यूनतमकरण
यह सिद्धांत कि एकत्रित व्यक्तिगत डेटा पर्याप्त, प्रासंगिक, और इसके इच्छित उद्देश्य के लिए आवश्यक तक सीमित होना चाहिए।
मिटाने का अधिकार
एक डेटा विषय का अधिकार कि जब व्यक्तिगत डेटा अब आवश्यक नहीं हो, तो इसे हटाया जाए, जिसे GDPR के तहत 'भूलने का अधिकार' भी कहा जाता है।
डेटा पोर्टेबिलिटी
डेटा विषयों का अधिकार कि वे अपनी व्यक्तिगत डेटा को एक संरचित, सामान्यतः उपयोग किए जाने वाले प्रारूप में प्राप्त करें और इसे एक अन्य नियंत्रक को स्थानांतरित करें।
डेटा सुरक्षा अधिकारी (DPO)
एक नामित व्यक्ति जो एक संगठन की डेटा सुरक्षा रणनीति की निगरानी करने और गोपनीयता नियमों के अनुपालन को सुनिश्चित करने के लिए जिम्मेदार होता है।
डेटा सुरक्षा प्रभाव आकलन (DPIA)
एक प्रक्रिया जो एक परियोजना के डेटा सुरक्षा जोखिमों की पहचान और न्यूनतम करने के लिए आवश्यक है, जो GDPR के तहत उच्च जोखिम वाले प्रसंस्करण गतिविधियों के लिए आवश्यक है।
डेटा उल्लंघन
एक सुरक्षा घटना जहां व्यक्तिगत डेटा को बिना अनुमति के एक्सेस, प्रकट, परिवर्तित, या नष्ट किया जाता है।
नियामक ढांचे
GDPR (सामान्य डेटा सुरक्षा विनियमन)
ईयू विनियमन जो यूरोपीय आर्थिक क्षेत्र के भीतर व्यक्तियों के व्यक्तिगत डेटा के प्रसंस्करण को नियंत्रित करता है, मई 2018 से प्रभावी।
CCPA (कैलिफोर्निया उपभोक्ता गोपनीयता अधिनियम)
कैलिफोर्निया राज्य का कानून जो उपभोक्ताओं को व्यवसायों द्वारा एकत्रित उनकी व्यक्तिगत जानकारी पर अधिकार प्रदान करता है, जनवरी 2020 से प्रभावी।
HIPAA (स्वास्थ्य बीमा पोर्टेबिलिटी और जवाबदेही अधिनियम)
एक अमेरिकी संघीय कानून जो संवेदनशील रोगी स्वास्थ्य जानकारी को बिना सहमति के प्रकट करने से बचाने के लिए मानक स्थापित करता है।
ISO 27001
सूचना सुरक्षा प्रबंधन प्रणालियों (ISMS) के लिए एक अंतरराष्ट्रीय मानक, जो सुरक्षा नियंत्रण स्थापित करने, लागू करने, और निरंतर सुधारने के लिए आवश्यकताओं को निर्दिष्ट करता है।
SOC 2 (सिस्टम और संगठन नियंत्रण 2)
सेवा संगठनों के लिए एक ऑडिटिंग ढांचा जो सुरक्षा, उपलब्धता, प्रसंस्करण अखंडता, गोपनीयता, और गोपनीयता से संबंधित नियंत्रणों का मूल्यांकन करता है।
तकनीकी शर्तें
नामित इकाई पहचान (NER)
एक NLP तकनीक जो पाठ में नामित इकाइयों की पहचान और वर्गीकरण करती है, जैसे व्यक्ति के नाम, स्थान, और संगठनों को पूर्व निर्धारित श्रेणियों में।
प्राकृतिक भाषा प्रसंस्करण (NLP)
कृत्रिम बुद्धिमत्ता की एक शाखा जो कंप्यूटरों को मानव भाषा को समझने, व्याख्या करने, और उत्पन्न करने में सक्षम बनाती है।
पैटर्न पहचानकर्ता
एक नियम-आधारित डिटेक्टर जो नियमित अभिव्यक्तियों और संदर्भ संकेतों का उपयोग करके विशिष्ट डेटा पैटर्न की पहचान करता है, जैसे क्रेडिट कार्ड नंबर या सामाजिक सुरक्षा नंबर।
विश्वास स्कोर
0 और 1 के बीच एक संख्यात्मक मान जो यह दर्शाता है कि एक डिटेक्शन इंजन कितनी निश्चितता से यह मानता है कि एक पाठ का एक टुकड़ा एक विशिष्ट इकाई प्रकार से मेल खाता है।
नियमित अभिव्यक्ति (Regex)
चरित्रों का एक अनुक्रम जो एक खोज पैटर्न को परिभाषित करता है, आमतौर पर फोन नंबर या ईमेल पते जैसे संरचित डेटा प्रारूपों को मान्य और पहचानने के लिए उपयोग किया जाता है।
AES-256-GCM
एक प्रमाणित एन्क्रिप्शन एल्गोरिदम जो 256-बिट कुंजी का उपयोग करता है और गैलोइस/काउंटर मोड में कार्य करता है, एन्क्रिप्टेड डेटा की गोपनीयता और अखंडता सत्यापन प्रदान करता है।
ज़ीरो-नॉलेज एन्क्रिप्शन
एक एन्क्रिप्शन आर्किटेक्चर जहां केवल उपयोगकर्ता के पास डिक्रिप्शन कुंजी होती है, जिसका अर्थ है कि सेवा प्रदाता भी प्लेनटेक्स्ट डेटा तक पहुंच नहीं सकता।
टोकनाइजेशन
संवेदनशील डेटा को गैर-संवेदनशील प्लेसहोल्डर टोकन के साथ बदलना जो सुरक्षित लुकअप के माध्यम से मूल डेटा में वापस मैप किया जा सकता है।
डेटा मास्किंग
एक डेटासेट के भीतर विशिष्ट डेटा को अस्पष्ट करना ताकि संवेदनशील जानकारी छिपी रहे जबकि डेटा परीक्षण या विश्लेषण के लिए उपयोगी बना रहे।
रेडक्शन
एक दस्तावेज़ या डेटासेट से संवेदनशील जानकारी को स्थायी रूप से हटाना, इसे [REDACTED] जैसे मार्कर के साथ बदलना।
अनामकरण विधियाँ
बदलें
पहचानी गई PII को समान इकाई प्रकार के एक सामान्य प्लेसहोल्डर के साथ प्रतिस्थापित करता है, जैसे 'जॉन स्मिथ' को '<PERSON>' से बदलना।
मास्क
PII को आंशिक रूप से अस्पष्ट करता है, जैसे '123-45-6789' को '***-**-6789' में बदलना।
रेडक्ट
पाठ से पहचानी गई PII को पूरी तरह से हटा देता है, जिससे मूल मान का कोई निशान नहीं रहता।
हैश
PII को एक निश्चित लंबाई के क्रिप्टोग्राफिक हैश में परिवर्तित करता है, जिससे लगातार प्रतिस्थापन संभव होता है जबकि उलटने को गणनात्मक रूप से असंभव बनाता है।
एन्क्रिप्ट
PII को AES-256-GCM एन्क्रिप्शन का उपयोग करके परिवर्तित करता है जिसमें उपयोगकर्ता-धारण कुंजी होती है, जिससे आवश्यक होने पर अधिकृत उलटने (डी-एनोनिमाइजेशन) की अनुमति मिलती है।
अक्सर पूछे जाने वाले प्रश्न
अनामकरण और छद्म नामकरण में क्या अंतर है?
अनामकरण अपरिवर्तनीय रूप से सभी पहचान करने वाली जानकारी को हटा देता है ताकि पुनः पहचान असंभव हो। छद्म नामकरण पहचानकर्ताओं को कृत्रिम पहचानकर्ताओं के साथ बदलता है जबकि पुनः पहचान की अनुमति देने के लिए एक अलग कुंजी रखता है। GDPR के तहत, छद्म नामित डेटा को अभी भी व्यक्तिगत डेटा माना जाता है।
PII पहचान में NLP और पैटर्न पहचानकर्ताओं का उपयोग क्यों किया जाता है?
NLP मॉडल संदर्भ-निर्भर इकाइयों की पहचान करते हैं जैसे व्यक्ति के नाम और स्थान जो एक निश्चित प्रारूप की कमी रखते हैं। पैटर्न पहचानकर्ता नियमित अभिव्यक्तियों का उपयोग करके संरचित पहचानकर्ताओं को पकड़ते हैं जैसे सामाजिक सुरक्षा नंबर, क्रेडिट कार्ड नंबर, और फोन नंबर। दोनों दृष्टिकोणों को मिलाकर सभी इकाई प्रकारों में पहचान सटीकता को अधिकतम किया जाता है।
ज़ीरो-नॉलेज एन्क्रिप्शन क्या है और यह क्यों महत्वपूर्ण है?
ज़ीरो-नॉलेज एन्क्रिप्शन का अर्थ है कि केवल आप डिक्रिप्शन कुंजी रखते हैं — सेवा प्रदाता आपके डेटा को नहीं पढ़ सकता। यह महत्वपूर्ण है क्योंकि सर्वर उल्लंघन की स्थिति में भी, आपका एन्क्रिप्टेड डेटा आपकी कुंजी के बिना पढ़ने योग्य नहीं रहता, जो सबसे मजबूत संभव डेटा सुरक्षा प्रदान करता है।
उलटने योग्य एन्क्रिप्शन हैशिंग से कैसे भिन्न है?
हैशिंग एक एकतरफा परिवर्तन है — एक बार डेटा हैश हो जाने पर, मूल को पुनर्प्राप्त नहीं किया जा सकता। उलटने योग्य एन्क्रिप्शन (AES-256-GCM का उपयोग करते हुए) सही कुंजी वाले अधिकृत उपयोगकर्ताओं को डिक्रिप्ट करने और मूल डेटा को पुनर्प्राप्त करने की अनुमति देता है, जिससे ऐसे कार्यप्रवाह सक्षम होते हैं जहां डी-एनोनिमाइजेशन की आवश्यकता होती है।