PII & डेटा गोपनीयता शब्दावली
उद्योग में उपयोग किए जाने वाले प्रमुख गोपनीयता, अनुपालन, और डेटा सुरक्षा शर्तों की स्पष्ट परिभाषाएँ।
गोपनीयता & अनुपालन शर्तें
व्यक्तिगत पहचान योग्य जानकारी (PII)
कोई भी डेटा जो किसी विशेष व्यक्ति की पहचान कर सकता है, जैसे नाम, ईमेल पते, सामाजिक सुरक्षा नंबर, या फोन नंबर।
अनामकरण
डेटा को इस प्रकार बदलने की अपरिवर्तनीय प्रक्रिया ताकि व्यक्तियों की पहचान सीधे या अप्रत्यक्ष रूप से न की जा सके।
छद्म नामकरण
पहचान योग्य डेटा को कृत्रिम पहचानकर्ताओं (छद्म नामों) के साथ बदलना ताकि पुनः पहचान के लिए एक अलग कुंजी की आवश्यकता हो।
डेटा की पहचान हटाना
डेटा से व्यक्तिगत पहचानकर्ताओं को हटाना या अस्पष्ट करना ताकि इसे बिना अतिरिक्त जानकारी के किसी विशेष व्यक्ति से जोड़ा न जा सके।
डेटा विषय
एक पहचाना या पहचान योग्य प्राकृतिक व्यक्ति जिसका व्यक्तिगत डेटा एक नियंत्रक या प्रोसेसर द्वारा संसाधित किया जाता है।
डेटा नियंत्रक
वह इकाई जो व्यक्तिगत डेटा के प्रसंस्करण के उद्देश्यों और साधनों का निर्धारण करती है।
डेटा प्रोसेसर
एक इकाई जो डेटा नियंत्रक की ओर से व्यक्तिगत डेटा को संसाधित करती है, नियंत्रक के निर्देशों का पालन करते हुए।
सहमति
एक डेटा विषय की व्यक्तिगत डेटा के प्रसंस्करण के लिए स्वतंत्र रूप से दी गई, विशिष्ट, सूचित, और स्पष्ट संकेत।
कानूनी आधार
एक कानूनी आधार जिसके तहत व्यक्तिगत डेटा का प्रसंस्करण अनुमत है, जैसे सहमति, अनुबंध की आवश्यकता, कानूनी दायित्व, या वैध हित।
डेटा न्यूनतमकरण
यह सिद्धांत कि एकत्रित व्यक्तिगत डेटा पर्याप्त, प्रासंगिक, और इसके इच्छित उद्देश्य के लिए आवश्यक तक सीमित होना चाहिए।
मिटाने का अधिकार
एक डेटा विषय का अधिकार कि जब व्यक्तिगत डेटा अब आवश्यक नहीं हो, तो इसे हटाया जाए, जिसे GDPR के तहत 'भूलने का अधिकार' भी कहा जाता है।
डेटा पोर्टेबिलिटी
डेटा विषयों का अधिकार कि वे अपनी व्यक्तिगत डेटा को एक संरचित, सामान्यतः उपयोग किए जाने वाले प्रारूप में प्राप्त करें और इसे एक अन्य नियंत्रक को स्थानांतरित करें।
डेटा सुरक्षा अधिकारी (DPO)
एक नामित व्यक्ति जो एक संगठन की डेटा सुरक्षा रणनीति की निगरानी करने और गोपनीयता नियमों के अनुपालन को सुनिश्चित करने के लिए जिम्मेदार होता है।
डेटा सुरक्षा प्रभाव आकलन (DPIA)
एक प्रक्रिया जो एक परियोजना के डेटा सुरक्षा जोखिमों की पहचान और न्यूनतम करने के लिए आवश्यक है, जो GDPR के तहत उच्च जोखिम वाले प्रसंस्करण गतिविधियों के लिए आवश्यक है।
डेटा उल्लंघन
एक सुरक्षा घटना जहां व्यक्तिगत डेटा को बिना अनुमति के एक्सेस, प्रकट, परिवर्तित, या नष्ट किया जाता है।
छाया ऐ
आईटी अनुमोदन के बिना कर्मचारियों द्वारा एआई टूल्स (ChatGPT, Copilot, जेमिनी) का अनधिकृत उपयोग। शैडो एआई पीआईआई डेटा लीक का एक प्रमुख कारण है, क्योंकि उपयोगकर्ता संवेदनशील व्यावसायिक डेटा - ग्राहक रिकॉर्ड, रोगी जानकारी, वित्तीय डेटा - सीधे एआई संकेतों में पेस्ट करते हैं।
डेटा न्यूनीकरण
एक GDPR सिद्धांत (Art. 5(1)(c)) जिसमें संगठनों को किसी विशिष्ट उद्देश्य के लिए केवल आवश्यक न्यूनतम व्यक्तिगत डेटा एकत्र करने और संसाधित करने की आवश्यकता होती है। एआई सिस्टम में, डेटा न्यूनतमकरण का अर्थ है एआई पाइपलाइनों में डेटा प्रवेश करने से पहले पीआईआई को गुमनाम करना या हटाना, अनुपालन जोखिम और उल्लंघन की सतह को कम करना।
नियामक ढांचे
GDPR (सामान्य डेटा सुरक्षा विनियमन)
ईयू विनियमन जो यूरोपीय आर्थिक क्षेत्र के भीतर व्यक्तियों के व्यक्तिगत डेटा के प्रसंस्करण को नियंत्रित करता है, मई 2018 से प्रभावी।
CCPA (कैलिफोर्निया उपभोक्ता गोपनीयता अधिनियम)
कैलिफोर्निया राज्य का कानून जो उपभोक्ताओं को व्यवसायों द्वारा एकत्रित उनकी व्यक्तिगत जानकारी पर अधिकार प्रदान करता है, जनवरी 2020 से प्रभावी।
HIPAA (स्वास्थ्य बीमा पोर्टेबिलिटी और जवाबदेही अधिनियम)
एक अमेरिकी संघीय कानून जो संवेदनशील रोगी स्वास्थ्य जानकारी को बिना सहमति के प्रकट करने से बचाने के लिए मानक स्थापित करता है।
ISO 27001
सूचना सुरक्षा प्रबंधन प्रणालियों (ISMS) के लिए एक अंतरराष्ट्रीय मानक, जो सुरक्षा नियंत्रण स्थापित करने, लागू करने, और निरंतर सुधारने के लिए आवश्यकताओं को निर्दिष्ट करता है।
SOC 2 (सिस्टम और संगठन नियंत्रण 2)
सेवा संगठनों के लिए एक ऑडिटिंग ढांचा जो सुरक्षा, उपलब्धता, प्रसंस्करण अखंडता, गोपनीयता, और गोपनीयता से संबंधित नियंत्रणों का मूल्यांकन करता है।
EU AI Act
कृत्रिम बुद्धिमत्ता पर यूरोपीय संघ विनियमन (अगस्त 2026 से लागू)। उच्च जोखिम वाले एआई सिस्टम को व्यक्तिगत डेटा न्यूनतमकरण, दस्तावेज़ीकरण और डीपीआईए सहित डेटा गवर्नेंस उपायों को लागू करना होगा। व्यक्तियों पर निर्णय लेने के लिए एआई का उपयोग करने वाले संगठनों को यह सुनिश्चित करना होगा कि प्रशिक्षण डेटा अज्ञात या छद्म नाम दिया गया है।
ISO 42001
एआई प्रबंधन प्रणालियों (एआईएमएस) के लिए अंतर्राष्ट्रीय मानक, 2023 में प्रकाशित। डेटा गुणवत्ता, पूर्वाग्रह नियंत्रण और गोपनीयता सुरक्षा उपायों सहित जिम्मेदार एआई विकास और तैनाती के लिए एक रूपरेखा प्रदान करता है। व्यक्तिगत डेटा के साथ AI सिस्टम संचालित करने वाले संगठनों के लिए अक्सर ISO 27001 के साथ जोड़ा जाता है।
भारत DPDP Act
भारत का डिजिटल व्यक्तिगत डेटा संरक्षण अधिनियम (2023), 2025 से लागू। भारतीय निवासियों के व्यक्तिगत डेटा को संसाधित करने, संवेदनशील डेटा के लिए डेटा स्थानीयकरण और 72 घंटों के भीतर उल्लंघन अधिसूचना के लिए स्पष्ट सहमति की आवश्यकता है। यह वैश्विक स्तर पर उन संगठनों पर लागू होता है जो भारतीय नागरिकों के डेटा को संसाधित करते हैं।
तकनीकी शर्तें
नामित इकाई पहचान (NER)
एक NLP तकनीक जो पाठ में नामित इकाइयों की पहचान और वर्गीकरण करती है, जैसे व्यक्ति के नाम, स्थान, और संगठनों को पूर्व निर्धारित श्रेणियों में।
प्राकृतिक भाषा प्रसंस्करण (NLP)
कृत्रिम बुद्धिमत्ता की एक शाखा जो कंप्यूटरों को मानव भाषा को समझने, व्याख्या करने, और उत्पन्न करने में सक्षम बनाती है।
पैटर्न पहचानकर्ता
एक नियम-आधारित डिटेक्टर जो नियमित अभिव्यक्तियों और संदर्भ संकेतों का उपयोग करके विशिष्ट डेटा पैटर्न की पहचान करता है, जैसे क्रेडिट कार्ड नंबर या सामाजिक सुरक्षा नंबर।
विश्वास स्कोर
0 और 1 के बीच एक संख्यात्मक मान जो यह दर्शाता है कि एक डिटेक्शन इंजन कितनी निश्चितता से यह मानता है कि एक पाठ का एक टुकड़ा एक विशिष्ट इकाई प्रकार से मेल खाता है।
नियमित अभिव्यक्ति (Regex)
चरित्रों का एक अनुक्रम जो एक खोज पैटर्न को परिभाषित करता है, आमतौर पर फोन नंबर या ईमेल पते जैसे संरचित डेटा प्रारूपों को मान्य और पहचानने के लिए उपयोग किया जाता है।
AES-256-GCM
एक प्रमाणित एन्क्रिप्शन एल्गोरिदम जो 256-बिट कुंजी का उपयोग करता है और गैलोइस/काउंटर मोड में कार्य करता है, एन्क्रिप्टेड डेटा की गोपनीयता और अखंडता सत्यापन प्रदान करता है।
ज़ीरो-नॉलेज एन्क्रिप्शन
एक एन्क्रिप्शन आर्किटेक्चर जहां केवल उपयोगकर्ता के पास डिक्रिप्शन कुंजी होती है, जिसका अर्थ है कि सेवा प्रदाता भी प्लेनटेक्स्ट डेटा तक पहुंच नहीं सकता।
टोकनाइजेशन
संवेदनशील डेटा को गैर-संवेदनशील प्लेसहोल्डर टोकन के साथ बदलना जो सुरक्षित लुकअप के माध्यम से मूल डेटा में वापस मैप किया जा सकता है।
डेटा मास्किंग
एक डेटासेट के भीतर विशिष्ट डेटा को अस्पष्ट करना ताकि संवेदनशील जानकारी छिपी रहे जबकि डेटा परीक्षण या विश्लेषण के लिए उपयोगी बना रहे।
रेडक्शन
एक दस्तावेज़ या डेटासेट से संवेदनशील जानकारी को स्थायी रूप से हटाना, इसे [REDACTED] जैसे मार्कर के साथ बदलना।
सिंथेटिक डेटा
एआई-जनरेटेड डेटा जो वास्तविक रिकॉर्ड के बिना सांख्यिकीय रूप से वास्तविक डेटा की नकल करता है। अज्ञातीकरण की तुलना में: अज्ञात डेटा डाउनस्ट्रीम एमएल के लिए उच्च विश्लेषणात्मक सटीकता को संरक्षित करता है; सिंथेटिक डेटा पुन: पहचान के जोखिम को समाप्त करता है लेकिन सांख्यिकीय विचलन का परिचय देता है। जब अनुपालन ऑडिट के लिए मूल रिकॉर्ड की आवश्यकता हो तो प्रतिवर्ती गुमनामीकरण को प्राथमिकता दी जाती है।
एलएलएम प्रॉम्प्ट इंजेक्शन
एक हमले की तकनीक जहां दुर्भावनापूर्ण इनपुट निर्देशों को अनदेखा करने या संवेदनशील जानकारी को लीक करने के लिए एक बड़े भाषा मॉडल में हेरफेर करता है। पीआईआई सुरक्षा संदर्भों में, त्वरित इंजेक्शन के कारण एआई मॉडल अज्ञात डेटा पैटर्न या उपयोगकर्ता जानकारी प्रकट कर सकता है। एलएलएम तक पहुंचने से पहले इनपुट को अज्ञात करने से हमले की सतह कम हो जाती है।
गोपनीयता-दर-डिज़ाइन
एक GDPR Art. 25 सिद्धांत जिसके लिए डेटा सुरक्षा को बाद के विचार के रूप में जोड़ने के बजाय जमीनी स्तर से सिस्टम में निर्मित करने की आवश्यकता होती है। एआई सिस्टम के लिए, गोपनीयता-दर-डिज़ाइन का अर्थ है एआई पाइपलाइनों में प्रवेश करने से पहले डेटा को अज्ञात करना, शून्य-ज्ञान एन्क्रिप्शन लागू करना और डेटा प्रतिधारण को कम करना।
अनामकरण विधियाँ
बदलें
पहचानी गई PII को समान इकाई प्रकार के एक सामान्य प्लेसहोल्डर के साथ प्रतिस्थापित करता है, जैसे 'जॉन स्मिथ' को '<PERSON>' से बदलना।
मास्क
PII को आंशिक रूप से अस्पष्ट करता है, जैसे '123-45-6789' को '***-**-6789' में बदलना।
रेडक्ट
पाठ से पहचानी गई PII को पूरी तरह से हटा देता है, जिससे मूल मान का कोई निशान नहीं रहता।
हैश
PII को एक निश्चित लंबाई के क्रिप्टोग्राफिक हैश में परिवर्तित करता है, जिससे लगातार प्रतिस्थापन संभव होता है जबकि उलटने को गणनात्मक रूप से असंभव बनाता है।
एन्क्रिप्ट
PII को AES-256-GCM एन्क्रिप्शन का उपयोग करके परिवर्तित करता है जिसमें उपयोगकर्ता-धारण कुंजी होती है, जिससे आवश्यक होने पर अधिकृत उलटने (डी-एनोनिमाइजेशन) की अनुमति मिलती है।
अक्सर पूछे जाने वाले प्रश्न
अनामकरण और छद्म नामकरण में क्या अंतर है?
अनामकरण अपरिवर्तनीय रूप से सभी पहचान करने वाली जानकारी को हटा देता है ताकि पुनः पहचान असंभव हो। छद्म नामकरण पहचानकर्ताओं को कृत्रिम पहचानकर्ताओं के साथ बदलता है जबकि पुनः पहचान की अनुमति देने के लिए एक अलग कुंजी रखता है। GDPR के तहत, छद्म नामित डेटा को अभी भी व्यक्तिगत डेटा माना जाता है।
PII पहचान में NLP और पैटर्न पहचानकर्ताओं का उपयोग क्यों किया जाता है?
NLP मॉडल संदर्भ-निर्भर इकाइयों की पहचान करते हैं जैसे व्यक्ति के नाम और स्थान जो एक निश्चित प्रारूप की कमी रखते हैं। पैटर्न पहचानकर्ता नियमित अभिव्यक्तियों का उपयोग करके संरचित पहचानकर्ताओं को पकड़ते हैं जैसे सामाजिक सुरक्षा नंबर, क्रेडिट कार्ड नंबर, और फोन नंबर। दोनों दृष्टिकोणों को मिलाकर सभी इकाई प्रकारों में पहचान सटीकता को अधिकतम किया जाता है।
ज़ीरो-नॉलेज एन्क्रिप्शन क्या है और यह क्यों महत्वपूर्ण है?
ज़ीरो-नॉलेज एन्क्रिप्शन का अर्थ है कि केवल आप डिक्रिप्शन कुंजी रखते हैं — सेवा प्रदाता आपके डेटा को नहीं पढ़ सकता। यह महत्वपूर्ण है क्योंकि सर्वर उल्लंघन की स्थिति में भी, आपका एन्क्रिप्टेड डेटा आपकी कुंजी के बिना पढ़ने योग्य नहीं रहता, जो सबसे मजबूत संभव डेटा सुरक्षा प्रदान करता है।
उलटने योग्य एन्क्रिप्शन हैशिंग से कैसे भिन्न है?
हैशिंग एक एकतरफा परिवर्तन है — एक बार डेटा हैश हो जाने पर, मूल को पुनर्प्राप्त नहीं किया जा सकता। उलटने योग्य एन्क्रिप्शन (AES-256-GCM का उपयोग करते हुए) सही कुंजी वाले अधिकृत उपयोगकर्ताओं को डिक्रिप्ट करने और मूल डेटा को पुनर्प्राप्त करने की अनुमति देता है, जिससे ऐसे कार्यप्रवाह सक्षम होते हैं जहां डी-एनोनिमाइजेशन की आवश्यकता होती है।