PII & ডেটা গোপনীয়তা গ্লোসারি
শিল্পে ব্যবহৃত মূল গোপনীয়তা, সম্মতি, এবং ডেটা সুরক্ষা শর্তাবলীর পরিষ্কার সংজ্ঞা।
গোপনীয়তা & সম্মতি শর্তাবলী
ব্যক্তিগতভাবে সনাক্তযোগ্য তথ্য (PII)
যে কোনও তথ্য যা একটি নির্দিষ্ট ব্যক্তিকে চিহ্নিত করতে পারে, যেমন নাম, ইমেল ঠিকানা, সামাজিক নিরাপত্তা নম্বর, বা ফোন নম্বর।
অ্যানোনিমাইজেশন
তথ্য পরিবর্তনের অপরিবর্তনীয় প্রক্রিয়া যাতে ব্যক্তিদের সরাসরি বা পরোক্ষভাবে চিহ্নিত করা না যায়।
ছদ্মনামকরণ
সনাক্তযোগ্য তথ্যকে কৃত্রিম সনাক্তকারীদের (ছদ্মনাম) সাথে প্রতিস্থাপন করা যাতে পুনঃসনাক্তকরণের জন্য একটি পৃথকভাবে রাখা কী প্রয়োজন।
ডি-আইডেন্টিফিকেশন
তথ্য থেকে ব্যক্তিগত সনাক্তকারীগুলি সরানো বা অস্পষ্ট করা যাতে এটি অতিরিক্ত তথ্য ছাড়া একটি নির্দিষ্ট ব্যক্তির সাথে আর সংযুক্ত না হয়।
ডেটা বিষয়
একটি সনাক্তকৃত বা সনাক্তযোগ্য প্রাকৃতিক ব্যক্তি যার ব্যক্তিগত তথ্য একটি নিয়ন্ত্রক বা প্রক্রিয়াকর্তার দ্বারা প্রক্রিয়া করা হয়।
ডেটা নিয়ন্ত্রক
যে সত্তা ব্যক্তিগত তথ্য প্রক্রিয়াকরণের উদ্দেশ্য এবং উপায় নির্ধারণ করে।
ডেটা প্রক্রিয়াকর্তা
একটি সত্তা যা একটি ডেটা নিয়ন্ত্রকের পক্ষে ব্যক্তিগত তথ্য প্রক্রিয়া করে, নিয়ন্ত্রকের নির্দেশনা অনুসরণ করে।
সম্মতি
একটি মুক্তভাবে প্রদত্ত, নির্দিষ্ট, অবগত, এবং অস্পষ্ট নির্দেশনা একটি ডেটা বিষয়ের তাদের ব্যক্তিগত তথ্য প্রক্রিয়াকরণের জন্য সম্মতির।
আইনি ভিত্তি
একটি আইনি ভিত্তি যার অধীনে ব্যক্তিগত তথ্য প্রক্রিয়াকরণ অনুমোদিত, যেমন সম্মতি, চুক্তির প্রয়োজনীয়তা, আইনগত বাধ্যবাধকতা, বা বৈধ স্বার্থ।
ডেটা ন্যূনতমকরণ
এটি একটি নীতি যে সংগৃহীত ব্যক্তিগত তথ্য যথাযথ, প্রাসঙ্গিক, এবং এর উদ্দেশ্যের জন্য প্রয়োজনীয় পর্যন্ত সীমিত হওয়া উচিত।
মুছে ফেলার অধিকার
একটি ডেটা বিষয়ের অধিকার তাদের ব্যক্তিগত তথ্য মুছে ফেলার, যখন এটি আর প্রয়োজনীয় নয়, যা GDPR-এর অধীনে 'ভুলে যাওয়ার অধিকার' হিসাবেও পরিচিত।
ডেটা পোর্টেবিলিটি
ডেটা বিষয়গুলির অধিকার তাদের ব্যক্তিগত তথ্য একটি কাঠামোবদ্ধ, সাধারণভাবে ব্যবহৃত ফরম্যাটে গ্রহণ করার এবং এটি অন্য নিয়ন্ত্রকের কাছে স্থানান্তর করার।
ডেটা সুরক্ষা কর্মকর্তা (DPO)
একটি নিযুক্ত ব্যক্তি যিনি একটি সংস্থার ডেটা সুরক্ষা কৌশল তদারকি করার এবং গোপনীয়তা বিধিমালার সাথে সম্মতি নিশ্চিত করার জন্য দায়ী।
ডেটা সুরক্ষা প্রভাব মূল্যায়ন (DPIA)
একটি প্রক্রিয়া যা একটি প্রকল্পের ডেটা সুরক্ষা ঝুঁকি চিহ্নিত এবং ন্যূনতম করতে সহায়তা করে, যা উচ্চ-ঝুঁকির প্রক্রিয়াকরণ কার্যক্রমের জন্য GDPR-এর অধীনে প্রয়োজন।
ডেটা লঙ্ঘন
একটি নিরাপত্তা ঘটনা যেখানে ব্যক্তিগত তথ্য অনুমোদন ছাড়া অ্যাক্সেস, প্রকাশ, পরিবর্তন, বা ধ্বংস করা হয়।
ছায়া এআই
IT অনুমোদন ছাড়াই কর্মীদের দ্বারা AI টুলের (ChatGPT, Copilot, Gemini) অননুমোদিত ব্যবহার। শ্যাডো AI হল PII ডেটা ফাঁসের একটি প্রধান কারণ, কারণ ব্যবহারকারীরা সংবেদনশীল ব্যবসার ডেটা — গ্রাহকের রেকর্ড, রোগীর তথ্য, আর্থিক ডেটা — সরাসরি AI প্রম্পটে পেস্ট করে।
ডেটা মিনিমাইজেশন
একটি GDPR নীতি (Art. 5(1)(c)) সংস্থাগুলিকে একটি নির্দিষ্ট উদ্দেশ্যে প্রয়োজনীয় ন্যূনতম ব্যক্তিগত ডেটা সংগ্রহ এবং প্রক্রিয়া করতে হবে। AI সিস্টেমে, ডেটা মিনিমাইজেশন মানে AI পাইপলাইনে ডেটা প্রবেশের আগে PII কে বেনামী করা বা অপসারণ করা, কমপ্লায়েন্স ঝুঁকি এবং লঙ্ঘন পৃষ্ঠকে হ্রাস করা।
নিয়ন্ত্রক কাঠামো
GDPR (সাধারণ ডেটা সুরক্ষা বিধিমালা)
ইউরোপীয় অর্থনৈতিক অঞ্চলের মধ্যে ব্যক্তিদের ব্যক্তিগত তথ্য প্রক্রিয়াকরণের জন্য ইউরোপীয় ইউনিয়নের নিয়ম, যা মে 2018 থেকে কার্যকর।
CCPA (ক্যালিফোর্নিয়া ভোক্তা গোপনীয়তা আইন)
একটি ক্যালিফোর্নিয়া রাজ্যের আইন যা ব্যবসাগুলির দ্বারা সংগৃহীত তাদের ব্যক্তিগত তথ্যের উপর ভোক্তাদের অধিকার প্রদান করে, যা জানুয়ারি 2020 থেকে কার্যকর।
HIPAA (স্বাস্থ্য বীমা পোর্টেবিলিটি এবং দায়িত্ব আইন)
একটি মার্কিন ফেডারেল আইন যা সম্মতি ছাড়া সংবেদনশীল রোগীর স্বাস্থ্য তথ্য সুরক্ষার জন্য মান স্থাপন করে।
ISO 27001
তথ্য সুরক্ষা ব্যবস্থাপনা সিস্টেম (ISMS) এর জন্য একটি আন্তর্জাতিক মান, যা সুরক্ষা নিয়ন্ত্রণ স্থাপন, বাস্তবায়ন, এবং ক্রমাগত উন্নত করার জন্য প্রয়োজনীয়তা নির্ধারণ করে।
SOC 2 (সিস্টেম এবং সংস্থা নিয়ন্ত্রণ 2)
সার্ভিস সংস্থাগুলির জন্য একটি নিরীক্ষণ কাঠামো যা নিরাপত্তা, প্রাপ্যতা, প্রক্রিয়াকরণ অখণ্ডতা, গোপনীয়তা, এবং গোপনীয়তার সাথে সম্পর্কিত নিয়ন্ত্রণগুলি মূল্যায়ন করে।
EU AI Act
কৃত্রিম বুদ্ধিমত্তা সম্পর্কিত ইউরোপীয় ইউনিয়নের প্রবিধান (আগস্ট 2026 থেকে বলবৎ)। উচ্চ-ঝুঁকির AI সিস্টেমগুলিকে অবশ্যই ব্যক্তিগত ডেটা মিনিমাইজেশন, ডকুমেন্টেশন এবং DPIA সহ ডেটা গভর্নেন্স ব্যবস্থাগুলি বাস্তবায়ন করতে হবে। ব্যক্তিদের বিষয়ে সিদ্ধান্ত নেওয়ার জন্য AI ব্যবহারকারী সংস্থাগুলিকে প্রশিক্ষণের ডেটা বেনামী বা ছদ্মনাম করা নিশ্চিত করতে হবে।
ISO 42001
2023 সালে প্রকাশিত AI ম্যানেজমেন্ট সিস্টেমের জন্য আন্তর্জাতিক মান (AIMS)। ডেটা গুণমান, পক্ষপাতিত্ব নিয়ন্ত্রণ এবং গোপনীয়তা সুরক্ষা সহ দায়িত্বশীল AI উন্নয়ন এবং স্থাপনার জন্য একটি কাঠামো প্রদান করে। ব্যক্তিগত ডেটা সহ AI সিস্টেমগুলি পরিচালনাকারী সংস্থাগুলির জন্য প্রায়শই ISO 27001 এর সাথে যুক্ত করা হয়।
ভারত DPDP Act
ভারতের ডিজিটাল পার্সোনাল ডেটা প্রোটেকশন অ্যাক্ট (2023), যা 2025 থেকে বলবৎ হয়েছে। ভারতীয় বাসিন্দাদের ব্যক্তিগত ডেটা প্রক্রিয়াকরণ, সংবেদনশীল ডেটার জন্য ডেটা স্থানীয়করণ এবং 72 ঘন্টার মধ্যে লঙ্ঘনের বিজ্ঞপ্তির জন্য স্পষ্ট সম্মতি প্রয়োজন। বিশ্বব্যাপী সংস্থাগুলির ক্ষেত্রে প্রযোজ্য যেগুলি ভারতীয় নাগরিকদের ডেটা প্রক্রিয়া করে৷
প্রযুক্তিগত শর্তাবলী
নামকৃত সত্তা সনাক্তকরণ (NER)
একটি NLP কৌশল যা পাঠ্যে নামকৃত সত্তাগুলিকে চিহ্নিত এবং শ্রেণীবদ্ধ করে পূর্বনির্ধারিত শ্রেণীতে যেমন ব্যক্তি নাম, অবস্থান, এবং সংস্থাগুলি।
প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP)
কৃত্রিম বুদ্ধিমত্তার একটি শাখা যা কম্পিউটারগুলিকে মানব ভাষা বোঝা, ব্যাখ্যা করা, এবং তৈরি করতে সক্ষম করে।
প্যাটার্ন রেকগনাইজার
একটি নিয়ম-ভিত্তিক ডিটেক্টর যা নিয়মিত অভিব্যক্তি এবং প্রসঙ্গের ক্লু ব্যবহার করে নির্দিষ্ট তথ্য প্যাটার্ন চিহ্নিত করতে, যেমন ক্রেডিট কার্ড নম্বর বা সামাজিক নিরাপত্তা নম্বর।
কনফিডেন্স স্কোর
0 এবং 1 এর মধ্যে একটি সংখ্যাগত মান যা নির্দেশ করে একটি ডিটেকশন ইঞ্জিন কতটা নিশ্চিত যে একটি টেক্সটের একটি টুকরা একটি নির্দিষ্ট সত্তা প্রকারের সাথে মেলে।
নিয়মিত অভিব্যক্তি (Regex)
একটি অনুসন্ধান প্যাটার্ন সংজ্ঞায়িত করার জন্য অক্ষরের একটি ক্রম, যা সাধারণত ফোন নম্বর বা ইমেল ঠিকানা মত কাঠামোবদ্ধ তথ্য ফরম্যাট যাচাই এবং সনাক্ত করতে ব্যবহৃত হয়।
AES-256-GCM
একটি প্রমাণিত এনক্রিপশন অ্যালগরিদম যা 256-বিট কী ব্যবহার করে গ্যালোইস/কাউন্টার মোডে, এনক্রিপ্ট করা তথ্যের গোপনীয়তা এবং অখণ্ডতা যাচাইকরণ প্রদান করে।
জিরো-নলেজ এনক্রিপশন
একটি এনক্রিপশন স্থাপনা যেখানে শুধুমাত্র ব্যবহারকারী ডিক্রিপশন কী ধারণ করে, অর্থাৎ পরিষেবা প্রদানকারীও প্লেইনটেক্সট ডেটা অ্যাক্সেস করতে পারে না।
টোকেনাইজেশন
সংবেদনশীল তথ্যকে অ-সংবেদনশীল প্লেসহোল্ডার টোকেনের সাথে প্রতিস্থাপন করা যা একটি নিরাপদ অনুসন্ধানের মাধ্যমে মূল তথ্যের সাথে মানচিত্রিত করা যেতে পারে।
ডেটা মাস্কিং
একটি ডেটাসেটে নির্দিষ্ট তথ্য অস্পষ্ট করা যাতে সংবেদনশীল তথ্য লুকানো থাকে যখন তথ্য পরীক্ষার বা বিশ্লেষণের জন্য ব্যবহারযোগ্য থাকে।
রিডাকশন
একটি নথি বা ডেটাসেট থেকে সংবেদনশীল তথ্য স্থায়ীভাবে সরিয়ে ফেলা, এটি একটি চিহ্ন যেমন [REDACTED] দিয়ে প্রতিস্থাপন করা।
সিন্থেটিক ডেটা
AI-উত্পাদিত ডেটা যা পরিসংখ্যানগতভাবে প্রকৃত তথ্য ধারণ না করে নকল করে। বেনামীকরণের তুলনায়: বেনামী ডেটা ডাউনস্ট্রিম এমএল-এর জন্য উচ্চতর বিশ্লেষণাত্মক নির্ভুলতা সংরক্ষণ করে; সিন্থেটিক ডেটা পুনরায় সনাক্তকরণের ঝুঁকি দূর করে কিন্তু পরিসংখ্যানগত প্রবাহের পরিচয় দেয়। যখন কমপ্লায়েন্স অডিটের জন্য আসল রেকর্ডের প্রয়োজন হতে পারে তখন রিভার্সিবল বেনামিকরণ পছন্দ করা হয়।
এলএলএম প্রম্পট ইনজেকশন
একটি আক্রমণ কৌশল যেখানে দূষিত ইনপুট নির্দেশাবলী উপেক্ষা করতে বা সংবেদনশীল তথ্য ফাঁস করার জন্য একটি বড় ভাষা মডেলকে ম্যানিপুলেট করে। PII সুরক্ষা প্রসঙ্গে, প্রম্পট ইনজেকশন একটি AI মডেলকে বেনামী ডেটা প্যাটার্ন বা ব্যবহারকারীর তথ্য প্রকাশ করতে পারে। LLM-তে পৌঁছানোর আগে ইনপুটগুলিকে পূর্ব-অনামীকরণ আক্রমণের পৃষ্ঠকে হ্রাস করে।
নকশা দ্বারা গোপনীয়তা
একটি GDPR Art. 25 নীতি যা পরবর্তী চিন্তা হিসাবে যোগ করার পরিবর্তে গ্রাউন্ড আপ থেকে সিস্টেমে তৈরি করা ডেটা সুরক্ষা প্রয়োজন। AI সিস্টেমের জন্য, প্রাইভেসি-বাই-ডিজাইন মানে AI পাইপলাইনে প্রবেশ করার আগে ডেটা বেনামী করা, জিরো-নলেজ এনক্রিপশন প্রয়োগ করা এবং ডেটা ধারণ কম করা।
অ্যানোনিমাইজেশন পদ্ধতি
প্রতিস্থাপন
সনাক্ত করা PII-কে একই সত্তা প্রকারের একটি সাধারণ প্লেসহোল্ডারের সাথে প্রতিস্থাপন করে, যেমন 'জন স্মিথ' কে '<PERSON>' দিয়ে প্রতিস্থাপন করা।
মাস্ক
PII আংশিকভাবে অস্পষ্ট করে অক্ষরগুলিকে মাস্কিং প্রতীকের সাথে প্রতিস্থাপন করে, উদাহরণস্বরূপ '123-45-6789' কে '***-**-6789' এ পরিণত করা।
রিডাক্ট
সনাক্ত করা PII সম্পূর্ণরূপে পাঠ্য থেকে সরিয়ে ফেলা, মূল মানের কোনও চিহ্ন না রেখে।
হ্যাশ
PII-কে একটি নির্দিষ্ট-দৈর্ঘ্যের ক্রিপ্টোগ্রাফিক হ্যাশে রূপান্তরিত করা, যা ধারাবাহিক প্রতিস্থাপন সম্ভব করে যখন বিপরীতকরণ কম্পিউটেশনালভাবে অসম্ভব।
এনক্রিপ্ট
একটি ব্যবহারকারী-ধারিত কী সহ AES-256-GCM এনক্রিপশন ব্যবহার করে PII রূপান্তরিত করা, যখন প্রয়োজন হলে অনুমোদিত বিপরীতকরণ (ডি-অ্যানোনিমাইজেশন) সক্ষম করে।
প্রায়শই জিজ্ঞাসিত প্রশ্ন
অ্যানোনিমাইজেশন এবং ছদ্মনামকরণের মধ্যে পার্থক্য কী?
অ্যানোনিমাইজেশন সমস্ত সনাক্তকরণ তথ্য অপরিবর্তনীয়ভাবে সরিয়ে ফেলে যাতে পুনঃসনাক্তকরণ অসম্ভব হয়। ছদ্মনামকরণ সনাক্তকারীগুলিকে কৃত্রিমদের সাথে প্রতিস্থাপন করে, যখন একটি পৃথক কী থাকে যা অনুমোদিত হলে পুনঃসনাক্তকরণকে অনুমতি দেয়। GDPR-এর অধীনে, ছদ্মনামিত তথ্য এখনও ব্যক্তিগত তথ্য হিসাবে বিবেচিত হয়।
PII সনাক্তকরণ কেন NLP এবং প্যাটার্ন রেকগনাইজার উভয়ই ব্যবহার করে?
NLP মডেলগুলি প্রসঙ্গ-নির্ভর সত্তাগুলি যেমন ব্যক্তি নাম এবং অবস্থানগুলি সনাক্ত করে যা একটি স্থির ফরম্যাটের অভাব রয়েছে। প্যাটার্ন রেকগনাইজারগুলি নিয়মিত অভিব্যক্তি ব্যবহার করে কাঠামোবদ্ধ সনাক্তকারীগুলি যেমন সামাজিক নিরাপত্তা নম্বর, ক্রেডিট কার্ড নম্বর, এবং ফোন নম্বরগুলি ধরতে। উভয় পদ্ধতির সংমিশ্রণ সমস্ত সত্তা প্রকারের মধ্যে সনাক্তকরণের সঠিকতা সর্বাধিক করে।
জিরো-নলেজ এনক্রিপশন কী এবং এটি কেন গুরুত্বপূর্ণ?
জিরো-নলেজ এনক্রিপশন মানে শুধুমাত্র আপনি ডিক্রিপশন কী ধারণ করেন — পরিষেবা প্রদানকারী আপনার ডেটা পড়তে পারে না। এটি গুরুত্বপূর্ণ কারণ সার্ভার লঙ্ঘনের ঘটনায়ও, আপনার এনক্রিপ্ট করা ডেটা আপনার কী ছাড়া অদৃশ্য থাকে, সবচেয়ে শক্তিশালী ডেটা সুরক্ষা প্রদান করে।
পুনঃযোগ্য এনক্রিপশন এবং হ্যাশিংয়ের মধ্যে পার্থক্য কী?
হ্যাশিং একটি একমুখী রূপান্তর — একবার ডেটা হ্যাশ করা হলে, মূলটি পুনরুদ্ধার করা যায় না। পুনঃযোগ্য এনক্রিপশন (AES-256-GCM ব্যবহার করে) অনুমোদিত ব্যবহারকারীদের সঠিক কী সহ ডিক্রিপ্ট এবং মূল ডেটা পুনরুদ্ধার করতে দেয়, এমন কর্মপ্রবাহ সক্ষম করে যেখানে ডি-অ্যানোনিমাইজেশন প্রয়োজন।