واژهنامه اطلاعات شناسایی شخصی و حریم خصوصی
تعاریف واضح از اصطلاحات کلیدی حریم خصوصی، انطباق و حفاظت از دادهها که در صنعت استفاده میشود.
اصطلاحات حریم خصوصی و انطباق
اطلاعات شناسایی شخصی (PII)
هر دادهای که میتواند یک فرد خاص را شناسایی کند، مانند نامها، آدرسهای ایمیل، شمارههای تأمین اجتماعی یا شمارههای تلفن.
ناشناسسازی
فرآیند غیرقابل بازگشت تغییر دادهها بهگونهای که افراد نتوانند بهطور مستقیم یا غیرمستقیم شناسایی شوند.
پسو دونو میسازی
جایگزینی دادههای شناساییشده با شناسههای مصنوعی (پسو دونو) بهگونهای که شناسایی مجدد نیاز به یک کلید جداگانه داشته باشد.
حذف شناسایی
حذف یا پنهانسازی شناساییهای شخصی از دادهها بهگونهای که دیگر نتوان آن را به یک فرد خاص مرتبط کرد بدون اطلاعات اضافی.
موضوع داده
شخص طبیعی شناساییشده یا قابل شناسایی که دادههای شخصی او توسط یک کنترلکننده یا پردازشگر پردازش میشود.
کنترلکننده داده
نهادی که اهداف و روشهای پردازش دادههای شخصی را تعیین میکند.
پردازشگر داده
نهادی که دادههای شخصی را به نمایندگی از یک کنترلکننده داده پردازش میکند و از دستورالعملهای کنترلکننده پیروی میکند.
رضایت
نشانهای آزادانه، خاص، آگاهانه و بدون ابهام از توافق یک موضوع داده برای پردازش دادههای شخصی او.
پایه قانونی
زمینه قانونی که تحت آن پردازش دادههای شخصی مجاز است، مانند رضایت، ضرورت قرارداد، تعهد قانونی یا منافع مشروع.
حداقلسازی داده
اصطلاحی که بیان میکند دادههای شخصی جمعآوریشده باید کافی، مرتبط و محدود به آنچه برای هدف مورد نظر لازم است، باشد.
حق به حذف
حق یک موضوع داده برای حذف دادههای شخصی او زمانی که دیگر لازم نیست، که بهعنوان 'حق فراموش شدن' تحت GDPR نیز شناخته میشود.
قابلیت انتقال داده
حق موضوعات داده برای دریافت دادههای شخصی خود در یک فرمت ساختاریافته و معمولاً استفادهشده و انتقال آن به یک کنترلکننده دیگر.
مسئول حفاظت از داده (DPO)
فردی که بهطور مشخص مسئول نظارت بر استراتژی حفاظت از دادههای یک سازمان و اطمینان از انطباق با مقررات حریم خصوصی است.
ارزیابی تأثیر حفاظت از داده (DPIA)
فرآیندی برای شناسایی و کاهش ریسکهای حفاظت از داده یک پروژه، که تحت GDPR برای فعالیتهای پردازش با ریسک بالا الزامی است.
نقص داده
یک حادثه امنیتی که در آن دادههای شخصی بدون مجوز دسترسی، افشا، تغییر یا نابود میشوند.
سایه هوش مصنوعی
استفاده غیرمجاز از ابزارهای هوش مصنوعی (ChatGPT، Copilot، Gemini) توسط کارمندان بدون تایید IT. Shadow AI یکی از دلایل اصلی نشت دادههای PII است، زیرا کاربران دادههای حساس تجاری - سوابق مشتری، اطلاعات بیمار، دادههای مالی - را مستقیماً در درخواستهای هوش مصنوعی قرار میدهند.
حداقل سازی داده ها
یک اصل GDPR (Art. 5(1)(c)) که سازمان ها را ملزم می کند فقط حداقل داده های شخصی لازم برای یک هدف خاص را جمع آوری و پردازش کنند. در سیستمهای هوش مصنوعی، به حداقل رساندن دادهها به معنای ناشناس کردن یا حذف PII قبل از ورود دادهها به خطوط لوله هوش مصنوعی است، که خطر انطباق و سطح نقض را کاهش میدهد.
چارچوبهای قانونی
GDPR (مقررات عمومی حفاظت از داده)
مقررات اتحادیه اروپا که بر پردازش دادههای شخصی افراد در منطقه اقتصادی اروپا حاکم است و از مه 2018 اجرایی شده است.
CCPA (قانون حریم خصوصی مصرفکنندگان کالیفرنیا)
قانون ایالتی کالیفرنیا که به مصرفکنندگان حقوقی بر اطلاعات شخصی خود که توسط کسبوکارها جمعآوری میشود، اعطا میکند و از ژانویه 2020 اجرایی شده است.
HIPAA (قانون قابلیت انتقال و مسئولیت بیمه سلامت)
قانون فدرال ایالات متحده که استانداردهایی برای حفاظت از اطلاعات حساس سلامت بیماران در برابر افشا بدون رضایت تعیین میکند.
ISO 27001
استاندارد بینالمللی برای سیستمهای مدیریت امنیت اطلاعات (ISMS) که الزامات لازم برای ایجاد، پیادهسازی و بهبود مستمر کنترلهای امنیتی را مشخص میکند.
SOC 2 (کنترلهای سیستم و سازمان 2)
چارچوبی برای حسابرسی سازمانهای خدماتی که کنترلهای مربوط به امنیت، در دسترس بودن، یکپارچگی پردازش، محرمانگی و حریم خصوصی را ارزیابی میکند.
EU AI Act
مقررات اتحادیه اروپا در مورد هوش مصنوعی (اجرا شده از اوت 2026). سیستمهای هوش مصنوعی پرخطر باید اقدامات حاکمیتی دادهها از جمله به حداقل رساندن دادههای شخصی، مستندسازی و DPIA را اجرا کنند. سازمان هایی که از هوش مصنوعی برای تصمیم گیری در مورد افراد استفاده می کنند باید اطمینان حاصل کنند که داده های آموزشی ناشناس یا مستعار هستند.
ISO 42001
استاندارد بینالمللی برای سیستمهای مدیریت هوش مصنوعی (AIMS)، منتشر شده در سال 2023. چارچوبی برای توسعه و استقرار مسئول هوش مصنوعی، از جمله کیفیت دادهها، کنترلهای سوگیری، و حفاظت از حریم خصوصی ارائه میکند. اغلب با ISO 27001 برای سازمان هایی که سیستم های هوش مصنوعی را با داده های شخصی کار می کنند، جفت می شود.
هند DPDP Act
قانون حفاظت از دادههای شخصی دیجیتال هند (2023)، که از سال 2025 اجرا میشود. برای پردازش دادههای شخصی ساکنان هند، محلیسازی دادهها برای دادههای حساس و اعلان نقض ظرف 72 ساعت به رضایت صریح نیاز دارد. برای سازمان هایی در سطح جهانی که داده های شهروندان هندی را پردازش می کنند، اعمال می شود.
اصطلاحات فنی
شناسایی موجودیت نامدار (NER)
یک تکنیک NLP که موجودیتهای نامدار را در متن شناسایی و طبقهبندی میکند به دستههای از پیش تعریفشده مانند نامهای شخصی، مکانها و سازمانها.
پردازش زبان طبیعی (NLP)
شاخهای از هوش مصنوعی که به کامپیوترها امکان میدهد زبان انسانی را درک، تفسیر و تولید کنند.
شناسایی الگو
یک تشخیصدهنده مبتنی بر قاعده که از عبارات منظم و نشانههای زمینهای برای شناسایی الگوهای خاص داده، مانند شمارههای کارت اعتباری یا شمارههای تأمین اجتماعی استفاده میکند.
نمره اطمینان
یک مقدار عددی بین 0 و 1 که نشان میدهد یک موتور تشخیص چقدر مطمئن است که یک قطعه متن با یک نوع موجودیت خاص مطابقت دارد.
عبارت منظم (Regex)
یک دنباله از کاراکترها که یک الگوی جستجو را تعریف میکند و معمولاً برای اعتبارسنجی و شناسایی فرمتهای داده ساختاریافته مانند شمارههای تلفن یا آدرسهای ایمیل استفاده میشود.
AES-256-GCM
یک الگوریتم رمزنگاری معتبر که از یک کلید 256 بیتی با حالت Galois/Counter استفاده میکند و همزمان محرمانگی و تأیید یکپارچگی دادههای رمزنگاریشده را فراهم میکند.
رمزنگاری بدون دانش
یک معماری رمزنگاری که تنها کاربر کلید رمزگشایی را در اختیار دارد، به این معنی که حتی ارائهدهنده خدمات نمیتواند به دادههای متن باز دسترسی پیدا کند.
توکنسازی
جایگزینی دادههای حساس با توکنهای غیرحساس که میتوانند از طریق یک جستجوی امن به دادههای اصلی متصل شوند.
پنهانسازی داده
پنهان کردن دادههای خاص در یک مجموعه داده بهگونهای که اطلاعات حساس پنهان شود در حالی که داده برای آزمایش یا تحلیل قابل استفاده باقی میماند.
حذف
حذف دائمی اطلاعات حساس از یک سند یا مجموعه داده، و جایگزینی آن با یک علامت مانند [REDACTED].
داده های مصنوعی
دادههای تولید شده توسط هوش مصنوعی که از نظر آماری دادههای واقعی را بدون داشتن سوابق واقعی تقلید میکنند. در مقایسه با ناشناس سازی: داده های ناشناس دقت تحلیلی بالاتری را برای ML پایین دست حفظ می کند. دادههای مصنوعی خطر شناسایی مجدد را حذف میکند اما رانش آماری را معرفی میکند. زمانی که ممکن است برای ممیزی انطباق به سوابق اصلی نیاز باشد، ناشناس سازی برگشت پذیر ترجیح داده می شود.
LLM Prompt Injection
یک تکنیک حمله که در آن ورودی مخرب یک مدل زبان بزرگ را دستکاری می کند تا دستورالعمل ها را نادیده بگیرد یا اطلاعات حساس را افشا کند. در زمینه های حفاظتی PII، تزریق سریع می تواند باعث شود یک مدل هوش مصنوعی الگوهای داده های ناشناس یا اطلاعات کاربر را نشان دهد. ناشناس کردن ورودیها قبل از رسیدن به LLM سطح حمله را کاهش میدهد.
حریم خصوصی بر اساس طراحی
یک اصل GDPR Art. 25 که مستلزم آن است که حفاظت از داده ها از ابتدا در سیستم ها ساخته شود تا اینکه به عنوان یک فکر بعدی اضافه شود. برای سیستم های هوش مصنوعی، حریم خصوصی به طراحی به معنای ناشناس کردن داده ها قبل از ورود به خطوط لوله هوش مصنوعی، اجرای رمزگذاری دانش صفر و به حداقل رساندن حفظ داده ها است.
روشهای ناشناسسازی
جایگزینی
جایگزینی PII شناساییشده با یک جایگزین عمومی از همان نوع موجودیت، مانند جایگزینی 'جان اسمیت' با '<PERSON>'.
پنهانسازی
بهطور جزئی PII را با جایگزینی کاراکترها با نمادهای پنهانسازی، بهعنوان مثال تبدیل '123-45-6789' به '***-**-6789' پنهان میکند.
حذف
بهطور کامل PII شناساییشده را از متن حذف میکند و هیچ نشانهای از مقدار اصلی باقی نمیگذارد.
هش
تبدیل PII به یک هش رمزنگاری با طول ثابت، که امکان جایگزینی مداوم را فراهم میکند در حالی که معکوس کردن آن از نظر محاسباتی غیرممکن است.
رمزنگاری
تبدیل PII با استفاده از رمزنگاری AES-256-GCM با یک کلید در اختیار کاربر، که امکان معکوسسازی مجاز (ناشناسزدایی) را در صورت نیاز فراهم میکند.
سؤالات متداول
تفاوت بین ناشناسسازی و پسو دونو میسازی چیست؟
ناشناسسازی بهطور غیرقابل بازگشت تمام اطلاعات شناساییکننده را حذف میکند، بنابراین شناسایی مجدد غیرممکن است. پسو دونو میسازی شناسهها را با شناسههای مصنوعی جایگزین میکند در حالی که یک کلید جداگانه را نگه میدارد که اجازه شناسایی مجدد را در صورت مجاز بودن میدهد. تحت GDPR، دادههای پسو دونو شده هنوز بهعنوان دادههای شخصی در نظر گرفته میشوند.
چرا تشخیص PII از هر دو NLP و شناسایی الگو استفاده میکند؟
مدلهای NLP موجودیتهای وابسته به زمینه مانند نامهای شخصی و مکانها را که فرمت ثابتی ندارند، شناسایی میکنند. شناساییکنندههای الگو از عبارات منظم برای شناسایی شناسههای ساختاریافته مانند شمارههای تأمین اجتماعی، شمارههای کارت اعتباری و شمارههای تلفن استفاده میکنند. ترکیب هر دو رویکرد دقت تشخیص را در تمام نوعهای موجودیت به حداکثر میرساند.
رمزنگاری بدون دانش چیست و چرا مهم است؟
رمزنگاری بدون دانش به این معنی است که تنها شما کلید رمزگشایی را در اختیار دارید — ارائهدهنده خدمات نمیتواند دادههای شما را بخواند. این مهم است زیرا حتی در صورت نقض سرور، دادههای رمزنگاریشده شما بدون کلید شما غیرقابل خواندن باقی میماند و قویترین حفاظت ممکن از دادهها را فراهم میکند.
چگونه رمزنگاری معکوسپذیر با هشزنی متفاوت است؟
هشزنی یک تبدیل یکطرفه است — پس از هش شدن داده، نمیتوان آن را بازیابی کرد. رمزنگاری معکوسپذیر (با استفاده از AES-256-GCM) به کاربران مجاز با کلید صحیح اجازه میدهد تا داده اصلی را رمزگشایی و بازیابی کنند، که امکان کارکردهایی را فراهم میکند که در آن ناشناسزدایی لازم است.