واژه‌نامه اطلاعات شناسایی شخصی و حریم خصوصی

Q: تفاوت بین ناشناسسازی و پسو دونو میسازی چیست؟

ناشناسسازی بهطور غیرقابل بازگشت تمام اطلاعات شناساییکننده را حذف میکند، بنابراین شناسایی مجدد غیرممکن است. پسو دونو میسازی شناسهها را با شناسههای مصنوعی جایگزین میکند در حالی که یک کلید جداگانه را نگه میدارد که اجازه شناسایی مجدد را در صورت مجاز بودن میدهد. تحت GDPR، دادههای پسو دونو شده هنوز بهعنوان دادههای شخصی در نظر گرفته میشوند.

Q: چرا تشخیص PII از هر دو NLP و شناسایی الگو استفاده میکند؟

مدلهای NLP موجودیتهای وابسته به زمینه مانند نامهای شخصی و مکانها را که فرمت ثابتی ندارند، شناسایی میکنند. شناساییکنندههای الگو از عبارات منظم برای شناسایی شناسههای ساختاریافته مانند شمارههای تأمین اجتماعی، شمارههای کارت اعتباری و شمارههای تلفن استفاده میکنند. ترکیب هر دو رویکرد دقت تشخیص را در تمام نوعهای موجودیت به حداکثر میرساند.

Q: چگونه رمزنگاری معکوسپذیر با هشزنی متفاوت است؟

هشزنی یک تبدیل یکطرفه است — پس از هش شدن داده، نمیتوان آن را بازیابی کرد. رمزنگاری معکوسپذیر (با استفاده از AES-256-GCM) به کاربران مجاز با کلید صحیح اجازه میدهد تا داده اصلی را رمزگشایی و بازیابی کنند، که امکان کارکردهایی را فراهم میکند که در آن ناشناسزدایی لازم است.

تعاریف واضح از اصطلاحات کلیدی حریم خصوصی، انطباق و حفاظت از داده‌ها که در صنعت استفاده می‌شود.

اصطلاحات حریم خصوصی و انطباق

اطلاعات شناسایی شخصی (PII)

هر داده‌ای که می‌تواند یک فرد خاص را شناسایی کند، مانند نام‌ها، آدرس‌های ایمیل، شماره‌های تأمین اجتماعی یا شماره‌های تلفن.

ناشناس‌سازی

فرآیند غیرقابل بازگشت تغییر داده‌ها به‌گونه‌ای که افراد نتوانند به‌طور مستقیم یا غیرمستقیم شناسایی شوند.

پسو دونو می‌سازی

جایگزینی داده‌های شناسایی‌شده با شناسه‌های مصنوعی (پسو دونو) به‌گونه‌ای که شناسایی مجدد نیاز به یک کلید جداگانه داشته باشد.

حذف شناسایی

حذف یا پنهان‌سازی شناسایی‌های شخصی از داده‌ها به‌گونه‌ای که دیگر نتوان آن را به یک فرد خاص مرتبط کرد بدون اطلاعات اضافی.

موضوع داده

شخص طبیعی شناسایی‌شده یا قابل شناسایی که داده‌های شخصی او توسط یک کنترل‌کننده یا پردازشگر پردازش می‌شود.

کنترل‌کننده داده

نهادی که اهداف و روش‌های پردازش داده‌های شخصی را تعیین می‌کند.

پردازشگر داده

نهادی که داده‌های شخصی را به نمایندگی از یک کنترل‌کننده داده پردازش می‌کند و از دستورالعمل‌های کنترل‌کننده پیروی می‌کند.

رضایت

نشانه‌ای آزادانه، خاص، آگاهانه و بدون ابهام از توافق یک موضوع داده برای پردازش داده‌های شخصی او.

پایه قانونی

زمینه قانونی که تحت آن پردازش داده‌های شخصی مجاز است، مانند رضایت، ضرورت قرارداد، تعهد قانونی یا منافع مشروع.

حداقل‌سازی داده

اصطلاحی که بیان می‌کند داده‌های شخصی جمع‌آوری‌شده باید کافی، مرتبط و محدود به آنچه برای هدف مورد نظر لازم است، باشد.

حق به حذف

حق یک موضوع داده برای حذف داده‌های شخصی او زمانی که دیگر لازم نیست، که به‌عنوان 'حق فراموش شدن' تحت GDPR نیز شناخته می‌شود.

قابلیت انتقال داده

حق موضوعات داده برای دریافت داده‌های شخصی خود در یک فرمت ساختاریافته و معمولاً استفاده‌شده و انتقال آن به یک کنترل‌کننده دیگر.

مسئول حفاظت از داده (DPO)

فردی که به‌طور مشخص مسئول نظارت بر استراتژی حفاظت از داده‌های یک سازمان و اطمینان از انطباق با مقررات حریم خصوصی است.

ارزیابی تأثیر حفاظت از داده (DPIA)

فرآیندی برای شناسایی و کاهش ریسک‌های حفاظت از داده یک پروژه، که تحت GDPR برای فعالیت‌های پردازش با ریسک بالا الزامی است.

نقص داده

یک حادثه امنیتی که در آن داده‌های شخصی بدون مجوز دسترسی، افشا، تغییر یا نابود می‌شوند.

سایه هوش مصنوعی

استفاده غیرمجاز از ابزارهای هوش مصنوعی (ChatGPT، Copilot، Gemini) توسط کارمندان بدون تایید IT. Shadow AI یکی از دلایل اصلی نشت داده‌های PII است، زیرا کاربران داده‌های حساس تجاری - سوابق مشتری، اطلاعات بیمار، داده‌های مالی - را مستقیماً در درخواست‌های هوش مصنوعی قرار می‌دهند.

حداقل سازی داده ها

یک اصل GDPR (Art. 5(1)(c)) که سازمان ها را ملزم می کند فقط حداقل داده های شخصی لازم برای یک هدف خاص را جمع آوری و پردازش کنند. در سیستم‌های هوش مصنوعی، به حداقل رساندن داده‌ها به معنای ناشناس کردن یا حذف PII قبل از ورود داده‌ها به خطوط لوله هوش مصنوعی است، که خطر انطباق و سطح نقض را کاهش می‌دهد.

چارچوب‌های قانونی

GDPR (مقررات عمومی حفاظت از داده)

مقررات اتحادیه اروپا که بر پردازش داده‌های شخصی افراد در منطقه اقتصادی اروپا حاکم است و از مه 2018 اجرایی شده است.

CCPA (قانون حریم خصوصی مصرف‌کنندگان کالیفرنیا)

قانون ایالتی کالیفرنیا که به مصرف‌کنندگان حقوقی بر اطلاعات شخصی خود که توسط کسب‌وکارها جمع‌آوری می‌شود، اعطا می‌کند و از ژانویه 2020 اجرایی شده است.

HIPAA (قانون قابلیت انتقال و مسئولیت بیمه سلامت)

قانون فدرال ایالات متحده که استانداردهایی برای حفاظت از اطلاعات حساس سلامت بیماران در برابر افشا بدون رضایت تعیین می‌کند.

ISO 27001

استاندارد بین‌المللی برای سیستم‌های مدیریت امنیت اطلاعات (ISMS) که الزامات لازم برای ایجاد، پیاده‌سازی و بهبود مستمر کنترل‌های امنیتی را مشخص می‌کند.

SOC 2 (کنترل‌های سیستم و سازمان 2)

چارچوبی برای حسابرسی سازمان‌های خدماتی که کنترل‌های مربوط به امنیت، در دسترس بودن، یکپارچگی پردازش، محرمانگی و حریم خصوصی را ارزیابی می‌کند.

EU AI Act

مقررات اتحادیه اروپا در مورد هوش مصنوعی (اجرا شده از اوت 2026). سیستم‌های هوش مصنوعی پرخطر باید اقدامات حاکمیتی داده‌ها از جمله به حداقل رساندن داده‌های شخصی، مستندسازی و DPIA را اجرا کنند. سازمان هایی که از هوش مصنوعی برای تصمیم گیری در مورد افراد استفاده می کنند باید اطمینان حاصل کنند که داده های آموزشی ناشناس یا مستعار هستند.

ISO 42001

استاندارد بین‌المللی برای سیستم‌های مدیریت هوش مصنوعی (AIMS)، منتشر شده در سال 2023. چارچوبی برای توسعه و استقرار مسئول هوش مصنوعی، از جمله کیفیت داده‌ها، کنترل‌های سوگیری، و حفاظت از حریم خصوصی ارائه می‌کند. اغلب با ISO 27001 برای سازمان هایی که سیستم های هوش مصنوعی را با داده های شخصی کار می کنند، جفت می شود.

هند DPDP Act

قانون حفاظت از داده‌های شخصی دیجیتال هند (2023)، که از سال 2025 اجرا می‌شود. برای پردازش داده‌های شخصی ساکنان هند، محلی‌سازی داده‌ها برای داده‌های حساس و اعلان نقض ظرف 72 ساعت به رضایت صریح نیاز دارد. برای سازمان هایی در سطح جهانی که داده های شهروندان هندی را پردازش می کنند، اعمال می شود.

اصطلاحات فنی

شناسایی موجودیت نام‌دار (NER)

یک تکنیک NLP که موجودیت‌های نام‌دار را در متن شناسایی و طبقه‌بندی می‌کند به دسته‌های از پیش تعریف‌شده مانند نام‌های شخصی، مکان‌ها و سازمان‌ها.

پردازش زبان طبیعی (NLP)

شاخه‌ای از هوش مصنوعی که به کامپیوترها امکان می‌دهد زبان انسانی را درک، تفسیر و تولید کنند.

شناسایی الگو

یک تشخیص‌دهنده مبتنی بر قاعده که از عبارات منظم و نشانه‌های زمینه‌ای برای شناسایی الگوهای خاص داده، مانند شماره‌های کارت اعتباری یا شماره‌های تأمین اجتماعی استفاده می‌کند.

نمره اطمینان

یک مقدار عددی بین 0 و 1 که نشان می‌دهد یک موتور تشخیص چقدر مطمئن است که یک قطعه متن با یک نوع موجودیت خاص مطابقت دارد.

عبارت منظم (Regex)

یک دنباله از کاراکترها که یک الگوی جستجو را تعریف می‌کند و معمولاً برای اعتبارسنجی و شناسایی فرمت‌های داده ساختاریافته مانند شماره‌های تلفن یا آدرس‌های ایمیل استفاده می‌شود.

AES-256-GCM

یک الگوریتم رمزنگاری معتبر که از یک کلید 256 بیتی با حالت Galois/Counter استفاده می‌کند و همزمان محرمانگی و تأیید یکپارچگی داده‌های رمزنگاری‌شده را فراهم می‌کند.

رمزنگاری بدون دانش

یک معماری رمزنگاری که تنها کاربر کلید رمزگشایی را در اختیار دارد، به این معنی که حتی ارائه‌دهنده خدمات نمی‌تواند به داده‌های متن باز دسترسی پیدا کند.

توکن‌سازی

جایگزینی داده‌های حساس با توکن‌های غیرحساس که می‌توانند از طریق یک جستجوی امن به داده‌های اصلی متصل شوند.

پنهان‌سازی داده

پنهان کردن داده‌های خاص در یک مجموعه داده به‌گونه‌ای که اطلاعات حساس پنهان شود در حالی که داده برای آزمایش یا تحلیل قابل استفاده باقی می‌ماند.

حذف

حذف دائمی اطلاعات حساس از یک سند یا مجموعه داده، و جایگزینی آن با یک علامت مانند [REDACTED].

داده های مصنوعی

داده‌های تولید شده توسط هوش مصنوعی که از نظر آماری داده‌های واقعی را بدون داشتن سوابق واقعی تقلید می‌کنند. در مقایسه با ناشناس سازی: داده های ناشناس دقت تحلیلی بالاتری را برای ML پایین دست حفظ می کند. داده‌های مصنوعی خطر شناسایی مجدد را حذف می‌کند اما رانش آماری را معرفی می‌کند. زمانی که ممکن است برای ممیزی انطباق به سوابق اصلی نیاز باشد، ناشناس سازی برگشت پذیر ترجیح داده می شود.

LLM Prompt Injection

یک تکنیک حمله که در آن ورودی مخرب یک مدل زبان بزرگ را دستکاری می کند تا دستورالعمل ها را نادیده بگیرد یا اطلاعات حساس را افشا کند. در زمینه های حفاظتی PII، تزریق سریع می تواند باعث شود یک مدل هوش مصنوعی الگوهای داده های ناشناس یا اطلاعات کاربر را نشان دهد. ناشناس کردن ورودی‌ها قبل از رسیدن به LLM سطح حمله را کاهش می‌دهد.

حریم خصوصی بر اساس طراحی

یک اصل GDPR Art. 25 که مستلزم آن است که حفاظت از داده ها از ابتدا در سیستم ها ساخته شود تا اینکه به عنوان یک فکر بعدی اضافه شود. برای سیستم های هوش مصنوعی، حریم خصوصی به طراحی به معنای ناشناس کردن داده ها قبل از ورود به خطوط لوله هوش مصنوعی، اجرای رمزگذاری دانش صفر و به حداقل رساندن حفظ داده ها است.

روش‌های ناشناس‌سازی

جایگزینی

جایگزینی PII شناسایی‌شده با یک جایگزین عمومی از همان نوع موجودیت، مانند جایگزینی 'جان اسمیت' با '<PERSON>'.

پنهان‌سازی

به‌طور جزئی PII را با جایگزینی کاراکترها با نمادهای پنهان‌سازی، به‌عنوان مثال تبدیل '123-45-6789' به '***-**-6789' پنهان می‌کند.

حذف

به‌طور کامل PII شناسایی‌شده را از متن حذف می‌کند و هیچ نشانه‌ای از مقدار اصلی باقی نمی‌گذارد.

هش

تبدیل PII به یک هش رمزنگاری با طول ثابت، که امکان جایگزینی مداوم را فراهم می‌کند در حالی که معکوس کردن آن از نظر محاسباتی غیرممکن است.

رمزنگاری

تبدیل PII با استفاده از رمزنگاری AES-256-GCM با یک کلید در اختیار کاربر، که امکان معکوس‌سازی مجاز (ناشناس‌زدایی) را در صورت نیاز فراهم می‌کند.

سؤالات متداول

تفاوت بین ناشناس‌سازی و پسو دونو می‌سازی چیست؟

ناشناس‌سازی به‌طور غیرقابل بازگشت تمام اطلاعات شناسایی‌کننده را حذف می‌کند، بنابراین شناسایی مجدد غیرممکن است. پسو دونو می‌سازی شناسه‌ها را با شناسه‌های مصنوعی جایگزین می‌کند در حالی که یک کلید جداگانه را نگه می‌دارد که اجازه شناسایی مجدد را در صورت مجاز بودن می‌دهد. تحت GDPR، داده‌های پسو دونو شده هنوز به‌عنوان داده‌های شخصی در نظر گرفته می‌شوند.

چرا تشخیص PII از هر دو NLP و شناسایی الگو استفاده می‌کند؟

مدل‌های NLP موجودیت‌های وابسته به زمینه مانند نام‌های شخصی و مکان‌ها را که فرمت ثابتی ندارند، شناسایی می‌کنند. شناسایی‌کننده‌های الگو از عبارات منظم برای شناسایی شناسه‌های ساختاریافته مانند شماره‌های تأمین اجتماعی، شماره‌های کارت اعتباری و شماره‌های تلفن استفاده می‌کنند. ترکیب هر دو رویکرد دقت تشخیص را در تمام نوع‌های موجودیت به حداکثر می‌رساند.

رمزنگاری بدون دانش چیست و چرا مهم است؟

رمزنگاری بدون دانش به این معنی است که تنها شما کلید رمزگشایی را در اختیار دارید — ارائه‌دهنده خدمات نمی‌تواند داده‌های شما را بخواند. این مهم است زیرا حتی در صورت نقض سرور، داده‌های رمزنگاری‌شده شما بدون کلید شما غیرقابل خواندن باقی می‌ماند و قوی‌ترین حفاظت ممکن از داده‌ها را فراهم می‌کند.

چگونه رمزنگاری معکوس‌پذیر با هش‌زنی متفاوت است؟

هش‌زنی یک تبدیل یک‌طرفه است — پس از هش شدن داده، نمی‌توان آن را بازیابی کرد. رمزنگاری معکوس‌پذیر (با استفاده از AES-256-GCM) به کاربران مجاز با کلید صحیح اجازه می‌دهد تا داده اصلی را رمزگشایی و بازیابی کنند، که امکان کارکردهایی را فراهم می‌کند که در آن ناشناس‌زدایی لازم است.

امروز داده‌های حساس را محافظت کنید

با 317 نوع موجودیت، 48 زبان و رمزنگاری بدون دانش، ناشناس‌سازی PII را آغاز کنید.