Glosario de PII y Privacidad de Datos
Definiciones claras de los términos clave de privacidad, cumplimiento y protección de datos utilizados en la industria.
Términos de Privacidad y Cumplimiento
Información Personalmente Identificable (PII)
Cualquier dato que pueda identificar a un individuo específico, como nombres, direcciones de correo electrónico, números de seguridad social o números de teléfono.
Anonimización
El proceso irreversible de alterar datos para que los individuos no puedan ser identificados, directa o indirectamente.
Seudonimización
Reemplazar datos identificables con identificadores artificiales (seudónimos) de modo que la reidentificación requiera una clave mantenida por separado.
Desidentificación
Eliminar u oscurecer identificadores personales de los datos para que ya no se puedan vincular a un individuo específico sin información adicional.
Sujeto de Datos
Una persona natural identificada o identificable cuyos datos personales son procesados por un controlador o procesador.
Controlador de Datos
La entidad que determina los fines y medios del procesamiento de datos personales.
Procesador de Datos
Una entidad que procesa datos personales en nombre de un controlador de datos, siguiendo las instrucciones del controlador.
Consentimiento
Una indicación libre, específica, informada y no ambigua del acuerdo de un sujeto de datos para el procesamiento de sus datos personales.
Base Legal
Un fundamento legal bajo el cual se permite el procesamiento de datos personales, como el consentimiento, la necesidad contractual, la obligación legal o el interés legítimo.
Minimización de Datos
El principio de que los datos personales recopilados deben ser adecuados, relevantes y limitados a lo que es necesario para su propósito previsto.
Derecho a la Supresión
El derecho de un sujeto de datos a que se eliminen sus datos personales cuando ya no son necesarios, también conocido como el 'derecho al olvido' bajo el GDPR.
Portabilidad de Datos
El derecho de los sujetos de datos a recibir sus datos personales en un formato estructurado, de uso común y a transferirlos a otro controlador.
Delegado de Protección de Datos (DPO)
Una persona designada responsable de supervisar la estrategia de protección de datos de una organización y garantizar el cumplimiento de las regulaciones de privacidad.
Evaluación de Impacto en la Protección de Datos (DPIA)
Un proceso para identificar y minimizar los riesgos de protección de datos de un proyecto, requerido bajo el GDPR para actividades de procesamiento de alto riesgo.
Violación de Datos
Un incidente de seguridad donde los datos personales son accedidos, divulgados, alterados o destruidos sin autorización.
IA de las sombras
Uso no autorizado de herramientas de IA (ChatGPT, Copilot, Gemini) por parte de empleados sin la aprobación de TI. La IA en la sombra es una de las principales causas de la filtración de datos de PII, ya que los usuarios pegan datos comerciales confidenciales (registros de clientes, información de pacientes, datos financieros) directamente en las indicaciones de la IA.
Minimización de datos
Un principio GDPR (Art. 5(1)(c)) que exige a las organizaciones recopilar y procesar solo los datos personales mínimos necesarios para un propósito específico. En los sistemas de IA, la minimización de datos significa anonimizar o eliminar la PII antes de que los datos entren en los canales de IA, lo que reduce el riesgo de cumplimiento y la superficie de infracción.
Marcos Regulatorios
GDPR (Reglamento General de Protección de Datos)
El reglamento de la UE que rige el procesamiento de datos personales de individuos dentro del Espacio Económico Europeo, vigente desde mayo de 2018.
CCPA (Ley de Privacidad del Consumidor de California)
Una ley estatal de California que otorga a los consumidores derechos sobre su información personal recopilada por empresas, vigente desde enero de 2020.
HIPAA (Ley de Portabilidad y Responsabilidad de Seguros de Salud)
Una ley federal de EE. UU. que establece estándares para proteger la información de salud sensible de los pacientes contra la divulgación sin consentimiento.
ISO 27001
Un estándar internacional para sistemas de gestión de seguridad de la información (ISMS), que especifica requisitos para establecer, implementar y mejorar continuamente los controles de seguridad.
SOC 2 (Controles de Sistema y Organización 2)
Un marco de auditoría para organizaciones de servicios que evalúa controles relacionados con la seguridad, disponibilidad, integridad del procesamiento, confidencialidad y privacidad.
EU AI Act
Reglamento de la Unión Europea sobre inteligencia artificial (en vigor desde agosto de 2026). Los sistemas de IA de alto riesgo deben implementar medidas de gobernanza de datos que incluyan la minimización de datos personales, la documentación y la EIPD. Las organizaciones que utilizan IA para la toma de decisiones sobre individuos deben garantizar que los datos de capacitación sean anónimos o seudonimizados.
ISO 42001
Estándar internacional para sistemas de gestión de IA (AIMS), publicado en 2023. Proporciona un marco para el desarrollo y la implementación responsable de la IA, incluida la calidad de los datos, los controles de sesgo y las salvaguardas de la privacidad. A menudo se combina con ISO 27001 para organizaciones que operan sistemas de IA con datos personales.
India DPDP Act
Ley de Protección de Datos Personales Digitales de la India (2023), en vigor a partir de 2025. Requiere consentimiento explícito para el procesamiento de datos personales de residentes de la India, localización de datos confidenciales y notificación de violaciones en un plazo de 72 horas. Se aplica a organizaciones a nivel mundial que procesan datos de ciudadanos indios.
Términos Técnicos
Reconocimiento de Entidades Nombradas (NER)
Una técnica de NLP que identifica y clasifica entidades nombradas en texto en categorías predefinidas como nombres de personas, ubicaciones y organizaciones.
Procesamiento de Lenguaje Natural (NLP)
Una rama de la inteligencia artificial que permite a las computadoras entender, interpretar y generar lenguaje humano.
Reconocedor de Patrones
Un detector basado en reglas que utiliza expresiones regulares y pistas contextuales para identificar patrones de datos específicos, como números de tarjetas de crédito o números de seguridad social.
Puntuación de Confianza
Un valor numérico entre 0 y 1 que indica cuán seguro está un motor de detección de que un fragmento de texto coincide con un tipo de entidad específico.
Expresión Regular (Regex)
Una secuencia de caracteres que define un patrón de búsqueda, comúnmente utilizada para validar y detectar formatos de datos estructurados como números de teléfono o direcciones de correo electrónico.
AES-256-GCM
Un algoritmo de cifrado autenticado que utiliza una clave de 256 bits con modo Galois/Counter, proporcionando tanto confidencialidad como verificación de integridad de los datos cifrados.
Cifrado de Conocimiento Cero
Una arquitectura de cifrado donde solo el usuario posee la clave de descifrado, lo que significa que incluso el proveedor de servicios no puede acceder a los datos en texto claro.
Tokenización
Reemplazar datos sensibles con tokens de marcador no sensibles que pueden ser mapeados de nuevo a los datos originales a través de una búsqueda segura.
Enmascaramiento de Datos
Oscurecer datos específicos dentro de un conjunto de datos para que la información sensible esté oculta mientras los datos siguen siendo utilizables para pruebas o análisis.
Redacción
La eliminación permanente de información sensible de un documento o conjunto de datos, reemplazándola con un marcador como [REDACTED].
Datos sintéticos
Datos generados por IA que imitan estadísticamente datos reales sin contener registros reales. En comparación con la anonimización: los datos anónimos preservan una mayor precisión analítica para el aprendizaje automático posterior; Los datos sintéticos eliminan el riesgo de reidentificación pero introducen una deriva estadística. Se prefiere la anonimización reversible cuando se puedan necesitar registros originales para auditorías de cumplimiento.
Inyección inmediata de LLM
Una técnica de ataque en la que entradas maliciosas manipulan un modelo de lenguaje grande para ignorar instrucciones o filtrar información confidencial. En contextos de protección de PII, la inyección rápida puede hacer que un modelo de IA revele patrones de datos anonimizados o información del usuario. La anonimización previa de las entradas antes de que lleguen a los LLM reduce la superficie de ataque.
Privacidad por diseño
A GDPR Arte. 25 principio que exige que la protección de datos se integre en los sistemas desde cero en lugar de agregarla como una ocurrencia tardía. Para los sistemas de IA, la privacidad por diseño significa anonimizar los datos antes de que ingresen a los canales de IA, implementar cifrado de conocimiento cero y minimizar la retención de datos.
Métodos de Anonimización
Reemplazar
Sustituye PII detectada con un marcador genérico del mismo tipo de entidad, como reemplazar 'John Smith' con '<PERSON>'.
Enmascarar
Oscurece parcialmente PII reemplazando caracteres con símbolos de enmascaramiento, por ejemplo, convirtiendo '123-45-6789' en '***-**-6789'.
Redactar
Elimina completamente PII detectada del texto, sin dejar rastro del valor original.
Hash
Convierte PII en un hash criptográfico de longitud fija, permitiendo un reemplazo consistente mientras hace que la reversión sea computacionalmente inviable.
Cifrar
Transforma PII utilizando cifrado AES-256-GCM con una clave en posesión del usuario, permitiendo la reversión autorizada (de-anonimización) cuando sea necesario.
Preguntas Frecuentes
¿Cuál es la diferencia entre anonimización y seudonimización?
La anonimización elimina de forma irreversible toda la información identificativa, por lo que la reidentificación es imposible. La seudonimización reemplaza identificadores con artificiales mientras mantiene una clave separada que permite la reidentificación cuando está autorizada. Bajo el GDPR, los datos seudonimizados aún se consideran datos personales.
¿Por qué la detección de PII utiliza tanto NLP como reconocedores de patrones?
Los modelos de NLP detectan entidades dependientes del contexto, como nombres de personas y ubicaciones que carecen de un formato fijo. Los reconocedores de patrones utilizan expresiones regulares para capturar identificadores estructurados como números de seguridad social, números de tarjetas de crédito y números de teléfono. Combinar ambos enfoques maximiza la precisión de detección en todos los tipos de entidades.
¿Qué es el cifrado de conocimiento cero y por qué es importante?
El cifrado de conocimiento cero significa que solo usted posee la clave de descifrado: el proveedor de servicios no puede leer sus datos. Esto es importante porque incluso en caso de una violación del servidor, sus datos cifrados permanecen ilegibles sin su clave, proporcionando la máxima protección de datos posible.
¿Cómo difiere el cifrado reversible del hashing?
El hashing es una transformación unidireccional: una vez que los datos son hashados, no se puede recuperar el original. El cifrado reversible (usando AES-256-GCM) permite a los usuarios autorizados con la clave correcta descifrar y recuperar los datos originales, habilitando flujos de trabajo donde se necesita la de-anonimización.