¿Por qué Regex primero?
Para el cumplimiento normativo, necesita resultados que pueda explicar y reproducir. Nuestro enfoque basado en regex mantiene la detección de datos estructurados totalmente determinista, mientras que NLP gestiona nombres y ubicaciones con puntuaciones de confianza transparentes.
Comparación detallada
| Regex primero (Nosotros) | Basado en IA/ML | |
|---|---|---|
| Reproducibilidad | Datos estructurados: 100% idénticos. Nombres: puntuados por confianza | Todos los resultados varían entre ejecuciones |
| Auditabilidad | Cada detección es trazable a un patrón o modelo NLP | Caja negra: no se pueden explicar las decisiones |
| Datos de entrenamiento | Regex: ninguno. NLP: modelos preentrenados incluidos | Requiere conjuntos de datos de entrenamiento personalizados |
| Drift del modelo | Regex: ninguno. NLP: modelos versionados y estables | Se degrada de forma impredecible con el tiempo |
| Rendimiento | Rápido, solo CPU | Variable, depende de GPU |
| Costo de computación | Bajo (solo CPU) | Alto (a menudo requiere GPU) |
| Cumplimiento normativo | Fácil: los patrones y puntuaciones de confianza son auditables con supervisión humana | Difícil de demostrar ante reguladores |
Cómo funciona la coincidencia de patrones
Cada tipo de entidad tiene patrones regex cuidadosamente diseñados que coinciden con formatos específicos.
Direcciones de correo electrónico
Coincide con el formato estándar de correo: local-part@dominio.tld
Números de tarjeta de crédito
Coincide con formatos de Visa, Mastercard, Amex y otras tarjetas con validación Luhn
IBAN alemán
Coincide con el formato IBAN alemán con espacios opcionales
Diseñado para el cumplimiento
Cuando los auditores preguntan "¿por qué se detectó esto?" necesita una respuesta clara. Las detecciones por regex se trazan a un patrón específico. Las detecciones por NLP incluyen el nombre del modelo y la puntuación de confianza. La revisión humana garantiza que los equipos de cumplimiento puedan corregir antes de anonimizar.
- GDPR Artículo 25: Privacidad por diseño con procesamiento explicable
- ISO 27001: Procesos documentados y repetibles
- Trazabilidad: cada detección puede rastrearse a un patrón específico
Ejemplo de respuesta de auditoría
P: ¿Por qué se marcó "john.smith@company.com"?
R: Coincidió con el patrón de correo electrónico en la posición 45-68 con confianza 0.95. Patrón: validación de formato estándar de correo electrónico.