Per què Regex primer?
Per al compliment normatiu, necessita resultats que pugui explicar i reproduir. El nostre enfocament regex primer manté la detecció de dades estructurades totalment determinista, mentre que el NLP gestiona noms i localitzacions amb puntuacions de confiança transparents.
Comparativa detallada
| Regex primer (Nosaltres) | Basat en IA/ML | |
|---|---|---|
| Reproductibilitat | Dades estructurades: 100% idèntiques. Noms: puntuació de confiança | Tots els resultats varien entre execucions |
| Auditabilitat | Cada detecció és traçable a un patró o model NLP | Caixa negra — no es poden explicar les decisions |
| Dades d'entrenament | Regex: cap. NLP: models preentrenats inclosos | Requereix conjunts de dades d'entrenament personalitzats |
| Model Drift | Regex: cap. NLP: models versionats i estables | Empitjora de manera imprevisible amb el temps |
| Rendiment | Ràpid, només CPU | Variable, depenent de GPU |
| Cost computacional | Baix (només CPU) | Alt (sovint cal GPU) |
| Compliment normatiu | Fàcil — patrons + puntuacions de confiança auditables amb supervisió humana | Difícil de demostrar als reguladors |
Com funciona la cerca de patrons
Cada tipus d'entitat té patrons regex dissenyats acuradament que coincideixen amb formats específics.
Adreces de correu electrònic
Coincideix amb el format estàndard d'email: local-part@domini.tld
Números de targeta de crèdit
Coincideix amb formats de Visa, Mastercard, Amex i altres targetes amb validació Luhn
IBAN alemany
Coincideix amb el format d'IBAN alemany amb espais opcionals
Dissenyat per al compliment normatiu
Quan els auditors pregunten "per què s'ha detectat això?" necessita una resposta clara. Les deteccions regex es poden traçar a un patró específic. Les deteccions NLP inclouen el nom del model i la puntuació de confiança. La revisió humana garanteix que els equips de compliment puguin anul·lar deteccions abans de l'anonimització.
- GDPR Article 25: Privacitat des del disseny amb processament explicable
- ISO 27001: Processos documentats i repetibles
- Traça d'auditoria: Cada detecció es pot traçar a un patró específic
Exemple de resposta d'auditoria
P: Per què s'ha marcat "john.smith@company.com"?
R: Coincidència amb el patró d'email a la posició 45-68 amb confiança 0.95. Patró: validació de format d'email estàndard.