Pourquoi Regex en premier ?
Pour la conformité réglementaire, vous avez besoin de résultats explicables et reproductibles. Notre approche regex garantit une détection déterministe des données structurées, tandis que le NLP gère les noms et lieux avec des scores de confiance transparents.
Comparaison détaillée
| Regex en premier (Nous) | Basé sur IA/ML | |
|---|---|---|
| Reproductibilité | Données structurées : 100 % identiques. Noms : score de confiance | Tous les résultats varient entre les exécutions |
| Auditabilité | Chaque détection est traçable à un motif ou un modèle NLP | Boîte noire — impossible d'expliquer les décisions |
| Données d'entraînement | Regex : aucune. NLP : modèles pré-entraînés inclus | Nécessite des jeux de données d'entraînement personnalisés |
| Dérive du modèle | Regex : aucune. NLP : modèles versionnés et stables | Se détériore de façon imprévisible avec le temps |
| Performance | Rapide, uniquement CPU | Variable, dépend du GPU |
| Coût de calcul | Faible (CPU uniquement) | Élevé (GPU souvent requis) |
| Conformité réglementaire | Facile — motifs + scores de confiance auditables avec supervision humaine | Difficile à prouver aux régulateurs |
Fonctionnement de la correspondance de motifs
Chaque type d'entité possède des motifs regex soigneusement conçus pour correspondre à des formats spécifiques.
Adresses e-mail
Correspond au format standard : local-part@domaine.tld
Numéros de carte bancaire
Correspond aux formats Visa, Mastercard, Amex et autres avec validation Luhn
IBAN allemand
Correspond au format IBAN allemand avec espaces optionnels
Conçu pour la conformité
Lorsque les auditeurs demandent « pourquoi cela a-t-il été détecté ? », vous avez besoin d'une réponse claire. Les détections regex sont traçables à un motif précis. Les détections NLP incluent le nom du modèle et le score de confiance. La validation humaine garantit que les équipes conformité peuvent corriger avant l'anonymisation.
- RGPD Article 25 : Confidentialité dès la conception avec traitement explicable
- ISO 27001 : Processus documentés et reproductibles
- Piste d'audit : chaque détection peut être tracée à un motif précis
Exemple de réponse d'audit
Q : Pourquoi « john.smith@company.com » a-t-il été signalé ?
R : Correspondance avec le motif e-mail à la position 45-68 avec une confiance de 0,95. Motif : validation du format e-mail standard.