Regex en premier : Pourquoi c'est important
Notre approche : Regex + NLP
- 317 reconnaisseurs regex : 100 % reproductibles pour les données structurées
- NLP pour les noms et lieux avec scores de confiance
- Entièrement auditable — chaque détection est traçable à un motif ou un modèle
- Transparent : vous savez toujours ce qui a été détecté et pourquoi
- Performance rapide et prévisible
- 48 langues prises en charge par 3 moteurs NLP
Approches uniquement IA
- Toutes les détections sont probabilistes
- Impossible d'expliquer pourquoi un élément a été signalé
- Nécessite de grands ensembles de données d'entraînement
- Difficile à auditer pour la conformité
- Coûts de calcul plus élevés (GPU requis)
- La dérive du modèle réduit la précision avec le temps
Le processus en 10 étapes
De l'entrée à la sortie, voici exactement ce qui arrive à votre document
Texte d'entrée
Soumettez votre document via l'interface web, l'API ou le module Office
Détection de la langue
Le système identifie la langue du document pour un traitement optimal
Tokenisation
Le texte est découpé en jetons pour la correspondance de motifs
Correspondance de motifs
317 reconnaisseurs regex et modèles NLP analysent plus de 320 types d'entités dans plus de 70 pays
Analyse du contexte
Le texte environnant améliore la précision de la détection
Score de confiance
Chaque détection reçoit un score de confiance (0,0–1,0) permettant la validation humaine
Classification des entités
Les éléments détectés sont catégorisés par type
Validation humaine
Vérifiez toutes les détections, corrigez les faux positifs et validez avant l'anonymisation
Appliquer l'anonymisation
Choisissez votre méthode : Remplacer, Masquer, Hacher, Chiffrer ou Cacher
Document de sortie
Téléchargez votre document anonymisé
Serveur MCP : Intégration IA axée sur la confidentialité
Comment vos données transitent par le serveur MCP pour sécuriser les outils IA
Le serveur MCP agit comme un bouclier de confidentialité, interceptant les requêtes des outils IA, anonymisant les PII, traitant les données sûres via l'IA, et rétablissant éventuellement les valeurs d'origine.
Requête de l'outil IA
Votre outil IA (Cursor, Claude) envoie une requête contenant des PII
Interception par le serveur MCP
Le serveur analyse et détecte toutes les entités PII
Anonymisation
Les PII sont remplacées par des jetons ou masquées
Traitement IA
L'IA reçoit et traite uniquement les données anonymisées
Retour de la réponse
La réponse IA revient via le serveur MCP
Dé-tokenisation
Optionnel : les valeurs d'origine sont restaurées pour l'utilisateur
Questions fréquentes
cloak.business utilise-t-il l'IA pour la détection ?
Non. La détection utilise des motifs regex déterministes et des modèles NLP (spaCy, Stanza). Cela garantit des résultats 100 % reproductibles — la même entrée produit toujours la même sortie, contrairement aux approches IA probabilistes.
Pourquoi utiliser des motifs regex plutôt que l'IA ?
Les motifs regex sont auditables, reproductibles et conformes. Vous pouvez vérifier précisément ce que chaque motif détecte. La détection basée sur l'IA est non déterministe — les résultats peuvent varier, ce qui complique la documentation de conformité.
Quelle est la précision de la détection ?
Avec 317 reconnaisseurs personnalisés incluant la validation de contrôle (Luhn, IBAN, SSN), cloak.business atteint une précision nettement supérieure aux modèles NER génériques, notamment pour les identifiants structurés comme les cartes bancaires, les numéros fiscaux et les numéros d'identité nationaux.
Quelles langues sont prises en charge ?
48 langues sont prises en charge avec des modèles NLP dédiés pour la reconnaissance d'entités nommées. La détection basée sur les motifs (regex) fonctionne dans toutes les langues car elle correspond aux motifs de caractères indépendamment de la langue.
Puis-je ajouter des motifs d'entités personnalisés ?
Oui. L'API prend en charge les définitions de reconnaisseurs personnalisés afin que vous puissiez ajouter des motifs pour des identifiants propriétaires, des numéros de référence internes ou des formats de données spécifiques à votre domaine.