Comment fonctionne PII Regex-First

Détection PII basée sur Regex : 317 reconnaisseurs de motifs déterministes pour les données structurées (identifiants, numéros fiscaux, cartes bancaires), ainsi que spaCy, Stanza et XLM-RoBERTa NLP pour les noms et les lieux dans 48 langues.

Essayer gratuitement Documentation technique

Regex en premier : Pourquoi c'est important

Notre approche : Regex + NLP

317 reconnaisseurs regex : 100 % reproductibles pour les données structurées
NLP pour les noms et lieux avec scores de confiance
Entièrement auditable — chaque détection est traçable à un motif ou un modèle
Transparent : vous savez toujours ce qui a été détecté et pourquoi
Performance rapide et prévisible
48 langues prises en charge par 3 moteurs NLP

Approches uniquement IA

Toutes les détections sont probabilistes
Impossible d'expliquer pourquoi un élément a été signalé
Nécessite de grands ensembles de données d'entraînement
Difficile à auditer pour la conformité
Coûts de calcul plus élevés (GPU requis)
La dérive du modèle réduit la précision avec le temps

Le processus en 10 étapes

De l'entrée à la sortie, voici exactement ce qui arrive à votre document

Texte d'entrée

Soumettez votre document via l'interface web, l'API ou le module Office

Détection de la langue

Le système identifie la langue du document pour un traitement optimal

Tokenisation

Le texte est découpé en jetons pour la correspondance de motifs

Correspondance de motifs

317 reconnaisseurs regex et modèles NLP analysent 317 types d'entités dans plus de 70 pays

Analyse du contexte

Le texte environnant améliore la précision de la détection

Score de confiance

Chaque détection reçoit un score de confiance (0,0–1,0) permettant la validation humaine

Classification des entités

Les éléments détectés sont catégorisés par type

Validation humaine

Vérifiez toutes les détections, corrigez les faux positifs et validez avant l'anonymisation

Appliquer l'anonymisation

Choisissez votre méthode : Remplacer, Masquer, Hacher, Chiffrer ou Cacher

Document de sortie

Téléchargez votre document anonymisé

Serveur MCP : Intégration IA axée sur la confidentialité

Comment vos données transitent par le serveur MCP pour sécuriser les outils IA

Le serveur MCP agit comme un bouclier de confidentialité, interceptant les requêtes des outils IA, anonymisant les PII, traitant les données sûres via l'IA, et rétablissant éventuellement les valeurs d'origine.

Requête de l'outil IA

Votre outil IA (Cursor, Claude) envoie une requête contenant des PII

Interception par le serveur MCP

Le serveur analyse et détecte toutes les entités PII

Anonymisation

Les PII sont remplacées par des jetons ou masquées

Traitement IA

L'IA reçoit et traite uniquement les données anonymisées

Retour de la réponse

La réponse IA revient via le serveur MCP

Dé-tokenisation

Optionnel : les valeurs d'origine sont restaurées pour l'utilisateur

En savoir plus sur le serveur MCP →

Explorer davantage

Technologie

Analyse approfondie de la détection regex et pourquoi elle est meilleure pour la conformité

Architecture

Architecture du système et fonctionnement des composants

Sécurité

Cinq couches de sécurité protègent vos données à chaque étape

Questions fréquentes

cloak.business utilise-t-il l'IA pour la détection ?

Non. La détection utilise des motifs regex déterministes et des modèles NLP (spaCy, Stanza). Cela garantit des résultats 100 % reproductibles — la même entrée produit toujours la même sortie, contrairement aux approches IA probabilistes.

Pourquoi utiliser des motifs regex plutôt que l'IA ?

Les motifs regex sont auditables, reproductibles et conformes. Vous pouvez vérifier précisément ce que chaque motif détecte. La détection basée sur l'IA est non déterministe — les résultats peuvent varier, ce qui complique la documentation de conformité.

Quelle est la précision de la détection ?

Avec 317 reconnaisseurs personnalisés incluant la validation de contrôle (Luhn, IBAN, SSN), cloak.business atteint une précision nettement supérieure aux modèles NER génériques, notamment pour les identifiants structurés comme les cartes bancaires, les numéros fiscaux et les numéros d'identité nationaux.

Quelles langues sont prises en charge ?

48 langues sont prises en charge avec des modèles NLP dédiés pour la reconnaissance d'entités nommées. La détection basée sur les motifs (regex) fonctionne dans toutes les langues car elle correspond aux motifs de caractères indépendamment de la langue.

Puis-je ajouter des motifs d'entités personnalisés ?

Oui. L'API prend en charge les définitions de reconnaisseurs personnalisés afin que vous puissiez ajouter des motifs pour des identifiants propriétaires, des numéros de référence internes ou des formats de données spécifiques à votre domaine.

Voir en action

Testez gratuitement notre détection et anonymisation PII avec 200 jetons par cycle.