Por Que Regex-First?
Para conformidade regulatória, você precisa de resultados explicáveis e reprodutíveis. Nossa abordagem regex-first mantém a detecção de dados estruturados totalmente determinística, enquanto o NLP trata nomes e localizações com pontuações de confiança transparentes.
Comparação Detalhada
| Regex-First (Nós) | Baseado em IA/ML | |
|---|---|---|
| Reprodutibilidade | Dados estruturados: 100% idênticos. Nomes: com pontuação de confiança | Todos os resultados variam entre execuções |
| Auditabilidade | Toda detecção rastreável a um padrão ou modelo NLP | Caixa preta — não é possível explicar decisões |
| Dados de Treinamento | Regex: nenhum. NLP: modelos pré-treinados incluídos | Requer conjuntos de dados de treinamento personalizados |
| Model Drift | Regex: nenhum. NLP: modelos versionados e estáveis | Degrada de forma imprevisível ao longo do tempo |
| Desempenho | Rápido, apenas CPU | Variável, depende de GPU |
| Custo Computacional | Baixo (apenas CPU) | Alto (frequentemente requer GPU) |
| Conformidade Regulatória | Fácil — padrões + pontuações de confiança auditáveis com supervisão humana | Difícil de comprovar para reguladores |
Como Funciona a Correspondência de Padrões
Cada tipo de entidade possui padrões regex cuidadosamente elaborados para corresponder a formatos específicos.
Endereços de E-mail
Corresponde ao formato padrão de e-mail: local-part@domínio.tld
Números de Cartão de Crédito
Corresponde aos formatos Visa, Mastercard, Amex e outros, com validação Luhn
IBAN Alemão
Corresponde ao formato IBAN alemão com espaços opcionais
Desenvolvido para Conformidade
Quando auditores perguntam "por que isso foi detectado?" você precisa de uma resposta clara. Detecções por regex são rastreadas a um padrão específico. Detecções por NLP incluem nome do modelo e pontuação de confiança. Revisão humana garante que equipes de conformidade possam corrigir detecções antes da anonimização.
- GDPR Artigo 25: Privacidade por design com processamento explicável
- ISO 27001: Processos documentados e repetíveis
- Trilha de Auditoria: Toda detecção pode ser rastreada a um padrão específico
Exemplo de Resposta a Auditoria
P: Por que "john.smith@company.com" foi sinalizado?
R: Correspondeu ao padrão de e-mail na posição 45-68 com confiança 0,95. Padrão: validação de formato de e-mail padrão.