Como funciona o cloak.business

Detecção de PII com prioridade para regex: 317 reconhecedores determinísticos para dados estruturados (IDs, números fiscais, cartões de crédito), além de spaCy, Stanza e XLM-RoBERTa NLP para nomes e localizações em 48 idiomas.

Regex-First: Por Que É Importante

Nossa Abordagem: Regex + NLP

  • 317 reconhecedores regex: 100% reprodutíveis para dados estruturados
  • NLP para nomes e localizações com pontuação de confiança
  • Totalmente auditável — cada detecção rastreável a um padrão ou modelo
  • Transparente: você sempre sabe o que foi identificado e por quê
  • Desempenho rápido e previsível
  • 48 idiomas em 3 mecanismos de NLP

Abordagens Somente com IA

  • Todas as detecções são probabilísticas
  • Não é possível explicar por que algo foi sinalizado
  • Requer grandes conjuntos de dados de treinamento
  • Difícil de auditar para conformidade
  • Custos computacionais mais altos (necessário GPU)
  • Model drift reduz a precisão ao longo do tempo

O Processo em 10 Etapas

Do input ao output, veja exatamente o que acontece com seu documento

1

Texto de Entrada

Envie seu documento pela interface web, API ou complemento do Office

2

Detecção de Idioma

O sistema identifica o idioma do documento para processamento ideal

3

Tokenização

O texto é dividido em tokens para correspondência de padrões

4

Correspondência de Padrões

317 reconhecedores regex e modelos NLP analisam mais de 320 tipos de entidades em mais de 70 países

5

Análise de Contexto

O texto ao redor melhora a precisão da detecção

6

Pontuação de Confiança

Cada detecção recebe uma pontuação de confiança (0,0–1,0), permitindo decisões de revisão humana

7

Classificação de Entidades

Itens detectados são categorizados por tipo

8

Revisão Humana

Revise todas as detecções, corrija falsos positivos e aprove antes da anonimização

9

Aplicar Anonimização

Escolha o método: Substituir, Redigir, Hash, Criptografar ou Mascarar

10

Documento de Saída

Baixe seu documento anonimizado

Servidor MCP: Integração de IA com Foco em Privacidade

Como seus dados passam pelo Servidor MCP para manter as ferramentas de IA seguras

O Servidor MCP atua como uma barreira de privacidade, interceptando requisições de ferramentas de IA, anonimizando PII, processando dados seguros na IA e, opcionalmente, restaurando os valores originais.

Requisição da Ferramenta de IA

Sua ferramenta de IA (Cursor, Claude) envia uma requisição contendo PII

Interceptação pelo Servidor MCP

O servidor analisa e detecta todas as entidades PII

Anonimização

PII é substituído por tokens ou redigido

Processamento pela IA

A IA recebe e processa apenas dados anonimizados

Retorno da Resposta

Resposta da IA retorna pelo Servidor MCP

Destokenização

Opcional: Valores originais restaurados para o usuário

Perguntas Frequentes

O cloak.business utiliza IA para detecção?

Não. A detecção utiliza padrões regex determinísticos e modelos NLP (spaCy, Stanza). Isso garante resultados 100% reprodutíveis — a mesma entrada sempre produz a mesma saída, diferente das abordagens probabilísticas de IA.

Por que padrões regex em vez de IA?

Padrões regex são auditáveis, reprodutíveis e conformes. Você pode inspecionar exatamente o que cada padrão identifica. A detecção baseada em IA é não determinística — os resultados podem variar entre execuções, dificultando a documentação de conformidade.

Quão precisa é a detecção?

Com 317 reconhecedores personalizados incluindo validação de dígitos de controle (Luhn, IBAN, SSN), o cloak.business atinge precisão significativamente maior que modelos NER genéricos, especialmente para identificadores estruturados como cartões de crédito, IDs fiscais e números de identificação nacional.

Quais idiomas são suportados?

48 idiomas são suportados com modelos NLP dedicados para reconhecimento de entidades nomeadas. A detecção baseada em padrões (regex) funciona em todos os idiomas, pois corresponde a padrões de caracteres independentemente do idioma.

Posso adicionar padrões de entidades personalizados?

Sim. A API suporta definições de reconhecedores personalizados para que você possa adicionar padrões para identificadores proprietários, números de referência internos ou formatos de dados específicos do domínio.

Veja na Prática

Teste nossa detecção e anonimização de PII gratuitamente com 200 tokens por ciclo.