Detecção de PII em 48 Idiomas

Detecte e anonimize PII em 48 idiomas com suporte nativo a padrões. Suporte completo RTL para árabe, hebraico, persa e urdu.

48 Idiomas Suportados

Detecção e anonimização completa de PII em toda a plataforma

spaCy NLP - Executa Localmente (25 idiomas)

InglêsAlemãoEspanholFrancêsItalianoPortuguêsHolandêsPolonêsRussoJaponêsChinêsCoreanoRomenoGregoCroataEslovenoMacedônioSuecoDinamarquêsNorueguêsFinlandêsUcranianoLituanoCatalãoTurco

Stanza NER - Executa Localmente (7 idiomas)

BúlgaroHúngaroHebraico (RTL)VietnamitaAfricânerArmênioBasco

XLM-RoBERTa Transformer - Executa Localmente (16 idiomas)

Árabe (RTL)HindiTchecoEslovacoIndonésioTailandêsPersa (RTL)SérvioLetãoEstonianoMalaioBengaliUrdu (RTL)SuaíliTagaloIslandês

Suporte RTL

ÁrabeHebraicoPersaUrdu

Impulsionado por NLP Avançado

Três motores NLP trabalhando juntos para máxima cobertura de idiomas

  • Modelos carregados sob demanda (máximo de 5 em cache) para eficiência de memória
  • Detecção automática de idioma
  • Processamento de documentos multilíngues
  • Padrões de entidades específicos de idioma

Formatos Específicos por País

Detectamos PII em formatos específicos de cada país e região.

Formatos Europeus

  • Alemão: Personalausweis, Steuer-ID, Reisepass
  • Francês: NIR, Carte Nationale, Permis
  • Italiano: Codice Fiscale, Carta d'Identità
  • Espanhol: DNI, NIE, NIF
  • Holandês: BSN, Rijbewijs
  • Polonês: PESEL, NIP, REGON

Formatos Ásia-Pacífico

  • Japão: My Number, Passaporte
  • Índia: Aadhaar, PAN, GSTIN, Registro de Veículos
  • Tailândia: ID Nacional, ID Fiscal, Passaporte
  • Indonésia: NIK, NPWP, Passaporte
  • Vietnã: CCCD, Código Fiscal, Passaporte
  • Malásia: MyKad, ID Fiscal, Passaporte

Américas, África e Oriente Médio

  • EUA: SSN, Carteira de Motorista, Passaporte
  • Reino Unido: Seguro Nacional, Número NHS
  • Canadá: SIN, Carteira de Motorista
  • Austrália: TFN, Medicare, ABN
  • Quênia: ID Nacional, KRA PIN, Passaporte
  • África do Sul: Número de ID, Número Fiscal, Passaporte

Perguntas Frequentes

Quais 48 idiomas o cloak.business suporta?

cloak.business suporta Africâner, Árabe, Armênio, Basco, Bengali, Búlgaro, Catalão, Chinês, Croata, Tcheco, Dinamarquês, Holandês, Inglês, Estoniano, Finlandês, Francês, Alemão, Grego, Hebraico, Hindi, Húngaro, Islandês, Indonésio, Italiano, Japonês, Coreano, Letão, Lituano, Macedônio, Malaio, Norueguês, Persa, Polonês, Português, Romeno, Russo, Sérvio, Eslovaco, Esloveno, Espanhol, Suaíli, Sueco, Tagalo, Tailandês, Turco, Ucraniano, Urdu e Vietnamita — com suporte completo RTL para Árabe, Hebraico, Persa e Urdu.

A detecção de PII funciona da mesma forma em todos os idiomas?

A detecção utiliza duas abordagens: correspondência de padrões baseada em regex para dados estruturados (IDs, números de telefone, números fiscais) e modelos NLP para entidades não estruturadas (nomes, locais). A detecção baseada em padrões cobre todos os 48 idiomas. A detecção baseada em NLP está disponível em idiomas com modelos treinados.

Como são tratados os formatos de ID específicos de cada país?

cloak.business inclui 317 reconhecedores de padrões cobrindo mais de 70 países. Cada reconhecedor valida o formato específico, checksum e estrutura de IDs nacionais, números fiscais, identificadores de saúde e dados financeiros para aquele país.

Posso detectar PII em vários idiomas dentro do mesmo documento?

Sim. O cloak.business pode processar documentos multilíngues e detectar PII em diferentes idiomas em uma única solicitação. O sistema identifica automaticamente quais padrões de idioma aplicar.

Como adiciono suporte para um novo idioma ou tipo de entidade?

Você pode criar reconhecedores de entidades personalizados usando padrões regex ou listas de negação. Isso permite adicionar identificadores específicos de domínio ou estender a cobertura para formatos adicionais ainda não incluídos na biblioteca de reconhecedores embutidos.

Is This Right for You?

Best For

  • Global enterprises with multilingual document workflows requiring consistent GDPR and privacy compliance
  • Translation and localization agencies that process PII-containing content in multiple languages
  • Government agencies and NGOs processing citizen data across EU, APAC, and LATAM jurisdictions
  • Legal discovery and compliance teams working with 48 supported language jurisdictions

Not Ideal For

  • Monolingual English-only workflows — the standard plan is sufficient without the overhead of language detection
  • Languages not in the supported 48 — check the entity catalog for specific language and entity coverage
  • Real-time sub-10ms latency requirements — language detection adds processing overhead over English-only

Anonimize em Qualquer Idioma

Comece com 200 tokens gratuitos. Funciona com todos os 48 idiomas.