Обнаружение PII на 48 языках

Обнаруживайте и анонимизируйте PII на 48 языках с поддержкой родных шаблонов. Полная поддержка RTL для арабского, иврита, персидского и урду.

Поддержка 48 языков

Полное обнаружение и анонимизация PII на всей платформе

spaCy NLP - Локальный запуск (25 языков)

АнглийскийНемецкийИспанскийФранцузскийИтальянскийПортугальскийГолландскийПольскийРусскийЯпонскийКитайскийКорейскийРумынскийГреческийХорватскийСловенскийМакедонскийШведскийДатскийНорвежскийФинскийУкраинскийЛитовскийКаталанскийТурецкий

Stanza NER - Локальный запуск (7 языков)

БолгарскийВенгерскийИврит (RTL)ВьетнамскийАфрикаансАрмянскийБаскский

XLM-RoBERTa Transformer - Локальный запуск (16 языков)

Арабский (RTL)ХиндиЧешскийСловацкийИндонезийскийТайскийПерсидский (RTL)СербскийЛатышскийЭстонскийМалайскийБенгальскийУрду (RTL)СуахилиТагальскийИсландский

Поддержка RTL

АрабскийИвритПерсидскийУрду

Основано на передовом NLP

Три NLP-движка работают вместе для максимального охвата языков

  • Модели с ленивой загрузкой (максимум 5 кэшированных) для экономии памяти
  • Автоматическое определение языка
  • Обработка документов на нескольких языках
  • Языковые шаблоны сущностей

Форматы, специфичные для стран

Мы обнаруживаем PII в форматах, специфичных для каждой страны и региона.

Европейские форматы

  • Германия: Personalausweis, Steuer-ID, Reisepass
  • Франция: NIR, Carte Nationale, Permis
  • Италия: Codice Fiscale, Carta d'Identità
  • Испания: DNI, NIE, NIF
  • Нидерланды: BSN, Rijbewijs
  • Польша: PESEL, NIP, REGON

Форматы Азиатско-Тихоокеанского региона

  • Япония: My Number, Паспорт
  • Индия: Aadhaar, PAN, GSTIN, Регистрация транспортных средств
  • Таиланд: Национальный ID, Налоговый ID, Паспорт
  • Индонезия: NIK, NPWP, Паспорт
  • Вьетнам: CCCD, Налоговый код, Паспорт
  • Малайзия: MyKad, Налоговый ID, Паспорт

Америка, Африка и Ближний Восток

  • США: SSN, Водительское удостоверение, Паспорт
  • Великобритания: Национальная страховка, NHS номер
  • Канада: SIN, Водительское удостоверение
  • Австралия: TFN, Medicare, ABN
  • Кения: Национальный ID, KRA PIN, Паспорт
  • Южная Африка: Номер ID, Налоговый номер, Паспорт

Часто задаваемые вопросы

Какие 48 языков поддерживает cloak.business?

cloak.business поддерживает африкаанс, арабский, армянский, баскский, бенгальский, болгарский, каталанский, китайский, хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, немецкий, греческий, иврит, хинди, венгерский, исландский, индонезийский, итальянский, японский, корейский, латышский, литовский, македонский, малайский, норвежский, персидский, польский, португальский, румынский, русский, сербский, словацкий, словенский, испанский, суахили, шведский, тагальский, тайский, турецкий, украинский, урду и вьетнамский — с полной поддержкой RTL для арабского, иврита, персидского и урду.

Работает ли обнаружение PII одинаково на всех языках?

Обнаружение использует два подхода: сопоставление шаблонов на основе регулярных выражений для структурированных данных (ID, номера телефонов, налоговые номера) и модели NLP для неструктурированных сущностей (имена, местоположения). Обнаружение на основе шаблонов охватывает все 48 языков. Обнаружение на основе NLP доступно на языках с обученными моделями.

Как обрабатываются форматы идентификаторов, специфичные для стран?

cloak.business включает 317 распознавателей шаблонов, охватывающих более 70 стран. Каждый распознаватель проверяет конкретный формат, контрольную сумму и структуру национальных ID, налоговых номеров, идентификаторов здоровья и финансовых данных для этой страны.

Могу ли я обнаруживать PII на нескольких языках в одном документе?

Да. cloak.business может обрабатывать многоязычные документы и обнаруживать PII на разных языках в одном запросе. Система автоматически определяет, какие языковые шаблоны применять.

Как добавить поддержку нового языка или типа сущности?

Вы можете создавать пользовательские распознаватели сущностей, используя шаблоны регулярных выражений или списки запрещенных слов. Это позволяет добавлять идентификаторы, специфичные для домена, или расширять охват на дополнительные форматы, которые еще не включены в библиотеку встроенных распознавателей.

Is This Right for You?

Best For

  • Global enterprises with multilingual document workflows requiring consistent GDPR and privacy compliance
  • Translation and localization agencies that process PII-containing content in multiple languages
  • Government agencies and NGOs processing citizen data across EU, APAC, and LATAM jurisdictions
  • Legal discovery and compliance teams working with 48 supported language jurisdictions

Not Ideal For

  • Monolingual English-only workflows — the standard plan is sufficient without the overhead of language detection
  • Languages not in the supported 48 — check the entity catalog for specific language and entity coverage
  • Real-time sub-10ms latency requirements — language detection adds processing overhead over English-only

Анонимизация на любом языке

Начните с 200 бесплатных токенов. Работает со всеми 48 языками.