cloak.business

Откриване на PII на 48 езика

Откривайте и анонимизирайте PII на 48 езика с поддръжка на местни модели. Пълна RTL поддръжка за арабски, иврит, персийски и урду.

Поддържани 48 езика

Пълно откриване и анонимизиране на PII в цялата платформа

spaCy NLP - Локално изпълнение (25 езика)

АнглийскиНемскиИспанскиФренскиИталианскиПортугалскиХоландскиПолскиРускиЯпонскиКитайскиКорейскиРумънскиГръцкиХърватскиСловенскиМакедонскиШведскиДатскиНорвежкиФинландскиУкраинскиЛитовскиКаталонскиТурски

Stanza NER - Локално изпълнение (7 езика)

БългарскиУнгарскиИврит (RTL)ВиетнамскиАфрикаансАрменскиБаски

XLM-RoBERTa Transformer - Локално изпълнение (16 езика)

Арабски (RTL)ХиндиЧешкиСловашкиИндонезийскиТайландскиПерсийски (RTL)СръбскиЛатвийскиЕстонскиМалайскиБенгалскиУрду (RTL)СуахилиТагалогИсландски

Поддръжка на RTL

АрабскиИвритПерсийскиУрду

Задвижвано от напреднал NLP

Три NLP двигателя работят заедно за максимално покритие на езици

  • Модели, зареждани при нужда (максимум 5 кеширани) за ефективност на паметта
  • Автоматично откриване на език
  • Обработка на документи на смесени езици
  • Езиково специфични модели на обекти

Формати, специфични за страната

Откриваме PII във формати, специфични за всяка страна и регион.

Европейски формати

  • Германия: Лична карта, Данъчен ID, Паспорт
  • Франция: NIR, Национална карта, Шофьорска книжка
  • Италия: Данъчен код, Лична карта
  • Испания: DNI, NIE, NIF
  • Холандия: BSN, Шофьорска книжка
  • Полша: PESEL, NIP, REGON

Формати за Азия и Тихоокеанския регион

  • Япония: My Number, Паспорт
  • Индия: Aadhaar, PAN, GSTIN, Регистрация на превозно средство
  • Тайланд: Национален ID, Данъчен ID, Паспорт
  • Индонезия: NIK, NPWP, Паспорт
  • Виетнам: CCCD, Данъчен код, Паспорт
  • Малайзия: MyKad, Данъчен ID, Паспорт

Америка, Африка и Близкия изток

  • САЩ: SSN, Шофьорска книжка, Паспорт
  • Великобритания: Национално осигуряване, NHS номер
  • Канада: SIN, Шофьорска книжка
  • Австралия: TFN, Medicare, ABN
  • Кения: Национален ID, KRA PIN, Паспорт
  • Южна Африка: ID номер, Данъчен номер, Паспорт

Често задавани въпроси

Кои 48 езика поддържа cloak.business?

cloak.business поддържа Африкаанс, Арабски, Арменски, Баски, Бенгалски, Български, Каталонски, Китайски, Хърватски, Чешки, Датски, Холандски, Английски, Естонски, Финландски, Френски, Немски, Гръцки, Иврит, Хинди, Унгарски, Исландски, Индонезийски, Италиански, Японски, Корейски, Латвийски, Литовски, Македонски, Малайски, Норвежки, Персийски, Полски, Португалски, Румънски, Руски, Сръбски, Словашки, Словенски, Испански, Суахили, Шведски, Тагалог, Тайландски, Турски, Украински, Урду и Виетнамски — с пълна RTL поддръжка за Арабски, Иврит, Персийски и Урду.

Работи ли откриването на PII еднакво на всички езици?

Откриването използва два подхода: съвпадение на модели, базирани на regex, за структурирани данни (ID, телефонни номера, данъчни номера) и NLP модели за неструктурирани обекти (имена, местоположения). Откриването, базирано на модели, покрива всички 48 езика. Откриването, базирано на NLP, е налично на езици с обучени модели.

Как се обработват формати на ID, специфични за страната?

cloak.business включва 317 разпознавачи на модели, покриващи над 70 държави. Всеки разпознавач валидира специфичния формат, контролна сума и структура на националните ID, данъчни номера, здравни идентификатори и финансови данни за съответната страна.

Мога ли да откривам PII на няколко езика в един и същ документ?

Да. cloak.business може да обработва многоезични документи и да открива PII на различни езици в една заявка. Системата автоматично идентифицира кои езикови модели да приложи.

Как да добавя поддръжка за нов език или тип обект?

Можете да създавате персонализирани разпознавачи на обекти, използвайки regex модели или списъци за отказ. Това ви позволява да добавяте идентификатори, специфични за домейна, или да разширите покритието до допълнителни формати, които все още не са включени в вградената библиотека с разпознавачи.

Is This Right for You?

Best For

  • Global enterprises with multilingual document workflows requiring consistent GDPR and privacy compliance
  • Translation and localization agencies that process PII-containing content in multiple languages
  • Government agencies and NGOs processing citizen data across EU, APAC, and LATAM jurisdictions
  • Legal discovery and compliance teams working with 48 supported language jurisdictions

Not Ideal For

  • Monolingual English-only workflows — the standard plan is sufficient without the overhead of language detection
  • Languages not in the supported 48 — check the entity catalog for specific language and entity coverage
  • Real-time sub-10ms latency requirements — language detection adds processing overhead over English-only

Анонимизирайте на всеки език

Започнете с 200 безплатни токена. Работи с всички 48 езика.