Как работает cloak.business

Выявление PII с приоритетом регулярных выражений: 317 детерминированных распознающих шаблонов для структурированных данных (идентификаторы, налоговые номера, кредитные карты), а также spaCy, Stanza и XLM-RoBERTa NLP для имен и местоположений на 48 языках.

Почему приоритет у регулярных выражений

Наш подход: Regex + NLP

  • 317 распознающих шаблонов: 100% воспроизводимость для структурированных данных
  • NLP для имен и местоположений с оценкой уверенности
  • Полная возможность аудита — каждое обнаружение отслеживается до шаблона или модели
  • Прозрачность: вы всегда знаете, что и почему было найдено
  • Быстрая, предсказуемая производительность
  • 48 языков на 3 NLP-движках

Только AI-подходы

  • Все обнаружения вероятностные
  • Невозможно объяснить причину срабатывания
  • Требуются большие обучающие наборы данных
  • Сложно провести аудит на соответствие требованиям
  • Более высокие вычислительные затраты (нужен GPU)
  • Снижение точности из-за дрейфа модели со временем

10 шагов процесса

От ввода до вывода: что происходит с вашим документом

1

Ввод текста

Загрузите документ через веб-интерфейс, API или Office-надстройку

2

Определение языка

Система определяет язык документа для оптимальной обработки

3

Токенизация

Текст разбивается на токены для сопоставления с шаблонами

4

Сопоставление с шаблонами

317 распознающих шаблонов и NLP-модели сканируют 320+ типов сущностей в 70+ странах

5

Анализ контекста

Окружающий текст повышает точность обнаружения

6

Оценка уверенности

Каждое обнаружение получает оценку уверенности (0.0–1.0), что позволяет принимать решения с участием человека

7

Классификация сущностей

Обнаруженные элементы классифицируются по типу

8

Проверка с участием человека

Проверьте все обнаружения, отклоните ложные срабатывания и подтвердите перед анонимизацией

9

Применение анонимизации

Выберите метод: заменить, скрыть, хешировать, зашифровать или замаскировать

10

Выходной документ

Скачайте анонимизированный документ

MCP Server: AI-интеграция с приоритетом приватности

Как ваши данные проходят через MCP Server для безопасной работы AI-инструментов

MCP Server выступает в роли щита приватности, перехватывая запросы от AI-инструментов, анонимизируя PII, обрабатывая обезличенные данные через AI и, при необходимости, восстанавливая исходные значения.

Запрос AI-инструмента

Ваш AI-инструмент (Cursor, Claude) отправляет запрос, содержащий PII

Перехват MCP Server

Сервер анализирует и выявляет все PII-сущности

Анонимизация

PII заменяется токенами или скрывается

Обработка AI

AI получает и обрабатывает только анонимизированные данные

Возврат ответа

Ответ AI возвращается через MCP Server

Детокенизация

Опционально: исходные значения восстанавливаются для пользователя

Часто задаваемые вопросы

Использует ли cloak.business AI для выявления?

Нет. Для выявления используются детерминированные шаблоны регулярных выражений и NLP-модели (spaCy, Stanza). Это обеспечивает 100% воспроизводимость — один и тот же ввод всегда дает одинаковый результат, в отличие от вероятностных AI-подходов.

Почему шаблоны регулярных выражений, а не AI?

Шаблоны регулярных выражений поддаются аудиту, воспроизводимы и соответствуют требованиям. Вы можете проверить, что именно находит каждый шаблон. AI-выявление недетерминировано — результаты могут отличаться при каждом запуске, что затрудняет подготовку документации для соответствия.

Насколько точное выявление?

С 317 индивидуальными распознающими шаблонами, включая проверку контрольных сумм (Luhn, IBAN, SSN), cloak.business достигает значительно большей точности, чем универсальные NER-модели, особенно для структурированных идентификаторов, таких как кредитные карты, налоговые и национальные номера.

Какие языки поддерживаются?

Поддерживается 48 языков с отдельными NLP-моделями для распознавания именованных сущностей. Выявление на основе шаблонов (regex) работает на всех языках, так как сопоставляет символы независимо от языка.

Можно ли добавить собственные шаблоны сущностей?

Да. API поддерживает определение собственных распознающих шаблонов, чтобы вы могли добавлять форматы для внутренних идентификаторов, номеров ссылок или специфичных для вашей отрасли данных.

Посмотрите в действии

Попробуйте выявление и анонимизацию PII бесплатно — 200 токенов за цикл.