cloak.business

Як працює cloak.business

Виявлення PII на основі regex: 317 детермінованих розпізнавачів шаблонів для структурованих даних (ID, податкові номери, кредитні картки), а також spaCy, Stanza і XLM-RoBERTa NLP для імен та локацій 48 мовами.

Regex-підхід: Чому це важливо

Наш підхід: Regex + NLP

  • 317 розпізнавачів regex: 100% відтворюваність для структурованих даних
  • NLP для імен та локацій з оцінкою впевненості
  • Повна аудиторська перевірка — кожне виявлення відслідковується до шаблону або моделі
  • Прозорість: ви завжди знаєте, що і чому було знайдено
  • Швидка, передбачувана робота
  • 48 мов на 3 NLP-движках

Підходи лише на AI

  • Усі виявлення ймовірнісні
  • Неможливо пояснити, чому щось було позначено
  • Потрібні великі навчальні набори даних
  • Складно провести аудит для відповідності
  • Вищі обчислювальні витрати (потрібен GPU)
  • Зміщення моделі знижує точність з часом

10-етапний процес

Від введення до результату — що відбувається з вашим документом

1

Введення тексту

Надішліть документ через веб-інтерфейс, API або Office Add-in

2

Визначення мови

Система визначає мову документа для оптимальної обробки

3

Токенізація

Текст розбивається на токени для пошуку за шаблонами

4

Пошук за шаблонами

317 розпізнавачів regex і NLP-моделі сканують 320+ типів сутностей у 70+ країнах

5

Аналіз контексту

Оточуючий текст підвищує точність виявлення

6

Оцінка впевненості

Кожне виявлення отримує оцінку впевненості (0.0–1.0) для прийняття рішень з участю людини

7

Класифікація сутностей

Виявлені елементи класифікуються за типом

8

Перевірка людиною

Перегляньте всі виявлення, виправте хибні спрацьовування та затвердіть перед анонімізацією

9

Застосування анонімізації

Оберіть метод: Замінити, Приховати, Хешувати, Зашифрувати або Замаскувати

10

Вивід документа

Завантажте анонімізований документ

MCP Server: AI-інтеграція з пріоритетом приватності

Як ваші дані проходять через MCP Server для безпеки AI-інструментів

MCP Server виступає як щит приватності: перехоплює запити від AI-інструментів, анонімізує PII, передає безпечні дані через AI та, за потреби, відновлює оригінальні значення.

Запит AI-інструменту

Ваш AI-інструмент (Cursor, Claude) надсилає запит з PII

Перехоплення MCP Server

Сервер аналізує та виявляє всі PII-сутності

Анонімізація

PII замінюється токенами або приховується

Обробка AI

AI отримує та обробляє лише анонімізовані дані

Повернення відповіді

Відповідь AI повертається через MCP Server

Детокенізація

Опціонально: оригінальні значення відновлюються для користувача

Часті запитання

Чи використовує cloak.business AI для виявлення?

Ні. Виявлення здійснюється детермінованими шаблонами regex і NLP-моделями (spaCy, Stanza). Це гарантує 100% відтворюваність — однаковий вхід завжди дає однаковий вихід, на відміну від ймовірнісних AI-підходів.

Чому шаблони regex, а не AI?

Шаблони regex — це аудиторські, відтворювані та відповідні вимогам інструменти. Ви можете перевірити, що саме знаходить кожен шаблон. AI-виявлення недетерміноване — результати можуть відрізнятися між запуском, що ускладнює документацію для відповідності.

Наскільки точне виявлення?

З 317 спеціальними розпізнавачами, включаючи перевірку контрольних сум (Luhn, IBAN, SSN), cloak.business досягає значно вищої точності, ніж загальні NER-моделі, особливо для структурованих ідентифікаторів, таких як кредитні картки, податкові та національні номери.

Які мови підтримуються?

Підтримується 48 мов з окремими NLP-моделями для розпізнавання іменованих сутностей. Виявлення на основі шаблонів (regex) працює для всіх мов, оскільки шукає символи незалежно від мови.

Чи можу я додати власні шаблони сутностей?

Так. API підтримує власні визначення розпізнавачів, тож ви можете додавати шаблони для корпоративних ідентифікаторів, внутрішніх номерів або специфічних форматів даних.

Подивіться в дії

Спробуйте виявлення та анонімізацію PII безкоштовно — 200 токенів за цикл.