Regex-прво: Зошто е важно
Наш пристап: Regex + NLP
- 317 regex препознавачи: 100% повторливи за структуриран податок
- NLP за имиња и локации со скорови на доверба
- Целосно ревидирано — секоја детекција е следлива до шаблон или модел
- Транспарентно: секогаш знаете што е совпаѓање и зошто
- Брзи, предвидливи перформанси
- 48 јазици преку 3 NLP мотори
Само-AI пристапи
- Сите детекции се веројатносни
- Не може да се објасни зошто нешто е означено
- Потребни се големи сетови за обука
- Тешко за ревизија и усогласеност
- Поголеми трошоци за процесирање (потребен GPU)
- Моделскиот дрифт ја намалува точноста со тек на време
Процес во 10 чекори
Од влез до излез, еве што точно се случува со вашиот документ
Внес на текст
Поднесете го вашиот документ преку веб интерфејс, API или Office додаток
Детекција на јазик
Системот го идентификува јазикот на документот за оптимална обработка
Токенизација
Текстот се дели на токени за совпаѓање со шаблони
Совпаѓање со шаблони
317 regex препознавачи и NLP модели скенираат за 320+ типови ентитети во 70+ земји
Анализа на контекст
Околниот текст ја подобрува точноста на детекцијата
Оценка на доверба
Секоја детекција добива скор на доверба (0.0–1.0) за одлуки со човечка проверка
Класификација на ентитети
Детектираните елементи се категоризираат по тип
Човечка проверка
Прегледајте ги сите детекции, коригирајте лажни позитиви и одобрете пред анонимизација
Примена на анонимизација
Изберете метод: Замени, Скриј, Хеширај, Криптирај или Маскирај
Излезен документ
Преземете го вашиот анонимизиран документ
MCP сервер: AI интеграција со приоритет на приватноста
Како вашите податоци минуваат низ MCP серверот за да ги заштитат AI алатките
MCP серверот делува како штит за приватност, ги пресретнува барањата од AI алатки, анонимизира PII, обработува безбедни податоци преку AI и по потреба ги враќа оригиналните вредности.
Барање од AI алатка
Вашата AI алатка (Cursor, Claude) испраќа барање што содржи PII
MCP серверот пресретнува
Серверот анализира и детектира сите PII ентитети
Анонимизација
PII се заменува со токени или се скрива
AI обработка
AI прима и обработува само анонимизирани податоци
Враќање на одговор
AI одговорот се враќа преку MCP серверот
Де-токенизација
Опционално: Оригиналните вредности се враќаат на корисникот
Најчесто поставувани прашања
Дали cloak.business користи AI за детекција?
Не. Детекцијата се врши со детерминистички regex шаблони и NLP модели (spaCy, Stanza). Ова обезбедува 100% повторливи резултати — истиот влез секогаш дава ист излез, за разлика од веројатносните AI пристапи.
Зошто regex шаблони наместо AI?
Regex шаблоните се ревидирани, повторливи и усогласени. Може да проверите што точно совпаѓа секој шаблон. AI-базираната детекција е недетерминистичка — резултатите може да варираат, што ја отежнува документацијата за усогласеност.
Колку е точна детекцијата?
Со 317 сопствени препознавачи, вклучувајќи валидација на контролна сума (Luhn, IBAN, SSN), cloak.business постигнува значително поголема точност од генерички NER модели, особено за структуриран идентификатор како кредитни картички, даночни ИД и национални ИД броеви.
Кои јазици се поддржани?
Поддржани се 48 јазици со посветени NLP модели за препознавање на именувани ентитети. Детекцијата базирана на шаблони (regex) работи на сите јазици бидејќи се совпаѓа со карактерни шаблони независно од јазикот.
Може ли да додадам сопствени шаблони за ентитети?
Да. API поддржува дефиниции за сопствени препознавачи, така што можете да додадете шаблони за интерни идентификатори, референтни броеви или специфични формати на податоци.