Jak działa cloak.business

Wykrywanie PII oparte na regex: 317 deterministycznych rozpoznawaczy wzorców dla danych strukturalnych (ID, numery podatkowe, karty kredytowe) oraz NLP spaCy, Stanza i XLM-RoBERTa do nazw i lokalizacji w 48 językach.

Regex-First: Dlaczego to ważne

Nasze podejście: Regex + NLP

  • 317 rozpoznawaczy regex: 100% powtarzalności dla danych strukturalnych
  • NLP do nazw i lokalizacji z oceną pewności
  • W pełni audytowalne — każde wykrycie można prześledzić do wzorca lub modelu
  • Przejrzystość: zawsze wiesz, co zostało wykryte i dlaczego
  • Szybkie, przewidywalne działanie
  • 48 języków w 3 silnikach NLP

Podejścia wyłącznie AI

  • Wszystkie wykrycia są probabilistyczne
  • Brak możliwości wyjaśnienia, dlaczego coś zostało oznaczone
  • Wymaga dużych zbiorów danych treningowych
  • Trudne do audytu pod kątem zgodności
  • Wyższe koszty obliczeniowe (wymagany GPU)
  • Dryf modelu pogarsza dokładność z czasem

Proces w 10 krokach

Od wejścia do wyjścia – co dokładnie dzieje się z Twoim dokumentem

1

Wprowadzenie tekstu

Prześlij dokument przez interfejs webowy, API lub dodatek Office

2

Wykrywanie języka

System identyfikuje język dokumentu dla optymalnego przetwarzania

3

Tokenizacja

Tekst dzielony jest na tokeny do dopasowania wzorców

4

Dopasowanie wzorców

317 rozpoznawaczy regex i modele NLP skanują ponad 320 typów encji w 70+ krajach

5

Analiza kontekstu

Tekst otaczający poprawia dokładność wykrywania

6

Ocena pewności

Każde wykrycie otrzymuje ocenę pewności (0.0–1.0), co umożliwia decyzje weryfikacyjne przez człowieka

7

Klasyfikacja encji

Wykryte elementy są kategoryzowane według typu

8

Weryfikacja przez człowieka

Przejrzyj wszystkie wykrycia, popraw fałszywe trafienia i zatwierdź przed anonimizacją

9

Zastosowanie anonimizacji

Wybierz metodę: Zastąp, Ukryj, Haszuj, Szyfruj lub Zamaskuj

10

Dokument wyjściowy

Pobierz swój zanonimizowany dokument

Serwer MCP: Prywatność przede wszystkim w integracji AI

Jak Twoje dane przepływają przez serwer MCP, by chronić narzędzia AI

Serwer MCP działa jako tarcza prywatności, przechwytując żądania z narzędzi AI, anonimizując PII, przekazując bezpieczne dane do AI i opcjonalnie przywracając oryginalne wartości.

Żądanie narzędzia AI

Twoje narzędzie AI (Cursor, Claude) wysyła żądanie zawierające PII

Przechwycenie przez serwer MCP

Serwer analizuje i wykrywa wszystkie encje PII

Anonimizacja

PII zostaje zastąpione tokenami lub ukryte

Przetwarzanie przez AI

AI otrzymuje i przetwarza wyłącznie dane zanonimizowane

Zwrot odpowiedzi

Odpowiedź AI wraca przez serwer MCP

Detokenizacja

Opcjonalnie: Przywrócenie oryginalnych wartości dla użytkownika

Najczęściej zadawane pytania

Czy cloak.business wykorzystuje AI do wykrywania?

Nie. Wykrywanie odbywa się za pomocą deterministycznych wzorców regex i modeli NLP (spaCy, Stanza). Dzięki temu wyniki są w 100% powtarzalne — te same dane wejściowe zawsze dają ten sam wynik, w przeciwieństwie do probabilistycznych metod AI.

Dlaczego wzorce regex zamiast AI?

Wzorce regex są audytowalne, powtarzalne i zgodne z regulacjami. Możesz sprawdzić, co dokładnie dopasowuje każdy wzorzec. Wykrywanie oparte na AI jest niedeterministyczne — wyniki mogą się różnić, co utrudnia dokumentację zgodności.

Jak dokładne jest wykrywanie?

Dzięki 317 niestandardowym rozpoznawaczom z walidacją sum kontrolnych (Luhn, IBAN, SSN), cloak.business osiąga znacznie wyższą dokładność niż ogólne modele NER, zwłaszcza dla identyfikatorów strukturalnych, takich jak karty kredytowe, numery podatkowe i numery dowodów osobistych.

Jakie języki są obsługiwane?

Obsługiwanych jest 48 języków z dedykowanymi modelami NLP do rozpoznawania nazwanych encji. Wykrywanie oparte na wzorcach (regex) działa we wszystkich językach, ponieważ dopasowuje wzory znaków niezależnie od języka.

Czy mogę dodać własne wzorce encji?

Tak. API obsługuje własne definicje rozpoznawaczy, dzięki czemu możesz dodać wzorce dla wewnętrznych identyfikatorów, numerów referencyjnych lub specyficznych formatów danych.

Zobacz w działaniu

Wypróbuj wykrywanie i anonimizację PII za darmo – 200 tokenów na cykl.