Jak cloak.business funguje | Detekce PII pomocí regex

Detekce PII primárně pomocí regex: 317 deterministických rozpoznávačů vzorů pro strukturovaná data (ID, daňová čísla, kreditní karty), dále spaCy, Stanza a XLM-RoBERTa NLP pro jména a lokace ve 48 jazycích.

Vyzkoušet zdarma Technická dokumentace

Regex na prvním místě: Proč na tom záleží

Náš přístup: Regex + NLP

317 rozpoznávačů regex: 100% reprodukovatelné pro strukturovaná data
NLP pro jména a lokace s hodnotami jistoty
Plně auditovatelné — každá detekce je dohledatelná podle vzoru nebo modelu
Transparentní: vždy víte, co bylo rozpoznáno a proč
Rychlý, předvídatelný výkon
48 jazyků ve 3 NLP enginech

Pouze AI přístupy

Všechny detekce jsou pravděpodobnostní
Nelze vysvětlit, proč bylo něco označeno
Vyžaduje rozsáhlé trénovací datasety
Obtížná auditovatelnost pro shodu s předpisy
Vyšší náklady na výpočet (nutnost GPU)
Postupná degradace přesnosti modelu

10krokový proces

Od vstupu po výstup: přesně co se děje s vaším dokumentem

Vstupní text

Odešlete dokument přes webové rozhraní, API nebo Office doplněk

Detekce jazyka

Systém identifikuje jazyk dokumentu pro optimální zpracování

Tokenizace

Text je rozdělen na tokeny pro porovnání vzorů

Porovnání vzorů

317 rozpoznávačů regex a NLP modelů prohledává 317 typů entit ve více než 70 zemích

Analýza kontextu

Okolní text zvyšuje přesnost detekce

Hodnocení jistoty

Každá detekce získá hodnotu jistoty (0,0–1,0), která umožňuje rozhodování v režimu human-in-the-loop

Klasifikace entit

Detekované položky jsou kategorizovány podle typu

Kontrola člověkem

Zkontrolujte všechny detekce, opravte falešně pozitivní výsledky a schvalte před anonymizací

Aplikace anonymizace

Vyberte metodu: nahradit, začernit, hashovat, šifrovat nebo maskovat

Výstupní dokument

Stáhněte si anonymizovaný dokument

MCP Server: AI integrace s ochranou soukromí

Jak vaše data procházejí MCP Serverem pro bezpečné použití AI nástrojů

MCP Server funguje jako ochranný štít soukromí — zachytává požadavky AI nástrojů, anonymizuje PII, zpracovává bezpečná data přes AI a případně obnovuje původní hodnoty.

Požadavek AI nástroje

Váš AI nástroj (Cursor, Claude) odešle požadavek obsahující PII

Zachycení MCP Serverem

Server analyzuje a detekuje všechny PII entity

Anonymizace

PII je nahrazeno tokeny nebo začerněno

Zpracování AI

AI přijímá a zpracovává pouze anonymizovaná data

Vrácení odpovědi

Odpověď AI se vrací přes MCP Server

Detokenizace

Volitelně: Obnovení původních hodnot pro uživatele

Zjistěte více o MCP Serveru →

Prozkoumejte více

Technologie

Podrobný pohled na detekci pomocí regex a proč je lepší pro shodu s předpisy

Architektura

Architektura systému a jak jednotlivé komponenty spolupracují

Bezpečnost

Pět bezpečnostních vrstev chrání vaše data v každém kroku

Často kladené dotazy

Používá cloak.business AI pro detekci?

Ne. Detekce využívá deterministické regex vzory a NLP modely (spaCy, Stanza). To zajišťuje 100% reprodukovatelné výsledky — stejný vstup vždy vede ke stejnému výstupu, na rozdíl od pravděpodobnostních AI přístupů.

Proč vzory regex místo AI?

Regex vzory jsou auditovatelné, reprodukovatelné a splňují požadavky na shodu. Můžete přesně zkontrolovat, co každý vzor zachytává. Detekce založená na AI je nedeterministická — výsledky se mohou lišit mezi spuštěními, což ztěžuje dokumentaci pro shodu.

Jak přesná je detekce?

S 317 vlastními rozpoznávači vzorů včetně kontroly kontrolních součtů (Luhn, IBAN, SSN) dosahuje cloak.business výrazně vyšší přesnosti než obecné NER modely, zejména pro strukturované identifikátory jako kreditní karty, daňová ID a čísla občanských průkazů.

Které jazyky jsou podporovány?

Podporováno je 48 jazyků s dedikovanými NLP modely pro rozpoznávání pojmenovaných entit. Detekce na základě vzorů (regex) funguje ve všech jazycích, protože odpovídá znakovým vzorům bez ohledu na jazyk.

Mohu přidat vlastní vzory entit?

Ano. API podporuje definice vlastních rozpoznávačů, takže můžete přidat vzory pro proprietární identifikátory, interní referenční čísla nebo doménově specifické datové formáty.

Vyzkoušejte v praxi

Vyzkoušejte naši detekci a anonymizaci PII zdarma s 200 tokeny na cyklus.