Kako deluje Regex-First zaznavanje PII

Regex-prva detekcija PII: 317 determinističnih prepoznavalcev vzorcev za strukturirane podatke (ID-ji, davčne številke, kreditne kartice), poleg tega spaCy, Stanza in XLM-RoBERTa NLP za imena in lokacije v 48 jezikih.

Preizkusite brezplačno Tehnična dokumentacija

Regex-prva: Zakaj je pomembno

Naš pristop: Regex + NLP

317 prepoznavalcev z regularnimi izrazi: 100 % ponovljivo za strukturirane podatke
NLP za imena in lokacije z oceno zaupanja
Popolnoma preverljivo — vsaka detekcija je sledljiva vzorcu ali modelu
Transparentno: vedno veste, kaj se je ujemalo in zakaj
Hitro, predvidljivo delovanje
48 jezikov v 3 NLP pogonih

Izključno AI pristopi

Vse detekcije so verjetnostne
Ni mogoče pojasniti, zakaj je bilo nekaj označeno
Zahteva velike učne podatkovne baze
Težko preverljivo za skladnost
Višji stroški procesiranja (potreben GPU)
Modeli sčasoma izgubljajo natančnost

10-stopenjski postopek

Od vnosa do izhoda – točno to se zgodi z vašim dokumentom

Vnos besedila

Oddajte svoj dokument prek spletnega vmesnika, API-ja ali Office dodatka

Prepoznavanje jezika

Sistem prepozna jezik dokumenta za optimalno obdelavo

Tokenizacija

Besedilo se razdeli na tokene za iskanje vzorcev

Iskanje vzorcev

317 prepoznavalcev z regularnimi izrazi in NLP modeli preišče 317 tipov entitet v več kot 70 državah

Analiza konteksta

Okoliško besedilo izboljša natančnost detekcije

Ocena zaupanja

Vsaka detekcija prejme oceno zaupanja (0,0–1,0), kar omogoča odločitve s človeškim nadzorom

Klasifikacija entitet

Zaznani elementi so razvrščeni po tipu

Pregled s strani človeka

Preglejte vse detekcije, popravite napačne pozitivne rezultate in potrdite pred anonimizacijo

Uporaba anonimizacije

Izberite metodo: zamenjava, redakcija, zgoščevanje, šifriranje ali maskiranje

Izhodni dokument

Prenesite anonimiziran dokument

MCP strežnik: Integracija AI z zasebnostjo na prvem mestu

Kako vaši podatki potekajo skozi MCP strežnik za varno uporabo AI orodij

MCP strežnik deluje kot ščit zasebnosti: prestreže zahteve AI orodij, anonimizira PII, obdela varne podatke prek AI in po potrebi obnovi izvirne vrednosti.

Zahteva AI orodja

Vaše AI orodje (Cursor, Claude) pošlje zahtevo, ki vsebuje PII

MCP strežnik prestreže

Strežnik analizira in zazna vse PII entitete

Anonimizacija

PII se zamenja z žetoni ali redigira

AI obdelava

AI prejme in obdela le anonimizirane podatke

Vrnitev odgovora

AI odgovor se vrne prek MCP strežnika

Detokenizacija

Opcijsko: uporabniku se obnovijo izvirne vrednosti

Več o MCP strežniku →

Raziščite več

Tehnologija

Podrobno o detekciji z regex vzorci in zakaj je boljša za skladnost

Arhitektura

Sistemska arhitektura in kako komponente delujejo skupaj

Varnost

Pet varnostnih plasti, ki varujejo vaše podatke na vsakem koraku

Pogosta vprašanja

Ali cloak.business uporablja AI za detekcijo?

Ne. Detekcija uporablja deterministične regex vzorce in NLP modele (spaCy, Stanza). To zagotavlja 100 % ponovljive rezultate — enak vnos vedno prinese enak izhod, v nasprotju z verjetnostnimi AI pristopi.

Zakaj regex vzorci namesto AI?

Regex vzorci so preverljivi, ponovljivi in skladni. Natančno lahko preverite, kaj vsak vzorec zazna. Detekcija na osnovi AI ni deterministična — rezultati se lahko razlikujejo med zagoni, kar otežuje dokumentacijo za skladnost.

Kako natančna je detekcija?

S 317 prilagojenimi prepoznavalci vzorcev, vključno s preverjanjem kontrolnih števil (Luhn, IBAN, SSN), cloak.business dosega bistveno višjo natančnost kot generični NER modeli, zlasti za strukturirane identifikatorje, kot so kreditne kartice, davčne številke in osebne izkaznice.

Katere jezike podpirate?

Podprtih je 48 jezikov s posebnimi NLP modeli za prepoznavanje imenovanih entitet. Detekcija na osnovi vzorcev (regex) deluje v vseh jezikih, saj temelji na ujemanju znakovnih vzorcev ne glede na jezik.

Ali lahko dodam lastne vzorce entitet?

Da. API podpira lastne definicije prepoznavalcev, tako da lahko dodate vzorce za lastniške identifikatorje, interne referenčne številke ali domensko specifične podatkovne formate.

Oglejte si v praksi

Preizkusite našo detekcijo in anonimizacijo PII brezplačno z 200 žetoni na cikel.