Kako deluje cloak.business

Regex-prva detekcija PII: 317 determinističnih prepoznavalcev vzorcev za strukturirane podatke (ID-ji, davčne številke, kreditne kartice), poleg tega spaCy, Stanza in XLM-RoBERTa NLP za imena in lokacije v 48 jezikih.

Regex-prva: Zakaj je pomembno

Naš pristop: Regex + NLP

  • 317 prepoznavalcev z regularnimi izrazi: 100 % ponovljivo za strukturirane podatke
  • NLP za imena in lokacije z oceno zaupanja
  • Popolnoma preverljivo — vsaka detekcija je sledljiva vzorcu ali modelu
  • Transparentno: vedno veste, kaj se je ujemalo in zakaj
  • Hitro, predvidljivo delovanje
  • 48 jezikov v 3 NLP pogonih

Izključno AI pristopi

  • Vse detekcije so verjetnostne
  • Ni mogoče pojasniti, zakaj je bilo nekaj označeno
  • Zahteva velike učne podatkovne baze
  • Težko preverljivo za skladnost
  • Višji stroški procesiranja (potreben GPU)
  • Modeli sčasoma izgubljajo natančnost

10-stopenjski postopek

Od vnosa do izhoda – točno to se zgodi z vašim dokumentom

1

Vnos besedila

Oddajte svoj dokument prek spletnega vmesnika, API-ja ali Office dodatka

2

Prepoznavanje jezika

Sistem prepozna jezik dokumenta za optimalno obdelavo

3

Tokenizacija

Besedilo se razdeli na tokene za iskanje vzorcev

4

Iskanje vzorcev

317 prepoznavalcev z regularnimi izrazi in NLP modeli preišče več kot 320 tipov entitet v več kot 70 državah

5

Analiza konteksta

Okoliško besedilo izboljša natančnost detekcije

6

Ocena zaupanja

Vsaka detekcija prejme oceno zaupanja (0,0–1,0), kar omogoča odločitve s človeškim nadzorom

7

Klasifikacija entitet

Zaznani elementi so razvrščeni po tipu

8

Pregled s strani človeka

Preglejte vse detekcije, popravite napačne pozitivne rezultate in potrdite pred anonimizacijo

9

Uporaba anonimizacije

Izberite metodo: zamenjava, redakcija, zgoščevanje, šifriranje ali maskiranje

10

Izhodni dokument

Prenesite anonimiziran dokument

MCP strežnik: Integracija AI z zasebnostjo na prvem mestu

Kako vaši podatki potekajo skozi MCP strežnik za varno uporabo AI orodij

MCP strežnik deluje kot ščit zasebnosti: prestreže zahteve AI orodij, anonimizira PII, obdela varne podatke prek AI in po potrebi obnovi izvirne vrednosti.

Zahteva AI orodja

Vaše AI orodje (Cursor, Claude) pošlje zahtevo, ki vsebuje PII

MCP strežnik prestreže

Strežnik analizira in zazna vse PII entitete

Anonimizacija

PII se zamenja z žetoni ali redigira

AI obdelava

AI prejme in obdela le anonimizirane podatke

Vrnitev odgovora

AI odgovor se vrne prek MCP strežnika

Detokenizacija

Opcijsko: uporabniku se obnovijo izvirne vrednosti

Pogosta vprašanja

Ali cloak.business uporablja AI za detekcijo?

Ne. Detekcija uporablja deterministične regex vzorce in NLP modele (spaCy, Stanza). To zagotavlja 100 % ponovljive rezultate — enak vnos vedno prinese enak izhod, v nasprotju z verjetnostnimi AI pristopi.

Zakaj regex vzorci namesto AI?

Regex vzorci so preverljivi, ponovljivi in skladni. Natančno lahko preverite, kaj vsak vzorec zazna. Detekcija na osnovi AI ni deterministična — rezultati se lahko razlikujejo med zagoni, kar otežuje dokumentacijo za skladnost.

Kako natančna je detekcija?

S 317 prilagojenimi prepoznavalci vzorcev, vključno s preverjanjem kontrolnih števil (Luhn, IBAN, SSN), cloak.business dosega bistveno višjo natančnost kot generični NER modeli, zlasti za strukturirane identifikatorje, kot so kreditne kartice, davčne številke in osebne izkaznice.

Katere jezike podpirate?

Podprtih je 48 jezikov s posebnimi NLP modeli za prepoznavanje imenovanih entitet. Detekcija na osnovi vzorcev (regex) deluje v vseh jezikih, saj temelji na ujemanju znakovnih vzorcev ne glede na jezik.

Ali lahko dodam lastne vzorce entitet?

Da. API podpira lastne definicije prepoznavalcev, tako da lahko dodate vzorce za lastniške identifikatorje, interne referenčne številke ali domensko specifične podatkovne formate.

Oglejte si v praksi

Preizkusite našo detekcijo in anonimizacijo PII brezplačno z 200 žetoni na cikel.