Regex-prva: Zakaj je pomembno
Naš pristop: Regex + NLP
- 317 prepoznavalcev z regularnimi izrazi: 100 % ponovljivo za strukturirane podatke
- NLP za imena in lokacije z oceno zaupanja
- Popolnoma preverljivo — vsaka detekcija je sledljiva vzorcu ali modelu
- Transparentno: vedno veste, kaj se je ujemalo in zakaj
- Hitro, predvidljivo delovanje
- 48 jezikov v 3 NLP pogonih
Izključno AI pristopi
- Vse detekcije so verjetnostne
- Ni mogoče pojasniti, zakaj je bilo nekaj označeno
- Zahteva velike učne podatkovne baze
- Težko preverljivo za skladnost
- Višji stroški procesiranja (potreben GPU)
- Modeli sčasoma izgubljajo natančnost
10-stopenjski postopek
Od vnosa do izhoda – točno to se zgodi z vašim dokumentom
Vnos besedila
Oddajte svoj dokument prek spletnega vmesnika, API-ja ali Office dodatka
Prepoznavanje jezika
Sistem prepozna jezik dokumenta za optimalno obdelavo
Tokenizacija
Besedilo se razdeli na tokene za iskanje vzorcev
Iskanje vzorcev
317 prepoznavalcev z regularnimi izrazi in NLP modeli preišče več kot 320 tipov entitet v več kot 70 državah
Analiza konteksta
Okoliško besedilo izboljša natančnost detekcije
Ocena zaupanja
Vsaka detekcija prejme oceno zaupanja (0,0–1,0), kar omogoča odločitve s človeškim nadzorom
Klasifikacija entitet
Zaznani elementi so razvrščeni po tipu
Pregled s strani človeka
Preglejte vse detekcije, popravite napačne pozitivne rezultate in potrdite pred anonimizacijo
Uporaba anonimizacije
Izberite metodo: zamenjava, redakcija, zgoščevanje, šifriranje ali maskiranje
Izhodni dokument
Prenesite anonimiziran dokument
MCP strežnik: Integracija AI z zasebnostjo na prvem mestu
Kako vaši podatki potekajo skozi MCP strežnik za varno uporabo AI orodij
MCP strežnik deluje kot ščit zasebnosti: prestreže zahteve AI orodij, anonimizira PII, obdela varne podatke prek AI in po potrebi obnovi izvirne vrednosti.
Zahteva AI orodja
Vaše AI orodje (Cursor, Claude) pošlje zahtevo, ki vsebuje PII
MCP strežnik prestreže
Strežnik analizira in zazna vse PII entitete
Anonimizacija
PII se zamenja z žetoni ali redigira
AI obdelava
AI prejme in obdela le anonimizirane podatke
Vrnitev odgovora
AI odgovor se vrne prek MCP strežnika
Detokenizacija
Opcijsko: uporabniku se obnovijo izvirne vrednosti
Pogosta vprašanja
Ali cloak.business uporablja AI za detekcijo?
Ne. Detekcija uporablja deterministične regex vzorce in NLP modele (spaCy, Stanza). To zagotavlja 100 % ponovljive rezultate — enak vnos vedno prinese enak izhod, v nasprotju z verjetnostnimi AI pristopi.
Zakaj regex vzorci namesto AI?
Regex vzorci so preverljivi, ponovljivi in skladni. Natančno lahko preverite, kaj vsak vzorec zazna. Detekcija na osnovi AI ni deterministična — rezultati se lahko razlikujejo med zagoni, kar otežuje dokumentacijo za skladnost.
Kako natančna je detekcija?
S 317 prilagojenimi prepoznavalci vzorcev, vključno s preverjanjem kontrolnih števil (Luhn, IBAN, SSN), cloak.business dosega bistveno višjo natančnost kot generični NER modeli, zlasti za strukturirane identifikatorje, kot so kreditne kartice, davčne številke in osebne izkaznice.
Katere jezike podpirate?
Podprtih je 48 jezikov s posebnimi NLP modeli za prepoznavanje imenovanih entitet. Detekcija na osnovi vzorcev (regex) deluje v vseh jezikih, saj temelji na ujemanju znakovnih vzorcev ne glede na jezik.
Ali lahko dodam lastne vzorce entitet?
Da. API podpira lastne definicije prepoznavalcev, tako da lahko dodate vzorce za lastniške identifikatorje, interne referenčne številke ali domensko specifične podatkovne formate.