Kaip veikia cloak.business

Regex pagrįstas PII aptikimas: 317 deterministinių šablonų atpažinimo įrankių struktūruotiems duomenims (ID, mokesčių numeriai, kreditinės kortelės), taip pat spaCy, Stanza ir XLM-RoBERTa NLP vardams ir vietovėms 48 kalbomis.

Regex pagrįstas: Kodėl tai svarbu

Mūsų metodas: Regex + NLP

  • 317 regex atpažinimo įrankių: 100% atkartojami struktūruotiems duomenims
  • NLP vardams ir vietovėms su pasitikėjimo balais
  • Visiškai audituojama — kiekvienas aptikimas atsekamas iki šablono ar modelio
  • Skaidrumas: visada žinote, kas ir kodėl buvo atpažinta
  • Greitas, nuspėjamas veikimas
  • 48 kalbos, 3 NLP varikliai

Tik AI metodai

  • Visi aptikimai yra tikėtini (probabilistiniai)
  • Negalima paaiškinti, kodėl kažkas buvo pažymėta
  • Reikia didelių mokymo duomenų rinkinių
  • Sunku audituoti atitiktį
  • Didesnės skaičiavimo išlaidos (reikalingas GPU)
  • Modelio pokyčiai ilgainiui mažina tikslumą

10 žingsnių procesas

Nuo įvedimo iki išvedimo – štai kas tiksliai vyksta su Jūsų dokumentu

1

Įveskite tekstą

Pateikite dokumentą per žiniatinklio sąsają, API arba Office priedą

2

Kalbos atpažinimas

Sistema nustato dokumento kalbą optimaliai apdorojimui

3

Tokenizacija

Tekstas suskaidomas į žodžius (tokenus) šablonų atitikimui

4

Šablonų atitikimas

317 regex atpažinimo įrankių ir NLP modeliai ieško daugiau nei 320 objektų tipų daugiau nei 70 šalių

5

Konteksto analizė

Aplinkinis tekstas pagerina aptikimo tikslumą

6

Pasitikėjimo balų skyrimas

Kiekvienam aptikimui suteikiamas pasitikėjimo balas (0.0–1.0), leidžiantis žmogui priimti sprendimą

7

Objektų klasifikavimas

Aptikti elementai suskirstomi pagal tipą

8

Žmogaus peržiūra

Peržiūrėkite visus aptikimus, atmeskite klaidingus teigiamus rezultatus ir patvirtinkite prieš anonimizavimą

9

Anonimizavimo taikymas

Pasirinkite metodą: Pakeisti, Užtušuoti, Hash, Užšifruoti arba Užmaskuoti

10

Išvesties dokumentas

Atsisiųskite savo anonimizuotą dokumentą

MCP serveris: privatumo pirmumo AI integracija

Kaip Jūsų duomenys keliauja per MCP serverį, kad AI įrankiai būtų saugūs

MCP serveris veikia kaip privatumo skydas, perima AI įrankių užklausas, anonimizuoja PII, apdoroja saugius duomenis per AI ir, jei reikia, atstato pradinius duomenis.

AI įrankio užklausa

Jūsų AI įrankis (Cursor, Claude) siunčia užklausą su PII

MCP serveris perima

Serveris analizuoja ir aptinka visus PII objektus

Anonimizavimas

PII pakeičiama žetonais arba užtušuojama

AI apdorojimas

AI gauna ir apdoroja tik anonimizuotus duomenis

Atsakymo grąžinimas

AI atsakymas grįžta per MCP serverį

De-tokenizavimas

Pasirenkama: pradinės vertės atkuriamos vartotojui

Dažniausiai užduodami klausimai

Ar cloak.business naudoja AI aptikimui?

Ne. Aptikimas vykdomas naudojant deterministinius regex šablonus ir NLP modelius (spaCy, Stanza). Tai užtikrina 100% atkartojamus rezultatus — tas pats įvestis visada duoda tą patį išvestį, skirtingai nei tikėtini AI metodai.

Kodėl regex šablonai, o ne AI?

Regex šablonai yra audituojami, atkartojami ir atitinka reikalavimus. Galite tiksliai peržiūrėti, ką kiekvienas šablonas atitinka. AI pagrįstas aptikimas yra nedeterministinis — rezultatai gali skirtis kiekvieną kartą, todėl sunku dokumentuoti atitiktį.

Koks aptikimo tikslumas?

Naudojant 317 individualių šablonų atpažinimo įrankių, įskaitant kontrolinių sumų tikrinimą (Luhn, IBAN, SSN), cloak.business pasiekia žymiai didesnį tikslumą nei bendriniai NER modeliai, ypač struktūruotiems identifikatoriams, pvz., kreditinėms kortelėms, mokesčių ID ir asmens kodams.

Kokios kalbos palaikomos?

Palaikomos 48 kalbos su dedikuotais NLP modeliais vardų atpažinimui. Šablonais pagrįstas aptikimas (regex) veikia visomis kalbomis, nes atitinka simbolių šablonus nepriklausomai nuo kalbos.

Ar galiu pridėti savo šablonus?

Taip. API palaiko individualių atpažinimo šablonų apibrėžimus, tad galite pridėti šablonus nuosavybiniams identifikatoriams, vidiniams numeriams ar specifiniams duomenų formatams.

Pamatykite veikime

Išbandykite mūsų PII aptikimą ir anonimizavimą nemokamai su 200 žetonų per ciklą.