Kā darbojas cloak.business | Regex-pamatota PII noteikšana

Regex-pamatota PII noteikšana: 317 deterministiski paraugu atpazinēji strukturētiem datiem (ID, nodokļu numuri, kredītkartes), kā arī spaCy, Stanza un XLM-RoBERTa NLP vārdiem un vietām 48 valodās.

Izmēģināt bez maksas Tehniskā dokumentācija

Regex-pamatota pieeja: Kāpēc tas ir svarīgi

Mūsu pieeja: Regex + NLP

317 regex atpazinēji: 100% reproducējami strukturētiem datiem
NLP vārdiem un vietām ar pārliecības rādītājiem
Pilnībā auditējams — katra noteikšana izsekojama līdz paraugam vai modelim
Caurspīdīgi: Jūs vienmēr zināt, kas un kāpēc tika atzīmēts
Ātra, paredzama veiktspēja
48 valodas 3 NLP dzinējos

Tikai AI pieejas

Visas noteikšanas ir varbūtiskas
Nav iespējams izskaidrot, kāpēc kaut kas tika atzīmēts
Nepieciešami lieli apmācību datu kopumi
Grūti auditēt atbilstībai
Augstākas aprēķinu izmaksas (nepieciešams GPU)
Modeļa novirze laika gaitā samazina precizitāti

10 soļu process

No ievades līdz rezultātam — kas tieši notiek ar Jūsu dokumentu

Ievades teksts

Iesniedziet dokumentu, izmantojot tīmekļa saskarni, API vai Office papildinājumu

Valodas noteikšana

Sistēma identificē dokumenta valodu optimālai apstrādei

Tokenizācija

Teksts tiek sadalīts tokenos paraugu atpazīšanai

Paraugu atpazīšana

317 regex atpazinēji un NLP modeļi skenē 317 entitāšu tipus vairāk nekā 70 valstīs

Konteksta analīze

Apkārtējais teksts uzlabo noteikšanas precizitāti

Pārliecības novērtējums

Katrai noteikšanai tiek piešķirts pārliecības rādītājs (0.0–1.0), ļaujot veikt manuālu pārskatīšanu

Entitāšu klasifikācija

Noteiktie vienumi tiek kategorizēti pēc tipa

Manuāla pārskatīšana

Pārskatiet visas noteikšanas, labojiet kļūdaini atzīmētos un apstipriniet pirms anonimizācijas

Anonimizācijas piemērošana

Izvēlieties metodi: Aizvietot, Rediģēt, Hash, Šifrēt vai Maskēt

Rezultējošais dokuments

Lejupielādējiet savu anonimizēto dokumentu

MCP Serveris: Privātuma prioritāte AI integrācijā

Kā Jūsu dati plūst caur MCP Serveri, lai AI rīki būtu droši

MCP Serveris darbojas kā privātuma vairogs, pārtverot AI rīku pieprasījumus, anonimizējot PII, apstrādājot drošos datus ar AI un pēc izvēles atjaunojot oriģinālās vērtības.

AI rīka pieprasījums

Jūsu AI rīks (Cursor, Claude) sūta pieprasījumu ar PII

MCP Serveris pārtver

Serveris analizē un nosaka visas PII entitātes

Anonimizācija

PII tiek aizvietots ar tokeniem vai rediģēts

AI apstrāde

AI saņem un apstrādā tikai anonimizētus datus

Atbilde atgriežas

AI atbilde atgriežas caur MCP Serveri

Detokenizācija

Pēc izvēles: lietotājam tiek atjaunotas oriģinālās vērtības

Uzziniet vairāk par MCP Serveri →

Izpētiet vairāk

Tehnoloģija

Padziļināta izpēte par regex-pamatotu noteikšanu un tās priekšrocībām atbilstībai

Arhitektūra

Sistēmas arhitektūra un komponentu savstarpējā darbība

Drošība

Pieci drošības līmeņi, kas aizsargā Jūsu datus katrā posmā

Biežāk uzdotie jautājumi

Vai cloak.business izmanto AI noteikšanai?

Nē. Noteikšana izmanto deterministiskus regex paraugus un NLP modeļus (spaCy, Stanza). Tas nodrošina 100% reproducējamus rezultātus — vienāda ievade vienmēr dod vienādu izvadi, atšķirībā no varbūtiskām AI pieejām.

Kāpēc izmantot regex paraugus, nevis AI?

Regex paraugi ir auditējami, reproducējami un atbilstoši normatīviem. Jūs varat pārbaudīt, ko tieši katrs paraugs atbilst. AI-pamatota noteikšana nav deterministiska — rezultāti var atšķirties katrā izpildē, kas apgrūtina atbilstības dokumentāciju.

Cik precīza ir noteikšana?

Ar 317 pielāgotiem paraugu atpazinējiem, ieskaitot kontrolskaitļu validāciju (Luhn, IBAN, SSN), cloak.business sasniedz ievērojami augstāku precizitāti nekā vispārīgie NER modeļi, īpaši strukturētiem identifikatoriem, piemēram, kredītkartēm, nodokļu ID un personas kodam.

Kādas valodas tiek atbalstītas?

Tiek atbalstītas 48 valodas ar īpašiem NLP modeļiem vārdu atpazīšanai. Paraugu balstīta noteikšana (regex) darbojas visās valodās, jo tā atbilst rakstzīmju paraugiem neatkarīgi no valodas.

Vai varu pievienot pielāgotus entitāšu paraugus?

Jā. API atbalsta pielāgotu atpazinēju definīcijas, lai varētu pievienot paraugus iekšējiem identifikatoriem, atsauces numuriem vai nozares specifiskiem datu formātiem.

Skatiet darbībā

Izmēģiniet mūsu PII noteikšanu un anonimizāciju bez maksas ar 200 tokeniem katrā ciklā.