Kuidas cloak.business töötab

Regex-põhine PII tuvastamine: 317 deterministlikku mustrituvastajat struktureeritud andmete jaoks (ID-d, maksunumbrid, krediitkaardid), lisaks spaCy, Stanza ja XLM-RoBERTa NLP nimede ja asukohtade jaoks 48 keeles.

Regex-põhine: Miks see on oluline

Meie lähenemine: Regex + NLP

  • 317 regex-tuvastajat: 100% reprodutseeritav struktureeritud andmete jaoks
  • NLP nimede ja asukohtade jaoks koos usaldusväärsuse skooridega
  • Täielikult auditeeritav — iga tuvastus on jälgitav mustri või mudelini
  • Läbipaistev: teate alati, mis vastas ja miks
  • Kiire, etteaimatav jõudlus
  • 48 keelt 3 NLP mootoris

Ainult AI-l põhinevad lähenemised

  • Kõik tuvastused on tõenäosuslikud
  • Ei saa selgitada, miks midagi märgiti
  • Vajab suuri treeningandmestikke
  • Raske auditeerida vastavuse jaoks
  • Kõrgemad arvutusressursside kulud (vajalik GPU)
  • Mudelid degradeeruvad aja jooksul

10-etapiline protsess

Alates sisendist kuni väljundini – täpselt, mis juhtub teie dokumendiga

1

Sisestage tekst

Esitage oma dokument veebiliidese, API või Office'i lisandmooduli kaudu

2

Keele tuvastamine

Süsteem tuvastab dokumendi keele optimaalseks töötlemiseks

3

Tokeniseerimine

Tekst jagatakse tokeniteks mustrite sobitamiseks

4

Mustrisobitus

317 regex-tuvastajat ja NLP-mudelid otsivad üle 320 üksusetüübi enam kui 70 riigis

5

Konteksti analüüs

Ümbritsev tekst parandab tuvastuse täpsust

6

Usaldusväärsuse skoorimine

Iga tuvastus saab usaldusväärsuse skoori (0,0–1,0), mis võimaldab inimese ülevaatust

7

Üksuste klassifitseerimine

Tuvastatud üksused liigitatakse tüübi järgi

8

Inimese ülevaatus

Vaadake kõik tuvastused üle, parandage valepositiivsed ja kinnitage enne anonümiseerimist

9

Anonümiseerimise rakendamine

Valige meetod: Asenda, Peida, Räsige, Krüpteeri või Maskeeri

10

Väljunddokument

Laadige alla oma anonümiseeritud dokument

MCP server: Privaatsust esikohale seadev AI integratsioon

Kuidas teie andmed liiguvad MCP serveri kaudu, et AI tööriistad oleksid turvalised

MCP server toimib privaatsuskilbina, püüdes AI tööriistade päringud kinni, anonümiseerides PII, töödelda turvalisi andmeid AI kaudu ja soovi korral taastades algväärtused.

AI tööriista päring

Teie AI tööriist (Cursor, Claude) saadab päringu, mis sisaldab PII-d

MCP server püüab kinni

Server analüüsib ja tuvastab kõik PII üksused

Anonümiseerimine

PII asendatakse tokenite või peidetakse

AI töötlemine

AI saab ja töötleb ainult anonümiseeritud andmeid

Vastuse tagastamine

AI vastus tuleb tagasi läbi MCP serveri

Detokeniseerimine

Valikuline: algväärtused taastatakse kasutajale

Korduma kippuvad küsimused

Kas cloak.business kasutab tuvastamiseks AI-d?

Ei. Tuvastamine kasutab deterministlikke regex-mustreid ja NLP-mudeleid (spaCy, Stanza). See tagab 100% reprodutseeritavad tulemused — sama sisend annab alati sama väljundi, erinevalt tõenäosuslikest AI-lähenemistest.

Miks kasutada regex-mustreid, mitte AI-d?

Regex-mustrid on auditeeritavad, reprodutseeritavad ja vastavuses nõuetega. Saate täpselt vaadata, mida iga muster tuvastab. AI-põhine tuvastus on mitte-deterministlik — tulemused võivad jooksude vahel erineda, mis raskendab vastavusdokumentatsiooni koostamist.

Kui täpne on tuvastus?

317 kohandatud mustrituvastajaga, sh kontrollsummade valideerimine (Luhn, IBAN, SSN), saavutab cloak.business oluliselt kõrgema täpsuse kui üldised NER-mudelid, eriti struktureeritud identifikaatorite puhul nagu krediitkaardid, maksutunnused ja isikukoodid.

Milliseid keeli toetatakse?

Toetatud on 48 keelt spetsiaalsete NLP-mudelitega nimede tuvastamiseks. Mustripõhine tuvastus (regex) töötab kõigis keeltes, kuna see vastab tähemustritele sõltumata keelest.

Kas saan lisada kohandatud üksuse mustreid?

Jah. API toetab kohandatud tuvastajate määratlusi, nii et saate lisada mustreid ettevõttesiseste identifikaatorite, sisemiste viitenumbrite või valdkonnaspetsiifiliste andmevormingute jaoks.

Vaadake seda töös

Proovige meie PII tuvastamist ja anonümiseerimist tasuta, 200 tokenit tsükli kohta.