Nola funtzionatzen duen cloak.business-ek

Regex-lehen PII detekzioa: 317 eredu deterministiko datu egituratuentzat (IDak, zerga zenbakiak, kreditu txartelak), gehi spaCy, Stanza eta XLM-RoBERTa NLP izen eta kokalekuentzat 48 hizkuntzatan.

Regex-Lehen: Zergatik Garrantzitsua den

Gure Ikuspegia: Regex + NLP

  • 317 regex ezagutzaile: %100 erreproduzigarri datu egituratuentzat
  • NLP izen eta kokalekuentzat konfiantza puntuazioekin
  • Erabat auditagarria — detekzio bakoitza eredu edo patroira lotua
  • Gardentasuna: beti dakizu zer bat etorri den eta zergatik
  • Azkarra, errendimendu aurreikusgarria
  • 48 hizkuntza 3 NLP motorretan

AI-Soilik Ikuspegiak

  • Detekzio guztiak probabilistikoak dira
  • Ezin da azaldu zergatik markatu den zerbait
  • Datu multzo handiak behar dira entrenamendurako
  • Zaila da auditatzea araudia betetzeko
  • Kalkulu kostu handiagoa (GPU beharrezkoa)
  • Ereduen aldaketa denborarekin zehaztasuna galtzen du

10 Urratseko Prozesua

Sarreratik irteerara, hau da zure dokumentuarekin gertatzen dena

1

Testuaren Sarrera

Bidali zure dokumentua web interfazearen, APIaren edo Office Add-in bidez

2

Hizkuntzaren Detekzioa

Sistemak dokumentuaren hizkuntza identifikatzen du prozesamendu egokiena lortzeko

3

Tokenizazioa

Testua tokenetan zatitzen da patroiekin bat etortzeko

4

Patroi Bilaketa

317 regex ezagutzaile eta NLP eredu 320+ entitate mota aztertzen 70+ herrialdetan

5

Testuinguruaren Analisia

Inguruko testuak detekzioaren zehaztasuna hobetzen du

6

Konfiantza Puntuazioa

Detekzio bakoitzak konfiantza puntuazioa jasotzen du (0.0–1.0), giza berrikuspen erabakiak ahalbidetuz

7

Entitateen Sailkapena

Detektatutako elementuak motaren arabera sailkatzen dira

8

Giza Berrikuspena

Detekzio guztiak berrikusi, gezurrezko positiboak gainidatzi eta onartu anonimizazio aurretik

9

Anonimizazioa Aplikatu

Aukeratu zure metodoa: Ordeztu, Ezkutatu, Hash, Zifratu edo Maskaratu

10

Irteerako Dokumentua

Deskargatu zure anonimizatutako dokumentua

MCP Zerbitzaria: Pribatutasuna Lehenetsi duen AI Integrazioa

Nola igarotzen diren zure datuak MCP Zerbitzariaren bidez AI tresnak seguru mantentzeko

MCP Zerbitzariak pribatutasun babesle moduan jarduten du, AI tresnetatik datozen eskaerak atzeman, PII anonimizatu, datu seguruak AI bidez prozesatu, eta nahi izanez gero balio originalak leheneratu.

AI Tresnaren Eskaera

Zure AI tresnak (Cursor, Claude) PII duen eskaera bat bidaltzen du

MCP Zerbitzariak Atzeman

Zerbitzariak PII entitate guztiak aztertzen eta detektatzen ditu

Anonimizazioa

PII tokenekin ordezkatzen da edo ezkutatzen da

AI Prozesamendua

AIk soilik anonimizatutako datuak jasotzen eta prozesatzen ditu

Erantzunaren Itzulera

AIren erantzuna MCP Zerbitzariaren bidez itzultzen da

Detokenizazioa

Aukerakoa: Balio originalak erabiltzailearentzat leheneratu

Maiz Egindako Galderak

AI erabiltzen al du cloak.business-ek detekziorako?

Ez. Detekzioak regex eredu deterministikoak eta NLP ereduak (spaCy, Stanza) erabiltzen ditu. Honek %100 erreproduzigarriak diren emaitzak bermatzen ditu — sarrera berdinak beti irteera berdina ematen du, AI probabilistikoen ikuspegien aurka.

Zergatik regex ereduak eta ez AI?

Regex ereduak auditagarriak, erreproduzigarriak eta araudia betetzen dutenak dira. Zehazki ikus dezakezu zer bat datorren eredu bakoitzarekin. AI bidezko detekzioa ez da deterministikoa — emaitzak aldatu egiten dira exekuzio bakoitzean, eta horrek zaildu egiten du araudia dokumentatzea.

Zenbateraino da zehatza detekzioa?

317 eredu pertsonalizatu eta kontrol batura (Luhn, IBAN, SSN) barne, cloak.business-ek zehaztasun handiagoa lortzen du NER eredu orokorrek baino, bereziki identifikatzaile egituratuentzat (kreditu txartelak, zerga IDak, nazio ID zenbakiak).

Zein hizkuntza onartzen dira?

48 hizkuntza onartzen dira izen entitateen aitortzarako NLP eredu dedikatuekin. Patroi bidezko detekzioak (regex) hizkuntza guztietan funtzionatzen du, karaktere patroiekin bat egiten duelako hizkuntza kontuan hartu gabe.

Gehitu al dezaket entitate patroi pertsonalizaturik?

Bai. APIak ezagutzaile pertsonalizatuen definizioak onartzen ditu, beraz, zure identifikatzaile propioak, barneko erreferentzia zenbakiak edo domeinu espezifikoko datu formatuak gehitu ditzakezu.

Ikusi Ekinean

Probatu gure PII detekzio eta anonimizazioa doan, zikloko 200 tokenekin.