Regex-alapú: Miért fontos ez?
Saját megközelítésünk: Regex + NLP
- 317 regex felismerő: 100%-ban reprodukálható strukturált adatokhoz
- NLP nevekhez és helyszínekhez bizalmi pontszámokkal
- Teljesen auditálható — minden felismerés visszakövethető mintához vagy modellhez
- Átlátható: mindig tudja, mi és miért egyezett
- Gyors, kiszámítható teljesítmény
- 48 nyelv 3 NLP motorral
Csak AI-alapú megközelítések
- Minden felismerés valószínűségi alapon történik
- Nem magyarázható, miért lett valami megjelölve
- Nagy mennyiségű tanítóadat szükséges
- Nehéz auditálni megfelelőség szempontjából
- Magasabb számítási költség (GPU szükséges)
- A modell eltolódása idővel rontja a pontosságot
A 10 lépéses folyamat
A bemenettől a kimenetig: pontosan ez történik a dokumentumával
Szöveg beküldése
Küldje be dokumentumát webes felületen, API-n vagy Office bővítményen keresztül
Nyelvfelismerés
A rendszer azonosítja a dokumentum nyelvét az optimális feldolgozáshoz
Tokenizálás
A szöveg tokenekre bontva kerül mintakeresésre
Mintakeresés
317 regex felismerő és NLP modellek vizsgálják 320+ entitástípus jelenlétét 70+ országban
Kontextuselemzés
A környező szöveg javítja a felismerés pontosságát
Bizalmi pontszám
Minden felismeréshez bizalmi pontszám (0,0–1,0) tartozik, amely lehetővé teszi az emberi felülvizsgálatot
Entitás osztályozás
A felismert elemek típus szerint kategorizálva lesznek
Emberi felülvizsgálat
Ellenőrizze az összes felismerést, javítsa a téves pozitívokat, és hagyja jóvá anonimizálás előtt
Anonimizálás alkalmazása
Válassza ki a módszert: Csere, Kitakarás, Hash-elés, Titkosítás vagy Maszkolás
Kimeneti dokumentum
Töltse le az anonimizált dokumentumot
MCP szerver: Adatvédelmi szemléletű AI integráció
Hogyan áramlik az adata az MCP szerveren keresztül az AI eszközök biztonsága érdekében
Az MCP szerver adatvédelmi pajzsként működik: elfogja az AI eszközök kéréseit, anonimizálja a PII-t, biztonságos adatokat küld az AI-nak, és igény szerint visszaállítja az eredeti értékeket.
AI eszköz kérése
Az AI eszköz (Cursor, Claude) PII-t tartalmazó kérést küld
MCP szerver elfogja
A szerver elemzi és felismeri az összes PII entitást
Anonimizálás
A PII-t tokenekre cseréli vagy kitakarja
AI feldolgozás
Az AI csak anonimizált adatokat kap és dolgoz fel
Válasz visszaadása
Az AI válasza az MCP szerveren keresztül érkezik vissza
Detokenizálás
Opcionális: az eredeti értékek visszaállítása a felhasználónak
Gyakran ismételt kérdések
Használ a cloak.business AI-t a felismeréshez?
Nem. A felismerés determinisztikus regex mintákat és NLP modelleket (spaCy, Stanza) használ. Ez 100%-ban reprodukálható eredményt biztosít — ugyanaz a bemenet mindig ugyanazt az eredményt adja, ellentétben a valószínűségi AI megközelítésekkel.
Miért regex minták AI helyett?
A regex minták auditálhatók, reprodukálhatók és megfelelők. Pontosan megvizsgálhatja, hogy melyik minta mit ismer fel. Az AI-alapú felismerés nem determinisztikus — az eredmények futásonként eltérhetnek, ami megnehezíti a megfelelőségi dokumentációt.
Mennyire pontos a felismerés?
A 317 egyedi mintafelismerővel, beleértve az ellenőrzőszám-ellenőrzést (Luhn, IBAN, SSN), a cloak.business jelentősen nagyobb pontosságot ér el, mint az általános NER modellek, különösen strukturált azonosítók (pl. bankkártyák, adószámok, személyi igazolvány számok) esetén.
Milyen nyelveket támogatnak?
48 nyelvet támogatunk, dedikált NLP modellekkel a névfelismeréshez. A mintaalapú felismerés (regex) minden nyelven működik, mivel karaktermintákat keres, függetlenül a nyelvtől.
Hozzáadhatok egyedi entitásmintákat?
Igen. Az API támogatja az egyedi felismerő definíciókat, így hozzáadhat mintákat saját azonosítókhoz, belső hivatkozási számokhoz vagy szakterületspecifikus adatformátumokhoz.