cloak.business

Miért regex-alapú?

A jogszabályi megfelelőséghez magyarázható és reprodukálható eredményekre van szükség. Regex-alapú megközelítésünk determinisztikus strukturált adatfelismerést biztosít, míg az NLP átlátható bizalmi pontszámokkal kezeli a neveket és helyszíneket.

Részletes összehasonlítás

Regex-alapú (Mi)AI/ML-alapú
ReprodukálhatóságStrukturált adat: 100% azonos. Nevek: bizalmi pontszámmalMinden eredmény eltérhet futásonként
AuditálhatóságMinden felismerés visszakövethető mintához vagy NLP modellhezFekete doboz — a döntések nem magyarázhatók
TanítóadatRegex: nincs szükség. NLP: előre betanított modellekEgyedi tanítóadat szükséges
Modell eltolódásRegex: nincs. NLP: verziózott, stabil modellekPontosság kiszámíthatatlanul romlik idővel
TeljesítményGyors, csak CPUVáltozó, GPU-függő
Számítási költségAlacsony (csak CPU)Magas (gyakran szükséges GPU)
Jogszabályi megfelelőségEgyszerű — minták + bizalmi pontszámok auditálhatók emberi felülvizsgálattalNehéz bizonyítani a hatóságoknak

Hogyan működik a mintakeresés

Minden entitástípushoz gondosan kialakított regex minták tartoznak, amelyek meghatározott formátumokat ismernek fel.

E-mail címek

A szabványos e-mail formátumot ismeri fel: local-part@domain.tld

Bankkártyaszámok

Visa, Mastercard, Amex és más kártyaformátumok felismerése Luhn-ellenőrzéssel

Német IBAN

A német IBAN formátum felismerése opcionális szóközökkel

Megfelelőségre tervezve

Ha az auditorok megkérdezik: "miért lett ez felismerve?" — egyértelmű választ kell adnia. A regex felismerések konkrét mintához köthetők. Az NLP felismerések tartalmazzák a modell nevét és a bizalmi pontszámot. Az emberi felülvizsgálat biztosítja, hogy a megfelelőségi csapatok felülírhassák a felismeréseket anonimizálás előtt.

  • GDPR 25. cikk: Adatvédelem tervezéssel, magyarázható feldolgozással
  • ISO 27001: Dokumentált, ismételhető folyamatok
  • Auditnapló: Minden felismerés visszakövethető egy adott mintához

Példa auditválasz

K: Miért lett megjelölve a "john.smith@company.com"?

V: E-mail minta egyezett a 45-68 pozíción, bizalmi pontszám: 0,95. Minta: szabványos e-mail formátum ellenőrzés.

Tapasztalja meg a determinisztikus felismerést

Próbálja ki a regex-alapú PII felismerést ingyenesen, 200 token/ciklus keretében.