Miért regex-alapú?
A jogszabályi megfelelőséghez magyarázható és reprodukálható eredményekre van szükség. Regex-alapú megközelítésünk determinisztikus strukturált adatfelismerést biztosít, míg az NLP átlátható bizalmi pontszámokkal kezeli a neveket és helyszíneket.
Részletes összehasonlítás
| Regex-alapú (Mi) | AI/ML-alapú | |
|---|---|---|
| Reprodukálhatóság | Strukturált adat: 100% azonos. Nevek: bizalmi pontszámmal | Minden eredmény eltérhet futásonként |
| Auditálhatóság | Minden felismerés visszakövethető mintához vagy NLP modellhez | Fekete doboz — a döntések nem magyarázhatók |
| Tanítóadat | Regex: nincs szükség. NLP: előre betanított modellek | Egyedi tanítóadat szükséges |
| Modell eltolódás | Regex: nincs. NLP: verziózott, stabil modellek | Pontosság kiszámíthatatlanul romlik idővel |
| Teljesítmény | Gyors, csak CPU | Változó, GPU-függő |
| Számítási költség | Alacsony (csak CPU) | Magas (gyakran szükséges GPU) |
| Jogszabályi megfelelőség | Egyszerű — minták + bizalmi pontszámok auditálhatók emberi felülvizsgálattal | Nehéz bizonyítani a hatóságoknak |
Hogyan működik a mintakeresés
Minden entitástípushoz gondosan kialakított regex minták tartoznak, amelyek meghatározott formátumokat ismernek fel.
E-mail címek
A szabványos e-mail formátumot ismeri fel: local-part@domain.tld
Bankkártyaszámok
Visa, Mastercard, Amex és más kártyaformátumok felismerése Luhn-ellenőrzéssel
Német IBAN
A német IBAN formátum felismerése opcionális szóközökkel
Megfelelőségre tervezve
Ha az auditorok megkérdezik: "miért lett ez felismerve?" — egyértelmű választ kell adnia. A regex felismerések konkrét mintához köthetők. Az NLP felismerések tartalmazzák a modell nevét és a bizalmi pontszámot. Az emberi felülvizsgálat biztosítja, hogy a megfelelőségi csapatok felülírhassák a felismeréseket anonimizálás előtt.
- GDPR 25. cikk: Adatvédelem tervezéssel, magyarázható feldolgozással
- ISO 27001: Dokumentált, ismételhető folyamatok
- Auditnapló: Minden felismerés visszakövethető egy adott mintához
Példa auditválasz
K: Miért lett megjelölve a "john.smith@company.com"?
V: E-mail minta egyezett a 45-68 pozíción, bizalmi pontszám: 0,95. Minta: szabványos e-mail formátum ellenőrzés.