Proč regex na prvním místě?
Pro regulatorní shodu potřebujete výsledky, které lze vysvětlit a zopakovat. Náš přístup s důrazem na regex zajišťuje plně deterministickou detekci strukturovaných dat, zatímco NLP zpracovává jména a lokace s transparentními hodnotami jistoty.
Podrobná srovnání
| Regex na prvním místě (my) | AI/ML založené | |
|---|---|---|
| Reprodukovatelnost | Strukturovaná data: 100% totožná. Jména: s hodnotou jistoty | Všechny výsledky se liší mezi spuštěními |
| Auditovatelnost | Každá detekce je dohledatelná podle vzoru nebo NLP modelu | Black box — nelze vysvětlit rozhodnutí |
| Trénovací data | Regex: žádná. NLP: předtrénované modely součástí | Vyžaduje vlastní trénovací datasety |
| Drift modelu | Regex: žádný. NLP: verzované, stabilní modely | Nepředvídatelně se zhoršuje v čase |
| Výkon | Rychlý, pouze CPU | Proměnlivý, závislý na GPU |
| Náklady na výpočet | Nízké (pouze CPU) | Vysoké (často nutný GPU) |
| Regulatorní shoda | Snadné — vzory + hodnoty jistoty jsou auditovatelné s dohledem člověka | Obtížné doložit regulátorům |
Jak funguje porovnání vzorů
Každý typ entity má pečlivě navržené regex vzory, které odpovídají specifickým formátům.
E-mailové adresy
Odpovídá standardnímu formátu e-mailu: local-part@domain.tld
Čísla kreditních karet
Odpovídá formátům Visa, Mastercard, Amex a dalším s validací Luhn
Německý IBAN
Odpovídá německému formátu IBAN s volitelnými mezerami
Navrženo pro shodu s předpisy
Když se auditoři ptají „proč bylo toto detekováno?“, potřebujete jasnou odpověď. Detekce pomocí regex lze vysledovat ke konkrétnímu vzoru. Detekce NLP obsahuje název modelu a hodnotu jistoty. Kontrola člověkem umožňuje týmům pro shodu s předpisy upravit detekce před anonymizací.
- GDPR článek 25: Ochrana soukromí již při návrhu s vysvětlitelným zpracováním
- ISO 27001: Dokumentované, opakovatelné procesy
- Auditní stopa: Každou detekci lze vysledovat ke konkrétnímu vzoru
Příklad odpovědi na audit
Otázka: Proč byla označena "john.smith@company.com"?
Odpověď: Odpovídá vzoru e-mailu na pozici 45-68 s hodnotou jistoty 0,95. Vzor: standardní validace formátu e-mailu.