cloak.business

Hvorfor regex først?

For regulatorisk compliance har du brug for resultater, du kan forklare og reproducere. Vores regex-baserede tilgang gør detektion af strukturerede data fuldt deterministisk, mens NLP håndterer navne og lokationer med gennemsigtige tillidsscorer.

Detaljeret sammenligning

Regex-baseret (os)AI/ML-baseret
ReproducerbarhedStrukturerede data: 100% identiske. Navne: tillidsscoreAlle resultater varierer mellem kørsel
ReviderbarhedHver detektion kan spores til mønster eller NLP-modelSort boks — kan ikke forklare beslutninger
TræningsdataRegex: ingen. NLP: fortrænede modeller inkluderetKræver brugerdefinerede træningsdatasæt
ModeldriftRegex: ingen. NLP: versionerede, stabile modellerForringes uforudsigeligt over tid
YdeevneHurtig, kun CPUVariabel, afhængig af GPU
BeregningomkostningLav (kun CPU)Høj (GPU ofte nødvendig)
Regulatorisk complianceLet — mønstre + tillidsscorer kan revideres med menneskelig gennemgangSvært at bevise overfor myndigheder

Sådan fungerer mønstergenkendelse

Hver entity-type har nøje udformede regex-mønstre, der matcher specifikke formater.

E-mailadresser

Matcher standard e-mailformat: lokal-del@domæne.tld

Kreditkortnumre

Matcher Visa, Mastercard, Amex og andre kortformater med Luhn-validering

Tysk IBAN

Matcher tysk IBAN-format med valgfrie mellemrum

Bygget til compliance

Når revisorer spørger "hvorfor blev dette detekteret?" skal du kunne give et klart svar. Regex-detektioner kan spores til et specifikt mønster. NLP-detektioner inkluderer modelnavn og tillidsscore. Menneskelig gennemgang sikrer, at compliance-teams kan tilsidesætte detektioner før anonymisering.

  • GDPR artikel 25: Privacy by design med forklarlig behandling
  • ISO 27001: Dokumenterede, gentagelige processer
  • Audit trail: Hver detektion kan spores til et specifikt mønster

Eksempel på auditsvar

Q: Hvorfor blev "john.smith@company.com" markeret?

A: Matchede e-mailmønster på position 45-68 med tillid 0,95. Mønster: standard e-mailformatvalidering.

Oplev deterministisk detektion

Prøv vores regex-baserede PII-detektion gratis med 200 tokens pr. cyklus.