Hur Regex-First PII-detektering fungerar

Regex-first PII-detektering: 317 deterministiska mönsterigenkännare för strukturerad data (ID, skattenummer, kreditkort), samt spaCy, Stanza och XLM-RoBERTa NLP för namn och platser på 48 språk.

Prova Gratis Teknisk Dokumentation

Regex-First: Varför Det Är Viktigt

Vår Metod: Regex + NLP

317 regex-igenkännare: 100 % reproducerbara för strukturerad data
NLP för namn & platser med tillförlitlighetspoäng
Fullt granskbart — varje träff kan spåras till ett mönster eller en modell
Transparens: du vet alltid vad som matchade och varför
Snabb, förutsägbar prestanda
48 språk via 3 NLP-motorer

Endast AI-baserade Metoder

Alla träffar är sannolikhetsbaserade
Kan inte förklara varför något flaggades
Kräver stora träningsdatamängder
Svårt att granska för regelefterlevnad
Högre beräkningskostnader (GPU krävs)
Modellförändring försämrar noggrannheten över tid

Processen i 10 Steg

Från indata till utdata – så här behandlas ditt dokument

Indata

Skicka in ditt dokument via webbgränssnitt, API eller Office-tillägg

Språkdetektering

Systemet identifierar dokumentets språk för optimal behandling

Tokenisering

Texten delas upp i token för mönstermatchning

Mönstermatchning

317 regex-igenkännare och NLP-modeller söker efter 317 entitetstyper i över 70 länder

Kontextanalys

Omgivande text förbättrar detekteringsnoggrannheten

Tillförlitlighetspoäng

Varje träff får en tillförlitlighetspoäng (0,0–1,0) som möjliggör mänsklig granskning

Entitetsklassificering

Upptäckta objekt kategoriseras efter typ

Mänsklig Granskning

Granska alla träffar, åsidosätt falska positiva och godkänn innan anonymisering

Anonymisering

Välj metod: Ersätt, Maskera, Hasha, Kryptera eller Dölj

Utdata

Ladda ner ditt anonymiserade dokument

MCP Server: Integritet-först AI-integration

Så flödar dina data genom MCP Server för att skydda AI-verktyg

MCP Server fungerar som en integritetssköld, fångar upp förfrågningar från AI-verktyg, anonymiserar PII, behandlar säkra data genom AI och återställer vid behov ursprungliga värden.

AI-verktygsförfrågan

Ditt AI-verktyg (Cursor, Claude) skickar en förfrågan som innehåller PII

MCP Server Fångar Upp

Servern analyserar och upptäcker alla PII-entiteter

Anonymisering

PII ersätts med tokens eller maskeras

AI-behandling

AI tar emot och behandlar endast anonymiserade data

Svar Returneras

AI-svaret går tillbaka via MCP Server

Avtokenisering

Valfritt: Ursprungliga värden återställs för användaren

Läs mer om MCP Server →

Utforska Vidare

Teknologi

Djupdykning i regex-first-detektering och varför det är bättre för regelefterlevnad

Arkitektur

Systemarkitektur och hur komponenterna samverkar

Säkerhet

Fem säkerhetslager som skyddar dina data i varje steg

Vanliga Frågor

Använder cloak.business AI för detektering?

Nej. Detektering använder deterministiska regex-mönster och NLP-modeller (spaCy, Stanza). Detta garanterar 100 % reproducerbara resultat — samma indata ger alltid samma utdata, till skillnad från sannolikhetsbaserade AI-metoder.

Varför regex-mönster istället för AI?

Regex-mönster är granskbara, reproducerbara och uppfyller regelkrav. Du kan inspektera exakt vad varje mönster matchar. AI-baserad detektering är icke-deterministisk — resultat kan variera mellan körningar, vilket försvårar dokumentation för regelefterlevnad.

Hur noggrann är detekteringen?

Med 317 anpassade mönsterigenkännare inklusive kontrollsifferverifiering (Luhn, IBAN, SSN) uppnår cloak.business avsevärt högre noggrannhet än generiska NER-modeller, särskilt för strukturerade identifierare som kreditkort, skatte-ID och nationella ID-nummer.

Vilka språk stöds?

48 språk stöds med dedikerade NLP-modeller för namngiven entitetsigenkänning. Mönsterbaserad detektering (regex) fungerar på alla språk eftersom den matchar teckenmönster oavsett språk.

Kan jag lägga till egna entitetsmönster?

Ja. API:et stödjer egna igenkännardefinitioner så att du kan lägga till mönster för egna identifierare, interna referensnummer eller domänspecifika dataformat.

Se Det i Praktiken

Testa vår PII-detektering och anonymisering gratis med 200 tokens per cykel.