Miten Regex-First PII-tunnistus toimii

Regex-pohjainen PII-tunnistus: 317 determinististä mallintunnistinta rakenteiselle datalle (tunnukset, veronumerot, luottokortit) sekä spaCy-, Stanza- ja XLM-RoBERTa-NLP-nimien ja sijaintien tunnistukseen 48 kielellä.

Kokeile ilmaiseksi Tekninen dokumentaatio

Regex-pohjaisuus: Miksi sillä on väliä

Lähestymistapamme: Regex + NLP

317 regex-tunnistinta: 100 % toistettavissa rakenteiselle datalle
NLP-nimien ja sijaintien tunnistukseen luottamuspistein
Täysin auditoitavissa — jokainen tunnistus jäljitettävissä malliin tai malliin
Läpinäkyvyys: tiedät aina, mikä osui ja miksi
Nopea ja ennustettava suorituskyky
48 kieltä, 3 NLP-moottoria

Vain AI-pohjaiset ratkaisut

Kaikki tunnistukset ovat todennäköisyyspohjaisia
Ei voida selittää, miksi jokin tunnistettiin
Vaatii suuria koulutusdatamassoja
Vaikea auditoida vaatimustenmukaisuutta varten
Korkeammat laskentakustannukset (GPU vaaditaan)
Mallin muutokset heikentävät tarkkuutta ajan myötä

10-vaiheinen prosessi

Syötteestä tulosteeseen – näin dokumenttisi käsitellään

Syötetiedosto

Lähetä dokumenttisi verkkokäyttöliittymän, API:n tai Office-lisäosan kautta

Kielentunnistus

Järjestelmä tunnistaa dokumentin kielen optimaalista käsittelyä varten

Tokenisointi

Teksti jaetaan osiin mallien tunnistusta varten

Mallin tunnistus

317 regex-tunnistinta ja NLP-mallit etsivät 317 entiteettityyppiä yli 70 maassa

Kontekstianalyysi

Ympäröivä teksti parantaa tunnistuksen tarkkuutta

Luottamuspisteytys

Jokainen tunnistus saa luottamuspisteet (0,0–1,0), mahdollistaen ihmisen tarkistuksen

Entiteettiluokitus

Tunnistetut tiedot luokitellaan tyypeittäin

Ihmisen tarkistus

Tarkista kaikki tunnistukset, ohita virheelliset ja hyväksy ennen anonymisointia

Anonymisointi

Valitse menetelmä: Korvaa, peitä, tiivistä, salaa tai maskaa

Tulostiedosto

Lataa anonymisoitu dokumenttisi

MCP-palvelin: Tietosuoja ensin AI-integraatioissa

Näin datasi kulkee MCP-palvelimen kautta AI-työkalujen turvallisuuden takaamiseksi

MCP-palvelin toimii tietosuojakilpenä, sieppaa AI-työkalujen pyynnöt, anonymisoi PII:n, käsittelee turvallisen datan AI:n kautta ja palauttaa tarvittaessa alkuperäiset arvot.

AI-työkalun pyyntö

AI-työkalusi (Cursor, Claude) lähettää pyynnön, joka sisältää PII:tä

MCP-palvelin sieppaa

Palvelin analysoi ja tunnistaa kaikki PII-entiteetit

Anonymisointi

PII korvataan tokeneilla tai peitetään

AI-käsittely

AI vastaanottaa ja käsittelee vain anonymisoitua dataa

Vastaus palautetaan

AI:n vastaus kulkee takaisin MCP-palvelimen kautta

Detokenisointi

Valinnainen: Alkuperäiset arvot palautetaan käyttäjälle

Lue lisää MCP-palvelimesta →

Tutustu lisää

Teknologia

Syväsukellus regex-pohjaiseen tunnistukseen ja sen etuihin vaatimustenmukaisuudessa

Arkkitehtuuri

Järjestelmän arkkitehtuuri ja komponenttien yhteistoiminta

Tietoturva

Viisi tietoturvakerrosta suojaamassa dataasi kaikissa vaiheissa

Usein kysytyt kysymykset

Käyttääkö cloak.business tekoälyä tunnistukseen?

Ei. Tunnistus perustuu deterministisiin regex-malleihin ja NLP-malleihin (spaCy, Stanza). Tämä takaa 100 % toistettavat tulokset — sama syöte tuottaa aina saman tuloksen, toisin kuin todennäköisyyspohjaisissa AI-ratkaisuissa.

Miksi regex-mallit AI:n sijaan?

Regex-mallit ovat auditoitavia, toistettavia ja vaatimustenmukaisia. Voit tarkistaa tarkalleen, mitä kukin malli tunnistaa. AI-pohjainen tunnistus ei ole deterministinen — tulokset voivat vaihdella suorituskerroittain, mikä vaikeuttaa vaatimustenmukaisuuden dokumentointia.

Kuinka tarkka tunnistus on?

317 räätälöidyn mallintunnistimen ja tarkistussumman validoinnin (Luhn, IBAN, SSN) ansiosta cloak.business saavuttaa huomattavasti korkeamman tarkkuuden kuin geneeriset NER-mallit, erityisesti rakenteisille tunnisteille kuten luottokortit, verotunnukset ja kansalliset henkilötunnukset.

Mitä kieliä tuetaan?

48 kieltä tuetaan omilla NLP-malleilla nimientunnistukseen. Mallipohjainen tunnistus (regex) toimii kaikilla kielillä, koska se perustuu merkkijonon muotoon kieleen katsomatta.

Voinko lisätä omia entiteettimalleja?

Kyllä. API tukee omien tunnistimien määrittelyä, joten voit lisätä malleja esimerkiksi yrityskohtaisille tunnisteille, sisäisille viitenumeroille tai toimialakohtaisille tietomuodoille.

Katso käytännössä

Kokeile PII-tunnistusta ja anonymisointia ilmaiseksi – 200 tokenia per jakso.