Miten cloak.business toimii

Regex-pohjainen PII-tunnistus: 317 determinististä mallintunnistinta rakenteiselle datalle (tunnukset, veronumerot, luottokortit) sekä spaCy-, Stanza- ja XLM-RoBERTa-NLP-nimien ja sijaintien tunnistukseen 48 kielellä.

Regex-pohjaisuus: Miksi sillä on väliä

Lähestymistapamme: Regex + NLP

  • 317 regex-tunnistinta: 100 % toistettavissa rakenteiselle datalle
  • NLP-nimien ja sijaintien tunnistukseen luottamuspistein
  • Täysin auditoitavissa — jokainen tunnistus jäljitettävissä malliin tai malliin
  • Läpinäkyvyys: tiedät aina, mikä osui ja miksi
  • Nopea ja ennustettava suorituskyky
  • 48 kieltä, 3 NLP-moottoria

Vain AI-pohjaiset ratkaisut

  • Kaikki tunnistukset ovat todennäköisyyspohjaisia
  • Ei voida selittää, miksi jokin tunnistettiin
  • Vaatii suuria koulutusdatamassoja
  • Vaikea auditoida vaatimustenmukaisuutta varten
  • Korkeammat laskentakustannukset (GPU vaaditaan)
  • Mallin muutokset heikentävät tarkkuutta ajan myötä

10-vaiheinen prosessi

Syötteestä tulosteeseen – näin dokumenttisi käsitellään

1

Syötetiedosto

Lähetä dokumenttisi verkkokäyttöliittymän, API:n tai Office-lisäosan kautta

2

Kielentunnistus

Järjestelmä tunnistaa dokumentin kielen optimaalista käsittelyä varten

3

Tokenisointi

Teksti jaetaan osiin mallien tunnistusta varten

4

Mallin tunnistus

317 regex-tunnistinta ja NLP-mallit etsivät yli 320 entiteettityyppiä yli 70 maassa

5

Kontekstianalyysi

Ympäröivä teksti parantaa tunnistuksen tarkkuutta

6

Luottamuspisteytys

Jokainen tunnistus saa luottamuspisteet (0,0–1,0), mahdollistaen ihmisen tarkistuksen

7

Entiteettiluokitus

Tunnistetut tiedot luokitellaan tyypeittäin

8

Ihmisen tarkistus

Tarkista kaikki tunnistukset, ohita virheelliset ja hyväksy ennen anonymisointia

9

Anonymisointi

Valitse menetelmä: Korvaa, peitä, tiivistä, salaa tai maskaa

10

Tulostiedosto

Lataa anonymisoitu dokumenttisi

MCP-palvelin: Tietosuoja ensin AI-integraatioissa

Näin datasi kulkee MCP-palvelimen kautta AI-työkalujen turvallisuuden takaamiseksi

MCP-palvelin toimii tietosuojakilpenä, sieppaa AI-työkalujen pyynnöt, anonymisoi PII:n, käsittelee turvallisen datan AI:n kautta ja palauttaa tarvittaessa alkuperäiset arvot.

AI-työkalun pyyntö

AI-työkalusi (Cursor, Claude) lähettää pyynnön, joka sisältää PII:tä

MCP-palvelin sieppaa

Palvelin analysoi ja tunnistaa kaikki PII-entiteetit

Anonymisointi

PII korvataan tokeneilla tai peitetään

AI-käsittely

AI vastaanottaa ja käsittelee vain anonymisoitua dataa

Vastaus palautetaan

AI:n vastaus kulkee takaisin MCP-palvelimen kautta

Detokenisointi

Valinnainen: Alkuperäiset arvot palautetaan käyttäjälle

Usein kysytyt kysymykset

Käyttääkö cloak.business tekoälyä tunnistukseen?

Ei. Tunnistus perustuu deterministisiin regex-malleihin ja NLP-malleihin (spaCy, Stanza). Tämä takaa 100 % toistettavat tulokset — sama syöte tuottaa aina saman tuloksen, toisin kuin todennäköisyyspohjaisissa AI-ratkaisuissa.

Miksi regex-mallit AI:n sijaan?

Regex-mallit ovat auditoitavia, toistettavia ja vaatimustenmukaisia. Voit tarkistaa tarkalleen, mitä kukin malli tunnistaa. AI-pohjainen tunnistus ei ole deterministinen — tulokset voivat vaihdella suorituskerroittain, mikä vaikeuttaa vaatimustenmukaisuuden dokumentointia.

Kuinka tarkka tunnistus on?

317 räätälöidyn mallintunnistimen ja tarkistussumman validoinnin (Luhn, IBAN, SSN) ansiosta cloak.business saavuttaa huomattavasti korkeamman tarkkuuden kuin geneeriset NER-mallit, erityisesti rakenteisille tunnisteille kuten luottokortit, verotunnukset ja kansalliset henkilötunnukset.

Mitä kieliä tuetaan?

48 kieltä tuetaan omilla NLP-malleilla nimientunnistukseen. Mallipohjainen tunnistus (regex) toimii kaikilla kielillä, koska se perustuu merkkijonon muotoon kieleen katsomatta.

Voinko lisätä omia entiteettimalleja?

Kyllä. API tukee omien tunnistimien määrittelyä, joten voit lisätä malleja esimerkiksi yrityskohtaisille tunnisteille, sisäisille viitenumeroille tai toimialakohtaisille tietomuodoille.

Katso käytännössä

Kokeile PII-tunnistusta ja anonymisointia ilmaiseksi – 200 tokenia per jakso.