Regex-pohjaisuus: Miksi sillä on väliä
Lähestymistapamme: Regex + NLP
- 317 regex-tunnistinta: 100 % toistettavissa rakenteiselle datalle
- NLP-nimien ja sijaintien tunnistukseen luottamuspistein
- Täysin auditoitavissa — jokainen tunnistus jäljitettävissä malliin tai malliin
- Läpinäkyvyys: tiedät aina, mikä osui ja miksi
- Nopea ja ennustettava suorituskyky
- 48 kieltä, 3 NLP-moottoria
Vain AI-pohjaiset ratkaisut
- Kaikki tunnistukset ovat todennäköisyyspohjaisia
- Ei voida selittää, miksi jokin tunnistettiin
- Vaatii suuria koulutusdatamassoja
- Vaikea auditoida vaatimustenmukaisuutta varten
- Korkeammat laskentakustannukset (GPU vaaditaan)
- Mallin muutokset heikentävät tarkkuutta ajan myötä
10-vaiheinen prosessi
Syötteestä tulosteeseen – näin dokumenttisi käsitellään
Syötetiedosto
Lähetä dokumenttisi verkkokäyttöliittymän, API:n tai Office-lisäosan kautta
Kielentunnistus
Järjestelmä tunnistaa dokumentin kielen optimaalista käsittelyä varten
Tokenisointi
Teksti jaetaan osiin mallien tunnistusta varten
Mallin tunnistus
317 regex-tunnistinta ja NLP-mallit etsivät yli 320 entiteettityyppiä yli 70 maassa
Kontekstianalyysi
Ympäröivä teksti parantaa tunnistuksen tarkkuutta
Luottamuspisteytys
Jokainen tunnistus saa luottamuspisteet (0,0–1,0), mahdollistaen ihmisen tarkistuksen
Entiteettiluokitus
Tunnistetut tiedot luokitellaan tyypeittäin
Ihmisen tarkistus
Tarkista kaikki tunnistukset, ohita virheelliset ja hyväksy ennen anonymisointia
Anonymisointi
Valitse menetelmä: Korvaa, peitä, tiivistä, salaa tai maskaa
Tulostiedosto
Lataa anonymisoitu dokumenttisi
MCP-palvelin: Tietosuoja ensin AI-integraatioissa
Näin datasi kulkee MCP-palvelimen kautta AI-työkalujen turvallisuuden takaamiseksi
MCP-palvelin toimii tietosuojakilpenä, sieppaa AI-työkalujen pyynnöt, anonymisoi PII:n, käsittelee turvallisen datan AI:n kautta ja palauttaa tarvittaessa alkuperäiset arvot.
AI-työkalun pyyntö
AI-työkalusi (Cursor, Claude) lähettää pyynnön, joka sisältää PII:tä
MCP-palvelin sieppaa
Palvelin analysoi ja tunnistaa kaikki PII-entiteetit
Anonymisointi
PII korvataan tokeneilla tai peitetään
AI-käsittely
AI vastaanottaa ja käsittelee vain anonymisoitua dataa
Vastaus palautetaan
AI:n vastaus kulkee takaisin MCP-palvelimen kautta
Detokenisointi
Valinnainen: Alkuperäiset arvot palautetaan käyttäjälle
Usein kysytyt kysymykset
Käyttääkö cloak.business tekoälyä tunnistukseen?
Ei. Tunnistus perustuu deterministisiin regex-malleihin ja NLP-malleihin (spaCy, Stanza). Tämä takaa 100 % toistettavat tulokset — sama syöte tuottaa aina saman tuloksen, toisin kuin todennäköisyyspohjaisissa AI-ratkaisuissa.
Miksi regex-mallit AI:n sijaan?
Regex-mallit ovat auditoitavia, toistettavia ja vaatimustenmukaisia. Voit tarkistaa tarkalleen, mitä kukin malli tunnistaa. AI-pohjainen tunnistus ei ole deterministinen — tulokset voivat vaihdella suorituskerroittain, mikä vaikeuttaa vaatimustenmukaisuuden dokumentointia.
Kuinka tarkka tunnistus on?
317 räätälöidyn mallintunnistimen ja tarkistussumman validoinnin (Luhn, IBAN, SSN) ansiosta cloak.business saavuttaa huomattavasti korkeamman tarkkuuden kuin geneeriset NER-mallit, erityisesti rakenteisille tunnisteille kuten luottokortit, verotunnukset ja kansalliset henkilötunnukset.
Mitä kieliä tuetaan?
48 kieltä tuetaan omilla NLP-malleilla nimientunnistukseen. Mallipohjainen tunnistus (regex) toimii kaikilla kielillä, koska se perustuu merkkijonon muotoon kieleen katsomatta.
Voinko lisätä omia entiteettimalleja?
Kyllä. API tukee omien tunnistimien määrittelyä, joten voit lisätä malleja esimerkiksi yrityskohtaisille tunnisteille, sisäisille viitenumeroille tai toimialakohtaisille tietomuodoille.