Regex-First: Kenapa Ia Penting
Pendekatan Kami: Regex + NLP
- 317 pengecam regex: 100% boleh dihasilkan semula untuk data berstruktur
- NLP untuk nama & lokasi dengan skor keyakinan
- Boleh diaudit sepenuhnya — setiap pengesanan boleh dijejak kepada corak atau model
- Telus: anda sentiasa tahu apa yang dipadankan dan mengapa
- Prestasi pantas dan boleh dijangka
- 48 bahasa merentasi 3 enjin NLP
Pendekatan AI Sahaja
- Semua pengesanan adalah berasaskan kebarangkalian
- Tidak dapat menjelaskan sebab sesuatu ditandakan
- Memerlukan set data latihan yang besar
- Sukar untuk diaudit bagi pematuhan
- Kos pengiraan lebih tinggi (memerlukan GPU)
- Kecenderungan model mengurangkan ketepatan dari masa ke masa
Proses 10 Langkah
Daripada input ke output, berikut adalah apa yang berlaku kepada dokumen anda
Input Teks
Hantar dokumen anda melalui antara muka web, API, atau Add-in Office
Pengesanan Bahasa
Sistem mengenal pasti bahasa dokumen untuk pemprosesan optimum
Tokenisasi
Teks dipecahkan kepada token untuk pemadanan corak
Pemadanan Corak
317 pengecam regex dan model NLP mengimbas lebih 320 jenis entiti merentasi 70+ negara
Analisis Konteks
Teks sekeliling meningkatkan ketepatan pengesanan
Penilaian Keyakinan
Setiap pengesanan menerima skor keyakinan (0.0–1.0) untuk membolehkan semakan manusia
Pengelasan Entiti
Item yang dikesan dikategorikan mengikut jenis
Semakan Manusia
Semak semua pengesanan, betulkan positif palsu, dan luluskan sebelum anonimisasi
Laksanakan Anonimisasi
Pilih kaedah anda: Ganti, Hitamkan, Hash, Sulitkan, atau Topeng
Dokumen Output
Muat turun dokumen anda yang telah dianonimkan
Pelayan MCP: Integrasi AI Berfokus Privasi
Bagaimana data anda mengalir melalui Pelayan MCP untuk memastikan alat AI selamat
Pelayan MCP bertindak sebagai perisai privasi, memintas permintaan daripada alat AI, menganonimkan PII, memproses data selamat melalui AI, dan secara pilihan memulihkan nilai asal.
Permintaan Alat AI
Alat AI anda (Cursor, Claude) menghantar permintaan yang mengandungi PII
Pelayan MCP Memintas
Pelayan menganalisis dan mengesan semua entiti PII
Anonimisasi
PII digantikan dengan token atau dihitamkan
Pemprosesan AI
AI hanya menerima dan memproses data yang telah dianonimkan
Pemulangan Respons
Respons AI kembali melalui Pelayan MCP
Penyah-token
Pilihan: Nilai asal dipulihkan untuk pengguna
Soalan Lazim
Adakah cloak.business menggunakan AI untuk pengesanan?
Tidak. Pengesanan menggunakan corak regex deterministik dan model NLP (spaCy, Stanza). Ini memastikan keputusan 100% boleh dihasilkan semula — input yang sama sentiasa menghasilkan output yang sama, tidak seperti pendekatan AI berasaskan kebarangkalian.
Mengapa corak regex dan bukan AI?
Corak regex boleh diaudit, dihasilkan semula, dan mematuhi peraturan. Anda boleh memeriksa dengan tepat apa yang dipadankan oleh setiap corak. Pengesanan berasaskan AI adalah tidak deterministik — keputusan boleh berbeza setiap kali dijalankan, menyukarkan dokumentasi pematuhan.
Sejauh mana ketepatan pengesanan?
Dengan 317 pengecam corak tersuai termasuk pengesahan semak digit (Luhn, IBAN, SSN), cloak.business mencapai ketepatan jauh lebih tinggi berbanding model NER generik, terutamanya untuk pengecam berstruktur seperti kad kredit, ID cukai, dan nombor ID negara.
Bahasa apa yang disokong?
48 bahasa disokong dengan model NLP khusus untuk pengecaman entiti bernama. Pengesanan berasaskan corak (regex) berfungsi merentasi semua bahasa kerana ia memadankan corak aksara tanpa mengira bahasa.
Bolehkah saya menambah corak entiti tersuai?
Ya. API menyokong definisi pengecam tersuai supaya anda boleh menambah corak untuk pengecam proprietari, nombor rujukan dalaman, atau format data khusus domain.