Regex-First: Bakit Mahalaga Ito
Aming Paraan: Regex + NLP
- 317 regex recognizers: 100% na nare-reproduce para sa structured data
- NLP para sa mga pangalan at lokasyon na may confidence scores
- Ganap na auditable — bawat detection ay natutunton sa pattern o modelo
- Transparent: palagi mong alam kung ano ang tumugma at bakit
- Mabilis, predictable na performance
- 48 wika sa 3 NLP engines
AI-Only na Mga Paraan
- Lahat ng detection ay probabilistic
- Hindi maipaliwanag kung bakit na-flag ang isang bagay
- Nangangailangan ng malalaking training datasets
- Mahirap i-audit para sa compliance
- Mas mataas na compute costs (kailangan ng GPU)
- Model drift ay nagpapababa ng accuracy sa paglipas ng panahon
Ang 10-Hakbang na Proseso
Mula input hanggang output, narito ang eksaktong nangyayari sa iyong dokumento
Input ng Teksto
I-submit ang iyong dokumento sa pamamagitan ng web interface, API, o Office Add-in
Pag-detect ng Wika
Tinutukoy ng sistema ang wika ng dokumento para sa optimal na pagproseso
Tokenization
Hinahati ang teksto sa mga token para sa pattern matching
Pattern Matching
317 regex recognizers at NLP models ang nag-i-scan para sa 320+ uri ng entity sa 70+ bansa
Pagsusuri ng Konteksto
Pinapahusay ng nakapaligid na teksto ang accuracy ng detection
Confidence Scoring
Bawat detection ay may confidence score (0.0–1.0) para sa human-in-the-loop na pag-apruba
Entity Classification
Ang mga na-detect na item ay kinokategorya ayon sa uri
Human-in-the-Loop na Pagsusuri
Suriin ang lahat ng detection, baguhin ang false positives, at aprubahan bago ang anonymization
Ipatupad ang Anonymization
Pumili ng paraan: Palitan, I-redact, I-hash, I-encrypt, o I-mask
Output na Dokumento
I-download ang iyong anonymized na dokumento
MCP Server: Privacy-First na AI Integration
Paano dumadaloy ang iyong data sa MCP Server upang mapanatiling ligtas ang AI tools
Ang MCP Server ay nagsisilbing privacy shield, hinaharang ang mga request mula sa AI tools, ina-anonymize ang PII, pinoproseso ang ligtas na data sa AI, at opsyonal na ibinabalik ang orihinal na halaga.
AI Tool Request
Ang iyong AI tool (Cursor, Claude) ay nagpapadala ng request na may PII
MCP Server Intercepts
Ina-analyze at nade-detect ng server ang lahat ng PII entity
Anonymization
Ang PII ay pinapalitan ng tokens o nire-redact
AI Processing
Tanging anonymized na data lamang ang natatanggap at pinoproseso ng AI
Response Return
Bumabalik ang AI response sa pamamagitan ng MCP Server
De-tokenization
Opsyonal: Maaaring ibalik ang orihinal na halaga para sa user
Mga Madalas Itanong
Gumagamit ba ng AI ang cloak.business para sa detection?
Hindi. Ang detection ay gumagamit ng deterministikong regex patterns at NLP models (spaCy, Stanza). Tinitiyak nito ang 100% na nare-reproduce na resulta — ang parehong input ay palaging nagbubunga ng parehong output, hindi tulad ng probabilistic na AI approaches.
Bakit regex patterns at hindi AI?
Ang regex patterns ay auditable, nare-reproduce, at compliant. Maaari mong suriin kung ano mismo ang tinutugma ng bawat pattern. Ang AI-based detection ay non-deterministic — maaaring magkaiba ang resulta sa bawat run, kaya mahirap ang compliance documentation.
Gaano ka-accurate ang detection?
Sa 317 custom pattern recognizers kabilang ang checksum validation (Luhn, IBAN, SSN), mas mataas ang accuracy ng cloak.business kumpara sa generic NER models, lalo na para sa structured identifiers tulad ng credit card, tax ID, at national ID numbers.
Anong mga wika ang sinusuportahan?
48 na wika ang sinusuportahan na may dedikadong NLP models para sa named entity recognition. Ang pattern-based detection (regex) ay gumagana sa lahat ng wika dahil tumutugma ito sa character patterns anuman ang wika.
Maaari ba akong magdagdag ng custom entity patterns?
Oo. Sinusuportahan ng API ang custom recognizer definitions kaya maaari kang magdagdag ng patterns para sa proprietary identifiers, internal reference numbers, o domain-specific data formats.