Paano Gumagana ang cloak.business

Regex-first na PII detection: 317 deterministikong pattern recognizers para sa structured data (ID, tax number, credit card), kasama ang spaCy, Stanza, at XLM-RoBERTa NLP para sa mga pangalan at lokasyon sa 48 wika.

Regex-First: Bakit Mahalaga Ito

Aming Paraan: Regex + NLP

  • 317 regex recognizers: 100% na nare-reproduce para sa structured data
  • NLP para sa mga pangalan at lokasyon na may confidence scores
  • Ganap na auditable — bawat detection ay natutunton sa pattern o modelo
  • Transparent: palagi mong alam kung ano ang tumugma at bakit
  • Mabilis, predictable na performance
  • 48 wika sa 3 NLP engines

AI-Only na Mga Paraan

  • Lahat ng detection ay probabilistic
  • Hindi maipaliwanag kung bakit na-flag ang isang bagay
  • Nangangailangan ng malalaking training datasets
  • Mahirap i-audit para sa compliance
  • Mas mataas na compute costs (kailangan ng GPU)
  • Model drift ay nagpapababa ng accuracy sa paglipas ng panahon

Ang 10-Hakbang na Proseso

Mula input hanggang output, narito ang eksaktong nangyayari sa iyong dokumento

1

Input ng Teksto

I-submit ang iyong dokumento sa pamamagitan ng web interface, API, o Office Add-in

2

Pag-detect ng Wika

Tinutukoy ng sistema ang wika ng dokumento para sa optimal na pagproseso

3

Tokenization

Hinahati ang teksto sa mga token para sa pattern matching

4

Pattern Matching

317 regex recognizers at NLP models ang nag-i-scan para sa 320+ uri ng entity sa 70+ bansa

5

Pagsusuri ng Konteksto

Pinapahusay ng nakapaligid na teksto ang accuracy ng detection

6

Confidence Scoring

Bawat detection ay may confidence score (0.0–1.0) para sa human-in-the-loop na pag-apruba

7

Entity Classification

Ang mga na-detect na item ay kinokategorya ayon sa uri

8

Human-in-the-Loop na Pagsusuri

Suriin ang lahat ng detection, baguhin ang false positives, at aprubahan bago ang anonymization

9

Ipatupad ang Anonymization

Pumili ng paraan: Palitan, I-redact, I-hash, I-encrypt, o I-mask

10

Output na Dokumento

I-download ang iyong anonymized na dokumento

MCP Server: Privacy-First na AI Integration

Paano dumadaloy ang iyong data sa MCP Server upang mapanatiling ligtas ang AI tools

Ang MCP Server ay nagsisilbing privacy shield, hinaharang ang mga request mula sa AI tools, ina-anonymize ang PII, pinoproseso ang ligtas na data sa AI, at opsyonal na ibinabalik ang orihinal na halaga.

AI Tool Request

Ang iyong AI tool (Cursor, Claude) ay nagpapadala ng request na may PII

MCP Server Intercepts

Ina-analyze at nade-detect ng server ang lahat ng PII entity

Anonymization

Ang PII ay pinapalitan ng tokens o nire-redact

AI Processing

Tanging anonymized na data lamang ang natatanggap at pinoproseso ng AI

Response Return

Bumabalik ang AI response sa pamamagitan ng MCP Server

De-tokenization

Opsyonal: Maaaring ibalik ang orihinal na halaga para sa user

Mga Madalas Itanong

Gumagamit ba ng AI ang cloak.business para sa detection?

Hindi. Ang detection ay gumagamit ng deterministikong regex patterns at NLP models (spaCy, Stanza). Tinitiyak nito ang 100% na nare-reproduce na resulta — ang parehong input ay palaging nagbubunga ng parehong output, hindi tulad ng probabilistic na AI approaches.

Bakit regex patterns at hindi AI?

Ang regex patterns ay auditable, nare-reproduce, at compliant. Maaari mong suriin kung ano mismo ang tinutugma ng bawat pattern. Ang AI-based detection ay non-deterministic — maaaring magkaiba ang resulta sa bawat run, kaya mahirap ang compliance documentation.

Gaano ka-accurate ang detection?

Sa 317 custom pattern recognizers kabilang ang checksum validation (Luhn, IBAN, SSN), mas mataas ang accuracy ng cloak.business kumpara sa generic NER models, lalo na para sa structured identifiers tulad ng credit card, tax ID, at national ID numbers.

Anong mga wika ang sinusuportahan?

48 na wika ang sinusuportahan na may dedikadong NLP models para sa named entity recognition. Ang pattern-based detection (regex) ay gumagana sa lahat ng wika dahil tumutugma ito sa character patterns anuman ang wika.

Maaari ba akong magdagdag ng custom entity patterns?

Oo. Sinusuportahan ng API ang custom recognizer definitions kaya maaari kang magdagdag ng patterns para sa proprietary identifiers, internal reference numbers, o domain-specific data formats.

Tingnan sa Aktwal

Subukan ang aming PII detection at anonymization nang libre gamit ang 200 tokens bawat cycle.