Paano Gumagana ang Regex-First PII

Regex-first na PII detection: 317 deterministikong pattern recognizers para sa structured data (ID, tax number, credit card), kasama ang spaCy, Stanza, at XLM-RoBERTa NLP para sa mga pangalan at lokasyon sa 48 wika.

Subukan Nang Libre Teknikal na Dokumentasyon

Regex-First: Bakit Mahalaga Ito

Aming Paraan: Regex + NLP

317 regex recognizers: 100% na nare-reproduce para sa structured data
NLP para sa mga pangalan at lokasyon na may confidence scores
Ganap na auditable — bawat detection ay natutunton sa pattern o modelo
Transparent: palagi mong alam kung ano ang tumugma at bakit
Mabilis, predictable na performance
48 wika sa 3 NLP engines

AI-Only na Mga Paraan

Lahat ng detection ay probabilistic
Hindi maipaliwanag kung bakit na-flag ang isang bagay
Nangangailangan ng malalaking training datasets
Mahirap i-audit para sa compliance
Mas mataas na compute costs (kailangan ng GPU)
Model drift ay nagpapababa ng accuracy sa paglipas ng panahon

Ang 10-Hakbang na Proseso

Mula input hanggang output, narito ang eksaktong nangyayari sa iyong dokumento

Input ng Teksto

I-submit ang iyong dokumento sa pamamagitan ng web interface, API, o Office Add-in

Pag-detect ng Wika

Tinutukoy ng sistema ang wika ng dokumento para sa optimal na pagproseso

Tokenization

Hinahati ang teksto sa mga token para sa pattern matching

Pattern Matching

317 regex recognizers at NLP models ang nag-i-scan para sa 317 uri ng entity sa 70+ bansa

Pagsusuri ng Konteksto

Pinapahusay ng nakapaligid na teksto ang accuracy ng detection

Confidence Scoring

Bawat detection ay may confidence score (0.0–1.0) para sa human-in-the-loop na pag-apruba

Entity Classification

Ang mga na-detect na item ay kinokategorya ayon sa uri

Human-in-the-Loop na Pagsusuri

Suriin ang lahat ng detection, baguhin ang false positives, at aprubahan bago ang anonymization

Ipatupad ang Anonymization

Pumili ng paraan: Palitan, I-redact, I-hash, I-encrypt, o I-mask

Output na Dokumento

I-download ang iyong anonymized na dokumento

MCP Server: Privacy-First na AI Integration

Paano dumadaloy ang iyong data sa MCP Server upang mapanatiling ligtas ang AI tools

Ang MCP Server ay nagsisilbing privacy shield, hinaharang ang mga request mula sa AI tools, ina-anonymize ang PII, pinoproseso ang ligtas na data sa AI, at opsyonal na ibinabalik ang orihinal na halaga.

AI Tool Request

Ang iyong AI tool (Cursor, Claude) ay nagpapadala ng request na may PII

MCP Server Intercepts

Ina-analyze at nade-detect ng server ang lahat ng PII entity

Anonymization

Ang PII ay pinapalitan ng tokens o nire-redact

AI Processing

Tanging anonymized na data lamang ang natatanggap at pinoproseso ng AI

Response Return

Bumabalik ang AI response sa pamamagitan ng MCP Server

De-tokenization

Opsyonal: Maaaring ibalik ang orihinal na halaga para sa user

Alamin pa tungkol sa MCP Server →

Mag-explore Pa

Teknolohiya

Masusing pagtalakay sa regex-first detection at kung bakit ito mas mainam para sa compliance

Arkitektura

Arkitektura ng sistema at paano nagtutulungan ang mga bahagi

Seguridad

Limang layer ng seguridad na nagpoprotekta sa iyong data sa bawat hakbang

Mga Madalas Itanong

Gumagamit ba ng AI ang cloak.business para sa detection?

Hindi. Ang detection ay gumagamit ng deterministikong regex patterns at NLP models (spaCy, Stanza). Tinitiyak nito ang 100% na nare-reproduce na resulta — ang parehong input ay palaging nagbubunga ng parehong output, hindi tulad ng probabilistic na AI approaches.

Bakit regex patterns at hindi AI?

Ang regex patterns ay auditable, nare-reproduce, at compliant. Maaari mong suriin kung ano mismo ang tinutugma ng bawat pattern. Ang AI-based detection ay non-deterministic — maaaring magkaiba ang resulta sa bawat run, kaya mahirap ang compliance documentation.

Gaano ka-accurate ang detection?

Sa 317 custom pattern recognizers kabilang ang checksum validation (Luhn, IBAN, SSN), mas mataas ang accuracy ng cloak.business kumpara sa generic NER models, lalo na para sa structured identifiers tulad ng credit card, tax ID, at national ID numbers.

Anong mga wika ang sinusuportahan?

48 na wika ang sinusuportahan na may dedikadong NLP models para sa named entity recognition. Ang pattern-based detection (regex) ay gumagana sa lahat ng wika dahil tumutugma ito sa character patterns anuman ang wika.

Maaari ba akong magdagdag ng custom entity patterns?

Oo. Sinusuportahan ng API ang custom recognizer definitions kaya maaari kang magdagdag ng patterns para sa proprietary identifiers, internal reference numbers, o domain-specific data formats.

Tingnan sa Aktwal

Subukan ang aming PII detection at anonymization nang libre gamit ang 200 tokens bawat cycle.