PII Detection: 320+ Uri ng Entidad

Ang aming detection engine ay pinagsasama ang 317 custom regex recognizers sa mga NLP models upang tukuyin ang 320+ uri ng personal na impormasyon sa higit 70+ bansa. Parehong input, parehong output - sa bawat oras.

Paano Gumagana ang Detection

Regex Pattern Matching (Structured PII)

317 custom PatternRecognizers na may regex patterns ang nagde-detect ng structured data tulad ng national IDs, tax numbers, passports, at driver licenses. Bawat pattern ay gumagamit ng boundary assertions upang maiwasan ang maling pagtutugma sa code o structured data.

NLP Named Entity Recognition (Mga Pangalan at Lokasyon)

Ang spaCy (25 wika), Stanza NER (7 wika), at XLM-RoBERTa transformers (16 wika) ay nagde-detect ng unstructured PII tulad ng mga pangalan ng tao, lokasyon, at organisasyon na hindi kayang makuha ng regex lamang. Lahat ng models ay tumatakbo sa aming sariling mga server sa Germany — walang data ang kailanman ipinapadala sa Meta, Google, Stanford, o anumang third party.

Confidence Scoring

Bawat detection ay may kasamang confidence score (0.0–1.0) para sa mga human-in-the-loop na desisyon. Ang mga highly-specific na format (hal. German IBAN DE89 3704 0044 0532 0130 00) ay nag-score ng 0.85+, habang ang mga generic na digit patterns ay nag-score ng 0.3–0.5 at umaasa sa mga context words para sa kumpirmasyon. Maaaring suriin at i-override ng mga compliance teams ang mga detection bago ang anonymization.

Pagsusuri ng Context Word

Bawat recognizer ay may mga context words sa kaugnay na wika (hal. 'Personalausweis' para sa German IDs, 'kitambulisho' para sa Kenyan IDs). Kapag ang mga context words ay lumitaw malapit sa isang tugma, ang confidence score ay tumataas.

Mga Sinusuportahang Uri ng Entidad

Komprehensibong saklaw ng mga uri ng personal na impormasyon sa iba't ibang kategorya

Mga Personal na Identifiers

  • Mga Pangalan ng Tao
  • Mga Email Address
  • Mga Numero ng Telepono
  • Petsa ng Kapanganakan
  • Edad
  • Kasarian
  • Nasyonalidad

Impormasyon sa Pananalapi

  • Mga Numero ng Credit Card
  • IBAN
  • BIC/SWIFT
  • Mga Numero ng Bank Account
  • Mga Tax ID
  • Mga Numero ng VAT

Mga ID ng Pamahalaan

  • Mga Social Security Number (SSN)
  • Mga Numero ng National ID
  • Mga Numero ng Passport
  • Lisensya ng Pagmamaneho
  • Mga Health Insurance ID

Data ng Lokasyon

  • Mga Address ng Kalye
  • Mga Lungsod
  • ZIP/Postal Codes
  • Mga Bansa
  • Mga GPS Coordinates

Mga Digital na Identifiers

  • Mga IP Address (v4/v6)
  • Mga MAC Address
  • Mga URL
  • Mga Domain Name
  • Mga User ID

Data ng Organisasyon

  • Mga Pangalan ng Kumpanya
  • Mga Organization ID
  • Mga Numero ng Rehistrasyon
  • Mga Pangalan ng Departamento

Data ng Panahon

  • Mga Petsa
  • Mga Oras
  • Mga Saklaw ng Petsa
  • Mga Timestamps

Mga Internasyonal na Format

  • German ID (Personalausweis)
  • UK National Insurance
  • Spanish DNI/NIE
  • Italian Codice Fiscale
  • At 70+ pang format na partikular sa bansa

Suporta sa Custom na Entidad

Kailangang mag-detect ng custom na mga pattern? Lumikha ng sarili mong mga uri ng entidad gamit ang regex patterns o gamitin ang aming AI-assisted pattern generator.

Manwal na Paglikha ng Pattern

Tukuyin ang regex patterns para sa mga proprietary identifiers tulad ng mga internal employee ID, project codes, o custom reference numbers.

AI Pattern Generator

Ilarawan kung ano ang nais mong i-detect sa simpleng wika, at ang aming AI ay bubuo ng optimized regex patterns para sa iyo.

Is This Right For You?

Best For

  • Teams needing 320+ entity types across personal, financial, government, and organizational data
  • Multilingual PII detection (48 languages) for global compliance and audit requirements
  • GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
  • Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
  • Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns

Not For

  • Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
  • Image-only PII detection workflows (use the dedicated image-redaction feature instead)
  • Simple English-only use cases where basic regex or keyword matching is sufficient

Simulan ang Pag-detect ng PII Ngayon

Subukan ang aming detection engine ng libre na may 200 tokens bawat cycle. Walang kinakailangang credit card.