cloak.business

Виявлення PII: 320+ типів сутностей

Наш двигун виявлення поєднує 317 спеціальних розпізнавачів regex з моделями NLP для ідентифікації понад 320 типів особистої інформації в 70+ країнах. Той самий вхід, той самий вихід - кожного разу.

Як працює виявлення

Відповідність шаблонам Regex (структуровані PII)

317 спеціальних PatternRecognizers з шаблонами regex виявляють структуровані дані, такі як національні ідентифікатори, податкові номери, паспорти та водійські посвідчення. Кожен шаблон використовує обмеження меж, щоб запобігти хибним збігам у коді або структурованих даних.

Розпізнавання іменованих сутностей NLP (імена та місця)

spaCy (25 мов), Stanza NER (7 мов) та трансформери XLM-RoBERTa (16 мов) виявляють неструктуровані PII, такі як імена осіб, місця та організації, які не можуть бути захоплені лише regex. Усі моделі працюють на наших власних серверах у Німеччині — дані ніколи не передаються Meta, Google, Stanford або будь-якій третій стороні.

Оцінка впевненості

Кожне виявлення включає оцінку впевненості (0.0–1.0) для прийняття рішень за участю людини. Дуже специфічні формати (наприклад, німецький IBAN DE89 3704 0044 0532 0130 00) отримують оцінку 0.85+, тоді як загальні цифрові шаблони отримують оцінку 0.3–0.5 і покладаються на контекстні слова для підтвердження. Команди з дотримання можуть переглядати та перевизначати виявлення перед анонімізацією.

Аналіз контекстних слів

Кожен розпізнавач має контекстні слова на відповідній мові (наприклад, 'Personalausweis' для німецьких ID, 'kitambulisho' для кенійських ID). Коли контекстні слова з'являються поруч зі збігом, оцінка впевненості підвищується.

Підтримувані типи сутностей

Всеохоплююче покриття типів особистої інформації за категоріями

Особисті ідентифікатори

  • Імена осіб
  • Адреси електронної пошти
  • Номери телефонів
  • Дата народження
  • Вік
  • Стать
  • Національність

Фінансова інформація

  • Номери кредитних карток
  • IBAN
  • BIC/SWIFT
  • Номери банківських рахунків
  • Податкові ідентифікатори
  • Номери ПДВ

Державні ідентифікатори

  • Номери соціального страхування (SSN)
  • Національні ідентифікаційні номери
  • Номери паспортів
  • Водійські посвідчення
  • Ідентифікатори медичного страхування

Дані про місцезнаходження

  • Адреси вулиць
  • Міста
  • Поштові/ZIP коди
  • Країни
  • GPS координати

Цифрові ідентифікатори

  • IP адреси (v4/v6)
  • MAC адреси
  • URL
  • Домени
  • Ідентифікатори користувачів

Дані організацій

  • Назви компаній
  • Ідентифікатори організацій
  • Реєстраційні номери
  • Назви відділів

Часові дані

  • Дати
  • Час
  • Діапазони дат
  • Позначки часу

Міжнародні формати

  • Німецький ID (Personalausweis)
  • Національне страхування Великобританії
  • Іспанський DNI/NIE
  • Італійський Codice Fiscale
  • І ще понад 70 форматів, специфічних для країн

Підтримка користувацьких сутностей

Потрібно виявити користувацькі шаблони? Створіть власні типи сутностей за допомогою шаблонів regex або скористайтеся нашим генератором шаблонів на основі AI.

Створення шаблонів вручну

Визначте шаблони regex для власних ідентифікаторів, таких як внутрішні ідентифікатори співробітників, коди проектів або користувацькі референційні номери.

Генератор шаблонів AI

Опишіть, що ви хочете виявити, звичайною мовою, і наш AI згенерує для вас оптимізовані шаблони regex.

Is This Right For You?

Best For

  • Teams needing 320+ entity types across personal, financial, government, and organizational data
  • Multilingual PII detection (48 languages) for global compliance and audit requirements
  • GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
  • Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
  • Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns

Not For

  • Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
  • Image-only PII detection workflows (use the dedicated image-redaction feature instead)
  • Simple English-only use cases where basic regex or keyword matching is sufficient

Почніть виявляти PII сьогодні

Спробуйте наш двигун виявлення безкоштовно з 200 токенами за цикл. Кредитна картка не потрібна.