Обнаружение PII: 320+ типов сущностей

Наш движок обнаружения сочетает 317 настраиваемых распознавателей регулярных выражений с моделями NLP для идентификации более 320 типов личной информации в более чем 70 странах. Один и тот же ввод, один и тот же вывод - каждый раз.

Как работает обнаружение

Сопоставление шаблонов (структурированные PII)

317 настраиваемых PatternRecognizers с шаблонами регулярных выражений обнаруживают структурированные данные, такие как национальные идентификаторы, налоговые номера, паспорта и водительские удостоверения. Каждый шаблон использует граничные утверждения, чтобы предотвратить ложные совпадения в коде или структурированных данных.

Распознавание именованных сущностей NLP (имена и местоположения)

spaCy (25 языков), Stanza NER (7 языков) и трансформеры XLM-RoBERTa (16 языков) обнаруживают неструктурированные PII, такие как имена людей, местоположения и организации, которые не могут быть захвачены только регулярными выражениями. Все модели работают на наших собственных серверах в Германии — данные никогда не отправляются в Meta, Google, Stanford или третьим сторонам.

Оценка уверенности

Каждое обнаружение включает оценку уверенности (0.0–1.0) для принятия решений с участием человека. Очень специфические форматы (например, немецкий IBAN DE89 3704 0044 0532 0130 00) оцениваются в 0.85+, в то время как общие цифровые шаблоны оцениваются в 0.3–0.5 и полагаются на контекстные слова для подтверждения. Команды по соблюдению могут просматривать и переопределять обнаружения перед анонимизацией.

Анализ контекстных слов

Каждый распознаватель имеет контекстные слова на соответствующем языке (например, 'Personalausweis' для немецких идентификаторов, 'kitambulisho' для кенийских идентификаторов). Когда контекстные слова появляются рядом с совпадением, оценка уверенности увеличивается.

Поддерживаемые типы сущностей

Всестороннее покрытие типов личной информации по категориям

Личные идентификаторы

  • Имена людей
  • Адреса электронной почты
  • Номера телефонов
  • Дата рождения
  • Возраст
  • Пол
  • Национальность

Финансовая информация

  • Номера кредитных карт
  • IBAN
  • BIC/SWIFT
  • Номера банковских счетов
  • Налоговые идентификаторы
  • Номера НДС

Государственные идентификаторы

  • Номера социального страхования (SSN)
  • Национальные идентификационные номера
  • Номера паспортов
  • Водительские удостоверения
  • Идентификаторы медицинского страхования

Данные о местоположении

  • Адреса улиц
  • Города
  • Почтовые индексы
  • Страны
  • Координаты GPS

Цифровые идентификаторы

  • IP-адреса (v4/v6)
  • MAC-адреса
  • URL
  • Доменные имена
  • Идентификаторы пользователей

Данные об организациях

  • Названия компаний
  • Идентификаторы организаций
  • Регистрационные номера
  • Названия отделов

Временные данные

  • Даты
  • Время
  • Диапазоны дат
  • Метки времени

Международные форматы

  • Немецкий ID (Personalausweis)
  • Национальное страхование Великобритании
  • Испанский DNI/NIE
  • Итальянский Codice Fiscale
  • И более 70 форматов, специфичных для стран

Поддержка пользовательских сущностей

Нужно обнаружить пользовательские шаблоны? Создайте свои собственные типы сущностей с помощью шаблонов регулярных выражений или используйте наш генератор шаблонов с поддержкой ИИ.

Ручное создание шаблонов

Определите шаблоны регулярных выражений для собственных идентификаторов, таких как внутренние идентификаторы сотрудников, коды проектов или пользовательские справочные номера.

Генератор шаблонов ИИ

Опишите, что вы хотите обнаружить, простым языком, и наш ИИ создаст для вас оптимизированные шаблоны регулярных выражений.

Is This Right For You?

Best For

  • Teams needing 320+ entity types across personal, financial, government, and organizational data
  • Multilingual PII detection (48 languages) for global compliance and audit requirements
  • GDPR, HIPAA, or air-gapped environments requiring local processing and regex-first detection
  • Auditable detection workflows using hybrid regex + NLP + ML with confidence scoring
  • Structured and unstructured data (CSV, JSON, plain text, email) with custom entity patterns

Not For

  • Real-time processing with <10ms latency requirements (NLP models add ~50ms overhead)
  • Image-only PII detection workflows (use the dedicated image-redaction feature instead)
  • Simple English-only use cases where basic regex or keyword matching is sufficient

Начните обнаружение PII сегодня

Попробуйте наш движок обнаружения бесплатно с 200 токенами за цикл. Кредитная карта не требуется.