Wie Regex-First PII-Erkennung funktioniert

Regex-basierte PII-Erkennung: 317 deterministische Muster-Erkenner für strukturierte Daten (IDs, Steuernummern, Kreditkarten) sowie spaCy, Stanza und XLM-RoBERTa NLP für Namen und Orte in 48 Sprachen.

Kostenlos testen Technische Dokumentation

Regex-First: Warum es wichtig ist

Unser Ansatz: Regex + NLP

317 Regex-Erkenner: 100% reproduzierbar für strukturierte Daten
NLP für Namen & Orte mit Vertrauenswerten
Vollständig prüfbar – jede Erkennung ist einem Muster oder Modell zuordenbar
Transparent: Sie wissen immer, was erkannt wurde und warum
Schnelle, vorhersehbare Leistung
48 Sprachen über 3 NLP-Engines

Nur KI-basierte Ansätze

Alle Erkennungen sind probabilistisch
Keine Erklärung, warum etwas markiert wurde
Benötigt große Trainingsdatensätze
Schwierig für Compliance zu prüfen
Höhere Rechenkosten (GPU erforderlich)
Modell-Drift verschlechtert Genauigkeit im Laufe der Zeit

Der 10-Schritte-Prozess

Vom Input bis zum Output: So wird Ihr Dokument verarbeitet

Text eingeben

Reichen Sie Ihr Dokument über Web-Oberfläche, API oder Office-Add-in ein

Spracherkennung

Das System erkennt die Dokumentensprache für optimale Verarbeitung

Tokenisierung

Text wird in Tokens zerlegt, um Muster abzugleichen

Musterabgleich

317 Regex-Erkenner und NLP-Modelle durchsuchen über 317 Entitätstypen in mehr als 70 Ländern

Kontextanalyse

Umgebender Text verbessert die Erkennungsgenauigkeit

Vertrauensbewertung

Jede Erkennung erhält einen Vertrauenswert (0,0–1,0), der menschliche Überprüfungsentscheidungen ermöglicht

Entitätsklassifizierung

Erkannte Elemente werden nach Typ kategorisiert

Menschliche Überprüfung

Überprüfen Sie alle Erkennungen, korrigieren Sie Fehlalarme und geben Sie die Anonymisierung frei

Anonymisierung anwenden

Wählen Sie Ihre Methode: Ersetzen, Schwärzen, Hashen, Verschlüsseln oder Maskieren

Ausgabedokument

Laden Sie Ihr anonymisiertes Dokument herunter

MCP-Server: Privacy-First KI-Integration

So fließen Ihre Daten durch den MCP-Server, um KI-Tools sicher zu machen

Der MCP-Server dient als Datenschutzhülle, fängt Anfragen von KI-Tools ab, anonymisiert PII, verarbeitet sichere Daten durch KI und stellt auf Wunsch Originalwerte wieder her.

KI-Tool-Anfrage

Ihr KI-Tool (Cursor, Claude) sendet eine Anfrage mit PII

MCP-Server fängt ab

Server analysiert und erkennt alle PII-Entitäten

Anonymisierung

PII wird durch Tokens ersetzt oder geschwärzt

KI-Verarbeitung

KI erhält und verarbeitet nur anonymisierte Daten

Antwort zurückgeben

KI-Antwort kommt über den MCP-Server zurück

Detokenisierung

Optional: Originalwerte werden für den Nutzer wiederhergestellt

Mehr über MCP-Server erfahren →

Weiter erkunden

Technologie

Detaillierte Einblicke in regex-basierte Erkennung und warum sie für Compliance besser ist

Architektur

Systemarchitektur und wie die Komponenten zusammenarbeiten

Sicherheit

Fünf Sicherheitsebenen schützen Ihre Daten in jedem Schritt

Häufig gestellte Fragen

Verwendet cloak.business KI zur Erkennung?

Nein. Die Erkennung nutzt deterministische Regex-Muster und NLP-Modelle (spaCy, Stanza). Das garantiert 100% reproduzierbare Ergebnisse – derselbe Input liefert immer denselben Output, im Gegensatz zu probabilistischen KI-Ansätzen.

Warum Regex-Muster statt KI?

Regex-Muster sind prüfbar, reproduzierbar und compliance-konform. Sie können genau nachvollziehen, was jedes Muster erkennt. KI-basierte Erkennung ist nicht deterministisch – Ergebnisse können zwischen Durchläufen variieren, was die Compliance-Dokumentation erschwert.

Wie genau ist die Erkennung?

Mit 317 eigenen Muster-Erkennern inklusive Prüfziffervalidierung (Luhn, IBAN, SSN) erreicht cloak.business eine deutlich höhere Genauigkeit als generische NER-Modelle, insbesondere bei strukturierten Kennungen wie Kreditkarten, Steuer-IDs und Personalausweisnummern.

Welche Sprachen werden unterstützt?

48 Sprachen werden mit dedizierten NLP-Modellen für Named Entity Recognition unterstützt. Musterbasierte Erkennung (Regex) funktioniert in allen Sprachen, da sie Zeichenmuster unabhängig von der Sprache abgleicht.

Kann ich eigene Entitätsmuster hinzufügen?

Ja. Die API unterstützt eigene Erkenner-Definitionen, sodass Sie Muster für unternehmensspezifische Kennungen, interne Referenznummern oder branchenspezifische Datenformate hinzufügen können.

Live-Demo ansehen

Testen Sie unsere PII-Erkennung und Anonymisierung kostenlos mit 200 Tokens pro Zyklus.