Wie cloak.business funktioniert

Regex-basierte PII-Erkennung: 317 deterministische Muster-Erkenner für strukturierte Daten (IDs, Steuernummern, Kreditkarten) sowie spaCy, Stanza und XLM-RoBERTa NLP für Namen und Orte in 48 Sprachen.

Regex-First: Warum es wichtig ist

Unser Ansatz: Regex + NLP

  • 317 Regex-Erkenner: 100% reproduzierbar für strukturierte Daten
  • NLP für Namen & Orte mit Vertrauenswerten
  • Vollständig prüfbar – jede Erkennung ist einem Muster oder Modell zuordenbar
  • Transparent: Sie wissen immer, was erkannt wurde und warum
  • Schnelle, vorhersehbare Leistung
  • 48 Sprachen über 3 NLP-Engines

Nur KI-basierte Ansätze

  • Alle Erkennungen sind probabilistisch
  • Keine Erklärung, warum etwas markiert wurde
  • Benötigt große Trainingsdatensätze
  • Schwierig für Compliance zu prüfen
  • Höhere Rechenkosten (GPU erforderlich)
  • Modell-Drift verschlechtert Genauigkeit im Laufe der Zeit

Der 10-Schritte-Prozess

Vom Input bis zum Output: So wird Ihr Dokument verarbeitet

1

Text eingeben

Reichen Sie Ihr Dokument über Web-Oberfläche, API oder Office-Add-in ein

2

Spracherkennung

Das System erkennt die Dokumentensprache für optimale Verarbeitung

3

Tokenisierung

Text wird in Tokens zerlegt, um Muster abzugleichen

4

Musterabgleich

317 Regex-Erkenner und NLP-Modelle durchsuchen über 320 Entitätstypen in mehr als 70 Ländern

5

Kontextanalyse

Umgebender Text verbessert die Erkennungsgenauigkeit

6

Vertrauensbewertung

Jede Erkennung erhält einen Vertrauenswert (0,0–1,0), der menschliche Überprüfungsentscheidungen ermöglicht

7

Entitätsklassifizierung

Erkannte Elemente werden nach Typ kategorisiert

8

Menschliche Überprüfung

Überprüfen Sie alle Erkennungen, korrigieren Sie Fehlalarme und geben Sie die Anonymisierung frei

9

Anonymisierung anwenden

Wählen Sie Ihre Methode: Ersetzen, Schwärzen, Hashen, Verschlüsseln oder Maskieren

10

Ausgabedokument

Laden Sie Ihr anonymisiertes Dokument herunter

MCP-Server: Privacy-First KI-Integration

So fließen Ihre Daten durch den MCP-Server, um KI-Tools sicher zu machen

Der MCP-Server dient als Datenschutzhülle, fängt Anfragen von KI-Tools ab, anonymisiert PII, verarbeitet sichere Daten durch KI und stellt auf Wunsch Originalwerte wieder her.

KI-Tool-Anfrage

Ihr KI-Tool (Cursor, Claude) sendet eine Anfrage mit PII

MCP-Server fängt ab

Server analysiert und erkennt alle PII-Entitäten

Anonymisierung

PII wird durch Tokens ersetzt oder geschwärzt

KI-Verarbeitung

KI erhält und verarbeitet nur anonymisierte Daten

Antwort zurückgeben

KI-Antwort kommt über den MCP-Server zurück

Detokenisierung

Optional: Originalwerte werden für den Nutzer wiederhergestellt

Häufig gestellte Fragen

Verwendet cloak.business KI zur Erkennung?

Nein. Die Erkennung nutzt deterministische Regex-Muster und NLP-Modelle (spaCy, Stanza). Das garantiert 100% reproduzierbare Ergebnisse – derselbe Input liefert immer denselben Output, im Gegensatz zu probabilistischen KI-Ansätzen.

Warum Regex-Muster statt KI?

Regex-Muster sind prüfbar, reproduzierbar und compliance-konform. Sie können genau nachvollziehen, was jedes Muster erkennt. KI-basierte Erkennung ist nicht deterministisch – Ergebnisse können zwischen Durchläufen variieren, was die Compliance-Dokumentation erschwert.

Wie genau ist die Erkennung?

Mit 317 eigenen Muster-Erkennern inklusive Prüfziffervalidierung (Luhn, IBAN, SSN) erreicht cloak.business eine deutlich höhere Genauigkeit als generische NER-Modelle, insbesondere bei strukturierten Kennungen wie Kreditkarten, Steuer-IDs und Personalausweisnummern.

Welche Sprachen werden unterstützt?

48 Sprachen werden mit dedizierten NLP-Modellen für Named Entity Recognition unterstützt. Musterbasierte Erkennung (Regex) funktioniert in allen Sprachen, da sie Zeichenmuster unabhängig von der Sprache abgleicht.

Kann ich eigene Entitätsmuster hinzufügen?

Ja. Die API unterstützt eigene Erkenner-Definitionen, sodass Sie Muster für unternehmensspezifische Kennungen, interne Referenznummern oder branchenspezifische Datenformate hinzufügen können.

Live-Demo ansehen

Testen Sie unsere PII-Erkennung und Anonymisierung kostenlos mit 200 Tokens pro Zyklus.