Regex-First: Warum es wichtig ist
Unser Ansatz: Regex + NLP
- 317 Regex-Erkenner: 100% reproduzierbar für strukturierte Daten
- NLP für Namen & Orte mit Vertrauenswerten
- Vollständig prüfbar – jede Erkennung ist einem Muster oder Modell zuordenbar
- Transparent: Sie wissen immer, was erkannt wurde und warum
- Schnelle, vorhersehbare Leistung
- 48 Sprachen über 3 NLP-Engines
Nur KI-basierte Ansätze
- Alle Erkennungen sind probabilistisch
- Keine Erklärung, warum etwas markiert wurde
- Benötigt große Trainingsdatensätze
- Schwierig für Compliance zu prüfen
- Höhere Rechenkosten (GPU erforderlich)
- Modell-Drift verschlechtert Genauigkeit im Laufe der Zeit
Der 10-Schritte-Prozess
Vom Input bis zum Output: So wird Ihr Dokument verarbeitet
Text eingeben
Reichen Sie Ihr Dokument über Web-Oberfläche, API oder Office-Add-in ein
Spracherkennung
Das System erkennt die Dokumentensprache für optimale Verarbeitung
Tokenisierung
Text wird in Tokens zerlegt, um Muster abzugleichen
Musterabgleich
317 Regex-Erkenner und NLP-Modelle durchsuchen über 320 Entitätstypen in mehr als 70 Ländern
Kontextanalyse
Umgebender Text verbessert die Erkennungsgenauigkeit
Vertrauensbewertung
Jede Erkennung erhält einen Vertrauenswert (0,0–1,0), der menschliche Überprüfungsentscheidungen ermöglicht
Entitätsklassifizierung
Erkannte Elemente werden nach Typ kategorisiert
Menschliche Überprüfung
Überprüfen Sie alle Erkennungen, korrigieren Sie Fehlalarme und geben Sie die Anonymisierung frei
Anonymisierung anwenden
Wählen Sie Ihre Methode: Ersetzen, Schwärzen, Hashen, Verschlüsseln oder Maskieren
Ausgabedokument
Laden Sie Ihr anonymisiertes Dokument herunter
MCP-Server: Privacy-First KI-Integration
So fließen Ihre Daten durch den MCP-Server, um KI-Tools sicher zu machen
Der MCP-Server dient als Datenschutzhülle, fängt Anfragen von KI-Tools ab, anonymisiert PII, verarbeitet sichere Daten durch KI und stellt auf Wunsch Originalwerte wieder her.
KI-Tool-Anfrage
Ihr KI-Tool (Cursor, Claude) sendet eine Anfrage mit PII
MCP-Server fängt ab
Server analysiert und erkennt alle PII-Entitäten
Anonymisierung
PII wird durch Tokens ersetzt oder geschwärzt
KI-Verarbeitung
KI erhält und verarbeitet nur anonymisierte Daten
Antwort zurückgeben
KI-Antwort kommt über den MCP-Server zurück
Detokenisierung
Optional: Originalwerte werden für den Nutzer wiederhergestellt
Häufig gestellte Fragen
Verwendet cloak.business KI zur Erkennung?
Nein. Die Erkennung nutzt deterministische Regex-Muster und NLP-Modelle (spaCy, Stanza). Das garantiert 100% reproduzierbare Ergebnisse – derselbe Input liefert immer denselben Output, im Gegensatz zu probabilistischen KI-Ansätzen.
Warum Regex-Muster statt KI?
Regex-Muster sind prüfbar, reproduzierbar und compliance-konform. Sie können genau nachvollziehen, was jedes Muster erkennt. KI-basierte Erkennung ist nicht deterministisch – Ergebnisse können zwischen Durchläufen variieren, was die Compliance-Dokumentation erschwert.
Wie genau ist die Erkennung?
Mit 317 eigenen Muster-Erkennern inklusive Prüfziffervalidierung (Luhn, IBAN, SSN) erreicht cloak.business eine deutlich höhere Genauigkeit als generische NER-Modelle, insbesondere bei strukturierten Kennungen wie Kreditkarten, Steuer-IDs und Personalausweisnummern.
Welche Sprachen werden unterstützt?
48 Sprachen werden mit dedizierten NLP-Modellen für Named Entity Recognition unterstützt. Musterbasierte Erkennung (Regex) funktioniert in allen Sprachen, da sie Zeichenmuster unabhängig von der Sprache abgleicht.
Kann ich eigene Entitätsmuster hinzufügen?
Ja. Die API unterstützt eigene Erkenner-Definitionen, sodass Sie Muster für unternehmensspezifische Kennungen, interne Referenznummern oder branchenspezifische Datenformate hinzufügen können.