Wykrywanie PII w 48 językach

Wykrywaj i anonimizuj PII w 48 językach z natywnym wsparciem wzorców. Pełne wsparcie RTL dla arabskiego, hebrajskiego, perskiego i urdu.

Wsparcie dla 48 języków

Pełne wykrywanie i anonimizacja PII na całej platformie

spaCy NLP - Działa lokalnie (25 języków)

AngielskiNiemieckiHiszpańskiFrancuskiWłoskiPortugalskiHolenderskiPolskiRosyjskiJapońskiChińskiKoreańskiRumuńskiGreckiChorwackiSłoweńskiMacedońskiSzwedzkiDuńskiNorweskiFińskiUkraińskiLitewskiKatalońskiTurecki

Stanza NER - Działa lokalnie (7 języków)

BułgarskiWęgierskiHebrajski (RTL)WietnamskiAfrykanerskiOrmiańskiBaskijski

XLM-RoBERTa Transformer - Działa lokalnie (16 języków)

Arabski (RTL)HinduskiCzeskiSłowackiIndonezyjskiTajskiPerski (RTL)SerbskiŁotewskiEstońskiMalajskiBengalskiUrdu (RTL)SuahiliTagalogIslandzki

Wsparcie RTL

ArabskiHebrajskiPerskiUrdu

Napędzany zaawansowanym NLP

Trzy silniki NLP współpracujące dla maksymalnego zasięgu językowego

  • Modele ładowane leniwie (maks. 5 w pamięci podręcznej) dla efektywności pamięci
  • Automatyczne wykrywanie języka
  • Przetwarzanie dokumentów wielojęzycznych
  • Wzorce jednostek specyficzne dla języka

Formaty specyficzne dla kraju

Wykrywamy PII w formatach specyficznych dla każdego kraju i regionu.

Formaty europejskie

  • Niemiecki: Personalausweis, Steuer-ID, Reisepass
  • Francuski: NIR, Carte Nationale, Permis
  • Włoski: Codice Fiscale, Carta d'Identità
  • Hiszpański: DNI, NIE, NIF
  • Holenderski: BSN, Rijbewijs
  • Polski: PESEL, NIP, REGON

Formaty Azja-Pacyfik

  • Japonia: My Number, Paszport
  • Indie: Aadhaar, PAN, GSTIN, Rejestracja pojazdu
  • Tajlandia: ID narodowy, ID podatkowy, Paszport
  • Indonezja: NIK, NPWP, Paszport
  • Wietnam: CCCD, Kod podatkowy, Paszport
  • Malezja: MyKad, ID podatkowy, Paszport

Ameryki, Afryka i Bliski Wschód

  • USA: SSN, Prawo jazdy, Paszport
  • Wielka Brytania: Ubezpieczenie narodowe, Numer NHS
  • Kanada: SIN, Prawo jazdy
  • Australia: TFN, Medicare, ABN
  • Kenia: ID narodowy, KRA PIN, Paszport
  • Republika Południowej Afryki: Numer ID, Numer podatkowy, Paszport

Często zadawane pytania

Jakie 48 języków obsługuje cloak.business?

cloak.business obsługuje afrykanerski, arabski, ormiański, baskijski, bengalski, bułgarski, kataloński, chiński, chorwacki, czeski, duński, holenderski, angielski, estoński, fiński, francuski, niemiecki, grecki, hebrajski, hinduski, węgierski, islandzki, indonezyjski, włoski, japoński, koreański, łotewski, litewski, macedoński, malajski, norweski, perski, polski, portugalski, rumuński, rosyjski, serbski, słowacki, słoweński, hiszpański, suahili, szwedzki, tagalog, tajski, turecki, ukraiński, urdu i wietnamski — z pełnym wsparciem RTL dla arabskiego, hebrajskiego, perskiego i urdu.

Czy wykrywanie PII działa tak samo we wszystkich językach?

Wykrywanie wykorzystuje dwa podejścia: dopasowanie wzorców regex dla danych strukturalnych (ID, numery telefonów, numery podatkowe) oraz modele NLP dla jednostek niestrukturalnych (nazwy, lokalizacje). Wykrywanie oparte na wzorcach obejmuje wszystkie 48 języków. Wykrywanie oparte na NLP jest dostępne w językach z trenowanymi modelami.

Jak obsługiwane są formaty ID specyficzne dla krajów?

cloak.business zawiera 317 rozpoznawaczy wzorców obejmujących ponad 70 krajów. Każdy rozpoznawacz weryfikuje specyficzny format, sumę kontrolną i strukturę krajowych ID, numerów podatkowych, identyfikatorów zdrowotnych i danych finansowych dla danego kraju.

Czy mogę wykrywać PII w wielu językach w jednym dokumencie?

Tak. cloak.business może przetwarzać dokumenty wielojęzyczne i wykrywać PII w różnych językach w jednym żądaniu. System automatycznie identyfikuje, które wzorce językowe zastosować.

Jak dodać wsparcie dla nowego języka lub typu jednostki?

Możesz tworzyć niestandardowe rozpoznawacze jednostek za pomocą wzorców regex lub list wykluczeń. Pozwala to na dodanie specyficznych dla domeny identyfikatorów lub rozszerzenie zasięgu na dodatkowe formaty, które nie są jeszcze uwzględnione w wbudowanej bibliotece rozpoznawaczy.

Is This Right for You?

Best For

  • Global enterprises with multilingual document workflows requiring consistent GDPR and privacy compliance
  • Translation and localization agencies that process PII-containing content in multiple languages
  • Government agencies and NGOs processing citizen data across EU, APAC, and LATAM jurisdictions
  • Legal discovery and compliance teams working with 48 supported language jurisdictions

Not Ideal For

  • Monolingual English-only workflows — the standard plan is sufficient without the overhead of language detection
  • Languages not in the supported 48 — check the entity catalog for specific language and entity coverage
  • Real-time sub-10ms latency requirements — language detection adds processing overhead over English-only

Anonimizuj w dowolnym języku

Rozpocznij z 200 darmowymi tokenami. Działa ze wszystkimi 48 językami.