2025-11-25T03:46:17.872017

Happiness is Sharing a Vocabulary: A Study of Transliteration Methods

Jung, Kim, Kim et al.
Transliteration has emerged as a promising means to bridge the gap between various languages in multilingual NLP, showing promising results especially for languages using non-Latin scripts. We investigate the degree to which shared script, overlapping token vocabularies, and shared phonology contribute to performance of multilingual models. To this end, we conduct controlled experiments using three kinds of transliteration (romanization, phonemic transcription, and substitution ciphers) as well as orthography. We evaluate each model on two downstream tasks -- named entity recognition (NER) and natural language inference (NLI) -- and find that romanization significantly outperforms other input types in 7 out of 8 evaluation settings, largely consistent with our hypothesis that it is the most effective approach. We further analyze how each factor contributed to the success, and suggest that having longer (subword) tokens shared with pre-trained languages leads to better utilization of the model.
academic

Glück ist das Teilen eines Vokabulars: Eine Studie zu Transliterationsmethoden

Grundlegende Informationen

  • Papier-ID: 2510.10827
  • Titel: Happiness is Sharing a Vocabulary: A Study of Transliteration Methods
  • Autoren: Haeji Jung, Jinju Kim, Kyungjin Kim, Youjeong Roh, David R. Mortensen
  • Klassifizierung: cs.CL cs.AI
  • Veröffentlichungsdatum: 12. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.10827

Zusammenfassung

Transliteration hat sich als vielversprechende Methode zur Überbrückung von Sprachunterschieden in mehrsprachiger NLP etabliert und zeigt besondere Stärken bei Sprachen mit nicht-lateinischen Schriftsystemen. Diese Forschung untersucht, inwieweit gemeinsame Schriftsysteme, überlappende Vokabulare und gemeinsame Phonologie zur Leistung mehrsprachiger Modelle beitragen. Durch kontrollierte Experimente mit drei Transliterationsmethoden (Romanisierung, phonemische Transkription und Substitutionschiffre) sowie Orthographie werden Modelle auf zwei nachgelagerten Aufgaben evaluiert: Named Entity Recognition (NER) und Natural Language Inference (NLI). Die Ergebnisse zeigen, dass Romanisierung in 7 von 8 Evaluierungsszenarien signifikant andere Eingabetypen übertrifft und damit die Hypothesen der Autoren bestätigt. Weitere Analysen deuten darauf hin, dass längere (Subwort-)Token, die mit vortrainierten Sprachen geteilt werden, die Modellkapazität besser nutzen.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Forschung ist das Phänomen der Schriftbarriere (Script Barrier): Mehrsprachige Modelle haben Schwierigkeiten, Wissen zwischen Sprachen mit unterschiedlichen Schriftsystemen zu teilen, da die Eingabedarstellungen nicht übereinstimmen.

Bedeutung des Problems

  1. Mehrsprachige Fairness: Die meisten vortrainierten Sprachmodelle basieren hauptsächlich auf lateinischen Schriften, bieten aber unzureichende Unterstützung für nicht-lateinische Sprachen
  2. Wissenstransferbarrieren: Selbst in großen mehrsprachigen Modellen ist der Wissensaustausch zwischen verschiedenen Schriftsystemen schwierig
  3. Ressourcenungleichgewicht: Nicht-lateinische Sprachen verfügen typischerweise über weniger Ressourcen und benötigen bessere Cross-Lingual-Transfer-Methoden

Einschränkungen bestehender Methoden

  1. Mangel an systematischer Analyse: Obwohl Transliterationsmethoden (wie Romanisierung und phonemische Konvertierung) in der Praxis wirksam sind, fehlt ein tiefes Verständnis der Gründe für ihre Wirksamkeit
  2. Faktorvermischung: Bestehende Forschung konnte die Beiträge verschiedener Faktoren in der Transliteration nicht klar trennen
  3. Begrenzte Evaluierungsspanne: Die meisten Studien konzentrieren sich auf ähnliche Sprachen (wie indogermanische Sprachen) und ermangeln typologischer Vielfalt

Forschungsmotivation

Die Autoren stellen die Kernfrage: Ist es das gemeinsame Schriftsystem selbst oder die im Schriftsystem kodierte sprachliche Information, die Modellen hilft, sich an andere Sprachen anzupassen?

Kernbeiträge

  1. Theoretischer Rahmen: Definition von drei Schlüsselfaktoren für die Transliterationswirksamkeit – gemeinsame Zeichensätze, gemeinsame Token-Sätze und gemeinsame Phonologie
  2. Systematische Experimente: Kontrollierte Vortrainingsexperimente über vier Sprachensätze und vier Eingabetypen
  3. Tiefgehende Analyse: Offenlegung der Mechanismen, durch die verschiedene Transliterationsmethoden unterschiedliche Überlappungsmuster erzeugen, durch Vokabelüberlappungsanalyse
  4. Wichtige Erkenntnisse: Nachweis der Schlüsselrolle längerer Token beim Cross-Lingual-Transfer, Einführung des Konzepts der Vokabelabdeckung

Methodische Details

Aufgabendefinition

Das Forschungsziel besteht darin, zu verstehen, wie verschiedene Faktoren in der Transliteration die Leistung mehrsprachiger Modelle auf unbekannten Sprachen beeinflussen. Die Eingabe besteht aus Text, der durch verschiedene Transliterationsmethoden verarbeitet wurde, und die Ausgabe ist die Leistung bei nachgelagerten Aufgaben.

Drei Schlüsselfaktoren

1. Gemeinsamer Zeichensatz (Shared Character Set)

  • Definition: Transliteration reduziert durch Vereinheitlichung des Zeichensatzes die Anzahl eindeutiger Zeichen und Muster, die der Tokenizer erfassen muss
  • Funktion: Reduziert signifikant den Anteil unbekannter Token (UNK)

2. Gemeinsamer Token-Satz (Shared Token Set)

  • Definition: Transliteration erzeugt Subwort-Token (Länge > 1), die über Sprachen hinweg geteilt werden
  • Bedeutung: Zeichensequenzen enthalten eher semantische Informationen als einzelne Zeichen

3. Gemeinsame Phonologie (Shared Phonology)

  • Definition: Der Grad der phonologischen Information, die durch Transliterationsmethoden kodiert wird
  • Funktion: Ermöglicht ähnliche Darstellungen für Wörter mit ähnlicher Aussprache, erkennt Cognaten und Lehnwörter

Vier Eingabetypen

EingabetypGemeinsamer ZeichensatzGemeinsamer Token-SatzGemeinsame Phonologie
Ortho (Orthographie)---
IPA (Internationales Phonetisches Alphabet)±±+
Rom (Romanisierung)++±
Cipher (Substitutionschiffre)+--

IPA-Konvertierung

  • Verwendet das Epitran-Tool für regelbasierte G2P-Konvertierung
  • Unterstützt über 100 Sprachen für Konsistenz und Praktikabilität
  • Obwohl auf lateinischen Schriften basierend, führen unterschiedliche Phoneminventare zwischen Sprachen zu teilweise gemeinsamen Zeichen- und Token-Sätzen

Romanisierung (Rom)

  • Verwendet das Uroman-Tool zur Konvertierung verschiedener Schriftsysteme in lateinische Buchstaben
  • Behält die ursprüngliche Form für lateinische Sprachen bei
  • Kodiert Schallinformationen, aber nicht so präzise wie IPA

Substitutionschiffre (Cipher)

  • Wendet eine Caesar-Chiffre auf romanisierte Texte an
  • Verwendet unterschiedliche Verschiebungsregeln für jede Sprache
  • Entfernt phonologische Informationen, behält aber Zeichensatzfreigabe bei

Sprachauswahlstrategie

Basierend auf lang2vec-Berechnung der Sprachähnlichkeit werden vier Sprachensätze konstruiert:

  • sim-same: Ähnliche Sprachen + gleiches Schriftsystem
  • sim-div: Ähnliche Sprachen + unterschiedliche Schriftsysteme
  • dissim-same: Unterschiedliche Sprachen + gleiches Schriftsystem
  • dissim-div: Unterschiedliche Sprachen + unterschiedliche Schriftsysteme

Die Ähnlichkeit berücksichtigt syntaktische, geografische, genetische und lexikalische Merkmale.

Experimentelle Einrichtung

Datensätze

  • Vortraining: Wikipedia-Korpus, begrenzt auf etwa 10 Millionen Wörter pro Sprache
  • Nachgelagerte Aufgaben:
    • NER: WikiAnn-Datensatz
    • NLI: XNLI-Datensatz

Modellkonfiguration

  • Architektur: Transformer-Encoder basierend auf XLM-R
  • Parameterzahl: Etwa 109 Millionen Parameter
  • Vokabelgröße: 30K (SentencePiece BPE)
  • Training: 16 Modelle von Grund auf trainiert (4 Eingabetypen × 4 Sprachensätze)

Vokabelüberlappungsanalyse

Überlappungsquotenformel: OverlapRatio(lt,Ls)=maxlLsSlSltSlt\text{OverlapRatio}(l_t, L_s) = \max_{l \in L_s} \frac{|S_l \cap S_{l_t}|}{|S_{l_t}|}

Nach Länge aufgelöste Überlappungsquote: {xSlsSltlen(x)=m}Slt\frac{|\{x \in S_{l_s} \cap S_{l_t} | \text{len}(x) = m\}|}{|S_{l_t}|}

Experimentelle Ergebnisse

Hauptergebnisse

NER-Aufgabenleistung

  • Unbekannte Sprachen: Rom übertrifft signifikant andere Methoden in allen Sprachensätzen
  • Bekannte Sprachen: Rom und Ortho zeigen vergleichbare Leistung
  • Statistische Signifikanz: Rom gegenüber anderen Eingabetypen p<0,05

NLI-Aufgabenleistung

  • Unbekannte Sprachen: Alle Transliterationsmethoden übertreffen Ortho, Rom zeigt beste Leistung
  • Bekannte Sprachen: Keine signifikanten Unterschiede zwischen Eingabetypen

Wichtige Erkenntnisse

  1. UNK-Token-Korrelation: Starke negative Korrelation zwischen UNK-Anteil bei unbekannten Sprachen und Leistung
  2. Transliterations-Gewinne: Hauptsächlich bei Sprachen mit unbekannten Schriftsystemen erkennbar
  3. Konsistenz: Rom zeigt in 7 von 8 Evaluierungsszenarien beste Leistung

Tiefgehende Analyse

1. Rolle des gemeinsamen Zeichensatzes

  • Transliteration reduziert durch Vereinheitlichung des Zeichenraums drastisch den UNK-Anteil
  • Cipher erzielt trotz fehlender semantischer Informationen allein durch Zeichensatzfreigabe signifikante Gewinne
  • Negative Korrelation zwischen UNK-Anteil und F1-Score

2. Bedeutung der Token-Länge

Kernerkenntnisse:

  • Kurze Token (einschließlich Einzelzeichen) zeigen negative Korrelation mit Leistung
  • Lange Token zeigen positive Korrelation mit Leistung
  • Rom erzeugt die meisten langen Token, erklärt seine überlegene Leistung

Vokabelabdeckungsanalyse:

  • Rom zeigt höchste Abdeckung bei Token der Länge 2-4
  • Bessere Vokabelraumnutzung erhöht Modellkapazität
  • Vokabelabdeckung erklärt Leistungsunterschiede besser als Token-Fruchtbarkeit

3. Indirekte Wirkung gemeinsamer Phonologie

  • Cipher ohne phonologische Information erzeugt schwer lange Token
  • IPA mit mehr UNK-Token erzeugt bei unbekannten Sprachen längere gemeinsame Token
  • Gemeinsame Phonologie fördert lange Token-Bildung durch konsistente Form-Bedeutungs-Zuordnung

Verwandte Arbeiten

Schriftbarriere-Forschung

  • Großflächige mehrsprachige Modelle haben Schwierigkeiten mit unbekannten/unterrepräsentierten Schriftsystemen
  • Transliteration als wirksames Mittel zur Verbesserung des Cross-Lingual-Transfers gewinnt Aufmerksamkeit

Transliterationsmethoden

  • Romanisierung: Nutzt die Dominanz lateinischer Schriften in vortrainierten Modellen
  • G2P-Konvertierung: Konvertiert Text in IPA-Phonemdarstellung
  • Bestehende Einschränkungen: Konzentrieren sich hauptsächlich auf ähnliche Sprachen, ermangeln typologischer Vielfalt

Vokabelüberlappungsforschung

  • Gemeinsame Vokabel-/Subwort-Einheiten ermöglichen Modellen, gelernte Darstellungen wiederzuverwenden
  • Hoher UNK-Token-Anteil behindert Transfer und reduziert nachgelagerte Leistung
  • Diese Forschung bietet durch Längenzergliederung feinkörnigere Analyse

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Romanisierung optimal: Übertrifft signifikant andere Transliterationsmethoden in den meisten Szenarien
  2. Lange Token entscheidend: Gemeinsame längere Token sind wichtiger als Zeichen-Ebenen-Überlappung
  3. Mechanismuserklärung: Transliteration macht mehrsprachige Modelle durch Umgestaltung der Token-Verteilung adaptiver

Einschränkungen

  1. Modellbereich: Testet nur ein Transformer-Modell und ein Subwort-Tokenisierungsschema
  2. Werkzeugabhängigkeit: Ergebnisse können durch Leistung spezifischer Romanisierer und G2P-Tools beeinflusst werden
  3. Evaluierungsspanne: Möglicherweise Validierung auf Zeichen- oder Byte-Ebenen-Modellen erforderlich

Zukünftige Richtungen

  1. Erweiterung auf verschiedene Modellarchitekturen und Tokenisierungsschemata
  2. Erforschung der Auswirkungen anderer Transliterationswerkzeuge
  3. Untersuchung der Auswirkungen der Token-Längenverteilung auf verschiedene Aufgaben

Tiefgehende Bewertung

Stärken

  1. Theoretischer Beitrag: Erste systematische Zerlegung der Schlüsselfaktoren der Transliterationswirksamkeit
  2. Experimentelles Design: Sorgfältig gestaltete kontrollierte Experimente mit klarer Variablenkontrolle
  3. Analysentiefe: Längenzergliederungsanalyse der Vokabelüberlappung bietet neuartige Erkenntnisse
  4. Praktischer Wert: Leitet die Auswahl von Transliterationsmethoden in mehrsprachiger NLP an

Mängel

  1. Bereichsbeschränkung: Evaluierung nur auf zwei Aufgaben, Verallgemeinerbarkeit zu überprüfen
  2. Sprachabdeckung: Trotz typologischer Vielfalt relativ begrenzte Sprachenzahl
  3. Theoretische Erklärung: Theoretische Erklärung, warum längere Token wirksamer sind, nicht ausreichend

Einflussfähigkeit

  1. Akademischer Beitrag: Bietet neuen Analyserahmen für Transliterationsforschung
  2. Praktischer Wert: Leitet Anwendung mehrsprachiger Modelle für ressourcenschwache Sprachen an
  3. Reproduzierbarkeit: Detaillierte Beschreibung von Methoden und Experimentaleinrichtung ermöglicht Reproduktion

Anwendungsszenarien

  1. Mehrsprachige NLP: Besonders geeignet für Anwendungen mit nicht-lateinischen Schriftsystemen
  2. Ressourcenschwache Sprachen: Bietet wirksame Transfer-Learning-Strategien für ressourcenknapper Sprachen
  3. Cross-Lingual Information Retrieval: Einheitliche Darstellung unterstützt Cross-Lingual-Matching

Literaturverzeichnis

Das Papier zitiert mehrere wichtige Arbeiten, darunter:

  • XLM-R (Conneau et al., 2020): Mehrsprachiges Vortrainingsmodell
  • Epitran (Mortensen et al., 2018): G2P-Konvertierungswerkzeug
  • Uroman (Hermjakob et al., 2018): Universelles Romanisierungswerkzeug
  • WikiAnn (Pan et al., 2017): Mehrsprachiger NER-Datensatz

Diese Forschung bietet durch systematische kontrollierte Experimente und tiefgehende Analysen wichtige Erkenntnisse zum Verständnis der Wirkmechanismen von Transliteration in mehrsprachiger NLP. Insbesondere die Entdeckung der Schlüsselrolle gemeinsamer langer Token beim Cross-Lingual-Transfer trägt sowohl zur theoretischen Entwicklung als auch zur praktischen Anwendung in diesem Bereich bei.