2025-11-25T03:46:17.872017

Happiness is Sharing a Vocabulary: A Study of Transliteration Methods

Jung, Kim, Kim et al.

Transliteration has emerged as a promising means to bridge the gap between various languages in multilingual NLP, showing promising results especially for languages using non-Latin scripts. We investigate the degree to which shared script, overlapping token vocabularies, and shared phonology contribute to performance of multilingual models. To this end, we conduct controlled experiments using three kinds of transliteration (romanization, phonemic transcription, and substitution ciphers) as well as orthography. We evaluate each model on two downstream tasks -- named entity recognition (NER) and natural language inference (NLI) -- and find that romanization significantly outperforms other input types in 7 out of 8 evaluation settings, largely consistent with our hypothesis that it is the most effective approach. We further analyze how each factor contributed to the success, and suggest that having longer (subword) tokens shared with pre-trained languages leads to better utilization of the model.

academic

Glück ist das Teilen eines Vokabulars: Eine Studie zu Transliterationsmethoden

Grundlegende Informationen

Papier-ID: 2510.10827
Titel: Happiness is Sharing a Vocabulary: A Study of Transliteration Methods
Autoren: Haeji Jung, Jinju Kim, Kyungjin Kim, Youjeong Roh, David R. Mortensen
Klassifizierung: cs.CL cs.AI
Veröffentlichungsdatum: 12. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.10827

Zusammenfassung

Transliteration hat sich als vielversprechende Methode zur Überbrückung von Sprachunterschieden in mehrsprachiger NLP etabliert und zeigt besondere Stärken bei Sprachen mit nicht-lateinischen Schriftsystemen. Diese Forschung untersucht, inwieweit gemeinsame Schriftsysteme, überlappende Vokabulare und gemeinsame Phonologie zur Leistung mehrsprachiger Modelle beitragen. Durch kontrollierte Experimente mit drei Transliterationsmethoden (Romanisierung, phonemische Transkription und Substitutionschiffre) sowie Orthographie werden Modelle auf zwei nachgelagerten Aufgaben evaluiert: Named Entity Recognition (NER) und Natural Language Inference (NLI). Die Ergebnisse zeigen, dass Romanisierung in 7 von 8 Evaluierungsszenarien signifikant andere Eingabetypen übertrifft und damit die Hypothesen der Autoren bestätigt. Weitere Analysen deuten darauf hin, dass längere (Subwort-)Token, die mit vortrainierten Sprachen geteilt werden, die Modellkapazität besser nutzen.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Forschung ist das Phänomen der Schriftbarriere (Script Barrier): Mehrsprachige Modelle haben Schwierigkeiten, Wissen zwischen Sprachen mit unterschiedlichen Schriftsystemen zu teilen, da die Eingabedarstellungen nicht übereinstimmen.

Bedeutung des Problems

Mehrsprachige Fairness: Die meisten vortrainierten Sprachmodelle basieren hauptsächlich auf lateinischen Schriften, bieten aber unzureichende Unterstützung für nicht-lateinische Sprachen
Wissenstransferbarrieren: Selbst in großen mehrsprachigen Modellen ist der Wissensaustausch zwischen verschiedenen Schriftsystemen schwierig
Ressourcenungleichgewicht: Nicht-lateinische Sprachen verfügen typischerweise über weniger Ressourcen und benötigen bessere Cross-Lingual-Transfer-Methoden

Einschränkungen bestehender Methoden

Mangel an systematischer Analyse: Obwohl Transliterationsmethoden (wie Romanisierung und phonemische Konvertierung) in der Praxis wirksam sind, fehlt ein tiefes Verständnis der Gründe für ihre Wirksamkeit
Faktorvermischung: Bestehende Forschung konnte die Beiträge verschiedener Faktoren in der Transliteration nicht klar trennen
Begrenzte Evaluierungsspanne: Die meisten Studien konzentrieren sich auf ähnliche Sprachen (wie indogermanische Sprachen) und ermangeln typologischer Vielfalt

Forschungsmotivation

Die Autoren stellen die Kernfrage: Ist es das gemeinsame Schriftsystem selbst oder die im Schriftsystem kodierte sprachliche Information, die Modellen hilft, sich an andere Sprachen anzupassen?

Kernbeiträge

Theoretischer Rahmen: Definition von drei Schlüsselfaktoren für die Transliterationswirksamkeit – gemeinsame Zeichensätze, gemeinsame Token-Sätze und gemeinsame Phonologie
Systematische Experimente: Kontrollierte Vortrainingsexperimente über vier Sprachensätze und vier Eingabetypen
Tiefgehende Analyse: Offenlegung der Mechanismen, durch die verschiedene Transliterationsmethoden unterschiedliche Überlappungsmuster erzeugen, durch Vokabelüberlappungsanalyse
Wichtige Erkenntnisse: Nachweis der Schlüsselrolle längerer Token beim Cross-Lingual-Transfer, Einführung des Konzepts der Vokabelabdeckung

Methodische Details

Aufgabendefinition

Das Forschungsziel besteht darin, zu verstehen, wie verschiedene Faktoren in der Transliteration die Leistung mehrsprachiger Modelle auf unbekannten Sprachen beeinflussen. Die Eingabe besteht aus Text, der durch verschiedene Transliterationsmethoden verarbeitet wurde, und die Ausgabe ist die Leistung bei nachgelagerten Aufgaben.

Drei Schlüsselfaktoren

1. Gemeinsamer Zeichensatz (Shared Character Set)

Definition: Transliteration reduziert durch Vereinheitlichung des Zeichensatzes die Anzahl eindeutiger Zeichen und Muster, die der Tokenizer erfassen muss
Funktion: Reduziert signifikant den Anteil unbekannter Token (UNK)

2. Gemeinsamer Token-Satz (Shared Token Set)

Definition: Transliteration erzeugt Subwort-Token (Länge > 1), die über Sprachen hinweg geteilt werden
Bedeutung: Zeichensequenzen enthalten eher semantische Informationen als einzelne Zeichen

3. Gemeinsame Phonologie (Shared Phonology)

Definition: Der Grad der phonologischen Information, die durch Transliterationsmethoden kodiert wird
Funktion: Ermöglicht ähnliche Darstellungen für Wörter mit ähnlicher Aussprache, erkennt Cognaten und Lehnwörter

Vier Eingabetypen

Eingabetyp	Gemeinsamer Zeichensatz	Gemeinsamer Token-Satz	Gemeinsame Phonologie
Ortho (Orthographie)	-	-	-
IPA (Internationales Phonetisches Alphabet)	±	±	+
Rom (Romanisierung)	+	+	±
Cipher (Substitutionschiffre)	+	-	-

IPA-Konvertierung

Verwendet das Epitran-Tool für regelbasierte G2P-Konvertierung
Unterstützt über 100 Sprachen für Konsistenz und Praktikabilität
Obwohl auf lateinischen Schriften basierend, führen unterschiedliche Phoneminventare zwischen Sprachen zu teilweise gemeinsamen Zeichen- und Token-Sätzen

Romanisierung (Rom)

Verwendet das Uroman-Tool zur Konvertierung verschiedener Schriftsysteme in lateinische Buchstaben
Behält die ursprüngliche Form für lateinische Sprachen bei
Kodiert Schallinformationen, aber nicht so präzise wie IPA

Substitutionschiffre (Cipher)

Wendet eine Caesar-Chiffre auf romanisierte Texte an
Verwendet unterschiedliche Verschiebungsregeln für jede Sprache
Entfernt phonologische Informationen, behält aber Zeichensatzfreigabe bei

Sprachauswahlstrategie

Basierend auf lang2vec-Berechnung der Sprachähnlichkeit werden vier Sprachensätze konstruiert:

sim-same: Ähnliche Sprachen + gleiches Schriftsystem
sim-div: Ähnliche Sprachen + unterschiedliche Schriftsysteme
dissim-same: Unterschiedliche Sprachen + gleiches Schriftsystem
dissim-div: Unterschiedliche Sprachen + unterschiedliche Schriftsysteme

Die Ähnlichkeit berücksichtigt syntaktische, geografische, genetische und lexikalische Merkmale.

Experimentelle Einrichtung

Datensätze

Vortraining: Wikipedia-Korpus, begrenzt auf etwa 10 Millionen Wörter pro Sprache
Nachgelagerte Aufgaben:
- NER: WikiAnn-Datensatz
- NLI: XNLI-Datensatz

Modellkonfiguration

Architektur: Transformer-Encoder basierend auf XLM-R
Parameterzahl: Etwa 109 Millionen Parameter
Vokabelgröße: 30K (SentencePiece BPE)
Training: 16 Modelle von Grund auf trainiert (4 Eingabetypen × 4 Sprachensätze)

Vokabelüberlappungsanalyse

Überlappungsquotenformel: $\text{OverlapRatio}(l_t, L_s) = \max_{l \in L_s} \frac{|S_l \cap S_{l_t}|}{|S_{l_t}|}$

Nach Länge aufgelöste Überlappungsquote: $\frac{|\{x \in S_{l_s} \cap S_{l_t} | \text{len}(x) = m\}|}{|S_{l_t}|}$

Experimentelle Ergebnisse

Hauptergebnisse

NER-Aufgabenleistung

Unbekannte Sprachen: Rom übertrifft signifikant andere Methoden in allen Sprachensätzen
Bekannte Sprachen: Rom und Ortho zeigen vergleichbare Leistung
Statistische Signifikanz: Rom gegenüber anderen Eingabetypen p<0,05

NLI-Aufgabenleistung

Unbekannte Sprachen: Alle Transliterationsmethoden übertreffen Ortho, Rom zeigt beste Leistung
Bekannte Sprachen: Keine signifikanten Unterschiede zwischen Eingabetypen

Wichtige Erkenntnisse

UNK-Token-Korrelation: Starke negative Korrelation zwischen UNK-Anteil bei unbekannten Sprachen und Leistung
Transliterations-Gewinne: Hauptsächlich bei Sprachen mit unbekannten Schriftsystemen erkennbar
Konsistenz: Rom zeigt in 7 von 8 Evaluierungsszenarien beste Leistung

Tiefgehende Analyse

1. Rolle des gemeinsamen Zeichensatzes

Transliteration reduziert durch Vereinheitlichung des Zeichenraums drastisch den UNK-Anteil
Cipher erzielt trotz fehlender semantischer Informationen allein durch Zeichensatzfreigabe signifikante Gewinne
Negative Korrelation zwischen UNK-Anteil und F1-Score

2. Bedeutung der Token-Länge

Kernerkenntnisse:

Kurze Token (einschließlich Einzelzeichen) zeigen negative Korrelation mit Leistung
Lange Token zeigen positive Korrelation mit Leistung
Rom erzeugt die meisten langen Token, erklärt seine überlegene Leistung

Vokabelabdeckungsanalyse:

Rom zeigt höchste Abdeckung bei Token der Länge 2-4
Bessere Vokabelraumnutzung erhöht Modellkapazität
Vokabelabdeckung erklärt Leistungsunterschiede besser als Token-Fruchtbarkeit

3. Indirekte Wirkung gemeinsamer Phonologie

Cipher ohne phonologische Information erzeugt schwer lange Token
IPA mit mehr UNK-Token erzeugt bei unbekannten Sprachen längere gemeinsame Token
Gemeinsame Phonologie fördert lange Token-Bildung durch konsistente Form-Bedeutungs-Zuordnung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Romanisierung optimal: Übertrifft signifikant andere Transliterationsmethoden in den meisten Szenarien
Lange Token entscheidend: Gemeinsame längere Token sind wichtiger als Zeichen-Ebenen-Überlappung
Mechanismuserklärung: Transliteration macht mehrsprachige Modelle durch Umgestaltung der Token-Verteilung adaptiver

Einschränkungen

Modellbereich: Testet nur ein Transformer-Modell und ein Subwort-Tokenisierungsschema
Werkzeugabhängigkeit: Ergebnisse können durch Leistung spezifischer Romanisierer und G2P-Tools beeinflusst werden
Evaluierungsspanne: Möglicherweise Validierung auf Zeichen- oder Byte-Ebenen-Modellen erforderlich

Zukünftige Richtungen

Erweiterung auf verschiedene Modellarchitekturen und Tokenisierungsschemata
Erforschung der Auswirkungen anderer Transliterationswerkzeuge
Untersuchung der Auswirkungen der Token-Längenverteilung auf verschiedene Aufgaben

Tiefgehende Bewertung

Stärken

Theoretischer Beitrag: Erste systematische Zerlegung der Schlüsselfaktoren der Transliterationswirksamkeit
Experimentelles Design: Sorgfältig gestaltete kontrollierte Experimente mit klarer Variablenkontrolle
Analysentiefe: Längenzergliederungsanalyse der Vokabelüberlappung bietet neuartige Erkenntnisse
Praktischer Wert: Leitet die Auswahl von Transliterationsmethoden in mehrsprachiger NLP an

Mängel

Bereichsbeschränkung: Evaluierung nur auf zwei Aufgaben, Verallgemeinerbarkeit zu überprüfen
Sprachabdeckung: Trotz typologischer Vielfalt relativ begrenzte Sprachenzahl
Theoretische Erklärung: Theoretische Erklärung, warum längere Token wirksamer sind, nicht ausreichend

Einflussfähigkeit

Akademischer Beitrag: Bietet neuen Analyserahmen für Transliterationsforschung
Praktischer Wert: Leitet Anwendung mehrsprachiger Modelle für ressourcenschwache Sprachen an
Reproduzierbarkeit: Detaillierte Beschreibung von Methoden und Experimentaleinrichtung ermöglicht Reproduktion

Anwendungsszenarien

Mehrsprachige NLP: Besonders geeignet für Anwendungen mit nicht-lateinischen Schriftsystemen
Ressourcenschwache Sprachen: Bietet wirksame Transfer-Learning-Strategien für ressourcenknapper Sprachen
Cross-Lingual Information Retrieval: Einheitliche Darstellung unterstützt Cross-Lingual-Matching

Literaturverzeichnis

Das Papier zitiert mehrere wichtige Arbeiten, darunter:

XLM-R (Conneau et al., 2020): Mehrsprachiges Vortrainingsmodell
Epitran (Mortensen et al., 2018): G2P-Konvertierungswerkzeug
Uroman (Hermjakob et al., 2018): Universelles Romanisierungswerkzeug
WikiAnn (Pan et al., 2017): Mehrsprachiger NER-Datensatz

Diese Forschung bietet durch systematische kontrollierte Experimente und tiefgehende Analysen wichtige Erkenntnisse zum Verständnis der Wirkmechanismen von Transliteration in mehrsprachiger NLP. Insbesondere die Entdeckung der Schlüsselrolle gemeinsamer langer Token beim Cross-Lingual-Transfer trägt sowohl zur theoretischen Entwicklung als auch zur praktischen Anwendung in diesem Bereich bei.