Transliteration has emerged as a promising means to bridge the gap between various languages in multilingual NLP, showing promising results especially for languages using non-Latin scripts. We investigate the degree to which shared script, overlapping token vocabularies, and shared phonology contribute to performance of multilingual models. To this end, we conduct controlled experiments using three kinds of transliteration (romanization, phonemic transcription, and substitution ciphers) as well as orthography. We evaluate each model on two downstream tasks -- named entity recognition (NER) and natural language inference (NLI) -- and find that romanization significantly outperforms other input types in 7 out of 8 evaluation settings, largely consistent with our hypothesis that it is the most effective approach. We further analyze how each factor contributed to the success, and suggest that having longer (subword) tokens shared with pre-trained languages leads to better utilization of the model.
- Papier-ID: 2510.10827
- Titel: Happiness is Sharing a Vocabulary: A Study of Transliteration Methods
- Autoren: Haeji Jung, Jinju Kim, Kyungjin Kim, Youjeong Roh, David R. Mortensen
- Klassifizierung: cs.CL cs.AI
- Veröffentlichungsdatum: 12. Oktober 2025 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2510.10827
Transliteration hat sich als vielversprechende Methode zur Überbrückung von Sprachunterschieden in mehrsprachiger NLP etabliert und zeigt besondere Stärken bei Sprachen mit nicht-lateinischen Schriftsystemen. Diese Forschung untersucht, inwieweit gemeinsame Schriftsysteme, überlappende Vokabulare und gemeinsame Phonologie zur Leistung mehrsprachiger Modelle beitragen. Durch kontrollierte Experimente mit drei Transliterationsmethoden (Romanisierung, phonemische Transkription und Substitutionschiffre) sowie Orthographie werden Modelle auf zwei nachgelagerten Aufgaben evaluiert: Named Entity Recognition (NER) und Natural Language Inference (NLI). Die Ergebnisse zeigen, dass Romanisierung in 7 von 8 Evaluierungsszenarien signifikant andere Eingabetypen übertrifft und damit die Hypothesen der Autoren bestätigt. Weitere Analysen deuten darauf hin, dass längere (Subwort-)Token, die mit vortrainierten Sprachen geteilt werden, die Modellkapazität besser nutzen.
Das Kernproblem dieser Forschung ist das Phänomen der Schriftbarriere (Script Barrier): Mehrsprachige Modelle haben Schwierigkeiten, Wissen zwischen Sprachen mit unterschiedlichen Schriftsystemen zu teilen, da die Eingabedarstellungen nicht übereinstimmen.
- Mehrsprachige Fairness: Die meisten vortrainierten Sprachmodelle basieren hauptsächlich auf lateinischen Schriften, bieten aber unzureichende Unterstützung für nicht-lateinische Sprachen
- Wissenstransferbarrieren: Selbst in großen mehrsprachigen Modellen ist der Wissensaustausch zwischen verschiedenen Schriftsystemen schwierig
- Ressourcenungleichgewicht: Nicht-lateinische Sprachen verfügen typischerweise über weniger Ressourcen und benötigen bessere Cross-Lingual-Transfer-Methoden
- Mangel an systematischer Analyse: Obwohl Transliterationsmethoden (wie Romanisierung und phonemische Konvertierung) in der Praxis wirksam sind, fehlt ein tiefes Verständnis der Gründe für ihre Wirksamkeit
- Faktorvermischung: Bestehende Forschung konnte die Beiträge verschiedener Faktoren in der Transliteration nicht klar trennen
- Begrenzte Evaluierungsspanne: Die meisten Studien konzentrieren sich auf ähnliche Sprachen (wie indogermanische Sprachen) und ermangeln typologischer Vielfalt
Die Autoren stellen die Kernfrage: Ist es das gemeinsame Schriftsystem selbst oder die im Schriftsystem kodierte sprachliche Information, die Modellen hilft, sich an andere Sprachen anzupassen?
- Theoretischer Rahmen: Definition von drei Schlüsselfaktoren für die Transliterationswirksamkeit – gemeinsame Zeichensätze, gemeinsame Token-Sätze und gemeinsame Phonologie
- Systematische Experimente: Kontrollierte Vortrainingsexperimente über vier Sprachensätze und vier Eingabetypen
- Tiefgehende Analyse: Offenlegung der Mechanismen, durch die verschiedene Transliterationsmethoden unterschiedliche Überlappungsmuster erzeugen, durch Vokabelüberlappungsanalyse
- Wichtige Erkenntnisse: Nachweis der Schlüsselrolle längerer Token beim Cross-Lingual-Transfer, Einführung des Konzepts der Vokabelabdeckung
Das Forschungsziel besteht darin, zu verstehen, wie verschiedene Faktoren in der Transliteration die Leistung mehrsprachiger Modelle auf unbekannten Sprachen beeinflussen. Die Eingabe besteht aus Text, der durch verschiedene Transliterationsmethoden verarbeitet wurde, und die Ausgabe ist die Leistung bei nachgelagerten Aufgaben.
- Definition: Transliteration reduziert durch Vereinheitlichung des Zeichensatzes die Anzahl eindeutiger Zeichen und Muster, die der Tokenizer erfassen muss
- Funktion: Reduziert signifikant den Anteil unbekannter Token (UNK)
- Definition: Transliteration erzeugt Subwort-Token (Länge > 1), die über Sprachen hinweg geteilt werden
- Bedeutung: Zeichensequenzen enthalten eher semantische Informationen als einzelne Zeichen
- Definition: Der Grad der phonologischen Information, die durch Transliterationsmethoden kodiert wird
- Funktion: Ermöglicht ähnliche Darstellungen für Wörter mit ähnlicher Aussprache, erkennt Cognaten und Lehnwörter
| Eingabetyp | Gemeinsamer Zeichensatz | Gemeinsamer Token-Satz | Gemeinsame Phonologie |
|---|
| Ortho (Orthographie) | - | - | - |
| IPA (Internationales Phonetisches Alphabet) | ± | ± | + |
| Rom (Romanisierung) | + | + | ± |
| Cipher (Substitutionschiffre) | + | - | - |
- Verwendet das Epitran-Tool für regelbasierte G2P-Konvertierung
- Unterstützt über 100 Sprachen für Konsistenz und Praktikabilität
- Obwohl auf lateinischen Schriften basierend, führen unterschiedliche Phoneminventare zwischen Sprachen zu teilweise gemeinsamen Zeichen- und Token-Sätzen
- Verwendet das Uroman-Tool zur Konvertierung verschiedener Schriftsysteme in lateinische Buchstaben
- Behält die ursprüngliche Form für lateinische Sprachen bei
- Kodiert Schallinformationen, aber nicht so präzise wie IPA
- Wendet eine Caesar-Chiffre auf romanisierte Texte an
- Verwendet unterschiedliche Verschiebungsregeln für jede Sprache
- Entfernt phonologische Informationen, behält aber Zeichensatzfreigabe bei
Basierend auf lang2vec-Berechnung der Sprachähnlichkeit werden vier Sprachensätze konstruiert:
- sim-same: Ähnliche Sprachen + gleiches Schriftsystem
- sim-div: Ähnliche Sprachen + unterschiedliche Schriftsysteme
- dissim-same: Unterschiedliche Sprachen + gleiches Schriftsystem
- dissim-div: Unterschiedliche Sprachen + unterschiedliche Schriftsysteme
Die Ähnlichkeit berücksichtigt syntaktische, geografische, genetische und lexikalische Merkmale.
- Vortraining: Wikipedia-Korpus, begrenzt auf etwa 10 Millionen Wörter pro Sprache
- Nachgelagerte Aufgaben:
- NER: WikiAnn-Datensatz
- NLI: XNLI-Datensatz
- Architektur: Transformer-Encoder basierend auf XLM-R
- Parameterzahl: Etwa 109 Millionen Parameter
- Vokabelgröße: 30K (SentencePiece BPE)
- Training: 16 Modelle von Grund auf trainiert (4 Eingabetypen × 4 Sprachensätze)
Überlappungsquotenformel:
OverlapRatio(lt,Ls)=maxl∈Ls∣Slt∣∣Sl∩Slt∣
Nach Länge aufgelöste Überlappungsquote:
∣Slt∣∣{x∈Sls∩Slt∣len(x)=m}∣
- Unbekannte Sprachen: Rom übertrifft signifikant andere Methoden in allen Sprachensätzen
- Bekannte Sprachen: Rom und Ortho zeigen vergleichbare Leistung
- Statistische Signifikanz: Rom gegenüber anderen Eingabetypen p<0,05
- Unbekannte Sprachen: Alle Transliterationsmethoden übertreffen Ortho, Rom zeigt beste Leistung
- Bekannte Sprachen: Keine signifikanten Unterschiede zwischen Eingabetypen
- UNK-Token-Korrelation: Starke negative Korrelation zwischen UNK-Anteil bei unbekannten Sprachen und Leistung
- Transliterations-Gewinne: Hauptsächlich bei Sprachen mit unbekannten Schriftsystemen erkennbar
- Konsistenz: Rom zeigt in 7 von 8 Evaluierungsszenarien beste Leistung
- Transliteration reduziert durch Vereinheitlichung des Zeichenraums drastisch den UNK-Anteil
- Cipher erzielt trotz fehlender semantischer Informationen allein durch Zeichensatzfreigabe signifikante Gewinne
- Negative Korrelation zwischen UNK-Anteil und F1-Score
Kernerkenntnisse:
- Kurze Token (einschließlich Einzelzeichen) zeigen negative Korrelation mit Leistung
- Lange Token zeigen positive Korrelation mit Leistung
- Rom erzeugt die meisten langen Token, erklärt seine überlegene Leistung
Vokabelabdeckungsanalyse:
- Rom zeigt höchste Abdeckung bei Token der Länge 2-4
- Bessere Vokabelraumnutzung erhöht Modellkapazität
- Vokabelabdeckung erklärt Leistungsunterschiede besser als Token-Fruchtbarkeit
- Cipher ohne phonologische Information erzeugt schwer lange Token
- IPA mit mehr UNK-Token erzeugt bei unbekannten Sprachen längere gemeinsame Token
- Gemeinsame Phonologie fördert lange Token-Bildung durch konsistente Form-Bedeutungs-Zuordnung
- Großflächige mehrsprachige Modelle haben Schwierigkeiten mit unbekannten/unterrepräsentierten Schriftsystemen
- Transliteration als wirksames Mittel zur Verbesserung des Cross-Lingual-Transfers gewinnt Aufmerksamkeit
- Romanisierung: Nutzt die Dominanz lateinischer Schriften in vortrainierten Modellen
- G2P-Konvertierung: Konvertiert Text in IPA-Phonemdarstellung
- Bestehende Einschränkungen: Konzentrieren sich hauptsächlich auf ähnliche Sprachen, ermangeln typologischer Vielfalt
- Gemeinsame Vokabel-/Subwort-Einheiten ermöglichen Modellen, gelernte Darstellungen wiederzuverwenden
- Hoher UNK-Token-Anteil behindert Transfer und reduziert nachgelagerte Leistung
- Diese Forschung bietet durch Längenzergliederung feinkörnigere Analyse
- Romanisierung optimal: Übertrifft signifikant andere Transliterationsmethoden in den meisten Szenarien
- Lange Token entscheidend: Gemeinsame längere Token sind wichtiger als Zeichen-Ebenen-Überlappung
- Mechanismuserklärung: Transliteration macht mehrsprachige Modelle durch Umgestaltung der Token-Verteilung adaptiver
- Modellbereich: Testet nur ein Transformer-Modell und ein Subwort-Tokenisierungsschema
- Werkzeugabhängigkeit: Ergebnisse können durch Leistung spezifischer Romanisierer und G2P-Tools beeinflusst werden
- Evaluierungsspanne: Möglicherweise Validierung auf Zeichen- oder Byte-Ebenen-Modellen erforderlich
- Erweiterung auf verschiedene Modellarchitekturen und Tokenisierungsschemata
- Erforschung der Auswirkungen anderer Transliterationswerkzeuge
- Untersuchung der Auswirkungen der Token-Längenverteilung auf verschiedene Aufgaben
- Theoretischer Beitrag: Erste systematische Zerlegung der Schlüsselfaktoren der Transliterationswirksamkeit
- Experimentelles Design: Sorgfältig gestaltete kontrollierte Experimente mit klarer Variablenkontrolle
- Analysentiefe: Längenzergliederungsanalyse der Vokabelüberlappung bietet neuartige Erkenntnisse
- Praktischer Wert: Leitet die Auswahl von Transliterationsmethoden in mehrsprachiger NLP an
- Bereichsbeschränkung: Evaluierung nur auf zwei Aufgaben, Verallgemeinerbarkeit zu überprüfen
- Sprachabdeckung: Trotz typologischer Vielfalt relativ begrenzte Sprachenzahl
- Theoretische Erklärung: Theoretische Erklärung, warum längere Token wirksamer sind, nicht ausreichend
- Akademischer Beitrag: Bietet neuen Analyserahmen für Transliterationsforschung
- Praktischer Wert: Leitet Anwendung mehrsprachiger Modelle für ressourcenschwache Sprachen an
- Reproduzierbarkeit: Detaillierte Beschreibung von Methoden und Experimentaleinrichtung ermöglicht Reproduktion
- Mehrsprachige NLP: Besonders geeignet für Anwendungen mit nicht-lateinischen Schriftsystemen
- Ressourcenschwache Sprachen: Bietet wirksame Transfer-Learning-Strategien für ressourcenknapper Sprachen
- Cross-Lingual Information Retrieval: Einheitliche Darstellung unterstützt Cross-Lingual-Matching
Das Papier zitiert mehrere wichtige Arbeiten, darunter:
- XLM-R (Conneau et al., 2020): Mehrsprachiges Vortrainingsmodell
- Epitran (Mortensen et al., 2018): G2P-Konvertierungswerkzeug
- Uroman (Hermjakob et al., 2018): Universelles Romanisierungswerkzeug
- WikiAnn (Pan et al., 2017): Mehrsprachiger NER-Datensatz
Diese Forschung bietet durch systematische kontrollierte Experimente und tiefgehende Analysen wichtige Erkenntnisse zum Verständnis der Wirkmechanismen von Transliteration in mehrsprachiger NLP. Insbesondere die Entdeckung der Schlüsselrolle gemeinsamer langer Token beim Cross-Lingual-Transfer trägt sowohl zur theoretischen Entwicklung als auch zur praktischen Anwendung in diesem Bereich bei.