2025-11-25T03:46:17.872017

Happiness is Sharing a Vocabulary: A Study of Transliteration Methods

Jung, Kim, Kim et al.
Transliteration has emerged as a promising means to bridge the gap between various languages in multilingual NLP, showing promising results especially for languages using non-Latin scripts. We investigate the degree to which shared script, overlapping token vocabularies, and shared phonology contribute to performance of multilingual models. To this end, we conduct controlled experiments using three kinds of transliteration (romanization, phonemic transcription, and substitution ciphers) as well as orthography. We evaluate each model on two downstream tasks -- named entity recognition (NER) and natural language inference (NLI) -- and find that romanization significantly outperforms other input types in 7 out of 8 evaluation settings, largely consistent with our hypothesis that it is the most effective approach. We further analyze how each factor contributed to the success, and suggest that having longer (subword) tokens shared with pre-trained languages leads to better utilization of the model.
academic

Le Bonheur est de Partager un Vocabulaire : Une Étude des Méthodes de Translittération

Informations Fondamentales

  • ID de l'article : 2510.10827
  • Titre : Happiness is Sharing a Vocabulary: A Study of Transliteration Methods
  • Auteurs : Haeji Jung, Jinju Kim, Kyungjin Kim, Youjeong Roh, David R. Mortensen
  • Classification : cs.CL cs.AI
  • Date de publication : 12 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.10827

Résumé

La translittération est devenue une méthode prometteuse pour combler les lacunes entre différentes langues dans le traitement multilingue du langage naturel (TNLN), démontrant une performance particulièrement excellente pour les langues utilisant des systèmes d'écriture non-latins. Cette étude examine le degré de contribution des systèmes d'écriture partagés, du chevauchement lexical et de la phonologie partagée sur la performance des modèles multilingues. Grâce à des expériences contrôlées utilisant trois méthodes de translittération (romanisation, transcription phonémique et chiffrement par substitution) ainsi que l'orthographe, les modèles sont évalués sur deux tâches en aval : la reconnaissance d'entités nommées (REN) et l'inférence en langage naturel (ILN). Les résultats montrent que la romanisation surpasse significativement les autres types d'entrée dans 7 des 8 configurations d'évaluation, ce qui correspond largement aux hypothèses des auteurs. Une analyse approfondie révèle que le partage de jetons (sous-mots) plus longs avec la langue préentraînée permet une meilleure utilisation de la capacité du modèle.

Contexte et Motivation de la Recherche

Problème Central

Le problème central que cette recherche vise à résoudre est le phénomène de la barrière d'écriture (Script Barrier) : les modèles multilingues ont du mal à partager les connaissances entre les langues en raison d'une inadéquation des représentations d'entrée lors du traitement de langues utilisant des systèmes d'écriture différents.

Importance du Problème

  1. Équité multilingue : La plupart des modèles de langage préentraînés sont principalement formés sur des textes en alphabet latin, offrant un soutien insuffisant aux langues utilisant des systèmes d'écriture non-latins
  2. Obstacles au transfert de connaissances : Même dans les modèles multilingues à grande échelle, le partage de connaissances entre différents systèmes d'écriture reste difficile
  3. Déséquilibre des ressources : Les langues utilisant des systèmes d'écriture non-latins disposent généralement de ressources plus limitées et nécessitent de meilleures méthodes de transfert translinguistique

Limitations des Approches Existantes

  1. Manque d'analyse systématique : Bien que les méthodes de translittération (telles que la romanisation et la conversion phonémique) soient efficaces en pratique, il existe un manque de compréhension approfondie des raisons de leur efficacité
  2. Confusion des facteurs : Les recherches existantes n'ont pas clairement séparé les contributions des différents facteurs dans la translittération
  3. Portée d'évaluation limitée : La plupart des études se concentrent sur les langues similaires (comme les langues indo-aryennes), manquant de diversité typologique

Motivation de la Recherche

Les auteurs posent la question centrale : Est-ce le système d'écriture partagé lui-même ou l'information linguistique encodée dans le système d'écriture qui aide le modèle à s'adapter à d'autres langues ?

Contributions Principales

  1. Cadre théorique : Définition de trois facteurs clés pour l'efficacité de la translittération — ensemble de caractères partagés, ensemble de jetons partagés et phonologie partagée
  2. Expériences systématiques : Expériences de préentraînement contrôlées sur quatre ensembles de langues et quatre types d'entrée
  3. Analyse approfondie : Révélation des mécanismes par lesquels différentes méthodes de translittération produisent des modèles de chevauchement différents grâce à l'analyse du chevauchement lexical
  4. Découvertes importantes : Démonstration du rôle clé du partage de jetons plus longs dans l'adaptation translinguistique, introduction du concept de couverture lexicale

Explication Détaillée de la Méthode

Définition de la Tâche

L'objectif de la recherche est de comprendre comment différents facteurs de la translittération affectent la performance des modèles multilingues sur les langues non vues. L'entrée est un texte traité par différentes méthodes de translittération, et la sortie est la performance de la tâche en aval.

Trois Facteurs Clés

1. Ensemble de Caractères Partagés (Shared Character Set)

  • Définition : La translittération réduit les caractères et modèles uniques que le tokeniseur doit capturer en unifiant l'ensemble des caractères
  • Fonction : Réduit significativement la proportion de jetons inconnus (UNK)

2. Ensemble de Jetons Partagés (Shared Token Set)

  • Définition : La translittération produit des jetons sous-mots (longueur > 1) partagés entre les langues
  • Importance : Les séquences de caractères sont plus susceptibles de contenir des informations sémantiques que les caractères individuels

3. Phonologie Partagée (Shared Phonology)

  • Définition : Degré d'information phonologique encodée par la méthode de translittération
  • Fonction : Permet aux mots ayant une prononciation similaire d'avoir des représentations similaires, facilitant l'identification des cognats et des emprunts

Quatre Types d'Entrée

Type d'EntréeCaractères PartagésJetons PartagésPhonologie Partagée
Ortho (Orthographe)---
IPA (Alphabet Phonétique International)±±+
Rom (Romanisation)++±
Cipher (Chiffrement par Substitution)+--

Conversion IPA

  • Utilisation de l'outil Epitran pour la conversion G2P (Graphème-à-Phonème) basée sur des règles
  • Support de plus de 100 langues, assurant la cohérence et l'utilité pratique
  • Bien que basée sur l'alphabet latin, les différences dans les inventaires phonémiques entre les langues entraînent un partage partiel des ensembles de caractères et de jetons

Romanisation (Rom)

  • Utilisation de l'outil Uroman pour convertir diverses écritures en caractères latins
  • Préservation de la forme originale pour les langues utilisant l'alphabet latin
  • Encodage d'informations sonores mais moins précis que l'IPA

Chiffrement par Substitution (Cipher)

  • Application d'un chiffrement de César au texte romanisé
  • Utilisation de règles de décalage différentes pour chaque langue
  • Suppression des informations phonologiques tout en maintenant le partage de l'ensemble de caractères

Stratégie de Sélection des Langues

Construction de quatre ensembles de langues basée sur le calcul de la similarité linguistique via lang2vec :

  • sim-same : Langues similaires + système d'écriture identique
  • sim-div : Langues similaires + systèmes d'écriture différents
  • dissim-same : Langues différentes + système d'écriture identique
  • dissim-div : Langues différentes + systèmes d'écriture différents

La similarité intègre les caractéristiques syntaxiques, géographiques, génétiques et lexicales.

Configuration Expérimentale

Ensembles de Données

  • Préentraînement : Corpus Wikipedia, limité à environ 10 millions de mots par langue
  • Tâches en aval :
    • REN : Ensemble de données WikiAnn
    • ILN : Ensemble de données XNLI

Configuration du Modèle

  • Architecture : Encodeur Transformer basé sur XLM-R
  • Nombre de paramètres : Environ 109 millions de paramètres
  • Taille du vocabulaire : 30K (SentencePiece BPE)
  • Entraînement : Préentraînement de 16 modèles à partir de zéro (4 types d'entrée × 4 ensembles de langues)

Analyse du Chevauchement Lexical

Formule de calcul du ratio de chevauchement : RatioChevauchement(lt,Ls)=maxlLsSlSltSlt\text{RatioChevauchement}(l_t, L_s) = \max_{l \in L_s} \frac{|S_l \cap S_{l_t}|}{|S_{l_t}|}

Ratio de chevauchement décomposé par longueur : {xSlsSltlen(x)=m}Slt\frac{|\{x \in S_{l_s} \cap S_{l_t} | \text{len}(x) = m\}|}{|S_{l_t}|}

Résultats Expérimentaux

Résultats Principaux

Performance sur la Tâche REN

  • Langues non vues : Rom surpasse significativement les autres méthodes sur tous les ensembles de langues
  • Langues vues : Rom et Ortho présentent des performances comparables
  • Significativité statistique : Rom par rapport aux autres types d'entrée p<0,05

Performance sur la Tâche ILN

  • Langues non vues : Toutes les méthodes de translittération surpassent Ortho, Rom offrant la meilleure performance
  • Langues vues : Aucune différence significative entre les types d'entrée

Découvertes Clés

  1. Corrélation des Jetons UNK : La proportion de jetons UNK dans les langues non vues présente une forte corrélation négative avec la performance
  2. Bénéfices de la Translittération : Principalement observés dans les langues utilisant des systèmes d'écriture non vus
  3. Cohérence : Rom offre la meilleure performance dans 7 des 8 configurations d'évaluation

Analyse Approfondie

1. Rôle de l'Ensemble de Caractères Partagés

  • La translittération réduit considérablement la proportion de jetons UNK en unifiant l'espace des caractères
  • Le Cipher, malgré l'absence d'informations sémantiques, obtient des bénéfices significatifs en se basant uniquement sur le partage de caractères
  • La proportion de jetons UNK présente une relation négative avec le score F1

2. Importance de la Longueur des Jetons

Découverte Centrale :

  • Le chevauchement des jetons courts (incluant les caractères uniques) est négativement corrélé à la performance
  • Le chevauchement des jetons longs est positivement corrélé à la performance
  • Rom produit le plus de jetons longs, expliquant sa performance supérieure

Analyse de la Couverture Lexicale :

  • Rom présente la couverture la plus élevée pour les jetons de longueur 2-4
  • Une meilleure utilisation de l'espace lexical améliore la capacité du modèle
  • La couverture lexicale explique mieux les différences de performance que la fertilité du tokeniseur

3. Chemin d'Action de la Phonologie Partagée

  • Le Cipher, dépourvu d'informations phonologiques, a du mal à produire des jetons longs
  • L'IPA, bien qu'ayant plus de jetons UNK, produit des jetons partagés plus longs dans les langues non vues
  • La phonologie partagée favorise la formation de jetons longs grâce à des mappages forme-sens cohérents

Travaux Connexes

Recherche sur la Barrière d'Écriture

  • Les modèles multilingues à grande échelle font face à des défis lors du traitement des systèmes d'écriture non vus ou sous-représentés
  • La translittération attire l'attention comme moyen efficace d'améliorer le transfert translinguistique

Méthodes de Translittération

  • Romanisation : Exploitation de la dominance de l'alphabet latin dans les modèles préentraînés
  • Conversion G2P : Conversion du texte en représentation phonémique IPA
  • Limitations existantes : Concentration sur les langues similaires, manque d'analyse de diversité typologique

Recherche sur le Chevauchement Lexical

  • Le partage d'unités lexicales/sous-mots permet au modèle de réutiliser les représentations apprises
  • Une proportion élevée de jetons UNK entrave le transfert et réduit la performance en aval
  • Cette recherche fournit une analyse plus granulaire grâce à la décomposition par longueur

Conclusions et Discussion

Conclusions Principales

  1. Romanisation Optimale : Surpasse significativement les autres méthodes de translittération dans la plupart des configurations
  2. Jetons Longs Essentiels : Le partage de jetons plus longs est plus important que le chevauchement au niveau des caractères
  3. Explication du Mécanisme : La translittération remodelage la distribution des jetons, rendant les modèles multilingues plus adaptatifs

Limitations

  1. Portée du Modèle : Test d'un seul modèle Transformer et d'un seul schéma de tokenisation sous-mots
  2. Dépendance aux Outils : Les résultats peuvent être influencés par la performance des outils de romanisation et G2P spécifiques
  3. Portée d'Évaluation : Validation potentielle nécessaire sur les modèles au niveau des caractères ou des octets

Directions Futures

  1. Extension à différentes architectures de modèles et schémas de tokenisation
  2. Exploration de l'impact d'autres outils de translittération
  3. Étude de l'influence de la distribution de la longueur des jetons sur différentes tâches

Évaluation Approfondie

Points Forts

  1. Contribution Théorique : Première décomposition systématique des facteurs clés de l'efficacité de la translittération
  2. Conception Expérimentale : Expériences contrôlées rigoureuses avec des variables clairement définies
  3. Profondeur d'Analyse : L'analyse de décomposition par longueur du chevauchement lexical fournit des perspectives novatrices
  4. Valeur Pratique : Orientation pour le choix des méthodes de translittération dans le TNLN multilingue

Insuffisances

  1. Limitations de Portée : Évaluation sur seulement deux tâches, généralisation à vérifier
  2. Couverture Linguistique : Bien que diversifiée typologiquement, le nombre de langues est relativement limité
  3. Explication Théorique : Explication théorique insuffisante de la raison pour laquelle les jetons longs sont plus efficaces

Impact

  1. Contribution Académique : Fournit un nouveau cadre d'analyse pour la recherche en translittération
  2. Valeur Pratique : Oriente l'application des modèles multilingues pour les langues à faibles ressources
  3. Reproductibilité : Description détaillée de la méthode et de la configuration expérimentale, facilitant la reproduction

Scénarios d'Application

  1. TNLN Multilingue : Particulièrement applicable aux applications impliquant des systèmes d'écriture non-latins
  2. Langues à Faibles Ressources : Fournit des stratégies efficaces de transfert d'apprentissage pour les langues aux ressources limitées
  3. Récupération d'Information Translinguistique : Les représentations unifiées facilitent la correspondance translinguistique

Références

L'article cite plusieurs travaux importants, notamment :

  • XLM-R (Conneau et al., 2020) : Modèle de préentraînement multilingue
  • Epitran (Mortensen et al., 2018) : Outil de conversion G2P
  • Uroman (Hermjakob et al., 2018) : Outil de romanisation universel
  • WikiAnn (Pan et al., 2017) : Ensemble de données REN multilingue

Cette recherche, grâce à des expériences contrôlées systématiques et à une analyse approfondie, fournit des perspectives importantes pour comprendre les mécanismes d'action de la translittération dans le TNLN multilingue. En particulier, la découverte du rôle clé du partage de jetons longs dans l'adaptation translinguistique apporte des contributions précieuses tant au développement théorique qu'aux applications pratiques du domaine.