2025-11-25T03:46:17.872017

Happiness is Sharing a Vocabulary: A Study of Transliteration Methods

Jung, Kim, Kim et al.
Transliteration has emerged as a promising means to bridge the gap between various languages in multilingual NLP, showing promising results especially for languages using non-Latin scripts. We investigate the degree to which shared script, overlapping token vocabularies, and shared phonology contribute to performance of multilingual models. To this end, we conduct controlled experiments using three kinds of transliteration (romanization, phonemic transcription, and substitution ciphers) as well as orthography. We evaluate each model on two downstream tasks -- named entity recognition (NER) and natural language inference (NLI) -- and find that romanization significantly outperforms other input types in 7 out of 8 evaluation settings, largely consistent with our hypothesis that it is the most effective approach. We further analyze how each factor contributed to the success, and suggest that having longer (subword) tokens shared with pre-trained languages leads to better utilization of the model.
academic

La Felicidad es Compartir un Vocabulario: Un Estudio de Métodos de Transliteración

Información Básica

  • ID del Artículo: 2510.10827
  • Título: La Felicidad es Compartir un Vocabulario: Un Estudio de Métodos de Transliteración
  • Autores: Haeji Jung, Jinju Kim, Kyungjin Kim, Youjeong Roh, David R. Mortensen
  • Clasificación: cs.CL cs.AI
  • Fecha de Publicación: 12 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10827

Resumen

La transliteración se ha convertido en un método prometedor para cerrar brechas entre diferentes idiomas en el PNL multilingüe, demostrando un desempeño excepcional particularmente para idiomas que utilizan sistemas de escritura no latinos. Este estudio investiga el grado en que el compartir sistemas de escritura, vocabulario superpuesto y fonología compartida contribuyen al desempeño de modelos multilingües. Mediante experimentos controlados utilizando tres métodos de transliteración (romanización, transcripción fonémica y cifrado de sustitución) así como ortografía, se evalúan los modelos en dos tareas posteriores: reconocimiento de entidades nombradas (NER) e inferencia de lenguaje natural (NLI). Los resultados muestran que la romanización supera significativamente otros tipos de entrada en 7 de 8 configuraciones de evaluación, lo que se alinea básicamente con las hipótesis de los autores. El análisis adicional revela que compartir tokens (subpalabras) más largos con el lenguaje preentrenado permite una mejor utilización de la capacidad del modelo.

Contexto de Investigación y Motivación

Problema Central

El problema central que aborda esta investigación es el fenómeno de la barrera de escritura (Script Barrier): los modelos multilingües tienen dificultades para compartir conocimiento entre idiomas cuando procesan sistemas de escritura diferentes debido a la falta de coincidencia en la representación de entrada.

Importancia del Problema

  1. Equidad Multilingüe: La mayoría de los modelos de lenguaje preentrenados se basan principalmente en escritura latina, proporcionando soporte insuficiente para idiomas con sistemas de escritura no latinos
  2. Obstáculos en la Transferencia de Conocimiento: Incluso en modelos multilingües a gran escala, el compartir conocimiento entre sistemas de escritura diferentes sigue siendo difícil
  3. Desequilibrio de Recursos: Los idiomas con sistemas de escritura no latinos suelen tener menos recursos, requiriendo mejores métodos de transferencia entre idiomas

Limitaciones de Métodos Existentes

  1. Falta de Análisis Sistemático: Aunque los métodos de transliteración (como romanización y conversión fonémica) son efectivos en la práctica, falta una comprensión profunda de las razones de su efectividad
  2. Confusión de Factores: La investigación existente no ha logrado separar claramente las contribuciones de diferentes factores en la transliteración
  3. Alcance de Evaluación Limitado: La mayoría de investigaciones se concentran en idiomas similares (como familias indoeuropeas), careciendo de diversidad tipológica

Motivación de la Investigación

Los autores plantean la pregunta central: ¿Es el compartir el sistema de escritura en sí o la información lingüística codificada en la escritura lo que ayuda al modelo a adaptarse a otros idiomas?

Contribuciones Principales

  1. Marco Teórico: Define tres factores clave para la efectividad de la transliteración: conjunto de caracteres compartido, conjunto de tokens compartido y fonología compartida
  2. Experimentos Sistemáticos: Realiza experimentos de preentrenamiento controlados en cuatro conjuntos de idiomas y cuatro tipos de entrada
  3. Análisis Profundo: Revela el mecanismo mediante el cual diferentes métodos de transliteración producen patrones de superposición diferentes a través del análisis de superposición de vocabulario
  4. Hallazgos Importantes: Demuestra el papel crucial de compartir tokens más largos en la adaptación entre idiomas, proponiendo el concepto de cobertura de vocabulario

Explicación Detallada de la Metodología

Definición de la Tarea

El objetivo de la investigación es comprender cómo diferentes factores en la transliteración afectan el desempeño de modelos multilingües en idiomas no vistos. La entrada es texto procesado por diferentes métodos de transliteración, y la salida es el desempeño en tareas posteriores.

Tres Factores Clave

1. Conjunto de Caracteres Compartido (Shared Character Set)

  • Definición: La transliteración reduce los caracteres únicos y patrones que el tokenizador necesita capturar mediante la unificación del conjunto de caracteres
  • Función: Reduce significativamente la proporción de tokens desconocidos (UNK)

2. Conjunto de Tokens Compartido (Shared Token Set)

  • Definición: La transliteración produce tokens de subpalabra (longitud > 1) compartidos entre idiomas
  • Importancia: Las secuencias de caracteres tienen más probabilidad de contener información semántica que caracteres individuales

3. Fonología Compartida (Shared Phonology)

  • Definición: El grado en que los métodos de transliteración codifican información fonológica
  • Función: Hace que palabras con pronunciación similar tengan representaciones similares, identificando cognados y palabras prestadas

Cuatro Tipos de Entrada

Tipo de EntradaConjunto de Caracteres CompartidoConjunto de Tokens CompartidoFonología Compartida
Ortho (Ortografía)---
IPA (Alfabeto Fonético Internacional)±±+
Rom (Romanización)++±
Cipher (Cifrado de Sustitución)+--

Conversión IPA

  • Utiliza la herramienta Epitran para conversión G2P basada en reglas
  • Soporta más de 100 idiomas, asegurando consistencia y practicidad
  • Aunque se basa en caracteres latinos, las diferencias en inventarios fonémicos entre idiomas resultan en compartir parcial de conjuntos de caracteres y tokens

Romanización (Rom)

  • Utiliza la herramienta Uroman para convertir varios sistemas de escritura a caracteres latinos
  • Preserva la forma original para idiomas con escritura latina
  • Codifica información de sonido pero no tan precisamente como IPA

Cifrado de Sustitución (Cipher)

  • Aplica cifrado de César al texto romanizado
  • Utiliza diferentes reglas de desplazamiento para cada idioma
  • Elimina información fonológica pero mantiene el compartir de conjunto de caracteres

Estrategia de Selección de Idiomas

Basada en el cálculo de similitud de idiomas mediante lang2vec, construye cuatro conjuntos de idiomas:

  • sim-same: Idiomas similares + escritura idéntica
  • sim-div: Idiomas similares + escritura diferente
  • dissim-same: Idiomas diferentes + escritura idéntica
  • dissim-div: Idiomas diferentes + escritura diferente

La similitud integra características sintácticas, geográficas, genéticas y léxicas.

Configuración Experimental

Conjuntos de Datos

  • Preentrenamiento: Corpus de Wikipedia, limitado a aproximadamente 10 millones de palabras por idioma
  • Tareas Posteriores:
    • NER: Conjunto de datos WikiAnn
    • NLI: Conjunto de datos XNLI

Configuración del Modelo

  • Arquitectura: Codificador Transformer basado en XLM-R
  • Cantidad de Parámetros: Aproximadamente 109 millones de parámetros
  • Tamaño del Vocabulario: 30K (SentencePiece BPE)
  • Entrenamiento: Preentrenamiento desde cero de 16 modelos (4 tipos de entrada × 4 conjuntos de idiomas)

Análisis de Superposición de Vocabulario

Fórmula de cálculo de proporción de superposición: ProporcioˊnSuperposicioˊn(lt,Ls)=maxlLsSlSltSlt\text{ProporciónSuperposición}(l_t, L_s) = \max_{l \in L_s} \frac{|S_l \cap S_{l_t}|}{|S_{l_t}|}

Proporción de superposición descompuesta por longitud: {xSlsSltlen(x)=m}Slt\frac{|\{x \in S_{l_s} \cap S_{l_t} | \text{len}(x) = m\}|}{|S_{l_t}|}

Resultados Experimentales

Resultados Principales

Desempeño en la Tarea NER

  • Idiomas no vistos: Rom supera significativamente otros métodos en todos los conjuntos de idiomas
  • Idiomas vistos: Rom y Ortho muestran desempeño comparable
  • Significancia Estadística: Rom comparado con otros tipos de entrada p<0.05

Desempeño en la Tarea NLI

  • Idiomas no vistos: Todos los métodos de transliteración superan a Ortho, con Rom mostrando el mejor desempeño
  • Idiomas vistos: Sin diferencias significativas entre tipos de entrada

Hallazgos Clave

  1. Correlación de Tokens UNK: La proporción de UNK en idiomas no vistos muestra una fuerte correlación negativa con el desempeño
  2. Beneficios de Transliteración: Se manifiestan principalmente en idiomas que utilizan sistemas de escritura no vistos
  3. Consistencia: Rom muestra el mejor desempeño en 7 de 8 configuraciones de evaluación

Análisis Profundo

1. Función del Conjunto de Caracteres Compartido

  • La transliteración reduce drásticamente la proporción de UNK al unificar el espacio de caracteres
  • El Cipher, a pesar de carecer de información semántica, obtiene beneficios significativos únicamente mediante el compartir de caracteres
  • La proporción de UNK muestra una relación negativa con la puntuación F1

2. Importancia de la Longitud de Tokens

Hallazgo Central:

  • La superposición de tokens cortos (incluyendo caracteres individuales) se correlaciona negativamente con el desempeño
  • La superposición de tokens largos se correlaciona positivamente con el desempeño
  • Rom produce la mayoría de tokens largos, explicando su desempeño superior

Análisis de Cobertura de Vocabulario:

  • Rom tiene la cobertura más alta en tokens de longitud 2-4
  • Una mejor utilización del espacio de vocabulario mejora la capacidad del modelo
  • La cobertura de vocabulario explica mejor las diferencias de desempeño que la fertilidad del tokenizador

3. Ruta de Acción de la Fonología Compartida

  • El Cipher, careciendo de información fonológica, tiene dificultades para producir tokens largos
  • IPA, aunque tiene más tokens UNK, produce tokens compartidos más largos en idiomas no vistos
  • La fonología compartida promueve la formación de tokens largos mediante mapeos forma-significado consistentes

Trabajo Relacionado

Investigación sobre Barrera de Escritura

  • Los modelos multilingües a gran escala enfrentan desafíos al procesar sistemas de escritura no vistos o subrepresentados
  • La transliteración ha recibido atención como un medio efectivo para mejorar la transferencia entre idiomas

Métodos de Transliteración

  • Romanización: Aprovecha la posición dominante de la escritura latina en modelos preentrenados
  • Conversión G2P: Convierte texto a representación de fonemas IPA
  • Limitaciones Existentes: Se concentran principalmente en idiomas similares, careciendo de análisis de diversidad tipológica

Investigación sobre Superposición de Vocabulario

  • El compartir unidades léxicas/subpalabra permite que los modelos reutilicen representaciones aprendidas
  • Una alta proporción de tokens UNK obstaculiza la transferencia y reduce el desempeño posterior
  • Este estudio proporciona análisis más granular mediante descomposición por longitud

Conclusiones y Discusión

Conclusiones Principales

  1. Romanización Óptima: Supera significativamente otros métodos de transliteración en la mayoría de configuraciones
  2. Tokens Largos Críticos: Compartir tokens más largos es más importante que la superposición a nivel de caracteres
  3. Explicación del Mecanismo: La transliteración hace que los modelos multilingües sean más adaptables al remodelar la distribución de tokens

Limitaciones

  1. Alcance del Modelo: Solo prueba un tipo de modelo Transformer y un esquema de tokenización de subpalabra
  2. Dependencia de Herramientas: Los resultados pueden estar influenciados por el desempeño de herramientas específicas de romanización y G2P
  3. Alcance de Evaluación: Podría requerir validación en modelos a nivel de caracteres o bytes

Direcciones Futuras

  1. Extender a diferentes arquitecturas de modelos y esquemas de tokenización
  2. Explorar el impacto de otras herramientas de transliteración
  3. Investigar cómo la distribución de longitud de tokens afecta diferentes tareas

Evaluación Profunda

Fortalezas

  1. Contribución Teórica: Primera descomposición sistemática de factores clave en la efectividad de transliteración
  2. Diseño Experimental: Experimentos controlados bien diseñados con variables claramente controladas
  3. Profundidad de Análisis: El análisis de descomposición por longitud de superposición de vocabulario proporciona perspectivas novedosas
  4. Valor Práctico: Proporciona orientación para la selección de métodos de transliteración en PNL multilingüe

Insuficiencias

  1. Limitación de Alcance: Evaluación en solo dos tareas, la generalización requiere verificación
  2. Cobertura de Idiomas: Aunque tiene diversidad tipológica, el número de idiomas es relativamente limitado
  3. Explicación Teórica: La explicación teórica de por qué los tokens largos son más efectivos no es suficientemente profunda

Impacto

  1. Contribución Académica: Proporciona un nuevo marco analítico para investigación en transliteración
  2. Valor Práctico: Guía la aplicación de modelos multilingües para idiomas de bajos recursos
  3. Reproducibilidad: La descripción detallada de métodos y configuración experimental facilita la reproducción

Escenarios de Aplicación

  1. PNL Multilingüe: Particularmente aplicable a aplicaciones que involucran sistemas de escritura no latinos
  2. Idiomas de Bajos Recursos: Proporciona estrategias efectivas de aprendizaje por transferencia para idiomas con recursos escasos
  3. Recuperación de Información Entre Idiomas: La representación unificada facilita la coincidencia entre idiomas

Referencias

El artículo cita múltiples trabajos importantes, incluyendo:

  • XLM-R (Conneau et al., 2020): Modelo de preentrenamiento multilingüe
  • Epitran (Mortensen et al., 2018): Herramienta de conversión G2P
  • Uroman (Hermjakob et al., 2018): Herramienta de romanización universal
  • WikiAnn (Pan et al., 2017): Conjunto de datos NER multilingüe

Esta investigación, mediante experimentos controlados sistemáticos y análisis profundo, proporciona perspectivas importantes para comprender el mecanismo de acción de la transliteración en el PNL multilingüe, particularmente descubriendo el papel crítico de compartir tokens largos en la adaptación entre idiomas, realizando contribuciones valiosas tanto para el desarrollo teórico como para la aplicación práctica en este campo.