Transliteration has emerged as a promising means to bridge the gap between various languages in multilingual NLP, showing promising results especially for languages using non-Latin scripts. We investigate the degree to which shared script, overlapping token vocabularies, and shared phonology contribute to performance of multilingual models. To this end, we conduct controlled experiments using three kinds of transliteration (romanization, phonemic transcription, and substitution ciphers) as well as orthography. We evaluate each model on two downstream tasks -- named entity recognition (NER) and natural language inference (NLI) -- and find that romanization significantly outperforms other input types in 7 out of 8 evaluation settings, largely consistent with our hypothesis that it is the most effective approach. We further analyze how each factor contributed to the success, and suggest that having longer (subword) tokens shared with pre-trained languages leads to better utilization of the model.
- ID del Artículo: 2510.10827
- Título: La Felicidad es Compartir un Vocabulario: Un Estudio de Métodos de Transliteración
- Autores: Haeji Jung, Jinju Kim, Kyungjin Kim, Youjeong Roh, David R. Mortensen
- Clasificación: cs.CL cs.AI
- Fecha de Publicación: 12 de octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.10827
La transliteración se ha convertido en un método prometedor para cerrar brechas entre diferentes idiomas en el PNL multilingüe, demostrando un desempeño excepcional particularmente para idiomas que utilizan sistemas de escritura no latinos. Este estudio investiga el grado en que el compartir sistemas de escritura, vocabulario superpuesto y fonología compartida contribuyen al desempeño de modelos multilingües. Mediante experimentos controlados utilizando tres métodos de transliteración (romanización, transcripción fonémica y cifrado de sustitución) así como ortografía, se evalúan los modelos en dos tareas posteriores: reconocimiento de entidades nombradas (NER) e inferencia de lenguaje natural (NLI). Los resultados muestran que la romanización supera significativamente otros tipos de entrada en 7 de 8 configuraciones de evaluación, lo que se alinea básicamente con las hipótesis de los autores. El análisis adicional revela que compartir tokens (subpalabras) más largos con el lenguaje preentrenado permite una mejor utilización de la capacidad del modelo.
El problema central que aborda esta investigación es el fenómeno de la barrera de escritura (Script Barrier): los modelos multilingües tienen dificultades para compartir conocimiento entre idiomas cuando procesan sistemas de escritura diferentes debido a la falta de coincidencia en la representación de entrada.
- Equidad Multilingüe: La mayoría de los modelos de lenguaje preentrenados se basan principalmente en escritura latina, proporcionando soporte insuficiente para idiomas con sistemas de escritura no latinos
- Obstáculos en la Transferencia de Conocimiento: Incluso en modelos multilingües a gran escala, el compartir conocimiento entre sistemas de escritura diferentes sigue siendo difícil
- Desequilibrio de Recursos: Los idiomas con sistemas de escritura no latinos suelen tener menos recursos, requiriendo mejores métodos de transferencia entre idiomas
- Falta de Análisis Sistemático: Aunque los métodos de transliteración (como romanización y conversión fonémica) son efectivos en la práctica, falta una comprensión profunda de las razones de su efectividad
- Confusión de Factores: La investigación existente no ha logrado separar claramente las contribuciones de diferentes factores en la transliteración
- Alcance de Evaluación Limitado: La mayoría de investigaciones se concentran en idiomas similares (como familias indoeuropeas), careciendo de diversidad tipológica
Los autores plantean la pregunta central: ¿Es el compartir el sistema de escritura en sí o la información lingüística codificada en la escritura lo que ayuda al modelo a adaptarse a otros idiomas?
- Marco Teórico: Define tres factores clave para la efectividad de la transliteración: conjunto de caracteres compartido, conjunto de tokens compartido y fonología compartida
- Experimentos Sistemáticos: Realiza experimentos de preentrenamiento controlados en cuatro conjuntos de idiomas y cuatro tipos de entrada
- Análisis Profundo: Revela el mecanismo mediante el cual diferentes métodos de transliteración producen patrones de superposición diferentes a través del análisis de superposición de vocabulario
- Hallazgos Importantes: Demuestra el papel crucial de compartir tokens más largos en la adaptación entre idiomas, proponiendo el concepto de cobertura de vocabulario
El objetivo de la investigación es comprender cómo diferentes factores en la transliteración afectan el desempeño de modelos multilingües en idiomas no vistos. La entrada es texto procesado por diferentes métodos de transliteración, y la salida es el desempeño en tareas posteriores.
- Definición: La transliteración reduce los caracteres únicos y patrones que el tokenizador necesita capturar mediante la unificación del conjunto de caracteres
- Función: Reduce significativamente la proporción de tokens desconocidos (UNK)
- Definición: La transliteración produce tokens de subpalabra (longitud > 1) compartidos entre idiomas
- Importancia: Las secuencias de caracteres tienen más probabilidad de contener información semántica que caracteres individuales
- Definición: El grado en que los métodos de transliteración codifican información fonológica
- Función: Hace que palabras con pronunciación similar tengan representaciones similares, identificando cognados y palabras prestadas
| Tipo de Entrada | Conjunto de Caracteres Compartido | Conjunto de Tokens Compartido | Fonología Compartida |
|---|
| Ortho (Ortografía) | - | - | - |
| IPA (Alfabeto Fonético Internacional) | ± | ± | + |
| Rom (Romanización) | + | + | ± |
| Cipher (Cifrado de Sustitución) | + | - | - |
- Utiliza la herramienta Epitran para conversión G2P basada en reglas
- Soporta más de 100 idiomas, asegurando consistencia y practicidad
- Aunque se basa en caracteres latinos, las diferencias en inventarios fonémicos entre idiomas resultan en compartir parcial de conjuntos de caracteres y tokens
- Utiliza la herramienta Uroman para convertir varios sistemas de escritura a caracteres latinos
- Preserva la forma original para idiomas con escritura latina
- Codifica información de sonido pero no tan precisamente como IPA
- Aplica cifrado de César al texto romanizado
- Utiliza diferentes reglas de desplazamiento para cada idioma
- Elimina información fonológica pero mantiene el compartir de conjunto de caracteres
Basada en el cálculo de similitud de idiomas mediante lang2vec, construye cuatro conjuntos de idiomas:
- sim-same: Idiomas similares + escritura idéntica
- sim-div: Idiomas similares + escritura diferente
- dissim-same: Idiomas diferentes + escritura idéntica
- dissim-div: Idiomas diferentes + escritura diferente
La similitud integra características sintácticas, geográficas, genéticas y léxicas.
- Preentrenamiento: Corpus de Wikipedia, limitado a aproximadamente 10 millones de palabras por idioma
- Tareas Posteriores:
- NER: Conjunto de datos WikiAnn
- NLI: Conjunto de datos XNLI
- Arquitectura: Codificador Transformer basado en XLM-R
- Cantidad de Parámetros: Aproximadamente 109 millones de parámetros
- Tamaño del Vocabulario: 30K (SentencePiece BPE)
- Entrenamiento: Preentrenamiento desde cero de 16 modelos (4 tipos de entrada × 4 conjuntos de idiomas)
Fórmula de cálculo de proporción de superposición:
ProporcioˊnSuperposicioˊn(lt,Ls)=maxl∈Ls∣Slt∣∣Sl∩Slt∣
Proporción de superposición descompuesta por longitud:
∣Slt∣∣{x∈Sls∩Slt∣len(x)=m}∣
- Idiomas no vistos: Rom supera significativamente otros métodos en todos los conjuntos de idiomas
- Idiomas vistos: Rom y Ortho muestran desempeño comparable
- Significancia Estadística: Rom comparado con otros tipos de entrada p<0.05
- Idiomas no vistos: Todos los métodos de transliteración superan a Ortho, con Rom mostrando el mejor desempeño
- Idiomas vistos: Sin diferencias significativas entre tipos de entrada
- Correlación de Tokens UNK: La proporción de UNK en idiomas no vistos muestra una fuerte correlación negativa con el desempeño
- Beneficios de Transliteración: Se manifiestan principalmente en idiomas que utilizan sistemas de escritura no vistos
- Consistencia: Rom muestra el mejor desempeño en 7 de 8 configuraciones de evaluación
- La transliteración reduce drásticamente la proporción de UNK al unificar el espacio de caracteres
- El Cipher, a pesar de carecer de información semántica, obtiene beneficios significativos únicamente mediante el compartir de caracteres
- La proporción de UNK muestra una relación negativa con la puntuación F1
Hallazgo Central:
- La superposición de tokens cortos (incluyendo caracteres individuales) se correlaciona negativamente con el desempeño
- La superposición de tokens largos se correlaciona positivamente con el desempeño
- Rom produce la mayoría de tokens largos, explicando su desempeño superior
Análisis de Cobertura de Vocabulario:
- Rom tiene la cobertura más alta en tokens de longitud 2-4
- Una mejor utilización del espacio de vocabulario mejora la capacidad del modelo
- La cobertura de vocabulario explica mejor las diferencias de desempeño que la fertilidad del tokenizador
- El Cipher, careciendo de información fonológica, tiene dificultades para producir tokens largos
- IPA, aunque tiene más tokens UNK, produce tokens compartidos más largos en idiomas no vistos
- La fonología compartida promueve la formación de tokens largos mediante mapeos forma-significado consistentes
- Los modelos multilingües a gran escala enfrentan desafíos al procesar sistemas de escritura no vistos o subrepresentados
- La transliteración ha recibido atención como un medio efectivo para mejorar la transferencia entre idiomas
- Romanización: Aprovecha la posición dominante de la escritura latina en modelos preentrenados
- Conversión G2P: Convierte texto a representación de fonemas IPA
- Limitaciones Existentes: Se concentran principalmente en idiomas similares, careciendo de análisis de diversidad tipológica
- El compartir unidades léxicas/subpalabra permite que los modelos reutilicen representaciones aprendidas
- Una alta proporción de tokens UNK obstaculiza la transferencia y reduce el desempeño posterior
- Este estudio proporciona análisis más granular mediante descomposición por longitud
- Romanización Óptima: Supera significativamente otros métodos de transliteración en la mayoría de configuraciones
- Tokens Largos Críticos: Compartir tokens más largos es más importante que la superposición a nivel de caracteres
- Explicación del Mecanismo: La transliteración hace que los modelos multilingües sean más adaptables al remodelar la distribución de tokens
- Alcance del Modelo: Solo prueba un tipo de modelo Transformer y un esquema de tokenización de subpalabra
- Dependencia de Herramientas: Los resultados pueden estar influenciados por el desempeño de herramientas específicas de romanización y G2P
- Alcance de Evaluación: Podría requerir validación en modelos a nivel de caracteres o bytes
- Extender a diferentes arquitecturas de modelos y esquemas de tokenización
- Explorar el impacto de otras herramientas de transliteración
- Investigar cómo la distribución de longitud de tokens afecta diferentes tareas
- Contribución Teórica: Primera descomposición sistemática de factores clave en la efectividad de transliteración
- Diseño Experimental: Experimentos controlados bien diseñados con variables claramente controladas
- Profundidad de Análisis: El análisis de descomposición por longitud de superposición de vocabulario proporciona perspectivas novedosas
- Valor Práctico: Proporciona orientación para la selección de métodos de transliteración en PNL multilingüe
- Limitación de Alcance: Evaluación en solo dos tareas, la generalización requiere verificación
- Cobertura de Idiomas: Aunque tiene diversidad tipológica, el número de idiomas es relativamente limitado
- Explicación Teórica: La explicación teórica de por qué los tokens largos son más efectivos no es suficientemente profunda
- Contribución Académica: Proporciona un nuevo marco analítico para investigación en transliteración
- Valor Práctico: Guía la aplicación de modelos multilingües para idiomas de bajos recursos
- Reproducibilidad: La descripción detallada de métodos y configuración experimental facilita la reproducción
- PNL Multilingüe: Particularmente aplicable a aplicaciones que involucran sistemas de escritura no latinos
- Idiomas de Bajos Recursos: Proporciona estrategias efectivas de aprendizaje por transferencia para idiomas con recursos escasos
- Recuperación de Información Entre Idiomas: La representación unificada facilita la coincidencia entre idiomas
El artículo cita múltiples trabajos importantes, incluyendo:
- XLM-R (Conneau et al., 2020): Modelo de preentrenamiento multilingüe
- Epitran (Mortensen et al., 2018): Herramienta de conversión G2P
- Uroman (Hermjakob et al., 2018): Herramienta de romanización universal
- WikiAnn (Pan et al., 2017): Conjunto de datos NER multilingüe
Esta investigación, mediante experimentos controlados sistemáticos y análisis profundo, proporciona perspectivas importantes para comprender el mecanismo de acción de la transliteración en el PNL multilingüe, particularmente descubriendo el papel crítico de compartir tokens largos en la adaptación entre idiomas, realizando contribuciones valiosas tanto para el desarrollo teórico como para la aplicación práctica en este campo.