2025-11-25T03:46:17.872017

Happiness is Sharing a Vocabulary: A Study of Transliteration Methods

Jung, Kim, Kim et al.

Transliteration has emerged as a promising means to bridge the gap between various languages in multilingual NLP, showing promising results especially for languages using non-Latin scripts. We investigate the degree to which shared script, overlapping token vocabularies, and shared phonology contribute to performance of multilingual models. To this end, we conduct controlled experiments using three kinds of transliteration (romanization, phonemic transcription, and substitution ciphers) as well as orthography. We evaluate each model on two downstream tasks -- named entity recognition (NER) and natural language inference (NLI) -- and find that romanization significantly outperforms other input types in 7 out of 8 evaluation settings, largely consistent with our hypothesis that it is the most effective approach. We further analyze how each factor contributed to the success, and suggest that having longer (subword) tokens shared with pre-trained languages leads to better utilization of the model.

academic

La Felicidad es Compartir un Vocabulario: Un Estudio de Métodos de Transliteración

Información Básica

ID del Artículo: 2510.10827
Título: La Felicidad es Compartir un Vocabulario: Un Estudio de Métodos de Transliteración
Autores: Haeji Jung, Jinju Kim, Kyungjin Kim, Youjeong Roh, David R. Mortensen
Clasificación: cs.CL cs.AI
Fecha de Publicación: 12 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.10827

Resumen

La transliteración se ha convertido en un método prometedor para cerrar brechas entre diferentes idiomas en el PNL multilingüe, demostrando un desempeño excepcional particularmente para idiomas que utilizan sistemas de escritura no latinos. Este estudio investiga el grado en que el compartir sistemas de escritura, vocabulario superpuesto y fonología compartida contribuyen al desempeño de modelos multilingües. Mediante experimentos controlados utilizando tres métodos de transliteración (romanización, transcripción fonémica y cifrado de sustitución) así como ortografía, se evalúan los modelos en dos tareas posteriores: reconocimiento de entidades nombradas (NER) e inferencia de lenguaje natural (NLI). Los resultados muestran que la romanización supera significativamente otros tipos de entrada en 7 de 8 configuraciones de evaluación, lo que se alinea básicamente con las hipótesis de los autores. El análisis adicional revela que compartir tokens (subpalabras) más largos con el lenguaje preentrenado permite una mejor utilización de la capacidad del modelo.

Contexto de Investigación y Motivación

Problema Central

El problema central que aborda esta investigación es el fenómeno de la barrera de escritura (Script Barrier): los modelos multilingües tienen dificultades para compartir conocimiento entre idiomas cuando procesan sistemas de escritura diferentes debido a la falta de coincidencia en la representación de entrada.

Importancia del Problema

Equidad Multilingüe: La mayoría de los modelos de lenguaje preentrenados se basan principalmente en escritura latina, proporcionando soporte insuficiente para idiomas con sistemas de escritura no latinos
Obstáculos en la Transferencia de Conocimiento: Incluso en modelos multilingües a gran escala, el compartir conocimiento entre sistemas de escritura diferentes sigue siendo difícil
Desequilibrio de Recursos: Los idiomas con sistemas de escritura no latinos suelen tener menos recursos, requiriendo mejores métodos de transferencia entre idiomas

Limitaciones de Métodos Existentes

Falta de Análisis Sistemático: Aunque los métodos de transliteración (como romanización y conversión fonémica) son efectivos en la práctica, falta una comprensión profunda de las razones de su efectividad
Confusión de Factores: La investigación existente no ha logrado separar claramente las contribuciones de diferentes factores en la transliteración
Alcance de Evaluación Limitado: La mayoría de investigaciones se concentran en idiomas similares (como familias indoeuropeas), careciendo de diversidad tipológica

Motivación de la Investigación

Los autores plantean la pregunta central: ¿Es el compartir el sistema de escritura en sí o la información lingüística codificada en la escritura lo que ayuda al modelo a adaptarse a otros idiomas?

Contribuciones Principales

Marco Teórico: Define tres factores clave para la efectividad de la transliteración: conjunto de caracteres compartido, conjunto de tokens compartido y fonología compartida
Experimentos Sistemáticos: Realiza experimentos de preentrenamiento controlados en cuatro conjuntos de idiomas y cuatro tipos de entrada
Análisis Profundo: Revela el mecanismo mediante el cual diferentes métodos de transliteración producen patrones de superposición diferentes a través del análisis de superposición de vocabulario
Hallazgos Importantes: Demuestra el papel crucial de compartir tokens más largos en la adaptación entre idiomas, proponiendo el concepto de cobertura de vocabulario

Explicación Detallada de la Metodología

Definición de la Tarea

El objetivo de la investigación es comprender cómo diferentes factores en la transliteración afectan el desempeño de modelos multilingües en idiomas no vistos. La entrada es texto procesado por diferentes métodos de transliteración, y la salida es el desempeño en tareas posteriores.

Tres Factores Clave

1. Conjunto de Caracteres Compartido (Shared Character Set)

Definición: La transliteración reduce los caracteres únicos y patrones que el tokenizador necesita capturar mediante la unificación del conjunto de caracteres
Función: Reduce significativamente la proporción de tokens desconocidos (UNK)

2. Conjunto de Tokens Compartido (Shared Token Set)

Definición: La transliteración produce tokens de subpalabra (longitud > 1) compartidos entre idiomas
Importancia: Las secuencias de caracteres tienen más probabilidad de contener información semántica que caracteres individuales

3. Fonología Compartida (Shared Phonology)

Definición: El grado en que los métodos de transliteración codifican información fonológica
Función: Hace que palabras con pronunciación similar tengan representaciones similares, identificando cognados y palabras prestadas

Cuatro Tipos de Entrada

Tipo de Entrada	Conjunto de Caracteres Compartido	Conjunto de Tokens Compartido	Fonología Compartida
Ortho (Ortografía)	-	-	-
IPA (Alfabeto Fonético Internacional)	±	±	+
Rom (Romanización)	+	+	±
Cipher (Cifrado de Sustitución)	+	-	-

Conversión IPA

Utiliza la herramienta Epitran para conversión G2P basada en reglas
Soporta más de 100 idiomas, asegurando consistencia y practicidad
Aunque se basa en caracteres latinos, las diferencias en inventarios fonémicos entre idiomas resultan en compartir parcial de conjuntos de caracteres y tokens

Romanización (Rom)

Utiliza la herramienta Uroman para convertir varios sistemas de escritura a caracteres latinos
Preserva la forma original para idiomas con escritura latina
Codifica información de sonido pero no tan precisamente como IPA

Cifrado de Sustitución (Cipher)

Aplica cifrado de César al texto romanizado
Utiliza diferentes reglas de desplazamiento para cada idioma
Elimina información fonológica pero mantiene el compartir de conjunto de caracteres

Estrategia de Selección de Idiomas

Basada en el cálculo de similitud de idiomas mediante lang2vec, construye cuatro conjuntos de idiomas:

sim-same: Idiomas similares + escritura idéntica
sim-div: Idiomas similares + escritura diferente
dissim-same: Idiomas diferentes + escritura idéntica
dissim-div: Idiomas diferentes + escritura diferente

La similitud integra características sintácticas, geográficas, genéticas y léxicas.

Configuración Experimental

Conjuntos de Datos

Preentrenamiento: Corpus de Wikipedia, limitado a aproximadamente 10 millones de palabras por idioma
Tareas Posteriores:
- NER: Conjunto de datos WikiAnn
- NLI: Conjunto de datos XNLI

Configuración del Modelo

Arquitectura: Codificador Transformer basado en XLM-R
Cantidad de Parámetros: Aproximadamente 109 millones de parámetros
Tamaño del Vocabulario: 30K (SentencePiece BPE)
Entrenamiento: Preentrenamiento desde cero de 16 modelos (4 tipos de entrada × 4 conjuntos de idiomas)

Análisis de Superposición de Vocabulario

Fórmula de cálculo de proporción de superposición: $\text{ProporciónSuperposición}(l_t, L_s) = \max_{l \in L_s} \frac{|S_l \cap S_{l_t}|}{|S_{l_t}|}$

Proporción de superposición descompuesta por longitud: $\frac{|\{x \in S_{l_s} \cap S_{l_t} | \text{len}(x) = m\}|}{|S_{l_t}|}$

Resultados Experimentales

Resultados Principales

Desempeño en la Tarea NER

Idiomas no vistos: Rom supera significativamente otros métodos en todos los conjuntos de idiomas
Idiomas vistos: Rom y Ortho muestran desempeño comparable
Significancia Estadística: Rom comparado con otros tipos de entrada p<0.05

Desempeño en la Tarea NLI

Idiomas no vistos: Todos los métodos de transliteración superan a Ortho, con Rom mostrando el mejor desempeño
Idiomas vistos: Sin diferencias significativas entre tipos de entrada

Hallazgos Clave

Correlación de Tokens UNK: La proporción de UNK en idiomas no vistos muestra una fuerte correlación negativa con el desempeño
Beneficios de Transliteración: Se manifiestan principalmente en idiomas que utilizan sistemas de escritura no vistos
Consistencia: Rom muestra el mejor desempeño en 7 de 8 configuraciones de evaluación

Análisis Profundo

1. Función del Conjunto de Caracteres Compartido

La transliteración reduce drásticamente la proporción de UNK al unificar el espacio de caracteres
El Cipher, a pesar de carecer de información semántica, obtiene beneficios significativos únicamente mediante el compartir de caracteres
La proporción de UNK muestra una relación negativa con la puntuación F1

2. Importancia de la Longitud de Tokens

Hallazgo Central:

La superposición de tokens cortos (incluyendo caracteres individuales) se correlaciona negativamente con el desempeño
La superposición de tokens largos se correlaciona positivamente con el desempeño
Rom produce la mayoría de tokens largos, explicando su desempeño superior

Análisis de Cobertura de Vocabulario:

Rom tiene la cobertura más alta en tokens de longitud 2-4
Una mejor utilización del espacio de vocabulario mejora la capacidad del modelo
La cobertura de vocabulario explica mejor las diferencias de desempeño que la fertilidad del tokenizador

3. Ruta de Acción de la Fonología Compartida

El Cipher, careciendo de información fonológica, tiene dificultades para producir tokens largos
IPA, aunque tiene más tokens UNK, produce tokens compartidos más largos en idiomas no vistos
La fonología compartida promueve la formación de tokens largos mediante mapeos forma-significado consistentes

Trabajo Relacionado

Investigación sobre Barrera de Escritura

Los modelos multilingües a gran escala enfrentan desafíos al procesar sistemas de escritura no vistos o subrepresentados
La transliteración ha recibido atención como un medio efectivo para mejorar la transferencia entre idiomas

Métodos de Transliteración

Romanización: Aprovecha la posición dominante de la escritura latina en modelos preentrenados
Conversión G2P: Convierte texto a representación de fonemas IPA
Limitaciones Existentes: Se concentran principalmente en idiomas similares, careciendo de análisis de diversidad tipológica

Investigación sobre Superposición de Vocabulario

El compartir unidades léxicas/subpalabra permite que los modelos reutilicen representaciones aprendidas
Una alta proporción de tokens UNK obstaculiza la transferencia y reduce el desempeño posterior
Este estudio proporciona análisis más granular mediante descomposición por longitud

Conclusiones y Discusión

Conclusiones Principales

Romanización Óptima: Supera significativamente otros métodos de transliteración en la mayoría de configuraciones
Tokens Largos Críticos: Compartir tokens más largos es más importante que la superposición a nivel de caracteres
Explicación del Mecanismo: La transliteración hace que los modelos multilingües sean más adaptables al remodelar la distribución de tokens

Limitaciones

Alcance del Modelo: Solo prueba un tipo de modelo Transformer y un esquema de tokenización de subpalabra
Dependencia de Herramientas: Los resultados pueden estar influenciados por el desempeño de herramientas específicas de romanización y G2P
Alcance de Evaluación: Podría requerir validación en modelos a nivel de caracteres o bytes

Direcciones Futuras

Extender a diferentes arquitecturas de modelos y esquemas de tokenización
Explorar el impacto de otras herramientas de transliteración
Investigar cómo la distribución de longitud de tokens afecta diferentes tareas

Evaluación Profunda

Fortalezas

Contribución Teórica: Primera descomposición sistemática de factores clave en la efectividad de transliteración
Diseño Experimental: Experimentos controlados bien diseñados con variables claramente controladas
Profundidad de Análisis: El análisis de descomposición por longitud de superposición de vocabulario proporciona perspectivas novedosas
Valor Práctico: Proporciona orientación para la selección de métodos de transliteración en PNL multilingüe

Insuficiencias

Limitación de Alcance: Evaluación en solo dos tareas, la generalización requiere verificación
Cobertura de Idiomas: Aunque tiene diversidad tipológica, el número de idiomas es relativamente limitado
Explicación Teórica: La explicación teórica de por qué los tokens largos son más efectivos no es suficientemente profunda

Impacto

Contribución Académica: Proporciona un nuevo marco analítico para investigación en transliteración
Valor Práctico: Guía la aplicación de modelos multilingües para idiomas de bajos recursos
Reproducibilidad: La descripción detallada de métodos y configuración experimental facilita la reproducción

Escenarios de Aplicación

PNL Multilingüe: Particularmente aplicable a aplicaciones que involucran sistemas de escritura no latinos
Idiomas de Bajos Recursos: Proporciona estrategias efectivas de aprendizaje por transferencia para idiomas con recursos escasos
Recuperación de Información Entre Idiomas: La representación unificada facilita la coincidencia entre idiomas

Referencias

El artículo cita múltiples trabajos importantes, incluyendo:

XLM-R (Conneau et al., 2020): Modelo de preentrenamiento multilingüe
Epitran (Mortensen et al., 2018): Herramienta de conversión G2P
Uroman (Hermjakob et al., 2018): Herramienta de romanización universal
WikiAnn (Pan et al., 2017): Conjunto de datos NER multilingüe

Esta investigación, mediante experimentos controlados sistemáticos y análisis profundo, proporciona perspectivas importantes para comprender el mecanismo de acción de la transliteración en el PNL multilingüe, particularmente descubriendo el papel crítico de compartir tokens largos en la adaptación entre idiomas, realizando contribuciones valiosas tanto para el desarrollo teórico como para la aplicación práctica en este campo.