Tonogenesis-the historical process by which segmental contrasts evolve into lexical tone-has traditionally been studied through comparative reconstruction and acoustic phonetics. We introduce a computational approach that quantifies the functional role of pitch at different stages of this sound change by measuring how pitch manipulation affects automatic speech recognition (ASR) performance. Through analysis on the sensitivity to pitch-flattening from a set of closely related Tibetan languages, we find evidence of a tonogenesis continuum: atonal Amdo dialects tolerate pitch removal the most, while fully tonal U-Tsang varieties show severe degradation, and intermediate Kham dialects fall measurably between these extremes. These gradient effects demonstrate how ASR models implicitly learn the shifting functional load of pitch as languages transition from consonant-based to tone-based lexical contrasts. Our findings show that computational methods can capture fine-grained stages of sound change and suggest that traditional functional load metrics, based solely on minimal pairs, may overestimate pitch dependence in transitional systems where segmental and suprasegmental cues remain phonetically intertwined.
- ID del Artículo: 2510.22485
- Título: La Continua de Tonogénesis en Tibetano: Una Investigación Computacional
- Autores: Siyu Liang, Zhaxi Zerong (Universidad de Washington)
- Clasificación: cs.CL (Lingüística Computacional)
- Fecha de Publicación: 26 de octubre de 2025 (Preimpresión en ArXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.22485
La tonogénesis es el proceso histórico en lingüística mediante el cual los contrastes segmentales evolucionan hacia tonos léxicos, estudiado tradicionalmente a través de reconstrucción comparativa y fonética acústica. Este artículo introduce un enfoque computacional que cuantifica el papel funcional del tono en diferentes etapas de cambio sonoro midiendo el impacto de manipulaciones tonales en el desempeño del reconocimiento automático de voz (ASR). Mediante el análisis de la sensibilidad a la neutralización tonal en un conjunto de dialectos tibetanos estrechamente relacionados, el estudio proporciona evidencia de una continua de tonogénesis: el dialecto Amdo sin tonos muestra la mayor tolerancia a la eliminación de tonos, el dialecto Ü-Tsang completamente tonalizado exhibe degradación severa, mientras que el dialecto Kham intermedio se sitúa entre ambos extremos. Estos efectos graduales demuestran cómo los modelos ASR aprenden implícitamente el cambio en la carga funcional del tono, es decir, la transición del lenguaje desde contrastes basados en consonantes hacia contrastes léxicos basados en tonos.
El problema central que aborda esta investigación es cómo cuantificar el grado de dependencia del lenguaje del tono durante diferentes etapas del proceso de tonogénesis. La investigación tradicional sobre tonogénesis se ha basado principalmente en reconstrucción comparativa y métodos de fonética acústica, careciendo de herramientas computacionales cuantitativas para medir con precisión la carga funcional del tono en la distinción léxica.
- Significado Teórico: La tonogénesis es un área importante de investigación en lingüística histórica; comprender este proceso ayuda a revelar leyes universales de evolución lingüística
- Valor Práctico: Tiene implicaciones importantes para el desarrollo de sistemas ASR para lenguas multidialectales como el tibetano
- Contribución Metodológica: Proporciona un nuevo enfoque computacional para estudiar cuestiones de tipología lingüística
- Medición Tradicional de Carga Funcional: Los métodos basados únicamente en conteo de pares mínimos no pueden reflejar adecuadamente las complejas interacciones entre pistas segmentales y suprasegmentales en sistemas tonales transicionales
- Análisis Estático: Los métodos existentes tienen dificultades para captar cambios de fase fina durante el proceso de tonogénesis
- Subjetividad: Dependen del juicio de expertos y carecen de estándares cuantitativos objetivos
Las lenguas de la familia tibetana proporcionan un laboratorio ideal para estudiar la continua de tonogénesis: el dialecto Amdo mantiene características sin tonos, el dialecto Ü-Tsang se ha tonalizado completamente, y el dialecto Kham se encuentra en una etapa de transición intermedia. Los métodos computacionales pueden cuantificar objetivamente esta variación continua.
- Propuesta de un Método Computacional Basado en Neutralización Tonal: Cuantifica el grado de dependencia del tono del lenguaje mediante la eliminación sistemática de contornos de f0
- Verificación de la Continua de Tonogénesis Tibetana: Proporciona evidencia cuantitativa que respalda el gradiente de tonalización Amdo-Kham-Ü-Tsang
- Revelación de la Capacidad de Aprendizaje Implícito de Modelos ASR: Demuestra que los sistemas ASR pueden aprender y reflejar automáticamente cambios en la carga funcional del tono
- Desafío a la Teoría Tradicional de Carga Funcional: Sugiere que las mediciones tradicionales basadas en pares mínimos pueden sobrestimar la dependencia del tono en sistemas transicionales
Entrada: Datos de voz de diferentes dialectos tibetanos
Salida: Diferencias en el desempeño de ASR en condiciones originales versus condiciones de neutralización tonal para cada dialecto
Objetivo: Cuantificar el grado de dependencia del tono de cada dialecto mediante el grado de degradación del desempeño
- Fuente de Datos: Corpus TIBMD@MUC que contiene 6 dialectos tibetanos
- Conversión de Escritura: Conversión de tibetano a sistema de transliteración Wylie
- Preprocesamiento de Audio: Remuestreo a 16 kHz, tokenización a nivel de carácter
- Modelo Base: XLS-R 300m (modelo de representación de voz autosupervisado multilingüe)
- Estrategia de Ajuste Fino: Ajuste fino independiente del modelo para cada dialecto
- Configuración de Entrenamiento: Pérdida CTC, optimizador AdamW, tasa de aprendizaje 3×10^-4
- Método: Algoritmo PSOLA de Praat
- Operación: Reemplazo del contorno de f0 natural de cada enunciado por su tono promedio
- Características Preservadas: Envolvente espectral y estructura temporal
- Metodología de Neutralización Tonal: Primera aplicación sistemática de neutralización tonal PSOLA a la investigación de tonogénesis
- Marco de Comparación Transdialeetal: Establecimiento de un marco de evaluación unificado para comparar lenguas con diferentes grados de tonalización
- ASR como Herramienta Lingüística: Uso innovador del desempeño de ASR como indicador cuantificable de características de tipología lingüística
| Grupo Dialectal | Dialecto | Duración (horas) | Número de Hablantes | Número de Enunciados |
|---|
| Amdo | Xiahe | 4.12 | 2 | 3549 |
| Aba | 8.16 | 2 | 6546 |
| Kham | Chamdo | 2.79 | 7 | 2558 |
| Derge | 2.31 | 3 | 1245 |
| Ü-Tsang | Lhasa | 37.38 | 48 | 30349 |
| Shigatse | 15.15 | 4 | 10729 |
- Tasa de Error de Carácter (CER): Tasa de error de reconocimiento a nivel de carácter
- Tasa de Error de Palabra (WER): Tasa de error de reconocimiento a nivel de palabra
- Degradación del Desempeño (Δ): Incremento de tasa de error después de neutralización tonal
- Condición Original: Voz con información tonal completa preservada
- Condición Neutralizada: Voz con variación de f0 eliminada
- Tamaño de Lote: 4-8 (ajustado según memoria de GPU)
- Pasos de Entrenamiento: 2000 pasos
- Pasos de Calentamiento: 500 pasos
- Acumulación de Gradientes: Mantenimiento de tamaño de lote efectivo de 16
| Lengua | Estado Tonal | CER Original | CER Neutralizado | ΔCER | WER Original | WER Neutralizado | ΔWER |
|---|
| Grupo Amdo | | | | | | | |
| Xiahe | Sin tonos | 0.114 | 0.139 | 0.025 | 0.320 | 0.378 | 0.058 |
| Aba | Sin tonos | 0.182 | 0.202 | 0.020 | 0.525 | 0.563 | 0.038 |
| Grupo Ü-Tsang | | | | | | | |
| Lhasa | Tonalizado | 0.177 | 0.237 | 0.060 | 0.486 | 0.593 | 0.107 |
| Shigatse | Tonalizado | 0.490 | 0.629 | 0.139 | 0.175 | 0.250 | 0.075 |
| Grupo Kham | | | | | | | |
| Chamdo | Tonalizado | 0.247 | 0.303 | 0.056 | 0.523 | 0.613 | 0.090 |
| Derge | Tonalizado | 0.475 | 0.492 | 0.017 | 0.902 | 0.917 | 0.015 |
- Verificación de la Continua de Tonogénesis:
- Dialecto Amdo: ΔCER promedio = 0.023, exhibe dependencia mínima del tono
- Dialecto Ü-Tsang: ΔCER promedio = 0.100, muestra fuerte dependencia del tono
- Dialecto Kham: ΔCER se sitúa entre ambos, verificando el estado intermedio
- Patrón Gradual: El grado de degradación del desempeño es completamente consistente con el grado de tonalización descrito lingüísticamente
- Anomalía de Derge: El dialecto Kham de Derge muestra degradación de desempeño relativamente menor, posiblemente reflejando limitaciones en datos de entrenamiento o presencia de pistas segmentales residuales
- Aprendizaje Implícito de ASR: Los modelos ASR pueden aprender y reflejar automáticamente la carga funcional del tono de diferentes dialectos
- Desafío a la Teoría Tradicional: La medición de carga funcional basada únicamente en pares mínimos no puede captar adecuadamente la complejidad de sistemas transicionales
- Evidencia de Continuidad: La tonogénesis es efectivamente un proceso continuo, no una transición de fases discretas
- Teoría Clásica: Trabajos pioneros de Haudricourt (1954) y Hombert (1977)
- Investigación del Sudeste Asiático: Procesos de tonogénesis en vietnamita, jemer y otras lenguas
- Investigación Tibetana: Descripción de la diversidad tonal tibetana por Sun (2015)
- Modelado de Tonos: Dos enfoques principales: integración directa de características tonales y anotación tonal explícita
- Investigación sobre Neutralización Tonal: Base metodológica establecida por Liang and Levow (2025)
- ASR Multilingüe: Desarrollo de modelos como XLS-R
- Método Tradicional: Medición estática basada en conteo de pares mínimos
- Limitaciones: Incapacidad para manejar interacciones entre pistas segmentales y suprasegmentales
- Nuevas Direcciones: Posibilidades de evaluación dinámica proporcionadas por métodos computacionales
- Verificación de la Continua: Los dialectos tibetanos efectivamente exhiben un patrón de continua de tonogénesis
- Validez del Método Computacional: La técnica de neutralización tonal puede cuantificar efectivamente la carga funcional del tono
- ASR como Herramienta de Investigación: Los sistemas ASR pueden servir como herramientas efectivas para investigación en tipología lingüística
- Contribución Teórica: Desafía la perspectiva estática de la teoría tradicional de carga funcional
- Limitaciones de Datos:
- Cobertura de solo 6 dialectos tibetanos, insuficiente para representar la diversidad dialectal completa
- Posible solapamiento entre hablantes en datos de entrenamiento y prueba, afectando evaluación de generalización
- Conjunto de prueba relativamente pequeño (aproximadamente 30 minutos/dialecto)
- Limitaciones Metodológicas:
- La naturaleza histórica de la ortografía tibetana introduce problemas de inconsistencia en transliteración
- La neutralización tonal puede no eliminar completamente todas las pistas tonales
- Falta de análisis de patrones de confusión específicos a nivel fino
- Limitaciones Teóricas:
- Consideración insuficiente del impacto de otras características prosódicas
- Comprensión limitada de los mecanismos de interacción segmental-suprasegmental en sistemas transicionales
- Extensión de la Investigación:
- Inclusión de más dialectos tibetanos y otras familias lingüísticas
- Desarrollo de marco de evaluación independiente del hablante
- Realización de recopilación de datos a mayor escala
- Mejora Metodológica:
- Integración de características de calidad de voz como aspiración y preaspiración
- Desarrollo de técnicas de manipulación tonal más refinadas
- Establecimiento de métodos multidimensionales de medición de dependencia tonal
- Extensión de Aplicaciones:
- Desarrollo de sistemas ASR multidialectales adaptativos
- Exploración de detección de grado de tonalización en tiempo real
- Aplicación a trabajo de preservación y documentación lingüística
- Innovación Metodológica:
- Primera utilización del desempeño de ASR como indicador cuantitativo de carga funcional tonal
- Aplicación sistemática de técnica de neutralización tonal con valor metodológico
- Fusión interdisciplinaria de lingüística computacional e histórica
- Suficiencia Experimental:
- Cobertura de puntos clave en la continua de tonogénesis
- Diseño experimental riguroso con condiciones de control claras
- Resultados altamente consistentes con teoría lingüística
- Poder Convincente de Resultados:
- Resultados cuantitativos respaldan descripciones lingüísticas cualitativas
- Patrón gradual demuestra claramente características de continua
- Resultados estadísticos son significativos
- Claridad de Redacción:
- Estructura clara y lógica rigurosa
- Descripción precisa de detalles técnicos
- Introducción suficiente de antecedentes interdisciplinarios
- Limitaciones de Escala de Datos:
- Datos de entrenamiento insuficientes para algunos dialectos pueden afectar confiabilidad de resultados
- Problema de solapamiento de hablantes requiere control más estricto
- Falta de conjunto de datos de validación independiente
- Limitaciones Metodológicas:
- Neutralización tonal puede no aislar completamente pistas tonales
- No considera efectos de confusión de otras características prosódicas
- Sesgo de arquitectura del modelo ASR puede afectar resultados
- Profundidad de Análisis:
- Falta de análisis de patrones de confusión específicos
- Exploración insuficiente de causas de anomalía de Derge
- Explicación teórica insuficiente de mecanismos de transición
- Contribución Académica:
- Proporciona nueva herramienta computacional para investigación de tonogénesis
- Promueve aplicación de lingüística computacional en tipología lingüística
- Proporciona nueva perspectiva para desarrollo de teoría de carga funcional
- Valor Práctico:
- Proporciona orientación para diseño de sistemas ASR multidialectales
- Facilita trabajo de preservación y documentación lingüística
- Aplicable a investigación de otras lenguas tonales
- Reproducibilidad:
- Descripción detallada de métodos, ruta técnica clara
- Uso de modelos y herramientas de código abierto
- Configuración de hiperparámetros completa
- Investigación en Tipología Lingüística: Cuantificación de grado de cambio en características lingüísticas
- Desarrollo de ASR Multilingüe: Orientación para diseño de sistemas sensibles al tono
- Trabajo de Preservación Lingüística: Evaluación rápida del grado de tonalización dialectal
- Lingüística Histórica: Verificación de hipótesis teóricas sobre cambio sonoro
Este artículo cita una amplia literatura relevante, incluyendo:
- Teoría Clásica de Tonogénesis: Haudricourt (1954), Hombert (1977)
- Investigación Tibetana: Sun (2015), Gesang and Gesang (2002), DeLancey (2017)
- ASR y Tonos: Fu et al. (1998), Zhang and Kirby (2020)
- Teoría de Carga Funcional: Surendran and Levow (2004)
- Fundamentos Técnicos: Babu et al. (2021) - Modelo XLS-R
Esta investigación integra exitosamente métodos computacionales en la investigación histórica lingüística tradicional, proporcionando nuevas herramientas cuantitativas para comprender la tonogénesis, un fenómeno lingüístico importante. A pesar de ciertas limitaciones en datos y metodología, su enfoque de investigación innovador y resultados experimentales convincentes sientan una base importante para el desarrollo futuro del campo.