2025-11-11T14:37:08.910755

The Tonogenesis Continuum in Tibetan: A Computational Investigation

Liang, Zerong

Tonogenesis-the historical process by which segmental contrasts evolve into lexical tone-has traditionally been studied through comparative reconstruction and acoustic phonetics. We introduce a computational approach that quantifies the functional role of pitch at different stages of this sound change by measuring how pitch manipulation affects automatic speech recognition (ASR) performance. Through analysis on the sensitivity to pitch-flattening from a set of closely related Tibetan languages, we find evidence of a tonogenesis continuum: atonal Amdo dialects tolerate pitch removal the most, while fully tonal U-Tsang varieties show severe degradation, and intermediate Kham dialects fall measurably between these extremes. These gradient effects demonstrate how ASR models implicitly learn the shifting functional load of pitch as languages transition from consonant-based to tone-based lexical contrasts. Our findings show that computational methods can capture fine-grained stages of sound change and suggest that traditional functional load metrics, based solely on minimal pairs, may overestimate pitch dependence in transitional systems where segmental and suprasegmental cues remain phonetically intertwined.

academic

La Continua de Tonogénesis en Tibetano: Una Investigación Computacional

Información Básica

ID del Artículo: 2510.22485
Título: La Continua de Tonogénesis en Tibetano: Una Investigación Computacional
Autores: Siyu Liang, Zhaxi Zerong (Universidad de Washington)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: 26 de octubre de 2025 (Preimpresión en ArXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.22485

Resumen

La tonogénesis es el proceso histórico en lingüística mediante el cual los contrastes segmentales evolucionan hacia tonos léxicos, estudiado tradicionalmente a través de reconstrucción comparativa y fonética acústica. Este artículo introduce un enfoque computacional que cuantifica el papel funcional del tono en diferentes etapas de cambio sonoro midiendo el impacto de manipulaciones tonales en el desempeño del reconocimiento automático de voz (ASR). Mediante el análisis de la sensibilidad a la neutralización tonal en un conjunto de dialectos tibetanos estrechamente relacionados, el estudio proporciona evidencia de una continua de tonogénesis: el dialecto Amdo sin tonos muestra la mayor tolerancia a la eliminación de tonos, el dialecto Ü-Tsang completamente tonalizado exhibe degradación severa, mientras que el dialecto Kham intermedio se sitúa entre ambos extremos. Estos efectos graduales demuestran cómo los modelos ASR aprenden implícitamente el cambio en la carga funcional del tono, es decir, la transición del lenguaje desde contrastes basados en consonantes hacia contrastes léxicos basados en tonos.

Antecedentes y Motivación de la Investigación

Problema Central

El problema central que aborda esta investigación es cómo cuantificar el grado de dependencia del lenguaje del tono durante diferentes etapas del proceso de tonogénesis. La investigación tradicional sobre tonogénesis se ha basado principalmente en reconstrucción comparativa y métodos de fonética acústica, careciendo de herramientas computacionales cuantitativas para medir con precisión la carga funcional del tono en la distinción léxica.

Importancia del Problema

Significado Teórico: La tonogénesis es un área importante de investigación en lingüística histórica; comprender este proceso ayuda a revelar leyes universales de evolución lingüística
Valor Práctico: Tiene implicaciones importantes para el desarrollo de sistemas ASR para lenguas multidialectales como el tibetano
Contribución Metodológica: Proporciona un nuevo enfoque computacional para estudiar cuestiones de tipología lingüística

Limitaciones de los Métodos Existentes

Medición Tradicional de Carga Funcional: Los métodos basados únicamente en conteo de pares mínimos no pueden reflejar adecuadamente las complejas interacciones entre pistas segmentales y suprasegmentales en sistemas tonales transicionales
Análisis Estático: Los métodos existentes tienen dificultades para captar cambios de fase fina durante el proceso de tonogénesis
Subjetividad: Dependen del juicio de expertos y carecen de estándares cuantitativos objetivos

Motivación de la Investigación

Las lenguas de la familia tibetana proporcionan un laboratorio ideal para estudiar la continua de tonogénesis: el dialecto Amdo mantiene características sin tonos, el dialecto Ü-Tsang se ha tonalizado completamente, y el dialecto Kham se encuentra en una etapa de transición intermedia. Los métodos computacionales pueden cuantificar objetivamente esta variación continua.

Contribuciones Principales

Propuesta de un Método Computacional Basado en Neutralización Tonal: Cuantifica el grado de dependencia del tono del lenguaje mediante la eliminación sistemática de contornos de f0
Verificación de la Continua de Tonogénesis Tibetana: Proporciona evidencia cuantitativa que respalda el gradiente de tonalización Amdo-Kham-Ü-Tsang
Revelación de la Capacidad de Aprendizaje Implícito de Modelos ASR: Demuestra que los sistemas ASR pueden aprender y reflejar automáticamente cambios en la carga funcional del tono
Desafío a la Teoría Tradicional de Carga Funcional: Sugiere que las mediciones tradicionales basadas en pares mínimos pueden sobrestimar la dependencia del tono en sistemas transicionales

Explicación Detallada de la Metodología

Definición de la Tarea

Entrada: Datos de voz de diferentes dialectos tibetanos Salida: Diferencias en el desempeño de ASR en condiciones originales versus condiciones de neutralización tonal para cada dialecto Objetivo: Cuantificar el grado de dependencia del tono de cada dialecto mediante el grado de degradación del desempeño

Arquitectura del Modelo

Flujo de Procesamiento de Datos

Fuente de Datos: Corpus TIBMD@MUC que contiene 6 dialectos tibetanos
Conversión de Escritura: Conversión de tibetano a sistema de transliteración Wylie
Preprocesamiento de Audio: Remuestreo a 16 kHz, tokenización a nivel de carácter

Modelo ASR

Modelo Base: XLS-R 300m (modelo de representación de voz autosupervisado multilingüe)
Estrategia de Ajuste Fino: Ajuste fino independiente del modelo para cada dialecto
Configuración de Entrenamiento: Pérdida CTC, optimizador AdamW, tasa de aprendizaje 3×10^-4

Técnica de Neutralización Tonal

Método: Algoritmo PSOLA de Praat
Operación: Reemplazo del contorno de f0 natural de cada enunciado por su tono promedio
Características Preservadas: Envolvente espectral y estructura temporal

Puntos de Innovación Técnica

Metodología de Neutralización Tonal: Primera aplicación sistemática de neutralización tonal PSOLA a la investigación de tonogénesis
Marco de Comparación Transdialeetal: Establecimiento de un marco de evaluación unificado para comparar lenguas con diferentes grados de tonalización
ASR como Herramienta Lingüística: Uso innovador del desempeño de ASR como indicador cuantificable de características de tipología lingüística

Configuración Experimental

Conjunto de Datos

Grupo Dialectal	Dialecto	Duración (horas)	Número de Hablantes	Número de Enunciados
Amdo	Xiahe	4.12	2	3549
	Aba	8.16	2	6546
Kham	Chamdo	2.79	7	2558
	Derge	2.31	3	1245
Ü-Tsang	Lhasa	37.38	48	30349
	Shigatse	15.15	4	10729

Métricas de Evaluación

Tasa de Error de Carácter (CER): Tasa de error de reconocimiento a nivel de carácter
Tasa de Error de Palabra (WER): Tasa de error de reconocimiento a nivel de palabra
Degradación del Desempeño (Δ): Incremento de tasa de error después de neutralización tonal

Condiciones de Comparación

Condición Original: Voz con información tonal completa preservada
Condición Neutralizada: Voz con variación de f0 eliminada

Detalles de Implementación

Tamaño de Lote: 4-8 (ajustado según memoria de GPU)
Pasos de Entrenamiento: 2000 pasos
Pasos de Calentamiento: 500 pasos
Acumulación de Gradientes: Mantenimiento de tamaño de lote efectivo de 16

Resultados Experimentales

Resultados Principales

Lengua	Estado Tonal	CER Original	CER Neutralizado	ΔCER	WER Original	WER Neutralizado	ΔWER
Grupo Amdo
Xiahe	Sin tonos	0.114	0.139	0.025	0.320	0.378	0.058
Aba	Sin tonos	0.182	0.202	0.020	0.525	0.563	0.038
Grupo Ü-Tsang
Lhasa	Tonalizado	0.177	0.237	0.060	0.486	0.593	0.107
Shigatse	Tonalizado	0.490	0.629	0.139	0.175	0.250	0.075
Grupo Kham
Chamdo	Tonalizado	0.247	0.303	0.056	0.523	0.613	0.090
Derge	Tonalizado	0.475	0.492	0.017	0.902	0.917	0.015

Hallazgos Clave

Verificación de la Continua de Tonogénesis:
- Dialecto Amdo: ΔCER promedio = 0.023, exhibe dependencia mínima del tono
- Dialecto Ü-Tsang: ΔCER promedio = 0.100, muestra fuerte dependencia del tono
- Dialecto Kham: ΔCER se sitúa entre ambos, verificando el estado intermedio
Patrón Gradual: El grado de degradación del desempeño es completamente consistente con el grado de tonalización descrito lingüísticamente
Anomalía de Derge: El dialecto Kham de Derge muestra degradación de desempeño relativamente menor, posiblemente reflejando limitaciones en datos de entrenamiento o presencia de pistas segmentales residuales

Descubrimientos Experimentales

Aprendizaje Implícito de ASR: Los modelos ASR pueden aprender y reflejar automáticamente la carga funcional del tono de diferentes dialectos
Desafío a la Teoría Tradicional: La medición de carga funcional basada únicamente en pares mínimos no puede captar adecuadamente la complejidad de sistemas transicionales
Evidencia de Continuidad: La tonogénesis es efectivamente un proceso continuo, no una transición de fases discretas

Trabajo Relacionado

Investigación sobre Tonogénesis

Teoría Clásica: Trabajos pioneros de Haudricourt (1954) y Hombert (1977)
Investigación del Sudeste Asiático: Procesos de tonogénesis en vietnamita, jemer y otras lenguas
Investigación Tibetana: Descripción de la diversidad tonal tibetana por Sun (2015)

ASR y Tonos

Modelado de Tonos: Dos enfoques principales: integración directa de características tonales y anotación tonal explícita
Investigación sobre Neutralización Tonal: Base metodológica establecida por Liang and Levow (2025)
ASR Multilingüe: Desarrollo de modelos como XLS-R

Teoría de Carga Funcional

Método Tradicional: Medición estática basada en conteo de pares mínimos
Limitaciones: Incapacidad para manejar interacciones entre pistas segmentales y suprasegmentales
Nuevas Direcciones: Posibilidades de evaluación dinámica proporcionadas por métodos computacionales

Conclusiones y Discusión

Conclusiones Principales

Verificación de la Continua: Los dialectos tibetanos efectivamente exhiben un patrón de continua de tonogénesis
Validez del Método Computacional: La técnica de neutralización tonal puede cuantificar efectivamente la carga funcional del tono
ASR como Herramienta de Investigación: Los sistemas ASR pueden servir como herramientas efectivas para investigación en tipología lingüística
Contribución Teórica: Desafía la perspectiva estática de la teoría tradicional de carga funcional

Limitaciones

Limitaciones de Datos:
- Cobertura de solo 6 dialectos tibetanos, insuficiente para representar la diversidad dialectal completa
- Posible solapamiento entre hablantes en datos de entrenamiento y prueba, afectando evaluación de generalización
- Conjunto de prueba relativamente pequeño (aproximadamente 30 minutos/dialecto)
Limitaciones Metodológicas:
- La naturaleza histórica de la ortografía tibetana introduce problemas de inconsistencia en transliteración
- La neutralización tonal puede no eliminar completamente todas las pistas tonales
- Falta de análisis de patrones de confusión específicos a nivel fino
Limitaciones Teóricas:
- Consideración insuficiente del impacto de otras características prosódicas
- Comprensión limitada de los mecanismos de interacción segmental-suprasegmental en sistemas transicionales

Direcciones Futuras

Extensión de la Investigación:
- Inclusión de más dialectos tibetanos y otras familias lingüísticas
- Desarrollo de marco de evaluación independiente del hablante
- Realización de recopilación de datos a mayor escala
Mejora Metodológica:
- Integración de características de calidad de voz como aspiración y preaspiración
- Desarrollo de técnicas de manipulación tonal más refinadas
- Establecimiento de métodos multidimensionales de medición de dependencia tonal
Extensión de Aplicaciones:
- Desarrollo de sistemas ASR multidialectales adaptativos
- Exploración de detección de grado de tonalización en tiempo real
- Aplicación a trabajo de preservación y documentación lingüística

Evaluación Profunda

Fortalezas

Innovación Metodológica:
- Primera utilización del desempeño de ASR como indicador cuantitativo de carga funcional tonal
- Aplicación sistemática de técnica de neutralización tonal con valor metodológico
- Fusión interdisciplinaria de lingüística computacional e histórica
Suficiencia Experimental:
- Cobertura de puntos clave en la continua de tonogénesis
- Diseño experimental riguroso con condiciones de control claras
- Resultados altamente consistentes con teoría lingüística
Poder Convincente de Resultados:
- Resultados cuantitativos respaldan descripciones lingüísticas cualitativas
- Patrón gradual demuestra claramente características de continua
- Resultados estadísticos son significativos
Claridad de Redacción:
- Estructura clara y lógica rigurosa
- Descripción precisa de detalles técnicos
- Introducción suficiente de antecedentes interdisciplinarios

Deficiencias

Limitaciones de Escala de Datos:
- Datos de entrenamiento insuficientes para algunos dialectos pueden afectar confiabilidad de resultados
- Problema de solapamiento de hablantes requiere control más estricto
- Falta de conjunto de datos de validación independiente
Limitaciones Metodológicas:
- Neutralización tonal puede no aislar completamente pistas tonales
- No considera efectos de confusión de otras características prosódicas
- Sesgo de arquitectura del modelo ASR puede afectar resultados
Profundidad de Análisis:
- Falta de análisis de patrones de confusión específicos
- Exploración insuficiente de causas de anomalía de Derge
- Explicación teórica insuficiente de mecanismos de transición

Impacto

Contribución Académica:
- Proporciona nueva herramienta computacional para investigación de tonogénesis
- Promueve aplicación de lingüística computacional en tipología lingüística
- Proporciona nueva perspectiva para desarrollo de teoría de carga funcional
Valor Práctico:
- Proporciona orientación para diseño de sistemas ASR multidialectales
- Facilita trabajo de preservación y documentación lingüística
- Aplicable a investigación de otras lenguas tonales
Reproducibilidad:
- Descripción detallada de métodos, ruta técnica clara
- Uso de modelos y herramientas de código abierto
- Configuración de hiperparámetros completa

Escenarios de Aplicación

Investigación en Tipología Lingüística: Cuantificación de grado de cambio en características lingüísticas
Desarrollo de ASR Multilingüe: Orientación para diseño de sistemas sensibles al tono
Trabajo de Preservación Lingüística: Evaluación rápida del grado de tonalización dialectal
Lingüística Histórica: Verificación de hipótesis teóricas sobre cambio sonoro

Referencias

Este artículo cita una amplia literatura relevante, incluyendo:

Teoría Clásica de Tonogénesis: Haudricourt (1954), Hombert (1977)
Investigación Tibetana: Sun (2015), Gesang and Gesang (2002), DeLancey (2017)
ASR y Tonos: Fu et al. (1998), Zhang and Kirby (2020)
Teoría de Carga Funcional: Surendran and Levow (2004)
Fundamentos Técnicos: Babu et al. (2021) - Modelo XLS-R

Esta investigación integra exitosamente métodos computacionales en la investigación histórica lingüística tradicional, proporcionando nuevas herramientas cuantitativas para comprender la tonogénesis, un fenómeno lingüístico importante. A pesar de ciertas limitaciones en datos y metodología, su enfoque de investigación innovador y resultados experimentales convincentes sientan una base importante para el desarrollo futuro del campo.