2025-11-11T14:37:08.910755

The Tonogenesis Continuum in Tibetan: A Computational Investigation

Liang, Zerong

Tonogenesis-the historical process by which segmental contrasts evolve into lexical tone-has traditionally been studied through comparative reconstruction and acoustic phonetics. We introduce a computational approach that quantifies the functional role of pitch at different stages of this sound change by measuring how pitch manipulation affects automatic speech recognition (ASR) performance. Through analysis on the sensitivity to pitch-flattening from a set of closely related Tibetan languages, we find evidence of a tonogenesis continuum: atonal Amdo dialects tolerate pitch removal the most, while fully tonal U-Tsang varieties show severe degradation, and intermediate Kham dialects fall measurably between these extremes. These gradient effects demonstrate how ASR models implicitly learn the shifting functional load of pitch as languages transition from consonant-based to tone-based lexical contrasts. Our findings show that computational methods can capture fine-grained stages of sound change and suggest that traditional functional load metrics, based solely on minimal pairs, may overestimate pitch dependence in transitional systems where segmental and suprasegmental cues remain phonetically intertwined.

academic

Континуум тоногенеза в тибетском языке: вычислительное исследование

Основная информация

ID статьи: 2510.22485
Название: The Tonogenesis Continuum in Tibetan: A Computational Investigation
Авторы: Сию Лян, Чжаси Зеронг (Вашингтонский университет)
Классификация: cs.CL (Компьютерная лингвистика)
Дата публикации: 26 октября 2025 г. (препринт ArXiv)
Ссылка на статью: https://arxiv.org/abs/2510.22485

Аннотация

Тоногенез — это исторический процесс эволюции сегментных контрастов в лексические тоны, традиционно изучаемый методами сравнительной реконструкции и акустической фонетики. В данной работе представлен вычислительный подход, который количественно оценивает функциональную роль тонов на различных этапах звуковых изменений путём измерения влияния манипуляций с тонами на производительность автоматического распознавания речи (ASR). Анализируя чувствительность группы близкородственных тибетских диалектов к сглаживанию тонов, исследование выявило свидетельства континуума тоногенеза: атональный диалект Амдо демонстрирует наибольшую толерантность к удалению тонов, полностью тонализированный диалект Центрального Тибета (Уцанг) показывает серьёзную деградацию, а промежуточный диалект Кхам находится между двумя крайностями. Эти градиентные эффекты демонстрируют, как модели ASR неявно усваивают сдвиг в функциональной нагрузке тонов, то есть переход языка от контрастов, основанных на согласных, к лексическим контрастам, основанным на тонах.

Исследовательский контекст и мотивация

Основной исследовательский вопрос

Данное исследование решает проблему количественной оценки степени зависимости языка от тонов на различных этапах процесса тоногенеза. Традиционные исследования тоногенеза в основном опираются на методы сравнительной реконструкции и акустической фонетики, но им не хватает количественных вычислительных средств для точного измерения функциональной нагрузки тонов в лексической дифференциации.

Значимость проблемы

Теоретическое значение: Тоногенез — это важная область исторической лингвистики; понимание этого процесса способствует выявлению универсальных закономерностей языковой эволюции
Практическая ценность: Имеет важное значение для разработки систем ASR для многодиалектных языков, таких как тибетский
Методологический вклад: Предоставляет новый вычислительный метод для изучения вопросов языковой типологии

Ограничения существующих методов

Традиционное измерение функциональной нагрузки: Методы, основанные только на подсчёте минимальных пар, не могут адекватно отразить сложное взаимодействие сегментных и супрасегментных сигналов в переходных тональных системах
Статический анализ: Существующие методы затрудняют захват тонких изменений этапов в процессе тоногенеза
Субъективность: Зависит от экспертных суждений, не хватает объективных количественных стандартов

Исследовательская мотивация

Тибетские языки предоставляют идеальную лабораторию для изучения континуума тоногенеза: диалект Амдо сохраняет атональные характеристики, диалект Уцанг полностью тонализирован, а диалект Кхам находится в переходном промежуточном состоянии. Вычислительные методы позволяют объективно количественно оценить эту непрерывную вариацию.

Основные вклады

Предложен вычислительный метод на основе сглаживания тонов: Систематическое удаление контуров f0 для количественной оценки степени зависимости языка от тонов
Верификация континуума тоногенеза в тибетском языке: Предоставлены количественные свидетельства, поддерживающие градиент тонализации Амдо-Кхам-Уцанг
Раскрытие неявных способностей обучения моделей ASR: Доказано, что системы ASR автоматически усваивают и отражают изменения в функциональной нагрузке тонов
Вызов традиционной теории функциональной нагрузки: Показано, что традиционные методы измерения на основе минимальных пар могут переоценивать зависимость от тонов в переходных системах

Подробное описание методологии

Определение задачи

Входные данные: Речевые данные различных тибетских диалектов Выходные данные: Различия в производительности ASR для каждого диалекта при исходных условиях и условиях сглаживания тонов Цель: Количественно оценить степень зависимости каждого диалекта от тонов на основе степени деградации производительности

Архитектура модели

Процесс обработки данных

Источник данных: Используется корпус TIBMD@MUC, содержащий 6 тибетских диалектов
Преобразование текста: Преобразование тибетского письма в систему транскрипции Вайли
Предварительная обработка аудио: Передискретизация до 16 кГц, токенизация на уровне символов

Модель ASR

Базовая модель: XLS-R 300m (кроссязыковая модель самоконтролируемого представления речи)
Стратегия тонкой настройки: Отдельная тонкая настройка модели для каждого диалекта
Конфигурация обучения: Потеря CTC, оптимизатор AdamW, скорость обучения 3×10^-4

Техника сглаживания тонов

Метод: Использование алгоритма PSOLA в Praat
Операция: Замена естественного контура f0 каждого высказывания его средним тоном
Сохранённые характеристики: Сохранение спектральной огибающей и временной структуры

Технологические инновации

Методология сглаживания тонов: Первое систематическое применение сглаживания тонов PSOLA в исследованиях тоногенеза
Кроссдиалектная сравнительная база: Установление унифицированной оценочной базы для сравнения языков с различной степенью тонализации
ASR как лингвистический инструмент: Инновационное использование производительности ASR в качестве количественного показателя типологических характеристик языка

Экспериментальная установка

Набор данных

Группа диалектов	Диалект	Продолжительность (часы)	Количество говорящих	Количество высказываний
Амдо	Сяхэ	4,12	2	3549
	Аба	8,16	2	6546
Кхам	Чамдо	2,79	7	2558
	Дергэ	2,31	3	1245
Уцанг	Лхаса	37,38	48	30349
	Шигацзе	15,15	4	10729

Метрики оценки

Коэффициент ошибок символов (CER): Частота ошибок распознавания на уровне символов
Коэффициент ошибок слов (WER): Частота ошибок распознавания на уровне слов
Деградация производительности (Δ): Прирост частоты ошибок после сглаживания тонов

Условия сравнения

Исходное условие: Речь с полной информацией о тонах
Условие сглаживания: Речь с удалённой вариацией f0

Детали реализации

Размер пакета: 4–8 (в зависимости от памяти GPU)
Количество шагов обучения: 2000 шагов
Количество шагов прогрева: 500 шагов
Накопление градиентов: Сохранение эффективного размера пакета 16

Результаты экспериментов

Основные результаты

Язык	Статус тонов	Исходный CER	Сглаженный CER	ΔCER	Исходный WER	Сглаженный WER	ΔWER
Группа Амдо
Сяхэ	Атональный	0,114	0,139	0,025	0,320	0,378	0,058
Аба	Атональный	0,182	0,202	0,020	0,525	0,563	0,038
Группа Уцанг
Лхаса	Тонализированный	0,177	0,237	0,060	0,486	0,593	0,107
Шигацзе	Тонализированный	0,490	0,629	0,139	0,175	0,250	0,075
Группа Кхам
Чамдо	Тонализированный	0,247	0,303	0,056	0,523	0,613	0,090
Дергэ	Тонализированный	0,475	0,492	0,017	0,902	0,917	0,015

Ключевые находки

Верификация континуума тоногенеза:
- Диалект Амдо: среднее ΔCER = 0,023, демонстрирует минимальную зависимость от тонов
- Диалект Уцанг: среднее ΔCER = 0,100, показывает сильную зависимость от тонов
- Диалект Кхам: ΔCER находится между двумя крайностями, подтверждая промежуточное состояние
Градиентный паттерн: Степень деградации производительности полностью соответствует описанной в лингвистике степени тонализации
Аномалия Дергэ: Диалект Дергэ (Кхам) показывает относительно небольшую деградацию производительности, что может отражать ограничения обучающих данных или наличие остаточных сегментных сигналов

Экспериментальные открытия

Неявное обучение ASR: Модели ASR способны автоматически усваивать и отражать изменения в функциональной нагрузке тонов различных диалектов
Вызов традиционной теории: Чистое измерение функциональной нагрузки на основе минимальных пар не может адекватно захватить сложность переходных систем
Свидетельства непрерывности: Тоногенез действительно является непрерывным процессом, а не дискретным переходом между этапами

Связанные работы

Исследования тоногенеза

Классические теории: Основополагающие работы Haudricourt (1954) и Hombert (1977)
Исследования Юго-Восточной Азии: Процессы тоногенеза в вьетнамском, кхмерском и других языках
Исследования тибетского языка: Описание многообразия тонов в тибетском языке Sun (2015)

ASR и тоны

Моделирование тонов: Два основных подхода — интеграция прямых тональных признаков и явная разметка тонов
Исследования сглаживания тонов: Методологическая база, установленная Liang and Levow (2025)
Кроссязыковой ASR: Развитие многоязычных моделей, таких как XLS-R

Теория функциональной нагрузки

Традиционные методы: Статическое измерение на основе подсчёта минимальных пар
Ограничения: Неспособность обработать взаимодействие сегментных и супрасегментных сигналов
Новые направления: Возможности динамической оценки, предоставляемые вычислительными методами

Заключение и обсуждение

Основные выводы

Верификация континуума: Тибетские диалекты действительно демонстрируют паттерн континуума тоногенеза
Эффективность вычислительного метода: Техника сглаживания тонов эффективно количественно оценивает функциональную нагрузку тонов
ASR как исследовательский инструмент: Системы ASR могут служить эффективным инструментом для исследований языковой типологии
Теоретический вклад: Вызов статического взгляда традиционной теории функциональной нагрузки

Ограничения

Ограничения данных:
- Охватывает только 6 тибетских диалектов, не может представлять полное многообразие диалектов
- Обучающие и тестовые данные могут содержать одних и тех же говорящих, влияя на оценку обобщаемости
- Тестовый набор относительно мал (примерно 30 минут на диалект)
Методологические ограничения:
- Исторический характер тибетской орфографии приводит к несогласованности транскрипции
- Сглаживание тонов может не полностью удалить все тональные сигналы
- Отсутствует детальный анализ конкретных паттернов ошибок
Теоретические ограничения:
- Недостаточное рассмотрение влияния других просодических характеристик
- Ограниченное понимание механизмов взаимодействия сегментных и супрасегментных элементов в переходных системах

Направления будущих исследований

Расширение исследований:
- Включение большего количества тибетских диалектов и языков других семей
- Разработка оценочной базы, независимой от говорящего
- Проведение сбора данных в большем масштабе
Улучшение методов:
- Интеграция характеристик качества голоса, таких как придыхание и предпридыхание
- Разработка более тонких техник манипуляции тонами
- Установление многомодального метода измерения зависимости от тонов
Расширение приложений:
- Разработка адаптивных многодиалектных систем ASR
- Исследование обнаружения степени тонализации в реальном времени
- Применение в работах по сохранению и документированию языков

Глубокая оценка

Преимущества

Методологическая инновативность:
- Первое использование производительности ASR в качестве количественного показателя функциональной нагрузки тонов
- Систематическое применение техники сглаживания тонов имеет методологическую ценность
- Междисциплинарное объединение компьютерной лингвистики и исторической лингвистики
Достаточность экспериментов:
- Охватывает ключевые узлы континуума тоногенеза
- Строгий экспериментальный дизайн с чёткими контрольными условиями
- Результаты высоко согласуются с лингвистической теорией
Убедительность результатов:
- Количественные результаты подтверждают качественные лингвистические описания
- Градиентный паттерн явно демонстрирует характеристики континуума
- Статистические результаты значимы
Ясность изложения:
- Чёткая структура и логичное построение
- Точное описание технических деталей
- Достаточное введение в междисциплинарный контекст

Недостатки

Ограничения размера данных:
- Недостаточные обучающие данные для некоторых диалектов могут влиять на надёжность результатов
- Проблема перекрытия говорящих требует более строгого контроля
- Отсутствие независимого набора данных для верификации
Методологические ограничения:
- Сглаживание тонов может не полностью изолировать тональные сигналы
- Не учитывается эффект смешивания других просодических характеристик
- Архитектура модели ASR может иметь смещение, влияющее на результаты
Глубина анализа:
- Отсутствует анализ конкретных паттернов ошибок
- Недостаточное исследование причин аномалии Дергэ
- Недостаточно глубокое теоретическое объяснение переходных механизмов

Влияние

Академический вклад:
- Предоставляет новый вычислительный инструмент для исследований тоногенеза
- Продвигает применение компьютерной лингвистики в языковой типологии
- Предоставляет новую перспективу для развития теории функциональной нагрузки
Практическая ценность:
- Предоставляет руководство для разработки многодиалектных систем ASR
- Способствует работам по сохранению и документированию языков
- Может быть применено к исследованиям других тональных языков
Воспроизводимость:
- Подробное описание методов, ясная техническая траектория
- Использование открытых моделей и инструментов
- Полная установка гиперпараметров

Сценарии применения

Исследования языковой типологии: Количественная оценка степени изменения языковых характеристик
Разработка многоязычного ASR: Руководство для проектирования систем, чувствительных к тонам
Работы по сохранению языков: Быстрая оценка степени тонализации диалекта
Историческая лингвистика: Верификация теоретических гипотез звуковых изменений

Библиография

Данная работа цитирует богатый корпус соответствующей литературы, включая:

Классические теории тоногенеза: Haudricourt (1954), Hombert (1977)
Исследования тибетского языка: Sun (2015), Gesang and Gesang (2002), DeLancey (2017)
ASR и тоны: Fu et al. (1998), Zhang and Kirby (2020)
Теория функциональной нагрузки: Surendran and Levow (2004)
Технологическая база: Babu et al. (2021) — модель XLS-R

Данное исследование успешно внедряет вычислительные методы в традиционные исследования исторической лингвистики, предоставляя новый количественный инструмент для понимания тоногенеза — важного языкового явления. Несмотря на некоторые ограничения в данных и методологии, инновационный исследовательский подход и убедительные экспериментальные результаты закладывают важную основу для будущего развития в этой области.