2025-11-18T18:10:21.509375

Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing

Cheng, Lu, Yang et al.

Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.

academic

Автоматическое создание корреляций текст-произношение и их применение для контекстного смещения

Основная информация

ID статьи: 2501.00804
Название: Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
Авторы: Gaofeng Cheng, Haitian Lu, Chengxu Yang, Xuyang Wang, Ta Li, Yonghong Yan
Классификация: eess.AS (Обработка аудио и речи), cs.CL (Вычислительная лингвистика)
Дата публикации: 1 января 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.00804

Аннотация

Эффективное различие корреляций произношения между различными письменными текстами является важной проблемой в языковой акустике. Традиционно такие корреляции произношения получают через вручную разработанные фонетические словари. В данной статье предлагается управляемый данными подход для автоматического получения этих корреляций произношения, называемый автоматической корреляцией текст-произношение (ATPC). Требуемый уровень контроля соответствует контролю при обучении сквозных систем автоматического распознавания речи (E2E-ASR), а именно речевым сигналам и соответствующим текстовым аннотациям. Сначала применяется алгоритм итеративной оценки временных меток (ITSE) для выравнивания речи с соответствующими текстовыми символами. Затем речевой кодировщик преобразует речь в речевые эмбеддинги. Наконец, корреляции ATPC получаются путём сравнения расстояний речевых эмбеддингов для различных текстовых символов. Результаты экспериментов на китайском языке показывают, что ATPC улучшает производительность E2E-ASR при контекстном смещении и предоставляет надежду для диалектов или языков, в которых отсутствуют вручную созданные фонетические словари.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование, заключается в том, как автоматически получить корреляции произношения между текстовыми символами — это важный вызов в языковой акустике. Традиционные методы полагаются на вручную разработанные фонетические словари для установления таких корреляций, однако этот подход имеет явные ограничения.

Важность проблемы

Корреляции произношения играют ключевую роль в нескольких задачах обработки языка:

Автоматическое распознавание речи (ASR): Точное моделирование произношения критически важно для точности распознавания
Синтез речи из текста (TTS): Требует точной информации о произношении для создания естественной речи
Распознавание с контекстным смещением: Требует тонкого понимания корреляций произношения для обработки специальной лексики

Ограничения существующих методов

Зависимость от вручную созданных словарей: Традиционные методы требуют обширных фонетических словарей, созданных вручную
Языковая специфичность: Каждый язык требует специально разработанного словаря
Трудоёмкость: Процесс ручного создания отнимает много времени и ресурсов
Недостаточное покрытие: Сложно охватить диалектные варианты и специализированную лексику

Исследовательская мотивация

Хотя модели E2E-ASR достигли значительного прогресса в моделировании речи в текст, они всё ещё имеют недостатки в эффективном моделировании корреляций текст-текст произношения, особенно в сценариях контекстного смещения, требующих тонкого понимания произношения.

Основные вклады

Предложение метода ATPC: Впервые предложен управляемый данными метод автоматического создания корреляций текст-произношение без необходимости в вручную созданных фонетических словарях
Унифицированная схема контроля: Использование тех же сигналов контроля, что и для E2E-ASR (пары речь-текст), что снижает затраты на дополнительные аннотации
Трёхэтапный процесс создания: Разработан полный конвейер создания ATPC, включающий выравнивание, извлечение эмбеддингов и расчёт корреляций
Экспериментальная проверка: Проверка эффективности ATPC в задачах контекстного смещения на китайском наборе данных
Открытые ресурсы: Предоставление матрицы ATPC для китайского языка как общественного ресурса

Подробное описание метода

Определение задачи

Входные данные: Речевой сигнал и соответствующая текстовая аннотация
Выходные данные: Матрица корреляций произношения между текстовыми символами
Ограничения: Не требуется дополнительный фонетический словарь или экспертные знания

Архитектура модели

Создание ATPC включает три основных этапа:

1. Выравнивание текст-речь на основе ITSE

Цель: Получение точных временных меток начала и конца для каждого символа
Метод: Использование алгоритма итеративной оценки временных меток (ITSE)
Преимущества:
- Обеспечивает точные временные метки начала и конца по сравнению с CTC
- Не требует фонетического словаря в отличие от GMM-HMM
- Выполняет выравнивание на уровне токенов на основе E2E-ASR

2. Извлечение и сегментация речевых эмбеддингов

Извлечение эмбеддингов: Использование многоязычной модели речевого представления для извлечения эмбеддингов всего предложения
Выбор модели: Экспериментирование с различными слоями XLSR-53 и версией с микронастройкой IPA
Стратегия сегментации: Сегментация эмбеддингов на основе результатов выравнивания, а не аудиосегментация
Частота извлечения: 50 Гц (один кадр каждые 20 мс)

3. Расчёт корреляций произношения

Метрика расстояния: Использование алгоритма динамического выравнивания времени (DTW)
Построение набора эмбеддингов: Случайный выбор E=100 эмбеддингов для каждого символа
Стратегия фильтрации: Удаление символов, встречающихся менее 3 раз
Расчёт расстояния:

Dist(cj, ck) = (1/(M×N)) × Σ(m=1 to M)Σ(n=1 to N) DTW(V^m_j, W^n_k)

где cj и ck обозначают j-й и k-й символы, а M и N — количество эмбеддингов для соответствующих символов.

Технические инновации

Выравнивание без словаря: Алгоритм ITSE обеспечивает точное выравнивание без необходимости в фонетическом словаре
Стратегия сегментации эмбеддингов: Сегментация в пространстве эмбеддингов, а не в аудиопространстве, сохраняет контекстную информацию
Метрика расстояния DTW: Эффективно обрабатывает расчёт расстояния между эмбеддингами различной длины
Многоязычное предварительное обучение: Использование возможностей кросс-языкового представления многоязычных моделей

Экспериментальная установка

Наборы данных

Подмножество BABEL: Используется для обучения модели речевого представления
- Содержит многоязычный корпус диалоговой телефонной речи на 23 языках
- Языки включают: кантонский, ассамский, бенгальский, пушту и другие
Обучающий набор Aishell-2: Используется для обучения ITSE и создания ATPC
- Корпус китайской речи
- Проверка кросс-языковой производительности
Набор данных контекстного смещения Aishell-1: Используется для оценки эффективности ATPC
- Набор разработки: 1334 предложения, 600 горячих слов
- Тестовый набор: 235 предложений, 161 горячее слово

Показатели оценки

Способность различать произношение:
- Расстояние DTW между омонимами и не-омонимами
- Относительная дисперсия (Relative Disparity)
Производительность контекстного смещения:
- Коэффициент ошибок символов (CER)
- Коэффициент ошибок смещённых символов (B-CER)
- Коэффициент ошибок несмещённых символов (U-CER)
- Полнота/Точность/F1-мера горячих слов (R/P/F)

Методы сравнения

Поверхностное слияние: Метод на основе WFST для контекстного декодирования
Глубокое смещение: Сеть предсказания контекстных фраз (CPPN) на основе структуры AED-CTC
Вручную созданный словарь: Метод с использованием ручного фонетического словаря

Детали реализации

Базовая модель: XLSR-53, микронастроенная на задаче распознавания IPA BABEL
Выбор слоя эмбеддинга: Эмбеддинги 15-го слоя показали лучшую производительность
Функция расстояния: Косинусное расстояние превосходит евклидово расстояние
Установка порога: Порог контекстного смещения 1,07
Размер матрицы: Матрица ATPC размером 3711×3711

Результаты экспериментов

Основные результаты

Оценка способности различать произношение

Модель	Евклидово расстояние	Косинусное расстояние	Относительная дисперсия
XLSR-layer15	Омонимы: 105,67, Не-омонимы: 131,66	Омонимы: 0,183, Не-омонимы: 0,258	19,7% / 29,1%
IPA-layer15	Омонимы: 394,47, Не-омонимы: 499,87	Омонимы: 0,136, Не-омонимы: 0,191	21,1% / 28,8%

Ключевые выводы:

Модель с микронастройкой IPA последовательно превосходит XLSR-53 в различении произношения
Эмбеддинги 15-го слоя показывают лучшую производительность в большинстве случаев
Косинусное расстояние последовательно превосходит евклидово расстояние

Эффект контекстного смещения

Метод	CER (U-CER/B-CER)	F1-мера (Полнота/Точность)
Базовая модель	13,8 (7,3/41,8)	44 (28/99)
ATPC	12,0 (7,3/32,4)	68 (53/96)
C-g + ATPC	10,3 (7,7/21,5)	80 (70/94)
C-g + вручную созданный словарь	8,9 (7,4/15,3)	86 (77/98)

Улучшение производительности:

Относительное снижение CER на 13,0% по сравнению с базовой моделью
Относительное снижение B-CER на 22,5%
Увеличение полноты горячих слов на 25%
Увеличение F1-меры на 24%

Абляционные исследования

Сравнение эмбеддингов различных слоёв

Эксперименты показывают, что эмбеддинги 15-го слоя демонстрируют оптимальную производительность в задачах различения произношения, что может быть обусловлено достижением оптимального баланса между акустическими признаками, речевыми характеристиками, идентичностью слова и семантической информацией слова на этом слое.

Сравнение функций расстояния

Косинусное расстояние превосходит евклидово расстояние во всех конфигурациях, с значительным улучшением относительной дисперсии (например, для IPA-layer15 увеличение с 21,1% до 28,8%).

Анализ примеров

Визуализация матрицы ATPC

Анализ визуализации выявляет:

Омонимы "刮" (gua1) и "瓜" (gua1) имеют низкое расстояние DTW между ними
Не-омонимы "爱" (ai4) и "途" (tu2) имеют высокое расстояние DTW между ними
Матрица в целом отражает корреляции произношения между китайскими символами

Экспериментальные выводы

Способность кросс-языкового переноса: Модели, предварительно обученные на многоязычных данных, эффективно переносятся на китайский язык
Различия в представлении слоёв: Различные слои кодируют различные типы информации, промежуточные слои более подходят для моделирования произношения
Важность метрики расстояния: Косинусное расстояние более подходит для захвата сходства произношения
Проверка практичности: ATPC как модуль типа "plug-and-play" эффективно улучшает производительность ASR

Связанные работы

Исследования моделирования произношения

Традиционное моделирование произношения в основном полагается на:

Системы HMM-GMM: Требуют подробного фонетического словаря и выравнивания фонем
Методы глубокого обучения: По-прежнему полагаются на вручную созданные фонетические ресурсы
Сквозные системы: Хотя снижают зависимость от промежуточных представлений, всё ещё имеют недостатки в моделировании корреляций произношения

Методы контекстного смещения

Поверхностное слияние: Слияние контекстной информации на этапе декодирования
Глубокое смещение: Интеграция механизмов, чувствительных к контексту, внутри модели
Вклад данной работы: Предоставление нового способа моделирования корреляций произношения

Обучение речевому представлению

Самоконтролируемое обучение: Модели wav2vec, XLSR и другие предоставляют мощные речевые представления
Многоязычные модели: Обеспечивают основу для кросс-языкового моделирования произношения
Анализ слоёв: Различные слои захватывают информацию различных уровней абстракции

Заключение и обсуждение

Основные выводы

Эффективность метода: ATPC успешно реализует автоматическое создание корреляций произношения без необходимости в вручную созданных фонетических словарях
Улучшение производительности: Достигнуто значительное улучшение в задачах контекстного смещения
Практическая ценность: Предоставляет решение для языков/диалектов, в которых отсутствуют фонетические ресурсы
Модульность: Как модуль типа "plug-and-play" легко интегрируется в существующие системы ASR

Ограничения

Разрыв производительности: По-прежнему существует разрыв производительности по сравнению с вручную созданными словарями
Зависимость от данных: Требуется достаточное количество обучающих данных для обеспечения качества корреляций
Вычислительная сложность: Затраты на вычисление DTW и хранение крупномасштабных матриц
Языковая специфичность: Основная проверка проведена на китайском языке, способность к обобщению на другие языки требует дальнейшей проверки

Будущие направления

Расширение на несколько языков: Создание и применение ATPC на большем количестве языков и диалектов
Обработка OOV: Решение проблем с символами вне словаря или словами вне словаря
Масштабирование данных: Использование более крупных наборов данных для повышения надёжности ATPC
Стандартизация ресурсов: Продвижение ATPC как стандартизированного общественного речевого ресурса с постоянным обновлением

Глубокая оценка

Преимущества

Высокая инновационность: Впервые предложен полностью управляемый данными метод создания корреляций произношения
Высокая практическая ценность: Решает реальную проблему для языков с ограниченными ресурсами
Полнота метода: Предоставляет сквозное решение
Достаточная экспериментальная проверка: Многоаспектная проверка эффективности метода
Вклад в открытый исходный код: Предоставление воспроизводимой реализации и общественных ресурсов

Недостатки

Недостаточный теоретический анализ: Отсутствует глубокое объяснение того, почему метод эффективен
Ограничения оценки: Основная оценка проведена на китайском языке, способность к обобщению на несколько языков недостаточно проверена
Вычислительная эффективность: Высокая временная сложность вычисления DTW
Отсутствие анализа ошибок: Отсутствует глубокий анализ случаев отказа и паттернов ошибок

Влияние

Академический вклад: Предоставляет новое направление исследований в области моделирования произношения
Практическое применение: Имеет важное значение для систем ASR на языках с ограниченными ресурсами
Распространение технологии: Метод прост в реализации и удобен для распространения
Обмен ресурсами: Открытая матрица ATPC предоставляет ценный ресурс для сообщества

Применимые сценарии

Языки с ограниченными ресурсами: Языки или диалекты, в которых отсутствуют фонетические словари
Быстрое развёртывание: Сценарии, требующие быстрого создания систем ASR
Контекстное смещение: Приложения, требующие обработки специальной лексики или горячих слов
Многоязычные системы: Создание унифицированных многоязычных систем обработки речи

Библиография

Статья цитирует 26 важных работ, охватывающих:

Классические работы по распознаванию речи и синтезу речи из текста
Последние достижения в сквозных системах ASR
Соответствующие исследования контекстного смещения
Передовые результаты в области обучения речевому представлению
Важные вклады в многоязычную обработку речи

Общая оценка: Это исследование с важной практической ценностью, предлагающее инновационный управляемый данными метод для решения реальной проблемы моделирования корреляций произношения. Хотя есть место для улучшения в теоретической глубине и многоязычной проверке, простота и практичность метода обеспечивают хорошие перспективы для его применения.