Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
Cheng, Lu, Yang et al.
Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.
academic
Автоматическое создание корреляций текст-произношение и их применение для контекстного смещения
Эффективное различие корреляций произношения между различными письменными текстами является важной проблемой в языковой акустике. Традиционно такие корреляции произношения получают через вручную разработанные фонетические словари. В данной статье предлагается управляемый данными подход для автоматического получения этих корреляций произношения, называемый автоматической корреляцией текст-произношение (ATPC). Требуемый уровень контроля соответствует контролю при обучении сквозных систем автоматического распознавания речи (E2E-ASR), а именно речевым сигналам и соответствующим текстовым аннотациям. Сначала применяется алгоритм итеративной оценки временных меток (ITSE) для выравнивания речи с соответствующими текстовыми символами. Затем речевой кодировщик преобразует речь в речевые эмбеддинги. Наконец, корреляции ATPC получаются путём сравнения расстояний речевых эмбеддингов для различных текстовых символов. Результаты экспериментов на китайском языке показывают, что ATPC улучшает производительность E2E-ASR при контекстном смещении и предоставляет надежду для диалектов или языков, в которых отсутствуют вручную созданные фонетические словари.
Основная проблема, которую решает данное исследование, заключается в том, как автоматически получить корреляции произношения между текстовыми символами — это важный вызов в языковой акустике. Традиционные методы полагаются на вручную разработанные фонетические словари для установления таких корреляций, однако этот подход имеет явные ограничения.
Хотя модели E2E-ASR достигли значительного прогресса в моделировании речи в текст, они всё ещё имеют недостатки в эффективном моделировании корреляций текст-текст произношения, особенно в сценариях контекстного смещения, требующих тонкого понимания произношения.
Предложение метода ATPC: Впервые предложен управляемый данными метод автоматического создания корреляций текст-произношение без необходимости в вручную созданных фонетических словарях
Унифицированная схема контроля: Использование тех же сигналов контроля, что и для E2E-ASR (пары речь-текст), что снижает затраты на дополнительные аннотации
Трёхэтапный процесс создания: Разработан полный конвейер создания ATPC, включающий выравнивание, извлечение эмбеддингов и расчёт корреляций
Экспериментальная проверка: Проверка эффективности ATPC в задачах контекстного смещения на китайском наборе данных
Открытые ресурсы: Предоставление матрицы ATPC для китайского языка как общественного ресурса
Входные данные: Речевой сигнал и соответствующая текстовая аннотация Выходные данные: Матрица корреляций произношения между текстовыми символами Ограничения: Не требуется дополнительный фонетический словарь или экспертные знания
Эксперименты показывают, что эмбеддинги 15-го слоя демонстрируют оптимальную производительность в задачах различения произношения, что может быть обусловлено достижением оптимального баланса между акустическими признаками, речевыми характеристиками, идентичностью слова и семантической информацией слова на этом слое.
Косинусное расстояние превосходит евклидово расстояние во всех конфигурациях, с значительным улучшением относительной дисперсии (например, для IPA-layer15 увеличение с 21,1% до 28,8%).
Эффективность метода: ATPC успешно реализует автоматическое создание корреляций произношения без необходимости в вручную созданных фонетических словарях
Улучшение производительности: Достигнуто значительное улучшение в задачах контекстного смещения
Практическая ценность: Предоставляет решение для языков/диалектов, в которых отсутствуют фонетические ресурсы
Модульность: Как модуль типа "plug-and-play" легко интегрируется в существующие системы ASR
Классические работы по распознаванию речи и синтезу речи из текста
Последние достижения в сквозных системах ASR
Соответствующие исследования контекстного смещения
Передовые результаты в области обучения речевому представлению
Важные вклады в многоязычную обработку речи
Общая оценка: Это исследование с важной практической ценностью, предлагающее инновационный управляемый данными метод для решения реальной проблемы моделирования корреляций произношения. Хотя есть место для улучшения в теоретической глубине и многоязычной проверке, простота и практичность метода обеспечивают хорошие перспективы для его применения.