2025-11-17T09:16:13.954696

CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR

Zhou, Jia, Sari et al.

CTC compressor can be an effective approach to integrate audio encoders to decoder-only models, which has gained growing interest for different speech applications. In this work, we propose a novel CTC compressor based joint speech and text training (CJST) framework for decoder-only ASR. CJST matches speech and text modalities from both directions by exploring a simple modality adaptor and several features of the CTC compressor, including sequence compression, on-the-fly forced peaky alignment and CTC class embeddings. Experimental results on the Librispeech and TED-LIUM2 corpora show that the proposed CJST achieves an effective text injection without the need of duration handling, leading to the best performance for both in-domain and cross-domain scenarios. We also provide a comprehensive study on CTC compressor, covering various compression modes, edge case handling and behavior under both clean and noisy data conditions, which reveals the most robust setting to use CTC compressor for decoder-only models.

academic

CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR

Основная информация

ID статьи: 2411.07607
Название: CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
Авторы: Wei Zhou, Junteng Jia, Leda Sari, Jay Mahadeokar, Ozlem Kalinli (Meta AI)
Классификация: eess.AS cs.LG cs.SD
Дата публикации: Ноябрь 2024 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2411.07607

Аннотация

Компрессор CTC может служить эффективным методом интеграции кодировщика аудио в модели, содержащие только декодер, и получает все большее внимание в различных приложениях речевой обработки. В данной статье предлагается новая структура совместного обучения речи и текста (CJST) на основе компрессора CTC для распознавания речи с использованием только декодера. CJST достигает двусторонней согласованности модальностей речи и текста путем исследования простых адаптеров модальности и нескольких характеристик компрессора CTC, включая сжатие последовательности, онлайн-выравнивание с принудительным пиком и встраивание классов CTC. Экспериментальные результаты на корпусах Librispeech и TED-LIUM2 показывают, что предложенный CJST достигает эффективного внедрения текста без необходимости обработки длительности и демонстрирует лучшие результаты как в сценариях внутри домена, так и в кросс-доменных сценариях.

Исследовательский контекст и мотивация

Определение проблемы

С огромным успехом больших языковых моделей (LLM) архитектуры, содержащие только декодер, широко применяются в различных приложениях обработки речи. Однако эффективная интеграция информации о речи в модели, содержащие только декодер, и проведение совместного обучения речи и текста для повышения производительности распознавания речи остаются сложной задачей.

Исследовательская мотивация

Проблемы интеграции: Эффективная интеграция непрерывных акустических встраиваний в модели, содержащие только декодер, требует подходящих методов адаптации
Согласованность модальностей: Модальности речи и текста существенно различаются по длине последовательности и пространству представления, требуя эффективных механизмов выравнивания
Внедрение текста: В производственных моделях распознавания речи эффективное использование текстовых данных для повышения производительности без использования внешних языковых моделей

Ограничения существующих методов

Простые адаптеры: Традиционные методы временного сокращения + линейной проекции не обладают способностью к сжатию с учетом содержания
Методы RNN-T: Существующие методы совместного обучения в основном ориентированы на модели RNN-T и требуют сложной обработки длительности
Чувствительность компрессора CTC: Существующие методы компрессора CTC показывают нестабильные результаты на зашумленных данных

Основные вклады

Предложена структура CJST: Новая структура совместного обучения речи и текста на основе компрессора CTC, обеспечивающая двусторонний матчинг модальностей
Расширение компрессора CTC: Комплексное исследование различных режимов сжатия компрессора CTC, обработки граничных случаев и поведения на чистых/зашумленных данных
Отсутствие необходимости в обработке длительности: Эффективное внедрение текста через онлайн-выравнивание с принудительным пиком и встраивание классов CTC без сложного моделирования длительности
Повышение производительности: Достижение лучших результатов как в сценариях внутри домена, так и в кросс-доменных сценариях с относительным улучшением примерно на 6% по сравнению с базовой моделью

Подробное описание метода

Определение задачи

В статье исследуется задача автоматического распознавания речи для архитектур, содержащих только декодер, где входом является последовательность речевых признаков, а выходом — соответствующая текстовая транскрипция. Одновременно рассматривается использование парных данных речь-текст и чистых текстовых данных для совместного обучения.

Расширенный компрессор CTC

Режимы сжатия

В статье исследуются четыре режима сжатия компрессора CTC:

Удаление пустых предсказаний: На основе жадного предсказания CTC удаляются все пустые кадры
Усреднение одинаковых предсказаний: Усреднение соседних кадров с одинаковыми предсказаниями
Удаление на основе вероятности пустоты: Удаление всех кадров с вероятностью пустоты выше предопределенного порога
Комбинированный режим: Сначала применяется удаление на основе вероятности пустоты, затем усреднение одинаковых предсказаний

Обработка граничных случаев

Для решения проблемы пустого выхода компрессора CTC предлагаются два решения:

Empty Skip: Пропуск этих высказываний во время обучения, прямой вывод EOS во время вывода
Empty Fallback: Усреднение всех выходов кодировщика в один кадр, затем нормальное обучение и вывод

Совместное использование встраиваний

Исследование механизма совместного использования встраиваний классов CTC и текстовых встраиваний, при котором выходы кодировщика аудио приближаются к текстовым встраиваниям через целевую функцию CTC.

Структура CJST

Обработка парных данных

Для парных данных речь-текст:

Обычное обучение распознавания речи через прямой проход модели
Использование сжатых акустических встраиваний h' и вероятностей CTC для выравнивания с принудительным пиком
Обучение адаптера модальности через потери MSE для выравнивания h' с псевдоакустическим встраиванием h'_text

Обработка чистых текстовых данных

Для чистых текстовых данных:

Случайное вставление символов пустоты на основе записанного коэффициента длины R_len(h', y)
Генерация псевдоакустической подсказки h'_text через встраивание CTC и адаптер модальности
Обучение модели декодера с использованием целевой функции распознавания речи
Применение 20% случайного маскирования к h'_text для сохранения сложности обучения

Адаптер модальности

Использование простого слоя Conformer в качестве адаптера модальности, включающего одну голову внимания, размер свертки 3, без повышения размерности в модуле прямой передачи.

Экспериментальная установка

Наборы данных

Librispeech: 960 часов чистых речевых данных
Внутренние данные: 2 млн часов данных с разнообразными акустическими условиями, включая возмущение скорости, имитацию реверберации и случайный фоновый шум
Текстовые данные: Текстовые данные для обучения языковой модели из Librispeech и TED-LIUM2

Конфигурация модели

Декодер: 12-слойный декодер LLaMA, скрытая размерность 768, 12 голов внимания
Кодировщик аудио: 24-слойный Conformer, скрытая размерность 512, 8 голов внимания
Словарь: 4k единиц SentencePiece для каждого набора данных

Стратегия обучения

Предварительное обучение кодировщика аудио: 200k шагов
Полное обучение модели: 200k шагов для Librispeech, 500k шагов для внутренних данных
Веса потерь речи и текста при совместном обучении: оба равны 1.0
Вес вспомогательной потери CTC: 0.5

Метрики оценки

Использование коэффициента ошибок слов (WER) в качестве основной метрики оценки производительности на тестовом наборе.

Экспериментальные результаты

Комплексная оценка компрессора CTC

Результаты на Librispeech (таблица I)

Все методы компрессора CTC превосходят простой метод адаптера
Удаление на основе вероятности пустоты (порог 0.95) показывает лучший результат: test-clean 2.17%, test-other 4.94%
Совместное использование встраиваний помогает в некоторых случаях, но не всегда последовательно

Результаты на внутренних данных (таблица II)

Методы на основе жадного предсказания показывают плохие результаты на зашумленных данных
Удаление на основе вероятности пустоты (порог 0.95) наиболее надежно: 12.85% WER
Схема empty fallback превосходит empty skip

Результаты совместного обучения

Обучение с нуля (таблица III)

Результаты на Librispeech:

Базовый адаптер: test-clean 3.38%, test-other 5.63%
Внедрение текста, подобное LM: test-clean 2.54%, test-other 5.26%
CJST: test-clean 2.09%, test-other 4.71%

Продолжение обучения (таблица IV)

Использование текстовых данных внутри домена и кросс-доменных:

CJST достигает лучшей производительности во всех сценариях
Кросс-доменный тестовый набор TED-LIUM2: снижение с 11.45% до 10.14%
Относительное улучшение примерно на 6% по сравнению с базовой моделью

Ключевые выводы

Удаление на основе вероятности пустоты — наиболее надежный режим сжатия
Обучение, подобное LM — уже весьма эффективно, служит сильной базовой моделью
CJST обеспечивает дальнейшее улучшение во всех сценариях
Компрессор CTC чувствителен к качеству данных, требует подходящей конфигурации

Связанные работы

Модели речи, содержащие только декодер

Ранние работы использовали простые адаптеры для интеграции кодировщика аудио
Недавние исследования изучают методы дискретных аудио-токенов
Данная статья сосредоточена на задачах распознавания речи с непрерывными представлениями

Компрессор CTC

Первоначально использовался для машинного перевода речи с механизмом внимания
Расширен на машинный перевод речи для моделей, содержащих только декодер
Данная статья впервые систематически исследует его применение в распознавании речи

Совместное обучение речи и текста

Традиционные методы в основном ориентированы на модели RNN-T
Включают методы JOIST, textogram, MAESTRO и другие
Данная статья впервые предлагает эффективное решение для распознавания речи, содержащего только декодер

Заключение и обсуждение

Основные выводы

Структура CJST эффективна: Достигает эффективного внедрения текста через двусторонний матчинг модальностей
Конфигурация компрессора CTC критична: Удаление на основе вероятности пустоты (высокий порог) наиболее надежно
Отсутствие необходимости в обработке длительности: Через принудительное выравнивание и встраивание CTC избегается сложное моделирование длительности
Последовательное улучшение: Значительное повышение производительности как в сценариях внутри домена, так и в кросс-доменных сценариях

Ограничения

Вычислительные затраты: Онлайн-выравнивание с принудительным пиком увеличивает вычислительные затраты при обучении
Зависимость от данных: Производительность компрессора CTC в высокой степени зависит от качества данных
Чувствительность параметров: Требует тщательной настройки гиперпараметров, таких как порог вероятности пустоты
Ограниченный диапазон оценки: Оценка в основном проводилась на английских данных, многоязычная обобщаемость неизвестна

Будущие направления

Исследование более эффективных методов онлайн-выравнивания
Изучение производительности в многоязычных и низкоресурсных сценариях
Гибридные методы, сочетающие дискретные аудио-токены
Оптимизация надежности компрессора CTC

Глубокая оценка

Преимущества

Инновация метода: Впервые применен компрессор CTC для совместного обучения речи и текста в распознавании речи, содержащем только декодер
Систематическое исследование: Проведен комплексный экспериментальный анализ компрессора CTC
Практическая ценность: Отсутствие необходимости в обработке длительности упрощает сложность реализации
Достаточные эксперименты: Метод проверен на нескольких наборах данных и в различных сценариях
Ясное изложение: Статья хорошо структурирована с подробным описанием технических деталей

Недостатки

Недостаточный теоретический анализ: Отсутствует глубокий анализ причин эффективности CJST
Вычислительные затраты: Не проведен подробный анализ вычислительных затрат при обучении и выводе
Чувствительность гиперпараметров: Метод включает несколько гиперпараметров, сложность настройки высока
Ограничения оценки: Оценка в основном на английских данных, отсутствует многоязычная верификация

Влияние

Академический вклад: Предоставляет новый подход к внедрению текста в распознавание речи, содержащее только декодер
Практическая ценность: Метод относительно простой, легко развертывается в производственной среде
Воспроизводимость: Предоставлены подробные детали реализации и настройки гиперпараметров
Вдохновляющее значение: Предоставляет ценные insights для дальнейших исследований компрессора CTC

Применимые сценарии

Производственное распознавание речи: Подходит для сценариев, где невозможно использовать внешние языковые модели
Кросс-доменная адаптация: Особенно подходит для приложений, требующих быстрой адаптации к новым доменам
Ресурсоограниченные среды: Более эффективен по сравнению с методами сложного моделирования длительности
Совместное обучение: Подходит для сценариев с большим объемом текстовых данных, но относительно ограниченным объемом речевых данных

Библиография

Статья цитирует 32 связанные работы, охватывающие важные исследования в нескольких смежных областях, включая большие языковые модели, архитектуры, содержащие только декодер, методы CTC, распознавание речи и совместное обучение, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это высококачественная техническая статья, предлагающая инновационную структуру CJST, решающую важную проблему совместного обучения речи и текста в распознавании речи, содержащем только декодер. Экспериментальный дизайн статьи достаточен, результаты убедительны, и работа имеет важное академическое и практическое значение для данной области.