CTC compressor can be an effective approach to integrate audio encoders to decoder-only models, which has gained growing interest for different speech applications. In this work, we propose a novel CTC compressor based joint speech and text training (CJST) framework for decoder-only ASR. CJST matches speech and text modalities from both directions by exploring a simple modality adaptor and several features of the CTC compressor, including sequence compression, on-the-fly forced peaky alignment and CTC class embeddings. Experimental results on the Librispeech and TED-LIUM2 corpora show that the proposed CJST achieves an effective text injection without the need of duration handling, leading to the best performance for both in-domain and cross-domain scenarios. We also provide a comprehensive study on CTC compressor, covering various compression modes, edge case handling and behavior under both clean and noisy data conditions, which reveals the most robust setting to use CTC compressor for decoder-only models.
CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
- ID статьи: 2411.07607
- Название: CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
- Авторы: Wei Zhou, Junteng Jia, Leda Sari, Jay Mahadeokar, Ozlem Kalinli (Meta AI)
- Классификация: eess.AS cs.LG cs.SD
- Дата публикации: Ноябрь 2024 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2411.07607
Компрессор CTC может служить эффективным методом интеграции кодировщика аудио в модели, содержащие только декодер, и получает все большее внимание в различных приложениях речевой обработки. В данной статье предлагается новая структура совместного обучения речи и текста (CJST) на основе компрессора CTC для распознавания речи с использованием только декодера. CJST достигает двусторонней согласованности модальностей речи и текста путем исследования простых адаптеров модальности и нескольких характеристик компрессора CTC, включая сжатие последовательности, онлайн-выравнивание с принудительным пиком и встраивание классов CTC. Экспериментальные результаты на корпусах Librispeech и TED-LIUM2 показывают, что предложенный CJST достигает эффективного внедрения текста без необходимости обработки длительности и демонстрирует лучшие результаты как в сценариях внутри домена, так и в кросс-доменных сценариях.
С огромным успехом больших языковых моделей (LLM) архитектуры, содержащие только декодер, широко применяются в различных приложениях обработки речи. Однако эффективная интеграция информации о речи в модели, содержащие только декодер, и проведение совместного обучения речи и текста для повышения производительности распознавания речи остаются сложной задачей.
- Проблемы интеграции: Эффективная интеграция непрерывных акустических встраиваний в модели, содержащие только декодер, требует подходящих методов адаптации
- Согласованность модальностей: Модальности речи и текста существенно различаются по длине последовательности и пространству представления, требуя эффективных механизмов выравнивания
- Внедрение текста: В производственных моделях распознавания речи эффективное использование текстовых данных для повышения производительности без использования внешних языковых моделей
- Простые адаптеры: Традиционные методы временного сокращения + линейной проекции не обладают способностью к сжатию с учетом содержания
- Методы RNN-T: Существующие методы совместного обучения в основном ориентированы на модели RNN-T и требуют сложной обработки длительности
- Чувствительность компрессора CTC: Существующие методы компрессора CTC показывают нестабильные результаты на зашумленных данных
- Предложена структура CJST: Новая структура совместного обучения речи и текста на основе компрессора CTC, обеспечивающая двусторонний матчинг модальностей
- Расширение компрессора CTC: Комплексное исследование различных режимов сжатия компрессора CTC, обработки граничных случаев и поведения на чистых/зашумленных данных
- Отсутствие необходимости в обработке длительности: Эффективное внедрение текста через онлайн-выравнивание с принудительным пиком и встраивание классов CTC без сложного моделирования длительности
- Повышение производительности: Достижение лучших результатов как в сценариях внутри домена, так и в кросс-доменных сценариях с относительным улучшением примерно на 6% по сравнению с базовой моделью
В статье исследуется задача автоматического распознавания речи для архитектур, содержащих только декодер, где входом является последовательность речевых признаков, а выходом — соответствующая текстовая транскрипция. Одновременно рассматривается использование парных данных речь-текст и чистых текстовых данных для совместного обучения.
В статье исследуются четыре режима сжатия компрессора CTC:
- Удаление пустых предсказаний: На основе жадного предсказания CTC удаляются все пустые кадры
- Усреднение одинаковых предсказаний: Усреднение соседних кадров с одинаковыми предсказаниями
- Удаление на основе вероятности пустоты: Удаление всех кадров с вероятностью пустоты выше предопределенного порога
- Комбинированный режим: Сначала применяется удаление на основе вероятности пустоты, затем усреднение одинаковых предсказаний
Для решения проблемы пустого выхода компрессора CTC предлагаются два решения:
- Empty Skip: Пропуск этих высказываний во время обучения, прямой вывод EOS во время вывода
- Empty Fallback: Усреднение всех выходов кодировщика в один кадр, затем нормальное обучение и вывод
Исследование механизма совместного использования встраиваний классов CTC и текстовых встраиваний, при котором выходы кодировщика аудио приближаются к текстовым встраиваниям через целевую функцию CTC.
Для парных данных речь-текст:
- Обычное обучение распознавания речи через прямой проход модели
- Использование сжатых акустических встраиваний h' и вероятностей CTC для выравнивания с принудительным пиком
- Обучение адаптера модальности через потери MSE для выравнивания h' с псевдоакустическим встраиванием h'_text
Для чистых текстовых данных:
- Случайное вставление символов пустоты на основе записанного коэффициента длины R_len(h', y)
- Генерация псевдоакустической подсказки h'_text через встраивание CTC и адаптер модальности
- Обучение модели декодера с использованием целевой функции распознавания речи
- Применение 20% случайного маскирования к h'_text для сохранения сложности обучения
Использование простого слоя Conformer в качестве адаптера модальности, включающего одну голову внимания, размер свертки 3, без повышения размерности в модуле прямой передачи.
- Librispeech: 960 часов чистых речевых данных
- Внутренние данные: 2 млн часов данных с разнообразными акустическими условиями, включая возмущение скорости, имитацию реверберации и случайный фоновый шум
- Текстовые данные: Текстовые данные для обучения языковой модели из Librispeech и TED-LIUM2
- Декодер: 12-слойный декодер LLaMA, скрытая размерность 768, 12 голов внимания
- Кодировщик аудио: 24-слойный Conformer, скрытая размерность 512, 8 голов внимания
- Словарь: 4k единиц SentencePiece для каждого набора данных
- Предварительное обучение кодировщика аудио: 200k шагов
- Полное обучение модели: 200k шагов для Librispeech, 500k шагов для внутренних данных
- Веса потерь речи и текста при совместном обучении: оба равны 1.0
- Вес вспомогательной потери CTC: 0.5
Использование коэффициента ошибок слов (WER) в качестве основной метрики оценки производительности на тестовом наборе.
- Все методы компрессора CTC превосходят простой метод адаптера
- Удаление на основе вероятности пустоты (порог 0.95) показывает лучший результат: test-clean 2.17%, test-other 4.94%
- Совместное использование встраиваний помогает в некоторых случаях, но не всегда последовательно
- Методы на основе жадного предсказания показывают плохие результаты на зашумленных данных
- Удаление на основе вероятности пустоты (порог 0.95) наиболее надежно: 12.85% WER
- Схема empty fallback превосходит empty skip
Результаты на Librispeech:
- Базовый адаптер: test-clean 3.38%, test-other 5.63%
- Внедрение текста, подобное LM: test-clean 2.54%, test-other 5.26%
- CJST: test-clean 2.09%, test-other 4.71%
Использование текстовых данных внутри домена и кросс-доменных:
- CJST достигает лучшей производительности во всех сценариях
- Кросс-доменный тестовый набор TED-LIUM2: снижение с 11.45% до 10.14%
- Относительное улучшение примерно на 6% по сравнению с базовой моделью
- Удаление на основе вероятности пустоты — наиболее надежный режим сжатия
- Обучение, подобное LM — уже весьма эффективно, служит сильной базовой моделью
- CJST обеспечивает дальнейшее улучшение во всех сценариях
- Компрессор CTC чувствителен к качеству данных, требует подходящей конфигурации
- Ранние работы использовали простые адаптеры для интеграции кодировщика аудио
- Недавние исследования изучают методы дискретных аудио-токенов
- Данная статья сосредоточена на задачах распознавания речи с непрерывными представлениями
- Первоначально использовался для машинного перевода речи с механизмом внимания
- Расширен на машинный перевод речи для моделей, содержащих только декодер
- Данная статья впервые систематически исследует его применение в распознавании речи
- Традиционные методы в основном ориентированы на модели RNN-T
- Включают методы JOIST, textogram, MAESTRO и другие
- Данная статья впервые предлагает эффективное решение для распознавания речи, содержащего только декодер
- Структура CJST эффективна: Достигает эффективного внедрения текста через двусторонний матчинг модальностей
- Конфигурация компрессора CTC критична: Удаление на основе вероятности пустоты (высокий порог) наиболее надежно
- Отсутствие необходимости в обработке длительности: Через принудительное выравнивание и встраивание CTC избегается сложное моделирование длительности
- Последовательное улучшение: Значительное повышение производительности как в сценариях внутри домена, так и в кросс-доменных сценариях
- Вычислительные затраты: Онлайн-выравнивание с принудительным пиком увеличивает вычислительные затраты при обучении
- Зависимость от данных: Производительность компрессора CTC в высокой степени зависит от качества данных
- Чувствительность параметров: Требует тщательной настройки гиперпараметров, таких как порог вероятности пустоты
- Ограниченный диапазон оценки: Оценка в основном проводилась на английских данных, многоязычная обобщаемость неизвестна
- Исследование более эффективных методов онлайн-выравнивания
- Изучение производительности в многоязычных и низкоресурсных сценариях
- Гибридные методы, сочетающие дискретные аудио-токены
- Оптимизация надежности компрессора CTC
- Инновация метода: Впервые применен компрессор CTC для совместного обучения речи и текста в распознавании речи, содержащем только декодер
- Систематическое исследование: Проведен комплексный экспериментальный анализ компрессора CTC
- Практическая ценность: Отсутствие необходимости в обработке длительности упрощает сложность реализации
- Достаточные эксперименты: Метод проверен на нескольких наборах данных и в различных сценариях
- Ясное изложение: Статья хорошо структурирована с подробным описанием технических деталей
- Недостаточный теоретический анализ: Отсутствует глубокий анализ причин эффективности CJST
- Вычислительные затраты: Не проведен подробный анализ вычислительных затрат при обучении и выводе
- Чувствительность гиперпараметров: Метод включает несколько гиперпараметров, сложность настройки высока
- Ограничения оценки: Оценка в основном на английских данных, отсутствует многоязычная верификация
- Академический вклад: Предоставляет новый подход к внедрению текста в распознавание речи, содержащее только декодер
- Практическая ценность: Метод относительно простой, легко развертывается в производственной среде
- Воспроизводимость: Предоставлены подробные детали реализации и настройки гиперпараметров
- Вдохновляющее значение: Предоставляет ценные insights для дальнейших исследований компрессора CTC
- Производственное распознавание речи: Подходит для сценариев, где невозможно использовать внешние языковые модели
- Кросс-доменная адаптация: Особенно подходит для приложений, требующих быстрой адаптации к новым доменам
- Ресурсоограниченные среды: Более эффективен по сравнению с методами сложного моделирования длительности
- Совместное обучение: Подходит для сценариев с большим объемом текстовых данных, но относительно ограниченным объемом речевых данных
Статья цитирует 32 связанные работы, охватывающие важные исследования в нескольких смежных областях, включая большие языковые модели, архитектуры, содержащие только декодер, методы CTC, распознавание речи и совместное обучение, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Это высококачественная техническая статья, предлагающая инновационную структуру CJST, решающую важную проблему совместного обучения речи и текста в распознавании речи, содержащем только декодер. Экспериментальный дизайн статьи достаточен, результаты убедительны, и работа имеет важное академическое и практическое значение для данной области.