End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
Luu, Bojar
Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.
academic
Сквозное автоматическое распознавание речи и перевод речи: интеграция речевых фундаментальных моделей и больших языковых моделей
Перевод речи (Speech Translation, ST) — это задача машинного перевода, которая включает преобразование речевых сигналов одного языка в соответствующий текст на другом языке; эта задача имеет два различных подхода: традиционный каскадный и более современный сквозной. В данной статье исследуется комбинированная сквозная архитектура предварительно обученных речевых кодировщиков и больших языковых моделей (LLM) для одновременного выполнения как автоматического распознавания речи (ASR), так и ST. Эксперименты с языковой парой английский-немецкий показывают, что наша лучшая модель не только достигает лучших результатов перевода, чем SeamlessM4T — крупная фундаментальная сквозная мультимодальная модель перевода, но также соответствует производительности каскадной системы с Whisper и NLLB, с увеличением оценки до 8% по метрике COMET22DA.
Данное исследование направлено на решение проблем эффективности и производительности в задаче перевода речи (Speech Translation, ST). Перевод речи требует прямого преобразования речевых сигналов одного языка в текст на другом языке, традиционно используя каскадный метод (ASR→MT) или сквозной метод.
Упрощение архитектуры: Сквозной метод может избежать промежуточного этапа ASR, упростив общую архитектуру системы
Распространение ошибок: Каскадные системы страдают от проблемы распространения ошибок, ошибки на этапе ASR влияют на качество последующего перевода
Потенциал LLM: Большие языковые модели демонстрируют мощные возможности в задачах обработки естественного языка, но их применение в мультимодальных задачах требует дальнейшего изучения
Объединить высокое качество представления аудио предварительно обученных речевых кодировщиков с мощными возможностями обработки языка LLM для построения сквозной архитектуры, способной одновременно выполнять задачи ASR и ST.
Предложена сквозная архитектура, интегрирующая речевые фундаментальные модели и LLM, способная одновременно выполнять автоматическое распознавание речи и перевод речи
Разработаны эффективные механизмы адаптации модальности, включая два типа адаптеров длины: CTC-свертывание и сверточное понижение дискретизации
Достигнута производительность перевода, превосходящая SeamlessM4T, на языковой паре английский-немецкий и близкая к производительности каскадной системы Whisper+NLLB
Предоставлен детальный экспериментальный анализ, сравнивающий эффекты различных комбинаций LLM и речевых кодировщиков
HuBERT: Использует вариант hubert-large-ls960-ft, обученный на 60 000 часах данных LibriLight и дополнительно настроенный на 960 часах данных LibriSpeech
Кодировщик Whisper: Использует часть кодировщика whisper-large-v3-turbo для извлечения скрытых признаков аудио
Сквозная архитектура, интегрирующая предварительно обученные речевые кодировщики и LLM, достигает конкурентной производительности в задаче перевода речи английский-немецкий
Лучшая модель не только превосходит SeamlessM4T, но и приближается к производительности каскадной системы Whisper+NLLB
Модель способна одновременно выполнять задачи ASR и ST, обеспечивая единое решение
Статья ссылается на важные работы в области перевода речи, больших языковых моделей и мультимодального обучения, включая:
Whisper (Radford et al., 2022): Мощная фундаментальная модель распознавания речи
SeamlessM4T (Communication et al., 2023): Базовая модель мультимодального перевода
MuST-C (Cattoni et al., 2021): Стандартный набор данных для перевода речи
QLoRA (Dettmers et al., 2023): Техника параметрически эффективной настройки
Данная статья предлагает перспективное сквозное решение в области перевода речи. Хотя в некоторых аспектах остается место для улучшения, работа предоставляет ценное исследование и эмпирические результаты применения мультимодальных LLM.