2025-11-15T20:37:12.035510

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

Luu, Bojar

Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.

academic

Сквозное автоматическое распознавание речи и перевод речи: интеграция речевых фундаментальных моделей и больших языковых моделей

Основная информация

ID статьи: 2510.10329
Название: End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
Авторы: Nam Luu, Ondřej Bojar (Карлов университет)
Классификация: cs.CL
Дата публикации: 11 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.10329v1

Аннотация

Перевод речи (Speech Translation, ST) — это задача машинного перевода, которая включает преобразование речевых сигналов одного языка в соответствующий текст на другом языке; эта задача имеет два различных подхода: традиционный каскадный и более современный сквозной. В данной статье исследуется комбинированная сквозная архитектура предварительно обученных речевых кодировщиков и больших языковых моделей (LLM) для одновременного выполнения как автоматического распознавания речи (ASR), так и ST. Эксперименты с языковой парой английский-немецкий показывают, что наша лучшая модель не только достигает лучших результатов перевода, чем SeamlessM4T — крупная фундаментальная сквозная мультимодальная модель перевода, но также соответствует производительности каскадной системы с Whisper и NLLB, с увеличением оценки до 8% по метрике $\text{COMET}^{\text{DA}}_{22}$ .

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование направлено на решение проблем эффективности и производительности в задаче перевода речи (Speech Translation, ST). Перевод речи требует прямого преобразования речевых сигналов одного языка в текст на другом языке, традиционно используя каскадный метод (ASR→MT) или сквозной метод.

Значимость исследования

Упрощение архитектуры: Сквозной метод может избежать промежуточного этапа ASR, упростив общую архитектуру системы
Распространение ошибок: Каскадные системы страдают от проблемы распространения ошибок, ошибки на этапе ASR влияют на качество последующего перевода
Потенциал LLM: Большие языковые модели демонстрируют мощные возможности в задачах обработки естественного языка, но их применение в мультимодальных задачах требует дальнейшего изучения

Ограничения существующих методов

Дефицит данных: Параллельные обучающие данные для перевода речи относительно редки, особенно для языков с ограниченными ресурсами
Эффективность модели: Существующие сквозные модели сталкиваются с проблемами скорости вывода и размера модели
Разрыв производительности: Сквозные модели в некоторых случаях все еще не могут сравниться с производительностью каскадных систем

Исследовательская мотивация

Объединить высокое качество представления аудио предварительно обученных речевых кодировщиков с мощными возможностями обработки языка LLM для построения сквозной архитектуры, способной одновременно выполнять задачи ASR и ST.

Основные вклады

Предложена сквозная архитектура, интегрирующая речевые фундаментальные модели и LLM, способная одновременно выполнять автоматическое распознавание речи и перевод речи
Разработаны эффективные механизмы адаптации модальности, включая два типа адаптеров длины: CTC-свертывание и сверточное понижение дискретизации
Достигнута производительность перевода, превосходящая SeamlessM4T, на языковой паре английский-немецкий и близкая к производительности каскадной системы Whisper+NLLB
Предоставлен детальный экспериментальный анализ, сравнивающий эффекты различных комбинаций LLM и речевых кодировщиков

Подробное описание метода

Определение задачи

Входные данные: Речевые сигналы на исходном языке
Выходные данные: Одновременное создание транскрипции исходного языка и перевода на целевой язык
Ограничения: Сквозное обучение без необходимости в промежуточных сигналах контроля

Архитектура модели

Общая архитектура содержит три основных компонента:

1. Речевой кодировщик (Speech Encoder)

HuBERT: Использует вариант hubert-large-ls960-ft, обученный на 60 000 часах данных LibriLight и дополнительно настроенный на 960 часах данных LibriSpeech
Кодировщик Whisper: Использует часть кодировщика whisper-large-v3-turbo для извлечения скрытых признаков аудио

2. Адаптер длины (Length Adapter)

Поскольку последовательности речевых признаков могут превышать максимальную длину, поддерживаемую LLM, необходимо сжатие:

CTC-свертывание (для HuBERT):
- Использует метки, предсказанные слоем CTC
- Усредняет и объединяет векторы, соответствующие повторяющимся меткам
- Эффективно сжимает длину последовательности, сохраняя семантическую информацию
Сверточное понижение дискретизации (для Whisper):
- Использует сверточный слой с размером ядра=5, шагом=5
- Прямое 5-кратное понижение дискретизации последовательности признаков

3. Слой проекции (Projection Layer)

Однослойная сеть прямого распространения
Отображает скрытую размерность речевого кодировщика на размерность встраивания LLM
Обеспечивает эффективную интеграцию речевого представления в пространство встраивания LLM

4. Большие языковые модели (LLMs)

Экспериментировали с четырьмя различными предварительно обученными LLM:

Gemma 7B (gemma-7b)
Gemma 2 9B (gemma-2-9b)
Llama 2 7B (Llama-2-7b-hf)
Mistral 7B v0.1 (Mistral-7B-v0.1)

Технические инновации

Единая структура многозадачного обучения: Реализует одновременное обучение и вывод ASR и ST через специальные токены-разделители
Стратегия адаптации модальности: Разработаны специализированные методы сжатия длины для различных речевых кодировщиков
Эффективная настройка: Использует технику QLoRA (Quantized Low-Rank Adaptation) для параметрически эффективной настройки

Стратегия обучения

Формат данных

<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>

Расчет потерь

Потери кросс-энтропии вычисляются только для токенов после <>transcript<>
Обучение методом предсказания следующего токена

Формат вывода

<bos> <>audio<> {audio features} <>transcript<>

Модель авторегрессивно генерирует текст транскрипции и перевода.

Экспериментальная установка

Наборы данных

Обучающие данные: Подмножество MuST-C v1.0 для пары английский-немецкий, примерно 400 часов аудиоданных
Тестовые данные:
- MuST-C tst-COMMON v2.0 и v3.0
- Тестовые наборы автономных дорожек IWSLT'21 и '22
- LibriSpeech test-clean и test-other (для оценки ASR)

Метрики оценки

Перевод речи: BLEU, COMET $^{DA}_{22}$ , COMET $^{KIWI-DA}_{22}$
Распознавание речи: WER (Word Error Rate)

Методы сравнения

Каскадная система: Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)
Сквозной базовый уровень: SeamlessM4T (seamless-m4t-v2-large)

Детали реализации

Метод настройки: 4-битовая QLoRA, точность bfloat16
Параметры LoRA: rank=8, alpha=8
Размер пакета: 1 для моделей HuBERT, 2 для моделей Whisper
Оптимизатор: AdamW, скорость обучения 1e-4, косинусный планировщик
Шаги обучения: 500 000 шагов для моделей HuBERT, 100 000 шагов для моделей Whisper

Результаты экспериментов

Основные результаты

Производительность ASR (WER %)

Модель	MuST-C v2	MuST-C v3	IWSLT'22	LibriSpeech clean	LibriSpeech other
Whisper	6.7	7.7	11.8	4.1	7.2
Кодировщик Whisper + Gemma 2 9B	8.2	8.1	22.6	8.0	13.7
HuBERT + Gemma 2 9B	11.1	12.5	21.9	8.4	13.1

Производительность перевода речи (оценка BLEU)

Модель	MuST-C v2	MuST-C v3	IWSLT'21	IWSLT'22
Whisper + NLLB	39.84/31.06	40.30/31.60	43.84/-	41.86/30.48
SeamlessM4T	32.62/22.98	33.36/23.59	35.97/-	34.08/22.68
Кодировщик Whisper + Gemma 2 9B	41.33/31.98	41.16/31.72	40.76/-	39.64/29.18

Производительность COMET

Лучшая модель (кодировщик Whisper + Gemma 2 9B) по метрике COMET $^{DA}_{22}$ :

MuST-C v2: 84.22 (против 83.00 каскадной системы)
MuST-C v3: 83.65 (против 82.49 каскадной системы)
Улучшение примерно на 8% по сравнению с SeamlessM4T

Результаты абляционных исследований

Выбор LLM: Gemma 2 9B показала лучшую производительность во всех тестах
Сравнение кодировщиков: Кодировщик Whisper в целом превосходит HuBERT
Эффект адаптера: Как CTC-свертывание, так и сверточное понижение дискретизации эффективно сжимают длину последовательности

Экспериментальные находки

Сквозной vs каскадный: Лучшая сквозная модель может приблизиться или даже превзойти производительность каскадной системы
Размер модели: Более крупные LLM (Gemma 2 9B) обеспечивают лучшую производительность
Представление речи: Качество предварительно обученного речевого кодировщика напрямую влияет на конечную производительность

Связанные работы

Направления исследований перевода речи

Каскадный метод: Традиционный конвейер ASR+MT, остается основным подходом в настоящее время
Сквозной метод: Прямое преобразование от речи к целевому языку, избегая промежуточного представления
Мультимодальные LLM: Последние исследования по расширению LLM на другие модальности, такие как речь

Преимущества данной работы по сравнению с связанными работами

Единая структура: Одновременная обработка задач ASR и ST, а не оптимизация отдельной задачи
Модульный дизайн: Возможность гибко заменять различные компоненты речевых кодировщиков и LLM
Практичность: Обеспечивает сквозное решение при сохранении конкурентной производительности

Заключение и обсуждение

Основные выводы

Сквозная архитектура, интегрирующая предварительно обученные речевые кодировщики и LLM, достигает конкурентной производительности в задаче перевода речи английский-немецкий
Лучшая модель не только превосходит SeamlessM4T, но и приближается к производительности каскадной системы Whisper+NLLB
Модель способна одновременно выполнять задачи ASR и ST, обеспечивая единое решение

Ограничения

Ограничения данных: Проверена только на языковой паре английский-немецкий с высокими ресурсами, эффект на языках с ограниченными ресурсами неизвестен
Вычислительная эффективность: По сравнению с базовыми моделями скорость вывода медленнее, размер модели больше
Производительность ASR: В задаче распознавания речи все еще отстает от специализированной модели Whisper
Обучающие данные: Набор данных MuST-C относительно небольшой (400 часов), что может ограничить потенциал модели

Направления будущих исследований

Расширение языковых пар: Проверка эффективности на большем количестве языковых направлений
Сжатие модели: Уменьшение размера модели через дистилляцию знаний и другие техники
Улучшение адаптера: Попытка использования более продвинутых методов адаптации модальности, таких как Q-Former
Обучение с подкреплением: Интеграция методов RL для дальнейшей оптимизации производительности

Глубокая оценка

Преимущества

Инновационная архитектура: Эффективно объединяет преимущества речевых фундаментальных моделей и LLM
Полные эксперименты: Систематическое сравнение различных комбинаций кодировщиков и LLM
Практическая ценность: Обеспечивает единое сквозное решение
Технические детали: Подробное описание адаптации модальности и стратегии обучения
Открытость: Использование открытых моделей облегчает воспроизведение

Недостатки

Охват языков: Проверена только на одной языковой паре английский-немецкий, ограниченная обобщаемость
Вычислительные затраты: Отсутствует подробный анализ вычислительных затрат на обучение и вывод
Анализ ошибок: Недостаточный анализ случаев отказа модели
Теоретический анализ: Отсутствует теоретическое объяснение того, почему эта архитектура эффективна
Анализ чувствительности: Недостаточный анализ чувствительности к размеру обучающих данных

Влияние

Научный вклад: Предоставляет новое сквозное решение для области перевода речи
Практическая ценность: Может быть применено в реальных системах многоязычной обработки речи
Воспроизводимость: Использование открытых компонентов облегчает последующие исследования
Вдохновляющее значение: Предоставляет ценное исследование применения мультимодальных LLM

Применимые сценарии

Многоязычные конференции: Перевод речи и транскрипция в реальном времени
Образовательные платформы: Автоматические субтитры и перевод многоязычных онлайн-курсов
Обслуживание клиентов: Системы кросс-языкового речевого взаимодействия
Обработка медиа: Автоматическая транскрипция и перевод аудиоконтента

Библиография

Статья ссылается на важные работы в области перевода речи, больших языковых моделей и мультимодального обучения, включая:

Whisper (Radford et al., 2022): Мощная фундаментальная модель распознавания речи
SeamlessM4T (Communication et al., 2023): Базовая модель мультимодального перевода
MuST-C (Cattoni et al., 2021): Стандартный набор данных для перевода речи
QLoRA (Dettmers et al., 2023): Техника параметрически эффективной настройки

Данная статья предлагает перспективное сквозное решение в области перевода речи. Хотя в некоторых аспектах остается место для улучшения, работа предоставляет ценное исследование и эмпирические результаты применения мультимодальных LLM.