2025-11-15T20:37:12.035510

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

Luu, Bojar
Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.
academic

Сквозное автоматическое распознавание речи и перевод речи: интеграция речевых фундаментальных моделей и больших языковых моделей

Основная информация

  • ID статьи: 2510.10329
  • Название: End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
  • Авторы: Nam Luu, Ondřej Bojar (Карлов университет)
  • Классификация: cs.CL
  • Дата публикации: 11 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.10329v1

Аннотация

Перевод речи (Speech Translation, ST) — это задача машинного перевода, которая включает преобразование речевых сигналов одного языка в соответствующий текст на другом языке; эта задача имеет два различных подхода: традиционный каскадный и более современный сквозной. В данной статье исследуется комбинированная сквозная архитектура предварительно обученных речевых кодировщиков и больших языковых моделей (LLM) для одновременного выполнения как автоматического распознавания речи (ASR), так и ST. Эксперименты с языковой парой английский-немецкий показывают, что наша лучшая модель не только достигает лучших результатов перевода, чем SeamlessM4T — крупная фундаментальная сквозная мультимодальная модель перевода, но также соответствует производительности каскадной системы с Whisper и NLLB, с увеличением оценки до 8% по метрике COMET22DA\text{COMET}^{\text{DA}}_{22}.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование направлено на решение проблем эффективности и производительности в задаче перевода речи (Speech Translation, ST). Перевод речи требует прямого преобразования речевых сигналов одного языка в текст на другом языке, традиционно используя каскадный метод (ASR→MT) или сквозной метод.

Значимость исследования

  1. Упрощение архитектуры: Сквозной метод может избежать промежуточного этапа ASR, упростив общую архитектуру системы
  2. Распространение ошибок: Каскадные системы страдают от проблемы распространения ошибок, ошибки на этапе ASR влияют на качество последующего перевода
  3. Потенциал LLM: Большие языковые модели демонстрируют мощные возможности в задачах обработки естественного языка, но их применение в мультимодальных задачах требует дальнейшего изучения

Ограничения существующих методов

  1. Дефицит данных: Параллельные обучающие данные для перевода речи относительно редки, особенно для языков с ограниченными ресурсами
  2. Эффективность модели: Существующие сквозные модели сталкиваются с проблемами скорости вывода и размера модели
  3. Разрыв производительности: Сквозные модели в некоторых случаях все еще не могут сравниться с производительностью каскадных систем

Исследовательская мотивация

Объединить высокое качество представления аудио предварительно обученных речевых кодировщиков с мощными возможностями обработки языка LLM для построения сквозной архитектуры, способной одновременно выполнять задачи ASR и ST.

Основные вклады

  1. Предложена сквозная архитектура, интегрирующая речевые фундаментальные модели и LLM, способная одновременно выполнять автоматическое распознавание речи и перевод речи
  2. Разработаны эффективные механизмы адаптации модальности, включая два типа адаптеров длины: CTC-свертывание и сверточное понижение дискретизации
  3. Достигнута производительность перевода, превосходящая SeamlessM4T, на языковой паре английский-немецкий и близкая к производительности каскадной системы Whisper+NLLB
  4. Предоставлен детальный экспериментальный анализ, сравнивающий эффекты различных комбинаций LLM и речевых кодировщиков

Подробное описание метода

Определение задачи

  • Входные данные: Речевые сигналы на исходном языке
  • Выходные данные: Одновременное создание транскрипции исходного языка и перевода на целевой язык
  • Ограничения: Сквозное обучение без необходимости в промежуточных сигналах контроля

Архитектура модели

Общая архитектура содержит три основных компонента:

1. Речевой кодировщик (Speech Encoder)

  • HuBERT: Использует вариант hubert-large-ls960-ft, обученный на 60 000 часах данных LibriLight и дополнительно настроенный на 960 часах данных LibriSpeech
  • Кодировщик Whisper: Использует часть кодировщика whisper-large-v3-turbo для извлечения скрытых признаков аудио

2. Адаптер длины (Length Adapter)

Поскольку последовательности речевых признаков могут превышать максимальную длину, поддерживаемую LLM, необходимо сжатие:

  • CTC-свертывание (для HuBERT):
    • Использует метки, предсказанные слоем CTC
    • Усредняет и объединяет векторы, соответствующие повторяющимся меткам
    • Эффективно сжимает длину последовательности, сохраняя семантическую информацию
  • Сверточное понижение дискретизации (для Whisper):
    • Использует сверточный слой с размером ядра=5, шагом=5
    • Прямое 5-кратное понижение дискретизации последовательности признаков

3. Слой проекции (Projection Layer)

  • Однослойная сеть прямого распространения
  • Отображает скрытую размерность речевого кодировщика на размерность встраивания LLM
  • Обеспечивает эффективную интеграцию речевого представления в пространство встраивания LLM

4. Большие языковые модели (LLMs)

Экспериментировали с четырьмя различными предварительно обученными LLM:

  • Gemma 7B (gemma-7b)
  • Gemma 2 9B (gemma-2-9b)
  • Llama 2 7B (Llama-2-7b-hf)
  • Mistral 7B v0.1 (Mistral-7B-v0.1)

Технические инновации

  1. Единая структура многозадачного обучения: Реализует одновременное обучение и вывод ASR и ST через специальные токены-разделители
  2. Стратегия адаптации модальности: Разработаны специализированные методы сжатия длины для различных речевых кодировщиков
  3. Эффективная настройка: Использует технику QLoRA (Quantized Low-Rank Adaptation) для параметрически эффективной настройки

Стратегия обучения

Формат данных

<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>

Расчет потерь

  • Потери кросс-энтропии вычисляются только для токенов после <>transcript<>
  • Обучение методом предсказания следующего токена

Формат вывода

<bos> <>audio<> {audio features} <>transcript<>

Модель авторегрессивно генерирует текст транскрипции и перевода.

Экспериментальная установка

Наборы данных

  • Обучающие данные: Подмножество MuST-C v1.0 для пары английский-немецкий, примерно 400 часов аудиоданных
  • Тестовые данные:
    • MuST-C tst-COMMON v2.0 и v3.0
    • Тестовые наборы автономных дорожек IWSLT'21 и '22
    • LibriSpeech test-clean и test-other (для оценки ASR)

Метрики оценки

  • Перевод речи: BLEU, COMET22DA^{DA}_{22}, COMET22KIWIDA^{KIWI-DA}_{22}
  • Распознавание речи: WER (Word Error Rate)

Методы сравнения

  • Каскадная система: Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)
  • Сквозной базовый уровень: SeamlessM4T (seamless-m4t-v2-large)

Детали реализации

  • Метод настройки: 4-битовая QLoRA, точность bfloat16
  • Параметры LoRA: rank=8, alpha=8
  • Размер пакета: 1 для моделей HuBERT, 2 для моделей Whisper
  • Оптимизатор: AdamW, скорость обучения 1e-4, косинусный планировщик
  • Шаги обучения: 500 000 шагов для моделей HuBERT, 100 000 шагов для моделей Whisper

Результаты экспериментов

Основные результаты

Производительность ASR (WER %)

МодельMuST-C v2MuST-C v3IWSLT'22LibriSpeech cleanLibriSpeech other
Whisper6.77.711.84.17.2
Кодировщик Whisper + Gemma 2 9B8.28.122.68.013.7
HuBERT + Gemma 2 9B11.112.521.98.413.1

Производительность перевода речи (оценка BLEU)

МодельMuST-C v2MuST-C v3IWSLT'21IWSLT'22
Whisper + NLLB39.84/31.0640.30/31.6043.84/-41.86/30.48
SeamlessM4T32.62/22.9833.36/23.5935.97/-34.08/22.68
Кодировщик Whisper + Gemma 2 9B41.33/31.9841.16/31.7240.76/-39.64/29.18

Производительность COMET

Лучшая модель (кодировщик Whisper + Gemma 2 9B) по метрике COMET22DA^{DA}_{22}:

  • MuST-C v2: 84.22 (против 83.00 каскадной системы)
  • MuST-C v3: 83.65 (против 82.49 каскадной системы)
  • Улучшение примерно на 8% по сравнению с SeamlessM4T

Результаты абляционных исследований

  1. Выбор LLM: Gemma 2 9B показала лучшую производительность во всех тестах
  2. Сравнение кодировщиков: Кодировщик Whisper в целом превосходит HuBERT
  3. Эффект адаптера: Как CTC-свертывание, так и сверточное понижение дискретизации эффективно сжимают длину последовательности

Экспериментальные находки

  1. Сквозной vs каскадный: Лучшая сквозная модель может приблизиться или даже превзойти производительность каскадной системы
  2. Размер модели: Более крупные LLM (Gemma 2 9B) обеспечивают лучшую производительность
  3. Представление речи: Качество предварительно обученного речевого кодировщика напрямую влияет на конечную производительность

Связанные работы

Направления исследований перевода речи

  1. Каскадный метод: Традиционный конвейер ASR+MT, остается основным подходом в настоящее время
  2. Сквозной метод: Прямое преобразование от речи к целевому языку, избегая промежуточного представления
  3. Мультимодальные LLM: Последние исследования по расширению LLM на другие модальности, такие как речь

Преимущества данной работы по сравнению с связанными работами

  1. Единая структура: Одновременная обработка задач ASR и ST, а не оптимизация отдельной задачи
  2. Модульный дизайн: Возможность гибко заменять различные компоненты речевых кодировщиков и LLM
  3. Практичность: Обеспечивает сквозное решение при сохранении конкурентной производительности

Заключение и обсуждение

Основные выводы

  1. Сквозная архитектура, интегрирующая предварительно обученные речевые кодировщики и LLM, достигает конкурентной производительности в задаче перевода речи английский-немецкий
  2. Лучшая модель не только превосходит SeamlessM4T, но и приближается к производительности каскадной системы Whisper+NLLB
  3. Модель способна одновременно выполнять задачи ASR и ST, обеспечивая единое решение

Ограничения

  1. Ограничения данных: Проверена только на языковой паре английский-немецкий с высокими ресурсами, эффект на языках с ограниченными ресурсами неизвестен
  2. Вычислительная эффективность: По сравнению с базовыми моделями скорость вывода медленнее, размер модели больше
  3. Производительность ASR: В задаче распознавания речи все еще отстает от специализированной модели Whisper
  4. Обучающие данные: Набор данных MuST-C относительно небольшой (400 часов), что может ограничить потенциал модели

Направления будущих исследований

  1. Расширение языковых пар: Проверка эффективности на большем количестве языковых направлений
  2. Сжатие модели: Уменьшение размера модели через дистилляцию знаний и другие техники
  3. Улучшение адаптера: Попытка использования более продвинутых методов адаптации модальности, таких как Q-Former
  4. Обучение с подкреплением: Интеграция методов RL для дальнейшей оптимизации производительности

Глубокая оценка

Преимущества

  1. Инновационная архитектура: Эффективно объединяет преимущества речевых фундаментальных моделей и LLM
  2. Полные эксперименты: Систематическое сравнение различных комбинаций кодировщиков и LLM
  3. Практическая ценность: Обеспечивает единое сквозное решение
  4. Технические детали: Подробное описание адаптации модальности и стратегии обучения
  5. Открытость: Использование открытых моделей облегчает воспроизведение

Недостатки

  1. Охват языков: Проверена только на одной языковой паре английский-немецкий, ограниченная обобщаемость
  2. Вычислительные затраты: Отсутствует подробный анализ вычислительных затрат на обучение и вывод
  3. Анализ ошибок: Недостаточный анализ случаев отказа модели
  4. Теоретический анализ: Отсутствует теоретическое объяснение того, почему эта архитектура эффективна
  5. Анализ чувствительности: Недостаточный анализ чувствительности к размеру обучающих данных

Влияние

  1. Научный вклад: Предоставляет новое сквозное решение для области перевода речи
  2. Практическая ценность: Может быть применено в реальных системах многоязычной обработки речи
  3. Воспроизводимость: Использование открытых компонентов облегчает последующие исследования
  4. Вдохновляющее значение: Предоставляет ценное исследование применения мультимодальных LLM

Применимые сценарии

  1. Многоязычные конференции: Перевод речи и транскрипция в реальном времени
  2. Образовательные платформы: Автоматические субтитры и перевод многоязычных онлайн-курсов
  3. Обслуживание клиентов: Системы кросс-языкового речевого взаимодействия
  4. Обработка медиа: Автоматическая транскрипция и перевод аудиоконтента

Библиография

Статья ссылается на важные работы в области перевода речи, больших языковых моделей и мультимодального обучения, включая:

  • Whisper (Radford et al., 2022): Мощная фундаментальная модель распознавания речи
  • SeamlessM4T (Communication et al., 2023): Базовая модель мультимодального перевода
  • MuST-C (Cattoni et al., 2021): Стандартный набор данных для перевода речи
  • QLoRA (Dettmers et al., 2023): Техника параметрически эффективной настройки

Данная статья предлагает перспективное сквозное решение в области перевода речи. Хотя в некоторых аспектах остается место для улучшения, работа предоставляет ценное исследование и эмпирические результаты применения мультимодальных LLM.