2025-11-15T20:37:12.035510

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

Luu, Bojar

Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.

academic

エンドツーエンド自動音声認識と音声翻訳: 音声基礎モデルとLLMの統合

基本情報

論文ID: 2510.10329
タイトル: End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
著者: Nam Luu, Ondřej Bojar (Charles University)
分類: cs.CL
発表日: 2025年10月11日 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2510.10329v1

要約

音声翻訳(Speech Translation, ST)は、ある言語の音声信号を別の言語の対応するテキストに変換する機械翻訳タスクです。このタスクには従来のカスケード方式と最近のエンドツーエンド方式の2つのアプローチがあります。本論文では、自動音声認識(ASR)と音声翻訳(ST)を同時に実行するために、事前学習済み音声エンコーダと大規模言語モデル(LLM)を組み合わせたエンドツーエンドアーキテクチャを探索しています。英独言語対での実験により、提案モデルはSeamlessM4T(大規模基礎エンドツーエンドマルチモーダル翻訳モデル)よりも優れた翻訳結果を達成するだけでなく、WhisperとNLLBを用いたカスケードシステムの性能に匹敵し、COMET $^{\text{DA}}_{22}$ メトリクスで最大8%のスコア向上を実現しています。

アーキテクチャの簡素化: エンドツーエンド方式は中間ASRステップを回避でき、全体的なシステムアーキテクチャを簡素化できます
誤差伝播: カスケードシステムは誤差伝播の問題があり、ASR段階の誤りが後続の翻訳品質に影響します
LLMの可能性: 大規模言語モデルは自然言語タスクで強力な能力を示していますが、マルチモーダルタスクへの応用はまだ探索が必要です

既存手法の限界

データの希少性: 音声翻訳の並列学習データは相対的に不足しており、特に低リソース言語の場合です
モデル効率: 既存のエンドツーエンドモデルは推論速度とモデルサイズの面で課題があります
性能ギャップ: エンドツーエンドモデルは場合によってはカスケードシステムの性能に匹敵することが難しいです

研究動機

事前学習済み音声エンコーダの高品質な音声表現能力とLLMの強力な言語処理能力を組み合わせることで、ASRと音声翻訳タスクを同時に実行できるエンドツーエンドアーキテクチャを構築します。

核心的貢献

音声基礎モデルとLLMを統合したエンドツーエンドアーキテクチャを提案し、自動音声認識と音声翻訳タスクを同時に実行できます
効果的なモダリティ適応メカニズムを設計し、CTC折りたたみと畳み込みダウンサンプリングの2つの長さアダプタを含みます
英独言語対でSeamlessM4Tを上回る翻訳性能を達成し、Whisper+NLLBカスケードシステムの性能に接近しています
詳細な実験分析を提供し、異なるLLMと音声エンコーダの組み合わせの効果を比較しています

方法の詳細

タスク定義

入力: ソース言語の音声信号
出力: ソース言語の転写テキストと目標言語の翻訳テキストを同時に生成
制約: エンドツーエンド学習で、中間監督信号は不要

モデルアーキテクチャ

全体アーキテクチャは3つの主要コンポーネントで構成されています:

1. 音声エンコーダ (Speech Encoder)

HuBERT: hubert-large-ls960-ftバリアントを使用。LibriLight 60,000時間のデータで学習し、LibriSpeech 960時間のデータで微調整されています
Whisperエンコーダ: whisper-large-v3-turboのエンコーダ部分を使用して音声隠れ特徴を抽出します

2. 長さアダプタ (Length Adapter)

音声特徴シーケンスはLLMがサポートする最大長を超える可能性があるため、圧縮が必要です:

CTC折りたたみ (HuBERTの場合):
- CTCレイヤーが予測したラベルを利用
- 重複ラベルに対応するベクトルを平均化して統合
- シーケンス長を効果的に圧縮しながら意味情報を保持
畳み込みダウンサンプリング (Whisperの場合):
- kernel size=5, stride=5の畳み込みレイヤーを使用
- 特徴シーケンスを直接5倍ダウンサンプリング

3. 投影レイヤー (Projection Layer)

単層フィードフォワードネットワーク
音声エンコーダの隠れ次元をLLMの埋め込み次元にマッピング
音声表現がLLMの埋め込み空間に効果的に統合されることを保証

4. 大規模言語モデル (LLMs)

4つの異なる事前学習済みLLMを実験しました:

Gemma 7B (gemma-7b)
Gemma 2 9B (gemma-2-9b)
Llama 2 7B (Llama-2-7b-hf)
Mistral 7B v0.1 (Mistral-7B-v0.1)

技術的革新点

統一されたマルチタスク学習フレームワーク: 特殊な区切りトークンを使用してASRと音声翻訳の同時学習と推論を実現
モダリティ適応戦略: 異なる音声エンコーダに対して専門的な長さ圧縮方法を設計
効率的な微調整: QLoRA(量子化低ランク適応)技術を使用してパラメータ効率的な微調整を実施

学習戦略

データフォーマット

<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>

損失計算

<>transcript<>の後のトークンに対してのみ交差エントロピー損失を計算
次トークン予測方式で学習

推論フォーマット

<bos> <>audio<> {audio features} <>transcript<>

モデルは自己回帰的に転写と翻訳テキストを生成します。

実験設定

データセット

学習データ: MuST-C v1.0英独サブセット、約400時間の音声データ
テストデータ:
- MuST-C tst-COMMON v2.0およびv3.0
- IWSLT'21および'22オフライントラックテストセット
- LibriSpeech test-cleanおよびtest-other (ASR評価用)

評価指標

音声翻訳: BLEU, COMET $^{\text{DA}}_{22}$ , COMET $^{\text{KIWI-DA}}_{22}$
音声認識: WER (Word Error Rate)

比較手法

カスケードシステム: Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)
エンドツーエンドベースライン: SeamlessM4T (seamless-m4t-v2-large)

実装詳細

微調整方法: 4-bit QLoRA、bfloat16精度
LoRAパラメータ: rank=8, alpha=8
バッチサイズ: HuBERTモデルは1、Whisperモデルは2
オプティマイザ: AdamW、学習率1e-4、コサイン調度器
学習ステップ数: HuBERTモデルは500,000ステップ、Whisperモデルは100,000ステップ

モデル	MuST-C v2	MuST-C v3	IWSLT'22	LibriSpeech clean	LibriSpeech other
Whisper	6.7	7.7	11.8	4.1	7.2
Whisper enc. + Gemma 2 9B	8.2	8.1	22.6	8.0	13.7
HuBERT + Gemma 2 9B	11.1	12.5	21.9	8.4	13.1

音声翻訳性能 (BLEUスコア)

モデル	MuST-C v2	MuST-C v3	IWSLT'21	IWSLT'22
Whisper + NLLB	39.84/31.06	40.30/31.60	43.84/-	41.86/30.48
SeamlessM4T	32.62/22.98	33.36/23.59	35.97/-	34.08/22.68
Whisper enc. + Gemma 2 9B	41.33/31.98	41.16/31.72	40.76/-	39.64/29.18