Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.
論文ID : 2510.10329タイトル : End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs著者 : Nam Luu, Ondřej Bojar (Charles University)分類 : cs.CL発表日 : 2025年10月11日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.10329v1 音声翻訳(Speech Translation, ST)は、ある言語の音声信号を別の言語の対応するテキストに変換する機械翻訳タスクです。このタスクには従来のカスケード方式と最近のエンドツーエンド方式の2つのアプローチがあります。本論文では、自動音声認識(ASR)と音声翻訳(ST)を同時に実行するために、事前学習済み音声エンコーダと大規模言語モデル(LLM)を組み合わせたエンドツーエンドアーキテクチャを探索しています。英独言語対での実験により、提案モデルはSeamlessM4T(大規模基礎エンドツーエンドマルチモーダル翻訳モデル)よりも優れた翻訳結果を達成するだけでなく、WhisperとNLLBを用いたカスケードシステムの性能に匹敵し、COMET22 DA ^{\text{DA}}_{22} 22 DA メトリクスで最大8%のスコア向上を実現しています。
本研究は、音声翻訳(Speech Translation, ST)タスクにおける効率性と性能の問題を解決することを目的としています。音声翻訳は、ある言語の音声信号を別の言語のテキストに直接変換する必要があり、従来はカスケード方式(ASR→MT)またはエンドツーエンド方式が採用されています。
アーキテクチャの簡素化 : エンドツーエンド方式は中間ASRステップを回避でき、全体的なシステムアーキテクチャを簡素化できます誤差伝播 : カスケードシステムは誤差伝播の問題があり、ASR段階の誤りが後続の翻訳品質に影響しますLLMの可能性 : 大規模言語モデルは自然言語タスクで強力な能力を示していますが、マルチモーダルタスクへの応用はまだ探索が必要ですデータの希少性 : 音声翻訳の並列学習データは相対的に不足しており、特に低リソース言語の場合ですモデル効率 : 既存のエンドツーエンドモデルは推論速度とモデルサイズの面で課題があります性能ギャップ : エンドツーエンドモデルは場合によってはカスケードシステムの性能に匹敵することが難しいです事前学習済み音声エンコーダの高品質な音声表現能力とLLMの強力な言語処理能力を組み合わせることで、ASRと音声翻訳タスクを同時に実行できるエンドツーエンドアーキテクチャを構築します。
音声基礎モデルとLLMを統合したエンドツーエンドアーキテクチャを提案 し、自動音声認識と音声翻訳タスクを同時に実行できます効果的なモダリティ適応メカニズムを設計 し、CTC折りたたみと畳み込みダウンサンプリングの2つの長さアダプタを含みます英独言語対でSeamlessM4Tを上回る翻訳性能を達成 し、Whisper+NLLBカスケードシステムの性能に接近しています詳細な実験分析を提供 し、異なるLLMと音声エンコーダの組み合わせの効果を比較しています入力 : ソース言語の音声信号出力 : ソース言語の転写テキストと目標言語の翻訳テキストを同時に生成制約 : エンドツーエンド学習で、中間監督信号は不要全体アーキテクチャは3つの主要コンポーネントで構成されています:
HuBERT : hubert-large-ls960-ftバリアントを使用。LibriLight 60,000時間のデータで学習し、LibriSpeech 960時間のデータで微調整されていますWhisperエンコーダ : whisper-large-v3-turboのエンコーダ部分を使用して音声隠れ特徴を抽出します音声特徴シーケンスはLLMがサポートする最大長を超える可能性があるため、圧縮が必要です:
CTC折りたたみ (HuBERTの場合):CTCレイヤーが予測したラベルを利用 重複ラベルに対応するベクトルを平均化して統合 シーケンス長を効果的に圧縮しながら意味情報を保持 畳み込みダウンサンプリング (Whisperの場合):kernel size=5, stride=5の畳み込みレイヤーを使用 特徴シーケンスを直接5倍ダウンサンプリング 単層フィードフォワードネットワーク 音声エンコーダの隠れ次元をLLMの埋め込み次元にマッピング 音声表現がLLMの埋め込み空間に効果的に統合されることを保証 4つの異なる事前学習済みLLMを実験しました:
Gemma 7B (gemma-7b) Gemma 2 9B (gemma-2-9b) Llama 2 7B (Llama-2-7b-hf) Mistral 7B v0.1 (Mistral-7B-v0.1) 統一されたマルチタスク学習フレームワーク : 特殊な区切りトークンを使用してASRと音声翻訳の同時学習と推論を実現モダリティ適応戦略 : 異なる音声エンコーダに対して専門的な長さ圧縮方法を設計効率的な微調整 : QLoRA(量子化低ランク適応)技術を使用してパラメータ効率的な微調整を実施<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>
<>transcript<>の後のトークンに対してのみ交差エントロピー損失を計算次トークン予測方式で学習 <bos> <>audio<> {audio features} <>transcript<>
モデルは自己回帰的に転写と翻訳テキストを生成します。
学習データ : MuST-C v1.0英独サブセット、約400時間の音声データテストデータ :
MuST-C tst-COMMON v2.0およびv3.0 IWSLT'21および'22オフライントラックテストセット LibriSpeech test-cleanおよびtest-other (ASR評価用) 音声翻訳 : BLEU, COMET22 DA ^{\text{DA}}_{22} 22 DA , COMET22 KIWI-DA ^{\text{KIWI-DA}}_{22} 22 KIWI-DA 音声認識 : WER (Word Error Rate)カスケードシステム : Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)エンドツーエンドベースライン : SeamlessM4T (seamless-m4t-v2-large)微調整方法 : 4-bit QLoRA、bfloat16精度LoRAパラメータ : rank=8, alpha=8バッチサイズ : HuBERTモデルは1、Whisperモデルは2オプティマイザ : AdamW、学習率1e-4、コサイン調度器学習ステップ数 : HuBERTモデルは500,000ステップ、Whisperモデルは100,000ステップモデル MuST-C v2 MuST-C v3 IWSLT'22 LibriSpeech clean LibriSpeech other Whisper 6.7 7.7 11.8 4.1 7.2 Whisper enc. + Gemma 2 9B 8.2 8.1 22.6 8.0 13.7 HuBERT + Gemma 2 9B 11.1 12.5 21.9 8.4 13.1
モデル MuST-C v2 MuST-C v3 IWSLT'21 IWSLT'22 Whisper + NLLB 39.84/31.06 40.30/31.60 43.84/- 41.86/30.48 SeamlessM4T 32.62/22.98 33.36/23.59 35.97/- 34.08/22.68 Whisper enc. + Gemma 2 9B 41.33/31.98 41.16/31.72 40.76/- 39.64/29.18
最適モデル(Whisper enc. + Gemma 2 9B)のCOMET22 DA ^{\text{DA}}_{22} 22 DA メトリクスでの性能:
MuST-C v2: 84.22 (vs 83.00 カスケードシステム) MuST-C v3: 83.65 (vs 82.49 カスケードシステム) SeamlessM4Tと比較して約8%向上 LLM選択 : Gemma 2 9Bがすべてのテストで最良の性能を示しましたエンコーダ比較 : Whisperエンコーダは全般的にHuBERTを上回りましたアダプタ効果 : CTC折りたたみと畳み込みダウンサンプリングの両方がシーケンス長を効果的に圧縮できましたエンドツーエンド対カスケード : 最適なエンドツーエンドモデルはカスケードシステムの性能に接近またはそれを上回ることができますモデルサイズ : より大きなLLM (Gemma 2 9B)はより良い性能をもたらします音声表現 : 事前学習済み音声エンコーダの品質は最終的な性能に直接影響しますカスケード方式 : 従来のASR+MTパイプライン、現在の主流ソリューションエンドツーエンド方式 : 音声から目標言語テキストへの直接変換、中間表現を回避マルチモーダルLLM : LLMを音声などの他のモダリティに拡張する最新研究統一フレームワーク : 単一タスク最適化ではなく、ASRと音声翻訳タスクを同時に処理モジュール設計 : 異なる音声エンコーダとLLMコンポーネントを柔軟に置き換え可能実用性 : 競争力のある性能を維持しながらエンドツーエンドソリューションを提供事前学習済み音声エンコーダとLLMを統合したエンドツーエンドアーキテクチャは、英独音声翻訳タスクで競争力のある性能を達成しました 最適モデルはSeamlessM4Tを上回るだけでなく、Whisper+NLLBカスケードシステムの性能に接近しました モデルはASRと音声翻訳タスクを同時に実行でき、統一されたソリューションを提供します データ制限 : 英独の高リソース言語対でのみ検証され、低リソース言語での効果は不明です計算効率 : ベースラインモデルと比較して、推論速度が遅く、モデルサイズが大きいですASR性能 : 音声認識タスクではまだ専門的なWhisperモデルに劣ります学習データ : MuST-Cデータセットは相対的に小さい(400時間)で、モデルの可能性を制限する可能性があります言語対の拡張 : より多くの言語方向での効果を検証モデル圧縮 : 知識蒸留などの技術を通じてモデルサイズを削減アダプタの改善 : Q-Formerなどのより高度なモダリティ適応方法を試行強化学習 : RL技術を統合してさらに性能を最適化革新的なアーキテクチャ : 音声基礎モデルとLLMの利点を効果的に組み合わせました十分な実験 : 複数のエンコーダとLLM組み合わせの体系的な比較実用的価値 : エンドツーエンドの統一ソリューションを提供技術詳細 : モダリティ適応と学習戦略を詳細に説明開放性 : オープンソースモデルを使用し、再現が容易です言語カバレッジ : 英独単一言語対でのみ検証され、汎化性が限定的です計算コスト : 学習と推論の計算オーバーヘッドの詳細な分析がありませんエラー分析 : モデルの失敗ケースに対する深い分析が不足しています理論分析 : このアーキテクチャが有効である理由に対する理論的説明が不足していますデータ依存性 : 学習データサイズへの感度分析が不足しています学術的貢献 : 音声翻訳分野に新しいエンドツーエンドソリューションを提供実用的価値 : 実際の多言語音声処理システムに適用可能再現性 : オープンソースコンポーネントを使用し、後続研究が容易です示唆性 : マルチモーダルLLMの応用に対して価値のある探索を提供多言語会議 : リアルタイム音声翻訳と転写教育プラットフォーム : 多言語オンラインコースの自動字幕と翻訳カスタマーサービス : 言語間音声インタラクションシステムメディア処理 : 音声コンテンツの自動転写と翻訳論文は音声翻訳、大規模言語モデル、マルチモーダル学習分野の重要な研究を引用しており、以下を含みます:
Whisper (Radford et al., 2022): 強力な音声認識基礎モデル SeamlessM4T (Communication et al., 2023): マルチモーダル翻訳モデルベースライン MuST-C (Cattoni et al., 2021): 標準音声翻訳データセット QLoRA (Dettmers et al., 2023): パラメータ効率的微調整技術 本論文は音声翻訳分野で有望なエンドツーエンドソリューションを提案しており、いくつかの側面で改善の余地がありますが、マルチモーダルLLMの応用に対して価値のある探索と実証的結果を提供しています。