2025-11-15T20:37:12.035510

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

Luu, Bojar
Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.
academic

エンドツーエンド自動音声認識と音声翻訳: 音声基礎モデルとLLMの統合

基本情報

  • 論文ID: 2510.10329
  • タイトル: End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
  • 著者: Nam Luu, Ondřej Bojar (Charles University)
  • 分類: cs.CL
  • 発表日: 2025年10月11日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.10329v1

要約

音声翻訳(Speech Translation, ST)は、ある言語の音声信号を別の言語の対応するテキストに変換する機械翻訳タスクです。このタスクには従来のカスケード方式と最近のエンドツーエンド方式の2つのアプローチがあります。本論文では、自動音声認識(ASR)と音声翻訳(ST)を同時に実行するために、事前学習済み音声エンコーダと大規模言語モデル(LLM)を組み合わせたエンドツーエンドアーキテクチャを探索しています。英独言語対での実験により、提案モデルはSeamlessM4T(大規模基礎エンドツーエンドマルチモーダル翻訳モデル)よりも優れた翻訳結果を達成するだけでなく、WhisperとNLLBを用いたカスケードシステムの性能に匹敵し、COMET22DA^{\text{DA}}_{22}メトリクスで最大8%のスコア向上を実現しています。

研究背景と動機

問題定義

本研究は、音声翻訳(Speech Translation, ST)タスクにおける効率性と性能の問題を解決することを目的としています。音声翻訳は、ある言語の音声信号を別の言語のテキストに直接変換する必要があり、従来はカスケード方式(ASR→MT)またはエンドツーエンド方式が採用されています。

研究の重要性

  1. アーキテクチャの簡素化: エンドツーエンド方式は中間ASRステップを回避でき、全体的なシステムアーキテクチャを簡素化できます
  2. 誤差伝播: カスケードシステムは誤差伝播の問題があり、ASR段階の誤りが後続の翻訳品質に影響します
  3. LLMの可能性: 大規模言語モデルは自然言語タスクで強力な能力を示していますが、マルチモーダルタスクへの応用はまだ探索が必要です

既存手法の限界

  1. データの希少性: 音声翻訳の並列学習データは相対的に不足しており、特に低リソース言語の場合です
  2. モデル効率: 既存のエンドツーエンドモデルは推論速度とモデルサイズの面で課題があります
  3. 性能ギャップ: エンドツーエンドモデルは場合によってはカスケードシステムの性能に匹敵することが難しいです

研究動機

事前学習済み音声エンコーダの高品質な音声表現能力とLLMの強力な言語処理能力を組み合わせることで、ASRと音声翻訳タスクを同時に実行できるエンドツーエンドアーキテクチャを構築します。

核心的貢献

  1. 音声基礎モデルとLLMを統合したエンドツーエンドアーキテクチャを提案し、自動音声認識と音声翻訳タスクを同時に実行できます
  2. 効果的なモダリティ適応メカニズムを設計し、CTC折りたたみと畳み込みダウンサンプリングの2つの長さアダプタを含みます
  3. 英独言語対でSeamlessM4Tを上回る翻訳性能を達成し、Whisper+NLLBカスケードシステムの性能に接近しています
  4. 詳細な実験分析を提供し、異なるLLMと音声エンコーダの組み合わせの効果を比較しています

方法の詳細

タスク定義

  • 入力: ソース言語の音声信号
  • 出力: ソース言語の転写テキストと目標言語の翻訳テキストを同時に生成
  • 制約: エンドツーエンド学習で、中間監督信号は不要

モデルアーキテクチャ

全体アーキテクチャは3つの主要コンポーネントで構成されています:

1. 音声エンコーダ (Speech Encoder)

  • HuBERT: hubert-large-ls960-ftバリアントを使用。LibriLight 60,000時間のデータで学習し、LibriSpeech 960時間のデータで微調整されています
  • Whisperエンコーダ: whisper-large-v3-turboのエンコーダ部分を使用して音声隠れ特徴を抽出します

2. 長さアダプタ (Length Adapter)

音声特徴シーケンスはLLMがサポートする最大長を超える可能性があるため、圧縮が必要です:

  • CTC折りたたみ (HuBERTの場合):
    • CTCレイヤーが予測したラベルを利用
    • 重複ラベルに対応するベクトルを平均化して統合
    • シーケンス長を効果的に圧縮しながら意味情報を保持
  • 畳み込みダウンサンプリング (Whisperの場合):
    • kernel size=5, stride=5の畳み込みレイヤーを使用
    • 特徴シーケンスを直接5倍ダウンサンプリング

3. 投影レイヤー (Projection Layer)

  • 単層フィードフォワードネットワーク
  • 音声エンコーダの隠れ次元をLLMの埋め込み次元にマッピング
  • 音声表現がLLMの埋め込み空間に効果的に統合されることを保証

4. 大規模言語モデル (LLMs)

4つの異なる事前学習済みLLMを実験しました:

  • Gemma 7B (gemma-7b)
  • Gemma 2 9B (gemma-2-9b)
  • Llama 2 7B (Llama-2-7b-hf)
  • Mistral 7B v0.1 (Mistral-7B-v0.1)

技術的革新点

  1. 統一されたマルチタスク学習フレームワーク: 特殊な区切りトークンを使用してASRと音声翻訳の同時学習と推論を実現
  2. モダリティ適応戦略: 異なる音声エンコーダに対して専門的な長さ圧縮方法を設計
  3. 効率的な微調整: QLoRA(量子化低ランク適応)技術を使用してパラメータ効率的な微調整を実施

学習戦略

データフォーマット

<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>

損失計算

  • <>transcript<>の後のトークンに対してのみ交差エントロピー損失を計算
  • 次トークン予測方式で学習

推論フォーマット

<bos> <>audio<> {audio features} <>transcript<>

モデルは自己回帰的に転写と翻訳テキストを生成します。

実験設定

データセット

  • 学習データ: MuST-C v1.0英独サブセット、約400時間の音声データ
  • テストデータ:
    • MuST-C tst-COMMON v2.0およびv3.0
    • IWSLT'21および'22オフライントラックテストセット
    • LibriSpeech test-cleanおよびtest-other (ASR評価用)

評価指標

  • 音声翻訳: BLEU, COMET22DA^{\text{DA}}_{22}, COMET22KIWI-DA^{\text{KIWI-DA}}_{22}
  • 音声認識: WER (Word Error Rate)

比較手法

  • カスケードシステム: Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)
  • エンドツーエンドベースライン: SeamlessM4T (seamless-m4t-v2-large)

実装詳細

  • 微調整方法: 4-bit QLoRA、bfloat16精度
  • LoRAパラメータ: rank=8, alpha=8
  • バッチサイズ: HuBERTモデルは1、Whisperモデルは2
  • オプティマイザ: AdamW、学習率1e-4、コサイン調度器
  • 学習ステップ数: HuBERTモデルは500,000ステップ、Whisperモデルは100,000ステップ

実験結果

主要結果

ASR性能 (WER %)

モデルMuST-C v2MuST-C v3IWSLT'22LibriSpeech cleanLibriSpeech other
Whisper6.77.711.84.17.2
Whisper enc. + Gemma 2 9B8.28.122.68.013.7
HuBERT + Gemma 2 9B11.112.521.98.413.1

音声翻訳性能 (BLEUスコア)

モデルMuST-C v2MuST-C v3IWSLT'21IWSLT'22
Whisper + NLLB39.84/31.0640.30/31.6043.84/-41.86/30.48
SeamlessM4T32.62/22.9833.36/23.5935.97/-34.08/22.68
Whisper enc. + Gemma 2 9B41.33/31.9841.16/31.7240.76/-39.64/29.18

COMET性能

最適モデル(Whisper enc. + Gemma 2 9B)のCOMET22DA^{\text{DA}}_{22}メトリクスでの性能:

  • MuST-C v2: 84.22 (vs 83.00 カスケードシステム)
  • MuST-C v3: 83.65 (vs 82.49 カスケードシステム)
  • SeamlessM4Tと比較して約8%向上

アブレーション実験の発見

  1. LLM選択: Gemma 2 9Bがすべてのテストで最良の性能を示しました
  2. エンコーダ比較: Whisperエンコーダは全般的にHuBERTを上回りました
  3. アダプタ効果: CTC折りたたみと畳み込みダウンサンプリングの両方がシーケンス長を効果的に圧縮できました

実験の発見

  1. エンドツーエンド対カスケード: 最適なエンドツーエンドモデルはカスケードシステムの性能に接近またはそれを上回ることができます
  2. モデルサイズ: より大きなLLM (Gemma 2 9B)はより良い性能をもたらします
  3. 音声表現: 事前学習済み音声エンコーダの品質は最終的な性能に直接影響します

関連研究

音声翻訳研究の方向性

  1. カスケード方式: 従来のASR+MTパイプライン、現在の主流ソリューション
  2. エンドツーエンド方式: 音声から目標言語テキストへの直接変換、中間表現を回避
  3. マルチモーダルLLM: LLMを音声などの他のモダリティに拡張する最新研究

本論文の関連研究に対する優位性

  1. 統一フレームワーク: 単一タスク最適化ではなく、ASRと音声翻訳タスクを同時に処理
  2. モジュール設計: 異なる音声エンコーダとLLMコンポーネントを柔軟に置き換え可能
  3. 実用性: 競争力のある性能を維持しながらエンドツーエンドソリューションを提供

結論と議論

主要な結論

  1. 事前学習済み音声エンコーダとLLMを統合したエンドツーエンドアーキテクチャは、英独音声翻訳タスクで競争力のある性能を達成しました
  2. 最適モデルはSeamlessM4Tを上回るだけでなく、Whisper+NLLBカスケードシステムの性能に接近しました
  3. モデルはASRと音声翻訳タスクを同時に実行でき、統一されたソリューションを提供します

限界

  1. データ制限: 英独の高リソース言語対でのみ検証され、低リソース言語での効果は不明です
  2. 計算効率: ベースラインモデルと比較して、推論速度が遅く、モデルサイズが大きいです
  3. ASR性能: 音声認識タスクではまだ専門的なWhisperモデルに劣ります
  4. 学習データ: MuST-Cデータセットは相対的に小さい(400時間)で、モデルの可能性を制限する可能性があります

今後の方向性

  1. 言語対の拡張: より多くの言語方向での効果を検証
  2. モデル圧縮: 知識蒸留などの技術を通じてモデルサイズを削減
  3. アダプタの改善: Q-Formerなどのより高度なモダリティ適応方法を試行
  4. 強化学習: RL技術を統合してさらに性能を最適化

深い評価

利点

  1. 革新的なアーキテクチャ: 音声基礎モデルとLLMの利点を効果的に組み合わせました
  2. 十分な実験: 複数のエンコーダとLLM組み合わせの体系的な比較
  3. 実用的価値: エンドツーエンドの統一ソリューションを提供
  4. 技術詳細: モダリティ適応と学習戦略を詳細に説明
  5. 開放性: オープンソースモデルを使用し、再現が容易です

不足

  1. 言語カバレッジ: 英独単一言語対でのみ検証され、汎化性が限定的です
  2. 計算コスト: 学習と推論の計算オーバーヘッドの詳細な分析がありません
  3. エラー分析: モデルの失敗ケースに対する深い分析が不足しています
  4. 理論分析: このアーキテクチャが有効である理由に対する理論的説明が不足しています
  5. データ依存性: 学習データサイズへの感度分析が不足しています

影響力

  1. 学術的貢献: 音声翻訳分野に新しいエンドツーエンドソリューションを提供
  2. 実用的価値: 実際の多言語音声処理システムに適用可能
  3. 再現性: オープンソースコンポーネントを使用し、後続研究が容易です
  4. 示唆性: マルチモーダルLLMの応用に対して価値のある探索を提供

適用シーン

  1. 多言語会議: リアルタイム音声翻訳と転写
  2. 教育プラットフォーム: 多言語オンラインコースの自動字幕と翻訳
  3. カスタマーサービス: 言語間音声インタラクションシステム
  4. メディア処理: 音声コンテンツの自動転写と翻訳

参考文献

論文は音声翻訳、大規模言語モデル、マルチモーダル学習分野の重要な研究を引用しており、以下を含みます:

  • Whisper (Radford et al., 2022): 強力な音声認識基礎モデル
  • SeamlessM4T (Communication et al., 2023): マルチモーダル翻訳モデルベースライン
  • MuST-C (Cattoni et al., 2021): 標準音声翻訳データセット
  • QLoRA (Dettmers et al., 2023): パラメータ効率的微調整技術

本論文は音声翻訳分野で有望なエンドツーエンドソリューションを提案しており、いくつかの側面で改善の余地がありますが、マルチモーダルLLMの応用に対して価値のある探索と実証的結果を提供しています。