2025-11-15T20:37:12.035510

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

Luu, Bojar
Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.
academic

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

基本信息

  • 论文ID: 2510.10329
  • 标题: End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
  • 作者: Nam Luu, Ondřej Bojar (Charles University)
  • 分类: cs.CL
  • 发表时间: 2025年10月11日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.10329v1

摘要

Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in COMET22DA\text{COMET}^{\text{DA}}_{22} metric.

研究背景与动机

问题定义

本研究旨在解决语音翻译(Speech Translation, ST)任务中的效率和性能问题。语音翻译需要将一种语言的语音信号直接转换为另一种语言的文本,传统上采用级联方法(ASR→MT)或端到端方法。

研究重要性

  1. 简化架构: 端到端方法可以避免中间ASR步骤,简化整体系统架构
  2. 错误传播: 级联系统存在错误传播问题,ASR阶段的错误会影响后续翻译质量
  3. LLM潜力: 大语言模型在自然语言任务上展现出强大能力,但在多模态任务上的应用仍需探索

现有方法局限性

  1. 数据稀缺: 语音翻译的并行训练数据相对稀少,特别是对低资源语言
  2. 模型效率: 现有端到端模型在推理速度和模型大小方面存在挑战
  3. 性能差距: 端到端模型在某些情况下仍难以匹敌级联系统的性能

研究动机

结合预训练语音编码器的高质量音频表示能力和LLM的强大语言处理能力,构建一个能同时执行ASR和ST任务的端到端架构。

核心贡献

  1. 提出了集成语音基础模型和LLM的端到端架构,能够同时执行自动语音识别和语音翻译任务
  2. 设计了有效的模态适配机制,包括CTC折叠和卷积下采样两种长度适配器
  3. 在英德语言对上取得了优于SeamlessM4T的翻译性能,并接近Whisper+NLLB级联系统的表现
  4. 提供了详细的实验分析,比较了不同LLM和语音编码器组合的效果

方法详解

任务定义

  • 输入: 源语言的语音信号
  • 输出: 同时生成源语言转录文本和目标语言翻译文本
  • 约束: 端到端训练,无需中间监督信号

模型架构

整体架构包含三个主要组件:

1. 语音编码器 (Speech Encoder)

  • HuBERT: 使用hubert-large-ls960-ft变体,在LibriLight 60,000小时数据上训练,在LibriSpeech 960小时数据上微调
  • Whisper编码器: 使用whisper-large-v3-turbo的编码器部分提取音频隐藏特征

2. 长度适配器 (Length Adapter)

由于语音特征序列可能超过LLM支持的最大长度,需要进行压缩:

  • CTC折叠 (用于HuBERT):
    • 利用CTC层预测的标签
    • 对重复标签对应的向量进行平均合并
    • 有效压缩序列长度同时保持语义信息
  • 卷积下采样 (用于Whisper):
    • 使用kernel size=5, stride=5的卷积层
    • 直接对特征序列进行5倍下采样

3. 投影层 (Projection Layer)

  • 单层前馈网络
  • 将语音编码器的隐藏维度映射到LLM的嵌入维度
  • 确保语音表示能够有效整合到LLM的嵌入空间

4. 大语言模型 (LLMs)

实验了四种不同的预训练LLM:

  • Gemma 7B (gemma-7b)
  • Gemma 2 9B (gemma-2-9b)
  • Llama 2 7B (Llama-2-7b-hf)
  • Mistral 7B v0.1 (Mistral-7B-v0.1)

技术创新点

  1. 统一的多任务学习框架: 通过特殊分隔符tokens实现ASR和ST的同时训练和推理
  2. 模态适配策略: 针对不同语音编码器设计专门的长度压缩方法
  3. 高效微调: 使用QLoRA (Quantized Low-Rank Adaptation) 技术进行参数高效的微调

训练策略

数据格式

<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>

损失计算

  • 仅对<>transcript<>之后的tokens计算交叉熵损失
  • 采用next-token-prediction方式训练

推理格式

<bos> <>audio<> {audio features} <>transcript<>

模型自回归生成转录和翻译文本。

实验设置

数据集

  • 训练数据: MuST-C v1.0英德子集,约400小时音频数据
  • 测试数据:
    • MuST-C tst-COMMON v2.0和v3.0
    • IWSLT'21和'22离线赛道测试集
    • LibriSpeech test-clean和test-other (用于ASR评估)

评价指标

  • 语音翻译: BLEU, COMET22DA^{DA}_{22}, COMET22KIWIDA^{KIWI-DA}_{22}
  • 语音识别: WER (Word Error Rate)

对比方法

  • 级联系统: Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)
  • 端到端基线: SeamlessM4T (seamless-m4t-v2-large)

实现细节

  • 微调方法: 4-bit QLoRA,bfloat16精度
  • LoRA参数: rank=8, alpha=8
  • 批大小: HuBERT模型为1,Whisper模型为2
  • 优化器: AdamW,学习率1e-4,余弦调度器
  • 训练步数: HuBERT模型500,000步,Whisper模型100,000步

实验结果

主要结果

ASR性能 (WER %)

模型MuST-C v2MuST-C v3IWSLT'22LibriSpeech cleanLibriSpeech other
Whisper6.77.711.84.17.2
Whisper enc. + Gemma 2 9B8.28.122.68.013.7
HuBERT + Gemma 2 9B11.112.521.98.413.1

语音翻译性能 (BLEU分数)

模型MuST-C v2MuST-C v3IWSLT'21IWSLT'22
Whisper + NLLB39.84/31.0640.30/31.6043.84/-41.86/30.48
SeamlessM4T32.62/22.9833.36/23.5935.97/-34.08/22.68
Whisper enc. + Gemma 2 9B41.33/31.9841.16/31.7240.76/-39.64/29.18

COMET性能

最佳模型(Whisper enc. + Gemma 2 9B)在COMET22DA^{DA}_{22}指标上:

  • MuST-C v2: 84.22 (vs 83.00 级联系统)
  • MuST-C v3: 83.65 (vs 82.49 级联系统)
  • 相比SeamlessM4T提升约8%

消融实验发现

  1. LLM选择: Gemma 2 9B在所有测试中表现最佳
  2. 编码器对比: Whisper编码器普遍优于HuBERT
  3. 适配器效果: CTC折叠和卷积下采样都能有效压缩序列长度

实验发现

  1. 端到端vs级联: 最佳端到端模型能够接近甚至超越级联系统性能
  2. 模型规模: 更大的LLM (Gemma 2 9B)带来更好的性能
  3. 语音表示: 预训练语音编码器的质量直接影响最终性能

相关工作

语音翻译研究方向

  1. 级联方法: 传统ASR+MT pipeline,仍是当前主流方案
  2. 端到端方法: 直接从语音到目标语言文本,避免中间表示
  3. 多模态LLM: 将LLM扩展到语音等其他模态的最新研究

本文相比相关工作的优势

  1. 统一框架: 同时处理ASR和ST任务,而非单一任务优化
  2. 模块化设计: 可以灵活替换不同的语音编码器和LLM组件
  3. 实用性: 在保持竞争性能的同时提供端到端解决方案

结论与讨论

主要结论

  1. 集成预训练语音编码器和LLM的端到端架构在英德语音翻译任务上取得了竞争性能
  2. 最佳模型不仅超越了SeamlessM4T,还接近了Whisper+NLLB级联系统的性能
  3. 模型能够同时执行ASR和ST任务,提供了统一的解决方案

局限性

  1. 数据限制: 仅在英德高资源语言对上验证,低资源语言效果未知
  2. 计算效率: 相比基线模型,推理速度较慢,模型规模较大
  3. ASR性能: 在语音识别任务上仍落后于专门的Whisper模型
  4. 训练数据: MuST-C数据集相对较小(400小时),可能限制模型潜力

未来方向

  1. 扩展语言对: 验证在更多语言方向上的效果
  2. 模型压缩: 通过知识蒸馏等技术减小模型规模
  3. 适配器改进: 尝试Q-Former等更先进的模态适配方法
  4. 强化学习: 集成RL技术进一步优化性能

深度评价

优点

  1. 创新性架构: 有效结合了语音基础模型和LLM的优势
  2. 实验充分: 多种编码器和LLM组合的系统性比较
  3. 实用价值: 提供了端到端的统一解决方案
  4. 技术细节: 详细描述了模态适配和训练策略
  5. 开放性: 使用开源模型,便于复现

不足

  1. 语言覆盖: 仅验证英德单一语言对,泛化性有限
  2. 计算成本: 未详细分析训练和推理的计算开销
  3. 错误分析: 缺乏对模型失败案例的深入分析
  4. 理论分析: 对为什么这种架构有效缺乏理论解释
  5. 数据依赖: 对训练数据规模的敏感性分析不足

影响力

  1. 学术贡献: 为语音翻译领域提供了新的端到端解决方案
  2. 实用价值: 可应用于实际的多语言语音处理系统
  3. 可复现性: 使用开源组件,便于后续研究
  4. 启发性: 为多模态LLM的应用提供了有价值的探索

适用场景

  1. 多语言会议: 实时语音翻译和转录
  2. 教育平台: 多语言在线课程的自动字幕和翻译
  3. 客户服务: 跨语言语音交互系统
  4. 媒体处理: 音频内容的自动转录和翻译

参考文献

论文引用了语音翻译、大语言模型、多模态学习等领域的重要工作,包括:

  • Whisper (Radford et al., 2022): 强大的语音识别基础模型
  • SeamlessM4T (Communication et al., 2023): 多模态翻译模型基线
  • MuST-C (Cattoni et al., 2021): 标准语音翻译数据集
  • QLoRA (Dettmers et al., 2023): 参数高效微调技术

本论文在语音翻译领域提出了一个有前景的端到端解决方案,虽然在某些方面仍有改进空间,但为多模态LLM的应用提供了有价值的探索和实证结果。