2025-11-15T20:37:12.035510

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

Luu, Bojar

Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.

academic

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

基本信息

论文ID: 2510.10329
标题: End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
作者: Nam Luu, Ondřej Bojar (Charles University)
分类: cs.CL
发表时间: 2025年10月11日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.10329v1

简化架构: 端到端方法可以避免中间ASR步骤，简化整体系统架构
错误传播: 级联系统存在错误传播问题，ASR阶段的错误会影响后续翻译质量
LLM潜力: 大语言模型在自然语言任务上展现出强大能力，但在多模态任务上的应用仍需探索

现有方法局限性

数据稀缺: 语音翻译的并行训练数据相对稀少，特别是对低资源语言
模型效率: 现有端到端模型在推理速度和模型大小方面存在挑战
性能差距: 端到端模型在某些情况下仍难以匹敌级联系统的性能

研究动机

结合预训练语音编码器的高质量音频表示能力和LLM的强大语言处理能力，构建一个能同时执行ASR和ST任务的端到端架构。

核心贡献

提出了集成语音基础模型和LLM的端到端架构，能够同时执行自动语音识别和语音翻译任务
设计了有效的模态适配机制，包括CTC折叠和卷积下采样两种长度适配器
在英德语言对上取得了优于SeamlessM4T的翻译性能，并接近Whisper+NLLB级联系统的表现
提供了详细的实验分析，比较了不同LLM和语音编码器组合的效果

方法详解

任务定义

输入: 源语言的语音信号
输出: 同时生成源语言转录文本和目标语言翻译文本
约束: 端到端训练，无需中间监督信号

模型架构

整体架构包含三个主要组件：

1. 语音编码器 (Speech Encoder)

HuBERT: 使用hubert-large-ls960-ft变体，在LibriLight 60,000小时数据上训练，在LibriSpeech 960小时数据上微调
Whisper编码器: 使用whisper-large-v3-turbo的编码器部分提取音频隐藏特征

2. 长度适配器 (Length Adapter)

由于语音特征序列可能超过LLM支持的最大长度，需要进行压缩：

CTC折叠 (用于HuBERT):
- 利用CTC层预测的标签
- 对重复标签对应的向量进行平均合并
- 有效压缩序列长度同时保持语义信息
卷积下采样 (用于Whisper):
- 使用kernel size=5, stride=5的卷积层
- 直接对特征序列进行5倍下采样

3. 投影层 (Projection Layer)

单层前馈网络
将语音编码器的隐藏维度映射到LLM的嵌入维度
确保语音表示能够有效整合到LLM的嵌入空间

4. 大语言模型 (LLMs)

实验了四种不同的预训练LLM：

Gemma 7B (gemma-7b)
Gemma 2 9B (gemma-2-9b)
Llama 2 7B (Llama-2-7b-hf)
Mistral 7B v0.1 (Mistral-7B-v0.1)

技术创新点

统一的多任务学习框架: 通过特殊分隔符tokens实现ASR和ST的同时训练和推理
模态适配策略: 针对不同语音编码器设计专门的长度压缩方法
高效微调: 使用QLoRA (Quantized Low-Rank Adaptation) 技术进行参数高效的微调

训练策略

数据格式

<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>

损失计算

仅对<>transcript<>之后的tokens计算交叉熵损失
采用next-token-prediction方式训练

推理格式

<bos> <>audio<> {audio features} <>transcript<>

模型自回归生成转录和翻译文本。

实验设置

数据集

训练数据: MuST-C v1.0英德子集，约400小时音频数据
测试数据:
- MuST-C tst-COMMON v2.0和v3.0
- IWSLT'21和'22离线赛道测试集
- LibriSpeech test-clean和test-other (用于ASR评估)

评价指标

语音翻译: BLEU, COMET $^{DA}_{22}$ , COMET $^{KIWI-DA}_{22}$
语音识别: WER (Word Error Rate)

对比方法

级联系统: Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)
端到端基线: SeamlessM4T (seamless-m4t-v2-large)

实现细节

微调方法: 4-bit QLoRA，bfloat16精度
LoRA参数: rank=8, alpha=8
批大小: HuBERT模型为1，Whisper模型为2
优化器: AdamW，学习率1e-4，余弦调度器
训练步数: HuBERT模型500,000步，Whisper模型100,000步

模型	MuST-C v2	MuST-C v3	IWSLT'22	LibriSpeech clean	LibriSpeech other
Whisper	6.7	7.7	11.8	4.1	7.2
Whisper enc. + Gemma 2 9B	8.2	8.1	22.6	8.0	13.7
HuBERT + Gemma 2 9B	11.1	12.5	21.9	8.4	13.1

语音翻译性能 (BLEU分数)

模型	MuST-C v2	MuST-C v3	IWSLT'21	IWSLT'22
Whisper + NLLB	39.84/31.06	40.30/31.60	43.84/-	41.86/30.48
SeamlessM4T	32.62/22.98	33.36/23.59	35.97/-	34.08/22.68
Whisper enc. + Gemma 2 9B	41.33/31.98	41.16/31.72	40.76/-	39.64/29.18