2025-11-12T02:28:29.830875

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction

Wang, Zhao, Liu et al.
Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.
academic

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction

基本信息

  • 论文ID: 2510.10003
  • 标题: MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
  • 作者: Jianjin Wang, Runsong Zhao, Xiaoqian Liu, Yuan Ge, Ziqiang Xu, Tong Xiao, Shengxiang Gao, Zhengtao Yu, Jingbo Zhu
  • 分类: cs.CL, cs.SD, eess.AS
  • 发表时间: 2025年10月11日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.10003

摘要

当前的直接语音到语音翻译方法主要使用语音token作为中间表示。然而,单个语音token的语义密度不高,通常需要多个token才能表达完整的语义单元。为了解决这一限制,本文将多token预测(MTP)损失引入语音到单元翻译(S2UT)模型中,使模型能够在每个位置预测多个后续token,从而捕获更完整的语义并提高每个位置的信息密度。初始的MTP实现将损失应用于最终层,虽然改善了输出表示但信息丰富化启动过晚。本文假设将信息丰富化过程提前到中间层可以实现更早、更有效的隐藏表示增强。因此,提出了MTP-S2UT损失,将MTP损失应用于计算CTC损失的隐藏表示层。实验表明,所有MTP损失变体都能持续改善S2UT翻译质量,其中MTP-S2UT取得了最佳性能。

研究背景与动机

核心问题

直接语音到语音翻译面临的主要挑战是语音token的语义稀疏性。与文本token相比,语音token的语义表示更加稀疏,通常需要多个语音token才能表达单一语义概念,这导致了更高的预测熵和建模复杂度。

问题重要性

  1. 实际应用需求:语音到语音翻译在国际会议、跨国交流、旅游等场景中有广泛应用前景
  2. 技术瓶颈:现有方法在语义表示密度和预测准确性方面存在不足
  3. 模型效率:语音token的稀疏性增加了模型的预测不确定性

现有方法局限性

  1. 语义密度低:单个语音token无法承载完整语义信息
  2. 预测熵高:多token表达单一概念导致预测复杂度增加
  3. 信息融合滞后:现有MTP方法仅在最终层应用,错过了早期信息融合的机会

研究动机

基于语音token需要多个token协同表达完整语义的观察,本文提出通过多token预测来增强语义密度,并将这种增强提前到中间层实现更有效的表示学习。

核心贡献

  1. 首次将MTP损失引入S2UT框架:系统性地将多token预测技术应用于语音到语音翻译任务
  2. 提出MTP-S2UT损失:创新性地将MTP损失应用于CTC隐藏层,实现更早的信息融合
  3. 全面的实验验证:在多种语音tokenizer和语言对上验证了方法的有效性
  4. 深入的机理分析:通过CTC解码分析和熵分析揭示了MTP损失的工作机制

方法详解

任务定义

语音到语音翻译任务定义为四元组数据集 D={(S,X,Y,T)}D = \{(S,X,Y,T)\},其中:

  • S=(s1,,sS)S = (s_1, \cdots, s_{|S|}):源语言语音
  • X=(x1,,xX)X = (x_1, \cdots, x_{|X|}):源语言文本
  • Y=(y1,,yY)Y = (y_1, \cdots, y_{|Y|}):目标语言文本
  • T=(t1,,tT)T = (t_1, \cdots, t_{|T|}):目标语言语音

模型架构

S2UT基础架构

S2UT模型包含三个主要组件:

  1. 语音tokenizer:将连续目标语音量化为离散语音token序列 U=(u1,,uU,e)U = (u_1, \cdots, u_{|U|}, e)
  2. 序列到序列模型:将源语音转换为目标语音token
  3. Detokenizer:从语音token合成目标语音

模型的核心计算过程:

H⁰_dec = Emb(U₊₁)                                    (1)
Hⁱ_dec = DecoderLayerᵢ(H^enc, Hⁱ⁻¹_dec)            (2)
L_NTP = -logP(U|H^L_dec)                             (3)
L_S2UT = L_NTP + L_other                             (4)

MTP损失变体

本文实现了四种MTP损失变体:

1. MTP-Parallel-Linear 使用N个独立线性头:

P(U₋ₖ|H^L_dec) = softmax(WᵏH^L_dec)                 (6)

2. MTP-DeepSeek-V3 采用teacher-forcing和Transformer块:

H⁰_out = H^L_dec                                     (7)
Hᵏ_in = Wᵏ_in[LN(Hᵏ⁻¹_out); LN(Emb(U₁₋ₖ))]         (8)
Hᵏ_out = Decoderₖ(H^enc, Hᵏ_in)                     (9)
P(U₋ₖ|H^L_dec) = softmax(W_outHᵏ_out)               (10)

3. MTP-VocalNet 移除teacher-forcing输入:

Hᵏ_in = Hᵏ⁻¹_out                                     (11)

技术创新点

MTP-S2UT核心创新

关键洞察:CTC隐藏层 HdecmH^m_{dec} 同时包含文本和语音模态信息,是应用MTP损失的理想位置。

实现方法

L_MTP-S2UT = -∑ᵏ⁼⁰^(N-1) logP(U₋ₖ|H^m_dec)         (13)

Hᵏ_out = Decoderₖ(H^enc, H^m_dec)                   (14)
P(U₋ₖ|H^m_dec) = softmax(W_outHᵏ_out)               (15)

设计优势

  1. 更早的信息融合:在中间层而非最终层应用MTP损失
  2. 跨模态信息利用:充分利用CTC层的文本-语音融合表示
  3. 语义前移:促进语义信息在序列中的前向移动

实验设置

数据集

使用CVSS-C基准数据集,这是一个大规模语音到语音翻译数据集:

  • 语言对:法语→英语(Fr→En)和西班牙语→英语(Es→En)
  • 预处理:80维mel-filterbank特征,全局倒谱均值和方差归一化

语音Tokenizer

评估了三种tokenizer:

  1. 无监督tokenizer:基于k-means聚类(k=1000)的mHuBERT特征
  2. S3 tokenizer:监督式tokenizer,码本大小6561
  3. GLM-4-Voice-Tokenizer:监督式tokenizer,码本大小16384

模型配置

  • 编码器:12层Conformer,隐藏维度256
  • 解码器:6层Transformer,隐藏维度512
  • CTC解码器:连接在第3层解码器后,权重1.6
  • MTP配置:每个语音token预测后续N=7个token,MTP损失权重1.0

评价指标

使用ASR-BLEU评估翻译质量:

  1. 用ASR模型将合成语音转录为文本
  2. 计算转录文本与参考文本的BLEU分数

实验结果

主要结果

Fr→En任务结果

TokenizerModelGreedyBeam5Beam10
S3S2UT17.7918.9819.15
S3+ MTP-S2UT24.3625.1425.16
HuBERTS2UT22.0223.1123.33
HuBERT+ MTP-S2UT23.5924.5024.53
GLM-4S2UT21.6223.0823.26
GLM-4+ MTP-S2UT23.9725.2225.26

Es→En任务结果

ModelGreedyBeam5Beam10
S2UT16.6717.9918.18
+ MTP-S2UT21.8722.5922.83

关键发现

  1. 一致性提升:所有MTP变体都能改善翻译质量
  2. 最佳性能:MTP-S2UT在所有设置下取得最佳结果
  3. 显著改进:S3 tokenizer上greedy搜索ASR-BLEU从17.79提升到24.36(+37%)

消融实验

CTC解码前向偏移分析

通过分析CTC隐藏状态的解码结果发现:

  • MTP训练的模型相比NTP显示出文本token的前向偏移
  • 文本token首次出现的平均相对位置显著提前
ModelS3HuBERTGLM-4
S2UT51.011%49.628%50.363%
MTP-S2UT47.382%44.561%43.889%

语音Token不确定性分析

通过熵分析发现:

  • 所有MTP变体都降低了语音token预测的不确定性
  • MTP-S2UT显示出最显著的不确定性降低
  • 低熵区域频率增加,高熵区域频率减少

相关工作

语音到语音翻译

  • 直接方法:使用离散语音单元作为中间表示
  • 代表性架构:S2UT模型及其变体(UnitY、SeamlessM4T等)
  • 技术挑战:语音token的语义稀疏性和预测复杂度

多Token预测

  • 起源:最初用于大语言模型的辅助任务
  • 发展:DeepSeek-V3的改进和VocalNet在语音对话中的应用
  • 优势:增强表示能力、加速推理、捕获局部模式

结论与讨论

主要结论

  1. MTP损失有效性:在S2UT框架中引入MTP损失能显著提升翻译质量
  2. 早期融合优势:将MTP损失应用于中间CTC层比最终层更有效
  3. 机理洞察:MTP促进语义信息前移并降低预测不确定性

局限性

  1. 计算开销:MTP训练引入额外参数和计算复杂度
  2. 语言覆盖:实验仅在欧洲语言对上验证,缺乏更广泛的语言验证
  3. 理论分析:对MTP工作机理的理论理解仍需深化

未来方向

  1. 扩展到更多语言对:验证方法在不同语系间的有效性
  2. 优化计算效率:减少MTP训练的计算开销
  3. 理论建模:深入理解MTP在语音翻译中的作用机制

深度评价

优点

  1. 创新性强:首次系统性地将MTP引入语音到语音翻译
  2. 方法合理:MTP-S2UT的设计基于对CTC层特性的深入理解
  3. 实验充分:多tokenizer、多语言对、多解码策略的全面验证
  4. 分析深入:通过CTC解码和熵分析揭示了方法的工作机制
  5. 结果显著:在所有设置下都取得了一致且显著的改进

不足

  1. 语言局限:仅在欧洲语言对上验证,泛化性有待验证
  2. 计算分析缺失:未详细分析MTP训练的计算开销
  3. 对比不够充分:缺乏与其他语音翻译改进方法的对比
  4. 理论深度:对MTP工作机制的理论分析还不够深入

影响力

  1. 学术价值:为语音翻译领域提供了新的改进思路
  2. 实用价值:显著的性能提升使其具有实际应用潜力
  3. 可复现性:方法描述清晰,实验设置详细
  4. 启发性:为多模态序列建模提供了有价值的洞察

适用场景

  1. 高质量语音翻译:适用于对翻译质量要求较高的场景
  2. 多语言会议系统:可应用于实时多语言交流系统
  3. 语音助手:提升跨语言语音助手的翻译能力
  4. 教育和培训:语言学习和跨文化交流应用

参考文献

本文引用了语音到语音翻译、多token预测、语音表示学习等相关领域的重要工作,为研究提供了坚实的理论基础。关键参考文献包括S2UT原始论文、MTP相关工作(DeepSeek-V3、VocalNet)以及语音处理基础技术(HuBERT、CTC等)。


总体评价:这是一篇高质量的技术论文,在语音到语音翻译领域提出了创新且有效的改进方法。通过将多token预测技术巧妙地应用于S2UT框架的中间层,取得了显著的性能提升。论文的实验设计严谨,分析深入,为该领域的发展做出了有价值的贡献。