2025-11-12T02:28:29.830875

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction

Wang, Zhao, Liu et al.

Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.

academic

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction

基本信息

论文ID: 2510.10003
标题: MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
作者: Jianjin Wang, Runsong Zhao, Xiaoqian Liu, Yuan Ge, Ziqiang Xu, Tong Xiao, Shengxiang Gao, Zhengtao Yu, Jingbo Zhu
分类: cs.CL, cs.SD, eess.AS
发表时间: 2025年10月11日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.10003

摘要

当前的直接语音到语音翻译方法主要使用语音token作为中间表示。然而，单个语音token的语义密度不高，通常需要多个token才能表达完整的语义单元。为了解决这一限制，本文将多token预测(MTP)损失引入语音到单元翻译(S2UT)模型中，使模型能够在每个位置预测多个后续token，从而捕获更完整的语义并提高每个位置的信息密度。初始的MTP实现将损失应用于最终层，虽然改善了输出表示但信息丰富化启动过晚。本文假设将信息丰富化过程提前到中间层可以实现更早、更有效的隐藏表示增强。因此，提出了MTP-S2UT损失，将MTP损失应用于计算CTC损失的隐藏表示层。实验表明，所有MTP损失变体都能持续改善S2UT翻译质量，其中MTP-S2UT取得了最佳性能。

研究背景与动机

核心问题

直接语音到语音翻译面临的主要挑战是语音token的语义稀疏性。与文本token相比，语音token的语义表示更加稀疏，通常需要多个语音token才能表达单一语义概念，这导致了更高的预测熵和建模复杂度。

问题重要性

实际应用需求：语音到语音翻译在国际会议、跨国交流、旅游等场景中有广泛应用前景
技术瓶颈：现有方法在语义表示密度和预测准确性方面存在不足
模型效率：语音token的稀疏性增加了模型的预测不确定性

现有方法局限性

语义密度低：单个语音token无法承载完整语义信息
预测熵高：多token表达单一概念导致预测复杂度增加
信息融合滞后：现有MTP方法仅在最终层应用，错过了早期信息融合的机会

研究动机

基于语音token需要多个token协同表达完整语义的观察，本文提出通过多token预测来增强语义密度，并将这种增强提前到中间层实现更有效的表示学习。

核心贡献

首次将MTP损失引入S2UT框架：系统性地将多token预测技术应用于语音到语音翻译任务
提出MTP-S2UT损失：创新性地将MTP损失应用于CTC隐藏层，实现更早的信息融合
全面的实验验证：在多种语音tokenizer和语言对上验证了方法的有效性
深入的机理分析：通过CTC解码分析和熵分析揭示了MTP损失的工作机制

方法详解

任务定义

语音到语音翻译任务定义为四元组数据集 $D = \{(S,X,Y,T)\}$ ，其中：

$S = (s_1, \cdots, s_{|S|})$ ：源语言语音
$X = (x_1, \cdots, x_{|X|})$ ：源语言文本
$Y = (y_1, \cdots, y_{|Y|})$ ：目标语言文本
$T = (t_1, \cdots, t_{|T|})$ ：目标语言语音

模型架构

S2UT基础架构

S2UT模型包含三个主要组件：

语音tokenizer：将连续目标语音量化为离散语音token序列 $U = (u_1, \cdots, u_{|U|}, e)$
序列到序列模型：将源语音转换为目标语音token
Detokenizer：从语音token合成目标语音

模型的核心计算过程：

H⁰_dec = Emb(U₊₁)                                    (1)
Hⁱ_dec = DecoderLayerᵢ(H^enc, Hⁱ⁻¹_dec)            (2)
L_NTP = -logP(U|H^L_dec)                             (3)
L_S2UT = L_NTP + L_other                             (4)

MTP损失变体

本文实现了四种MTP损失变体：

1. MTP-Parallel-Linear 使用N个独立线性头：

P(U₋ₖ|H^L_dec) = softmax(WᵏH^L_dec)                 (6)

2. MTP-DeepSeek-V3 采用teacher-forcing和Transformer块：

H⁰_out = H^L_dec                                     (7)
Hᵏ_in = Wᵏ_in[LN(Hᵏ⁻¹_out); LN(Emb(U₁₋ₖ))]         (8)
Hᵏ_out = Decoderₖ(H^enc, Hᵏ_in)                     (9)
P(U₋ₖ|H^L_dec) = softmax(W_outHᵏ_out)               (10)

3. MTP-VocalNet 移除teacher-forcing输入：

Hᵏ_in = Hᵏ⁻¹_out                                     (11)

技术创新点

MTP-S2UT核心创新

关键洞察：CTC隐藏层 $H^m_{dec}$ 同时包含文本和语音模态信息，是应用MTP损失的理想位置。

实现方法：

L_MTP-S2UT = -∑ᵏ⁼⁰^(N-1) logP(U₋ₖ|H^m_dec)         (13)

Hᵏ_out = Decoderₖ(H^enc, H^m_dec)                   (14)
P(U₋ₖ|H^m_dec) = softmax(W_outHᵏ_out)               (15)

设计优势：

更早的信息融合：在中间层而非最终层应用MTP损失
跨模态信息利用：充分利用CTC层的文本-语音融合表示
语义前移：促进语义信息在序列中的前向移动

实验设置

数据集

使用CVSS-C基准数据集，这是一个大规模语音到语音翻译数据集：

语言对：法语→英语(Fr→En)和西班牙语→英语(Es→En)
预处理：80维mel-filterbank特征，全局倒谱均值和方差归一化

语音Tokenizer

评估了三种tokenizer：

无监督tokenizer：基于k-means聚类(k=1000)的mHuBERT特征
S3 tokenizer：监督式tokenizer，码本大小6561
GLM-4-Voice-Tokenizer：监督式tokenizer，码本大小16384

模型配置

编码器：12层Conformer，隐藏维度256
解码器：6层Transformer，隐藏维度512
CTC解码器：连接在第3层解码器后，权重1.6
MTP配置：每个语音token预测后续N=7个token，MTP损失权重1.0

评价指标

使用ASR-BLEU评估翻译质量：

用ASR模型将合成语音转录为文本
计算转录文本与参考文本的BLEU分数

实验结果

主要结果

Fr→En任务结果

Tokenizer	Model	Greedy	Beam5	Beam10
S3	S2UT	17.79	18.98	19.15
S3	+ MTP-S2UT	24.36	25.14	25.16
HuBERT	S2UT	22.02	23.11	23.33
HuBERT	+ MTP-S2UT	23.59	24.50	24.53
GLM-4	S2UT	21.62	23.08	23.26
GLM-4	+ MTP-S2UT	23.97	25.22	25.26