2025-11-13T21:10:11.295731

Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs

He, Ray, Mallidi et al.

Unified architectures in multimodal large language models (MLLM) have shown promise in handling diverse tasks within a single framework. In the text-to-speech (TTS) task, current MLLM-based approaches rely on discrete token representations, which disregard the inherently continuous nature of speech and can lead to loss of fine-grained acoustic information.In this work, we investigate the TTS within the MLLM paradigm using continuous speech representations. We design a dual-head architecture and implement two complementary training strategies for a robust model. (1) A diffusion head generating continuous speech representations is added on the MLLM, which is on frame-level and strictly autoregressive. (2) The original language model head is retained to preserve multitask capability and to control the start and end of speech synthesis. (3) Masked training is employed to address exposure bias in autoregressive decoding. (4) To stabilize optimization, we propose a two-stage scheme where the LM is frozen in the second stage, ensuring the diffusion head learns from a fixed input distribution. Evaluations on LibriSpeech(PC) test-clean show that our approach achieves state-of-the-art autoregressive performance, with a WER of 1.95%, speaker similarity of 0.54, and UTMOS of 4.00. The two-stage training yields a 46% relative WER reduction over the one-stage training baseline. These results highlight the effectiveness of combining autoregressive modeling with continuous-token diffusion, supported by a two-stage training procedure.

academic

Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs

基本信息

论文ID: 2510.12995
标题: Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs
作者: Xinlu He¹, Swayambhu Nath Ray², Harish Mallidi², Jia-Hong Huang², Ashwin Bellur², Chander Chandak², M. Maruf², Venkatesh Ravichandran²
机构: ¹Worcester Polytechnic Institute, USA ²Amazon AGI, USA
分类: eess.AS cs.SD
发表会议: NeurIPS 2025 Workshop: Structured Probabilistic Inference & Generative Modeling (SPIGM)
论文链接: https://arxiv.org/abs/2510.12995

摘要

统一的多模态大语言模型(MLLM)架构在单一框架内处理多样化任务方面显示出了前景。在文本转语音(TTS)任务中，当前基于MLLM的方法依赖于离散token表示，这忽略了语音固有的连续性质，可能导致细粒度声学信息的丢失。本工作在MLLM范式内使用连续语音表示来研究TTS。设计了双头架构并实现了两种互补的训练策略来构建鲁棒模型。该方法在LibriSpeech(PC) test-clean上取得了最先进的自回归性能，WER为1.95%，说话人相似度为0.54，UTMOS为4.00。

研究背景与动机

问题定义

当前基于MLLM的TTS方法主要存在以下问题：

离散化损失：现有方法将语音转换为离散token，忽略了语音的连续性质，导致细粒度声学信息丢失
量化瓶颈：离散量化会丢弃精细的声学细节，限制了语音的自然度和保真度
统一框架缺失：缺乏在保持MLLM多任务能力的同时生成高质量连续语音的有效方法

研究重要性

技术需求：随着多模态AI的发展，需要在统一框架内处理文本和语音任务
质量提升：连续表示能更好地保持语音的内在属性，提高合成质量
应用价值：零样本说话人克隆技术在个性化语音合成中具有重要应用价值

现有方法局限性

多阶段系统：如VALL-E需要多个阶段，增加了复杂性
信息丢失：离散编码会丢失细粒度声学信息
训练不稳定：联合优化扩散模型和LLM存在分布漂移问题

核心贡献

创新架构：提出了帧级连续token扩散头，集成到自回归MLLM框架中，区别于现有的块级多帧设计
双头设计：设计了保持统一多模态框架的双头架构，LM头支持可变长度语音合成
训练策略：通过掩码训练缓解自回归暴露偏差，提高时序一致性和模型鲁棒性
优化方案：提出两阶段训练策略稳定优化过程，相对WER降低46%，达到LibriSpeech(PC)上的SOTA自回归性能

方法详解

任务定义

输入：文本转录和参考音频片段输出：具有指定说话人特征的高质量语音约束：在统一的MLLM框架内实现，保持多任务能力

模型架构

整体设计

模型采用双头架构，基于OPT-125M作为LLM骨干网络：

扩散头：生成连续语音嵌入
语言模型头：预测语音边界和控制token
多模态投影：处理不同模态的表示转换

连续token生成

给定目标序列 $x = \{x_1, ..., x_N\}$ ，其中 $x_i \in \mathbb{R}^d$ 表示第i帧的语音嵌入。

推理过程：

z_i = C_θ(p, x̂_{<i})  # LLM生成条件向量
x̂_i = Diffusion_φ(z_i)  # 扩散头生成语音嵌入

训练过程：采用标准DDPM训练，损失函数为：

L_diff(θ,φ) = E_t[||ε - ε̂||²]

其中噪声预测 $\hat{\varepsilon} = M_\phi(x_i^t, t, z_i)$

EOS控制机制

引入特殊token实现边界控制：

<speech_bos>：触发语音生成阶段
<cont_speech_gen>：继续生成语音帧
<eos>：终止语音生成

总损失函数：

L = L_LM + L_diff

技术创新点

1. 掩码自回归学习

为缓解暴露偏差，采用掩码训练策略：

以概率 $p_{mask}$ 随机掩码历史帧
用零向量替换被掩码的帧
训练模型处理不完美的历史信息

2. 两阶段训练

阶段1：联合训练MLLM和扩散头 阶段2：冻结MLLM，仅训练扩散头

这种设计解决了分布漂移问题，稳定了训练过程。

实验设置

数据集

训练数据：LibriVox语料库50k小时子集（来自Libri-Light）
评估数据：LibriSpeech(PC) test-clean数据集
评估协议：随机选择40个说话人，每人一个utterance，附加3秒参考音频

评价指标

智能度：Word Error Rate (WER) - 使用Whisper-Large转录计算
说话人相似度：使用ECAPA-TDNN提取嵌入计算余弦相似度
- SIM-R：与参考音频的相似度
- SIM-G：与真实语音的相似度
语音质量：UTMOS - 基于大规模人类评分训练的MOS预测器

对比方法

VALL-E：离散token方法（400M参数）
MegaTTS：连续token方法（500M参数）
Voicebox：非自回归连续方法（400M参数）
StyleTTS2：非自回归连续方法（700M参数）

实现细节

骨干网络：OPT-125M
语音表示：64维VAE嵌入，25fps
说话人嵌入：768维LAM嵌入
扩散参数：T=1000步训练，100步推理，余弦噪声调度
优化器：Adam，无权重衰减，FP16混合精度

实验结果

主要结果

方法	建模方式	Token类型	参数量	WER(%)↓	SIM↑	UTMOS↑
VALL-E	AR+NAR	离散	400M	6.11	0.47	3.68
MegaTTS	AR+NAR	连续	500M	2.32	0.53	4.02
Voicebox	NAR	连续	400M	2.14	0.48	3.73
StyleTTS2	NAR	连续	700M	2.49	0.38	3.94
本文方法	AR	连续	160M	1.95	0.54	4.00