2025-11-13T21:10:11.295731

Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs

He, Ray, Mallidi et al.
Unified architectures in multimodal large language models (MLLM) have shown promise in handling diverse tasks within a single framework. In the text-to-speech (TTS) task, current MLLM-based approaches rely on discrete token representations, which disregard the inherently continuous nature of speech and can lead to loss of fine-grained acoustic information.In this work, we investigate the TTS within the MLLM paradigm using continuous speech representations. We design a dual-head architecture and implement two complementary training strategies for a robust model. (1) A diffusion head generating continuous speech representations is added on the MLLM, which is on frame-level and strictly autoregressive. (2) The original language model head is retained to preserve multitask capability and to control the start and end of speech synthesis. (3) Masked training is employed to address exposure bias in autoregressive decoding. (4) To stabilize optimization, we propose a two-stage scheme where the LM is frozen in the second stage, ensuring the diffusion head learns from a fixed input distribution. Evaluations on LibriSpeech(PC) test-clean show that our approach achieves state-of-the-art autoregressive performance, with a WER of 1.95%, speaker similarity of 0.54, and UTMOS of 4.00. The two-stage training yields a 46% relative WER reduction over the one-stage training baseline. These results highlight the effectiveness of combining autoregressive modeling with continuous-token diffusion, supported by a two-stage training procedure.
academic

Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs

基本信息

  • 论文ID: 2510.12995
  • 标题: Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs
  • 作者: Xinlu He¹, Swayambhu Nath Ray², Harish Mallidi², Jia-Hong Huang², Ashwin Bellur², Chander Chandak², M. Maruf², Venkatesh Ravichandran²
  • 机构: ¹Worcester Polytechnic Institute, USA ²Amazon AGI, USA
  • 分类: eess.AS cs.SD
  • 发表会议: NeurIPS 2025 Workshop: Structured Probabilistic Inference & Generative Modeling (SPIGM)
  • 论文链接: https://arxiv.org/abs/2510.12995

摘要

统一的多模态大语言模型(MLLM)架构在单一框架内处理多样化任务方面显示出了前景。在文本转语音(TTS)任务中,当前基于MLLM的方法依赖于离散token表示,这忽略了语音固有的连续性质,可能导致细粒度声学信息的丢失。本工作在MLLM范式内使用连续语音表示来研究TTS。设计了双头架构并实现了两种互补的训练策略来构建鲁棒模型。该方法在LibriSpeech(PC) test-clean上取得了最先进的自回归性能,WER为1.95%,说话人相似度为0.54,UTMOS为4.00。

研究背景与动机

问题定义

当前基于MLLM的TTS方法主要存在以下问题:

  1. 离散化损失:现有方法将语音转换为离散token,忽略了语音的连续性质,导致细粒度声学信息丢失
  2. 量化瓶颈:离散量化会丢弃精细的声学细节,限制了语音的自然度和保真度
  3. 统一框架缺失:缺乏在保持MLLM多任务能力的同时生成高质量连续语音的有效方法

研究重要性

  1. 技术需求:随着多模态AI的发展,需要在统一框架内处理文本和语音任务
  2. 质量提升:连续表示能更好地保持语音的内在属性,提高合成质量
  3. 应用价值:零样本说话人克隆技术在个性化语音合成中具有重要应用价值

现有方法局限性

  1. 多阶段系统:如VALL-E需要多个阶段,增加了复杂性
  2. 信息丢失:离散编码会丢失细粒度声学信息
  3. 训练不稳定:联合优化扩散模型和LLM存在分布漂移问题

核心贡献

  1. 创新架构:提出了帧级连续token扩散头,集成到自回归MLLM框架中,区别于现有的块级多帧设计
  2. 双头设计:设计了保持统一多模态框架的双头架构,LM头支持可变长度语音合成
  3. 训练策略:通过掩码训练缓解自回归暴露偏差,提高时序一致性和模型鲁棒性
  4. 优化方案:提出两阶段训练策略稳定优化过程,相对WER降低46%,达到LibriSpeech(PC)上的SOTA自回归性能

方法详解

任务定义

输入:文本转录和参考音频片段 输出:具有指定说话人特征的高质量语音 约束:在统一的MLLM框架内实现,保持多任务能力

模型架构

整体设计

模型采用双头架构,基于OPT-125M作为LLM骨干网络:

  1. 扩散头:生成连续语音嵌入
  2. 语言模型头:预测语音边界和控制token
  3. 多模态投影:处理不同模态的表示转换

连续token生成

给定目标序列 x={x1,...,xN}x = \{x_1, ..., x_N\},其中 xiRdx_i \in \mathbb{R}^d 表示第i帧的语音嵌入。

推理过程

z_i = C_θ(p, x̂_{<i})  # LLM生成条件向量
x̂_i = Diffusion_φ(z_i)  # 扩散头生成语音嵌入

训练过程: 采用标准DDPM训练,损失函数为:

L_diff(θ,φ) = E_t[||ε - ε̂||²]

其中噪声预测 ε^=Mϕ(xit,t,zi)\hat{\varepsilon} = M_\phi(x_i^t, t, z_i)

EOS控制机制

引入特殊token实现边界控制:

  • <speech_bos>:触发语音生成阶段
  • <cont_speech_gen>:继续生成语音帧
  • <eos>:终止语音生成

总损失函数:

L = L_LM + L_diff

技术创新点

1. 掩码自回归学习

为缓解暴露偏差,采用掩码训练策略:

  • 以概率 pmaskp_{mask} 随机掩码历史帧
  • 用零向量替换被掩码的帧
  • 训练模型处理不完美的历史信息

2. 两阶段训练

阶段1:联合训练MLLM和扩散头 阶段2:冻结MLLM,仅训练扩散头

这种设计解决了分布漂移问题,稳定了训练过程。

实验设置

数据集

  • 训练数据:LibriVox语料库50k小时子集(来自Libri-Light)
  • 评估数据:LibriSpeech(PC) test-clean数据集
  • 评估协议:随机选择40个说话人,每人一个utterance,附加3秒参考音频

评价指标

  1. 智能度:Word Error Rate (WER) - 使用Whisper-Large转录计算
  2. 说话人相似度:使用ECAPA-TDNN提取嵌入计算余弦相似度
    • SIM-R:与参考音频的相似度
    • SIM-G:与真实语音的相似度
  3. 语音质量:UTMOS - 基于大规模人类评分训练的MOS预测器

对比方法

  • VALL-E:离散token方法(400M参数)
  • MegaTTS:连续token方法(500M参数)
  • Voicebox:非自回归连续方法(400M参数)
  • StyleTTS2:非自回归连续方法(700M参数)

实现细节

  • 骨干网络:OPT-125M
  • 语音表示:64维VAE嵌入,25fps
  • 说话人嵌入:768维LAM嵌入
  • 扩散参数:T=1000步训练,100步推理,余弦噪声调度
  • 优化器:Adam,无权重衰减,FP16混合精度

实验结果

主要结果

方法建模方式Token类型参数量WER(%)↓SIM↑UTMOS↑
VALL-EAR+NAR离散400M6.110.473.68
MegaTTSAR+NAR连续500M2.320.534.02
VoiceboxNAR连续400M2.140.483.73
StyleTTS2NAR连续700M2.490.383.94
本文方法AR连续160M1.950.544.00

关键发现

  • 以仅160M参数实现了最佳性能
  • 相比阶段1基线,WER相对降低46%(3.61%→1.95%)
  • 在所有指标上均优于更大的模型

消融实验

掩码比例影响

掩码比例(%)WER(%)↓SIM-R↑UTMOS↑
015.060.452.00
1512.650.451.39
306.170.463.21
508.130.462.84

发现:30%掩码比例达到最佳平衡

扩散头深度影响

MLP层数阶段2微调WER(%)↓SIM-R↑UTMOS↑
36.170.463.10
65.120.503.10
123.610.493.21
121.950.544.00

发现:更深的网络和两阶段训练都带来显著提升

停止准则比较

停止准则WER(%)↓SIM-R↑UTMOS↑
GT-Dur.29.360.482.55
GT-EP.3.460.493.21
EOS Token3.610.493.21

发现:EOS token方法在不需要oracle信息的情况下达到了comparable性能

相关工作

零样本TTS

  • 多阶段系统:VALL-E、SALAD等通过语义或编解码token的多阶段处理
  • 单阶段方法:MegaTTS、NaturalSpeech直接生成高信息连续表示
  • 本文贡献:在统一MLLM框架内实现单阶段连续语音生成

自回归扩散

  • 现有方法:TransFusion等尝试结合自回归和扩散,但在严格因果生成上存在困难
  • 本文创新:实现了严格的帧级自回归连续表示扩散

结论与讨论

主要结论

  1. 有效性验证:连续token扩散在MLLM框架内的TTS任务中显著优于离散方法
  2. 效率优势:以更少参数(160M vs 400-700M)实现更好性能
  3. 训练策略重要性:两阶段训练和掩码学习对性能提升至关重要

局限性

  1. 计算复杂度:扩散过程需要多步推理,计算开销较大
  2. 单语言限制:当前仅在英语数据上验证
  3. 说话人泛化:对未见说话人的泛化能力有待进一步验证
  4. 实时性:100步扩散推理可能影响实时应用

未来方向

  1. 多语言扩展:扩展到多语言TTS任务
  2. 推理加速:研究更快的扩散采样方法
  3. 统一框架:集成更多语音任务(ASR、语音翻译等)
  4. 长文本合成:提高长序列语音合成的稳定性

深度评价

优点

  1. 技术创新
    • 首次在MLLM框架内实现帧级连续扩散
    • 双头架构设计巧妙,保持了统一性
    • 两阶段训练有效解决了分布漂移问题
  2. 实验充分
    • 全面的消融实验验证各组件贡献
    • 多维度评价指标(智能度、相似度、质量)
    • 与多个强基线的公平比较
  3. 结果说服力
    • 显著的性能提升(46% WER相对降低)
    • 参数效率优势明显
    • 达到了SOTA自回归性能

不足

  1. 方法复杂性
    • 需要两阶段训练,增加了训练复杂度
    • 多个超参数需要调优(掩码比例、扩散步数等)
  2. 实验局限
    • 仅在单一数据集上验证
    • 缺乏主观评价实验
    • 推理速度分析不足
  3. 理论分析
    • 对两阶段训练的理论解释相对简单
    • 缺乏收敛性分析

影响力

  1. 学术价值:为MLLM中的连续语音生成提供了新的技术路径
  2. 实用价值:在保持统一框架的同时实现高质量语音合成
  3. 可复现性:实现细节描述详细,便于复现

适用场景

  1. 个性化语音助手:零样本说话人克隆能力
  2. 多模态对话系统:统一的文本和语音处理
  3. 内容创作:高质量的语音内容生成
  4. 辅助技术:为视听障碍人士提供语音合成服务

参考文献

论文引用了42篇相关文献,涵盖了多模态LLM、扩散模型、语音合成等关键领域的重要工作,为本研究提供了坚实的理论基础。


总体评价:这是一篇在多模态大语言模型框架内进行语音合成的高质量研究工作。论文提出的连续token扩散方法在技术上具有创新性,实验结果令人信服,为统一多模态AI系统的发展提供了有价值的贡献。尽管存在一些局限性,但其技术路线和实验验证为该领域的后续研究奠定了良好基础。