2025-11-16T10:07:12.234140

SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation

Lu, Cheng, Luo et al.

Recently, ``textless" speech language models (SLMs) based on speech units have made huge progress in generating naturalistic speech, including non-verbal vocalizations. However, the generated speech samples often lack semantic coherence. In this paper, we propose SLM and LLM Integration for spontaneous spoken Dialogue gEneration (SLIDE). Specifically, we first utilize an LLM to generate the textual content of spoken dialogue. Next, we convert the textual dialogues into phoneme sequences and use a two-tower transformer-based duration predictor to predict the duration of each phoneme. Finally, an SLM conditioned on the spoken phoneme sequences is used to vocalize the textual dialogue. Experimental results on the Fisher dataset demonstrate that our system can generate naturalistic spoken dialogue while maintaining high semantic coherence.

academic

SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation

基本信息

论文ID: 2501.00805
标题: SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation
作者: Haitian Lu, Gaofeng Cheng, Liuping Luo, Leying Zhang, Yanmin Qian, Pengyuan Zhang
分类: eess.AS cs.CL cs.SD
发表时间: 2025年1月1日（arXiv预印本）
论文链接: https://arxiv.org/abs/2501.00805

摘要

近年来，基于语音单元的"无文本"语音语言模型（SLM）在生成自然语音（包括非言语发声）方面取得了巨大进展。然而，生成的语音样本往往缺乏语义连贯性。本文提出了SLIDE（SLM和LLM集成的自发口语对话生成）方法。具体而言，首先利用LLM生成口语对话的文本内容，然后将文本对话转换为音素序列，使用基于双塔transformer的持续时间预测器预测每个音素的持续时间，最后使用以口语音素序列为条件的SLM来发声文本对话。在Fisher数据集上的实验结果表明，该系统能够生成自然的口语对话，同时保持高语义连贯性。

研究背景与动机

问题定义

本研究旨在解决自发口语对话生成中的核心矛盾：如何在保持语音自然性的同时确保语义连贯性。口语对话包含两个关键方面：

语义方面：对话内容的意义性，对传达准确相关信息至关重要
自然性方面：轮次转换的流畅性，包括话语间停顿单元（IPUs）、重叠、间隙、停顿以及笑声和反馈等自然对话事件

现有方法局限性

传统级联系统：虽然语义连贯性强（得益于在数百亿词汇上训练的LLM），但生成自然对话的能力有限，因为：
- 不考虑任何组件内的轮次转换事件
- 难以生成包含笑声和反馈的自然对话
- 中间阶段将语音编码为文本会丢失副语言信息
基于SLM的方法（如dGSLM）：能有效捕获对话元素和轮次转换模式，但面临语义连贯性挑战：
- 语音单元粒度过细（通常仅20ms），不适合建模扩展上下文的语义内容
- 细粒度特性显著增加了对大型训练数据集的需求

研究动机

本文提出混合方案，利用文本捕获语义上下文，同时使用语音单元保留副语言信息（如非言语发声和轮次转换模式），旨在结合传统级联系统和基于SLM系统的优势。

核心贡献

将LLM纳入口语对话生成框架：利用LLM生成文本对话，充分发挥LLM的先进文本生成能力
提出基于双塔transformer的音素持续时间预测：使用双塔transformer模型预测书面音素序列中每个音素的持续时间，确保保持轮次转换的流畅性
基于口语音素序列的条件化dGSLM：将从文本对话派生的口语音素序列作为条件输入dGSLM，有效地将自然对话事件融入生成的语音中，同时保持语义连贯性

使用语音识别模型（Whisper-v3）将提示对话音频转录为文本
利用LLM（GPT-4o）生成对话延续，指导其生成口语风格的对话
排除对话事件标记（如laughter、sigh），专注于言语反馈如"yeah"、"right"、"okay"

2. 基于双塔Transformer的书面音素序列持续时间预测

使用强制对齐模型获取训练数据集中真实转录的音素级文本-语音对齐
引入额外的静音音素，根据强制对齐确定的持续时间重复每个音素
训练阶段：使用教师强制方法，损失函数结合边缘单元损失和边缘持续时间损失
推理阶段：执行无条件生成，通过替换机制确保与书面音素序列的对应

3. 基于口语音素序列条件的dGSLM语音对话生成

训练阶段：使用HuBERT编码器将口语对话编码为音频标记，连接的口语音素序列和音频标记作为输入和训练目标
每个对话样本分割为80秒间隔，包含8000个离散标记（前4000个为口语音素序列，后4000个为音频标记）
推理阶段：将口语音素序列调整为4000个标记的固定长度，自回归生成音频标记

技术创新点

混合表示策略：创新性地结合文本的语义建模能力和语音单元的韵律/副语言建模能力
条件化生成机制：通过口语音素序列条件化约束dGSLM输出，确保生成对话的语义连贯性
时间对齐处理：通过持续时间预测和重复机制，保持音素序列与音频的时间对应关系

实验设置

数据集

Fisher数据集：2000小时立体声电话对话音频，采样率8kHz，重采样至16kHz
每个对话样本分割为80秒间隔进行训练

评价指标

客观评价

自然性评估：
- 轮次转换事件的时间分布统计（IPUs、重叠、间隙、停顿）
- 使用pyannote.audio计算相关统计数据
语义连贯性评估：
- 使用Whisper-v3转录生成的口语对话
- 使用DialoGPT计算文本转录的困惑度

主观评价

N-MOS（自然度评分）：评估自然对话事件和轮次转换流畅性
M-MOS（意义性评分）：评估对话的逻辑一致性和意义
评分范围：1-5分，每个样本至少5人评分

对比方法

Cascaded系统：传统级联方法（ASR+LLM+TTS）
dGSLM：原始的生成式口语对话语言模型
SLIDE-1：直接使用测试数据集的文本对话
SLIDE-2：使用LLM生成的文本对话

实现细节

使用6块A100 40GB GPU训练
持续时间预测器：批大小48，训练50000步
条件化dGSLM：批大小96，训练250000步
生成温度设置为1

模型	IPU次数/分钟	停顿次数/分钟	间隙次数/分钟	重叠次数/分钟
Cascaded	17.5	0.0	14.9	0.0
dGSLM	30.6	12.0	9.0	8.7
SLIDE-1	25.6	9.4	5.6	9.5
SLIDE-2	31.3	6.3	7.6	15.8
Ground Truth	27.3	9.9	8.9	8.2

语义连贯性和主观评价

模型	困惑度 ↓	N-MOS ↑	M-MOS ↑
Cascaded	-	2.38±0.63	2.70±0.38
dGSLM	1228.82	4.14±0.78	1.52±0.40
SLIDE-1	532.81	4.37±0.46	3.94±0.81
SLIDE-2	421.29	4.06±0.41	4.08±0.49
Ground Truth	371.16	4.72±0.40	4.63±0.44

关键发现

语义连贯性显著提升：SLIDE-2相比dGSLM困惑度降低65.8%（从1228.82降至421.29），接近真实对话水平（371.16）
自然性保持：SLIDE在轮次转换事件统计上与dGSLM表现相当，显著优于级联系统
意义性大幅改善：SLIDE-2的M-MOS相比dGSLM提升270.0%，与真实对话仅有11.9%的相对差距

计算复杂度：需要训练多个模型组件，计算成本较高
数据依赖：仍需要大规模口语对话数据进行训练
领域适应性：在Fisher数据集上训练，在其他领域的泛化能力有待验证
实时性：多阶段处理可能影响实时对话生成的响应速度

未来方向

探索端到端的联合训练策略
研究更轻量级的模型架构
扩展到多语言和跨域场景
改进实时对话生成的效率

深度评价

优点

创新性强：首次提出结合LLM和SLM的混合架构，解决了长期存在的语义连贯性与自然性权衡问题
方法设计合理：三阶段流水线设计清晰，每个组件的功能明确，技术路线可行
实验充分：包含客观和主观评价，对比方法全面，消融实验验证了设计的有效性
结果显著：在语义连贯性上取得了显著提升（困惑度降低65.8%），同时保持了自然性

不足

系统复杂性：多阶段流水线增加了系统复杂度，可能影响实用性和鲁棒性
计算效率：需要运行多个大型模型，计算成本较高，实时应用存在挑战
错误传播：流水线架构可能存在错误累积问题，前一阶段的错误会影响后续处理
泛化能力：仅在Fisher数据集上验证，跨域和多语言的泛化能力未知

影响力

学术价值：为口语对话生成领域提供了新的研究方向，平衡语义和韵律建模
实用潜力：在虚拟助手、对话系统等应用中具有实用价值
可复现性：提供了详细的实现细节和开源代码，便于复现和改进

适用场景

对话系统：需要生成自然且有意义的口语响应的智能助手
语音合成：要求高自然度的对话式TTS系统
教育培训：口语对话训练和语言学习应用
娱乐媒体：游戏、虚拟角色等需要自然对话的场景

参考文献

本文引用了34篇相关文献，涵盖了语音语言模型、大语言模型、对话生成、语音合成等多个相关领域的重要工作，为研究提供了坚实的理论基础。

总体评价：这是一篇高质量的研究论文，创新性地解决了口语对话生成中的关键问题。虽然存在系统复杂度和计算效率方面的挑战，但其技术贡献和实验结果都很有说服力，为该领域的发展提供了有价值的新思路。