This paper presents a comparative study of context management strategies for end-to-end Spoken Dialog State Tracking using Speech-LLMs. We systematically evaluate traditional multimodal context (combining text history and spoken current turn), full spoken history, and compressed spoken history approaches. Our experiments on the SpokenWOZ corpus demonstrate that providing the full spoken conversation as input yields the highest performance among models of similar size, significantly surpassing prior methods. Furthermore, we show that attention-pooling-based compression of the spoken history offers a strong trade-off, maintaining competitive accuracy with reduced context size. Detailed analysis confirms that improvements stem from more effective context utilization.
论文ID : 2510.09424标题 : The Speech-LLM Takes It All: A Truly Fully End-to-End Spoken Dialogue State Tracking Approach作者 : Nizar El Ghazal, Antoine Caubrière, Valentin Vielzeuf (Orange Innovation)分类 : cs.CL cs.AI cs.LG eess.AS发表时间 : 2025年10月10日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.09424 本文针对端到端口语对话状态跟踪任务,提出了基于Speech-LLM的上下文管理策略比较研究。作者系统评估了传统多模态上下文(结合文本历史和当前口语轮次)、完整口语历史以及压缩口语历史三种方法。在SpokenWOZ语料库上的实验表明,提供完整口语对话作为输入在同等规模模型中获得最高性能,显著超越现有方法。此外,基于注意力池化的口语历史压缩提供了强有力的权衡方案,在减少上下文大小的同时保持竞争性准确率。
对话状态跟踪(DST)是任务导向对话系统的关键组件,负责理解和维护多轮对话的上下文。然而,口语对话状态跟踪(Spoken DST)仍是一个相对不成熟的研究领域,当前系统性能显著落后于书面对话场景。
级联系统的错误传播 :传统方法采用ASR + DST的级联架构,容易受到ASR阶段错误传播的影响,特别是在处理专有名词和领域特定术语时上下文管理策略不统一 :现有端到端方法在上下文处理上存在分歧,如何有效整合口语和文本信息仍无定论缺乏系统性比较 :缺少对不同上下文管理策略的系统性评估和分析作者提出核心问题:如果完全依赖口语上下文会如何?是通过为系统提供整个对话的语音表示,还是通过中间模块压缩这些表示?本研究旨在探索这些可能性并提供系统性答案。
验证了Speech-LLM在口语DST任务上的有效性 ,为该领域提供了新的技术路径提出了两种达到SOTA性能的上下文管理方法 :完整口语上下文和压缩口语上下文证明了简单而有效的方法 :直接将整个口语对话输入模型,无需额外压缩或模态混合,即可获得最佳性能提供了详细的分析和消融实验 ,验证了改进来源于更有效的上下文利用给定口语对话轮次序列 U 1 , A 2 , . . . , A t − 1 , U t − 1 U_1, A_2, ..., A_{t-1}, U_{t-1} U 1 , A 2 , ... , A t − 1 , U t − 1 ,目标是预测k个相关领域( d o m a i n 1 , d o m a i n 2 , . . . , d o m a i n k ) (domain_1, domain_2, ..., domain_k) ( d o mai n 1 , d o mai n 2 , ... , d o mai n k ) 和n个槽值对( s l o t 1 = v a l u e 1 , s l o t 2 = v a l u e 2 , . . . , s l o t n = v a l u e n ) (slot_1 = value_1, slot_2 = value_2, ..., slot_n = value_n) ( s l o t 1 = v a l u e 1 , s l o t 2 = v a l u e 2 , ... , s l o t n = v a l u e n ) ,并表示为JSON结构。
系统由三个主要组件构成:
语音编码器 :处理整个对话历史,计算每轮的密集表示连接器 :将语音特征映射到LLM输入空间大语言模型(LLM) :以自回归方式生成对话状态压缩模块 (可选):用于减少上下文长度输入 :口语用户话语 U n s p o k e n U^{spoken}_n U n s p o k e n + 书面对话历史提示格式 :h_n { "history": Context_n, "user last turn": U^{text}_n,
"domains": D_n, "predicted state": S_n }
输入 :完整口语对话 C o n t e x t n = ( U 1 s p o k e n , A 2 s p o k e n , . . . , U n s p o k e n ) Context_n = (U^{spoken}_1, A^{spoken}_2, ..., U^{spoken}_n) C o n t e x t n = ( U 1 s p o k e n , A 2 s p o k e n , ... , U n s p o k e n ) 提示格式 :Speech_Emb {"domains": D_n, "predicted state": S_n}
压缩机制 :使用N q u e r i e s N_{queries} N q u er i es 个可训练查询向量Q,通过TransformerDecoder计算:z_i = TransformerDecoder(Q, h_i)
Speech_Emb = (z_1||z_2||...||z_n)
采用两阶段训练:
ASR预训练 :冻结LLM,训练语音编码器和连接器对齐语音-文本模态DST微调 :冻结语音编码器,训练连接器、压缩模块和LLM的LoRA适配器ASR预训练 :Loquacious Medium (2,500小时) + Fisher语料库 (1,960小时) + SpokenWOZ训练集 (200小时)DST微调 :SpokenWOZ数据集,移除9个损坏对话,使用联合目标准确率(JGA)评估语音编码器 :W2v-BERT连接器 :单层Transformer编码器 (隐藏维度1024,16个注意力头)压缩模块 :单层Transformer解码器 (相同配置)LLM :OLMo 2 1B,使用LoRA适配器 (rank=16, alpha=1)主要使用联合目标准确率(JGA),并进行后处理包括时间表达式规范化和模糊匹配。
模型 SWOZ测试集JGA SPACE+WavLMalign 25.65% E2E (Whisper+T5) 24.10% UBAR + GenWOZ 25.90% WavLM + conn. + OLMo-1B 34.66% 压缩口语上下文 (本文) 36.49% 完整口语上下文 (本文) 39.32% WavLM + conn. + Gemma-2-9B 42.17%
方法 SWOZ Dev SWOZ Test 多模态上下文 (基线) 31.85% 32.06% 完整口语上下文 36.89% 36.29% 压缩口语上下文 (1查询) 31.03% 30.99% 压缩口语上下文 (10查询) 34.26% 33.51%
分类槽 :所有模型表现良好,完整口语上下文略优时间槽和开放槽 :完整口语上下文和10查询压缩明显优于其他方法个人信息槽 :最具挑战性,完整口语上下文领先,1查询模型表现最差早期轮次(1-5) :所有模型表现良好中期轮次(5-30) :准确率快速下降,完整口语上下文始终领先后期轮次(40+) :准确率接近零,受限于小型LLM容量对六个错误率最高的槽进行分析发现:
大多数预测达到高模糊比率(>0.8),表明模型通常能近似正确预测槽值 餐厅名、景点名、酒店名的错误主要来自插入和删除,而非替换 个人信息相关槽仍然极具挑战性 级联系统 :ASR + DST的流水线方法,在DSTC11挑战赛中表现优异端到端系统 :直接从语音到对话状态,避免错误传播语音感知大语言模型在ASR和响应生成等任务中展现潜力 近期工作将Speech-LLM应用于口语DST,取得SOTA性能 现有方法在上下文处理上存在差异,本文首次系统性比较不同策略的效果。
完整口语上下文策略最有效 :直接使用整个口语对话作为输入获得最佳性能压缩策略提供良好权衡 :10查询压缩在保持竞争性能的同时显著减少上下文大小Speech-LLM在口语DST任务上表现优异 :为该领域提供了新的技术路径计算复杂度 :完整口语上下文方法对于很长对话可能计算开销大模型规模限制 :未在更大规模LLM(如Gemma-2-9B)上验证数据集局限 :主要在SpokenWOZ上验证,需要更多数据集验证泛化性探索更复杂紧凑的口语上下文处理方法 扩展到更大规模模型 在更多口语对话数据集上验证 问题定义清晰 :针对口语DST中上下文管理这一关键问题进行系统性研究方法创新性强 :首次系统比较不同上下文管理策略,提出简单有效的完整口语上下文方法实验设计完整 :包含充分的消融实验、细粒度分析和错误分析结果说服力强 :在多个维度上证明了方法的有效性,取得显著性能提升分析深入透彻 :从槽类型、对话轮次等多角度分析方法优势计算效率分析不足 :未详细分析不同方法的计算复杂度和推理时间大模型验证缺失 :未在更大规模LLM上验证方法的可扩展性跨数据集泛化性 :主要在单一数据集上验证,泛化性有待进一步验证理论分析不够 :缺乏为什么完整口语上下文更有效的深层理论解释学术价值 :为口语DST领域提供了新的研究思路和基准方法实用价值 :方法简单有效,易于复现和应用技术贡献 :证明了Speech-LLM在口语理解任务中的潜力任务导向对话系统 :特别适用于需要准确状态跟踪的口语对话系统多轮对话理解 :适用于需要长期上下文理解的应用场景低资源场景 :相对小型的模型规模使其适用于资源受限的部署环境本文引用了对话状态跟踪、口语对话系统、Speech-LLM等相关领域的重要文献,特别是:
SpokenWOZ数据集相关工作 DSTC挑战赛系列 端到端口语对话系统研究 Speech-LLM模型发展 总体评价 :这是一篇高质量的研究论文,针对口语对话状态跟踪中的核心问题提出了简单而有效的解决方案。实验设计完整,分析深入,为该领域提供了重要贡献。尽管存在一些局限性,但其创新性和实用性使其具有重要的学术和应用价值。