2025-11-12T05:43:09.400515

The Speech-LLM Takes It All: A Truly Fully End-to-End Spoken Dialogue State Tracking Approach

Ghazal, CaubriÃ¨re, Vielzeuf

This paper presents a comparative study of context management strategies for end-to-end Spoken Dialog State Tracking using Speech-LLMs. We systematically evaluate traditional multimodal context (combining text history and spoken current turn), full spoken history, and compressed spoken history approaches. Our experiments on the SpokenWOZ corpus demonstrate that providing the full spoken conversation as input yields the highest performance among models of similar size, significantly surpassing prior methods. Furthermore, we show that attention-pooling-based compression of the spoken history offers a strong trade-off, maintaining competitive accuracy with reduced context size. Detailed analysis confirms that improvements stem from more effective context utilization.

academic

The Speech-LLM Takes It All: A Truly Fully End-to-End Spoken Dialogue State Tracking Approach

基本信息

论文ID: 2510.09424
标题: The Speech-LLM Takes It All: A Truly Fully End-to-End Spoken Dialogue State Tracking Approach
作者: Nizar El Ghazal, Antoine Caubrière, Valentin Vielzeuf (Orange Innovation)
分类: cs.CL cs.AI cs.LG eess.AS
发表时间: 2025年10月10日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.09424

摘要

本文针对端到端口语对话状态跟踪任务，提出了基于Speech-LLM的上下文管理策略比较研究。作者系统评估了传统多模态上下文（结合文本历史和当前口语轮次）、完整口语历史以及压缩口语历史三种方法。在SpokenWOZ语料库上的实验表明，提供完整口语对话作为输入在同等规模模型中获得最高性能，显著超越现有方法。此外，基于注意力池化的口语历史压缩提供了强有力的权衡方案，在减少上下文大小的同时保持竞争性准确率。

研究背景与动机

问题定义

对话状态跟踪(DST)是任务导向对话系统的关键组件，负责理解和维护多轮对话的上下文。然而，口语对话状态跟踪(Spoken DST)仍是一个相对不成熟的研究领域，当前系统性能显著落后于书面对话场景。

现有方法局限性

级联系统的错误传播：传统方法采用ASR + DST的级联架构，容易受到ASR阶段错误传播的影响，特别是在处理专有名词和领域特定术语时
上下文管理策略不统一：现有端到端方法在上下文处理上存在分歧，如何有效整合口语和文本信息仍无定论
缺乏系统性比较：缺少对不同上下文管理策略的系统性评估和分析

研究动机

作者提出核心问题：如果完全依赖口语上下文会如何？是通过为系统提供整个对话的语音表示，还是通过中间模块压缩这些表示？本研究旨在探索这些可能性并提供系统性答案。

核心贡献

验证了Speech-LLM在口语DST任务上的有效性，为该领域提供了新的技术路径
提出了两种达到SOTA性能的上下文管理方法：完整口语上下文和压缩口语上下文
证明了简单而有效的方法：直接将整个口语对话输入模型，无需额外压缩或模态混合，即可获得最佳性能
提供了详细的分析和消融实验，验证了改进来源于更有效的上下文利用

方法详解

任务定义

给定口语对话轮次序列 $U_1, A_2, ..., A_{t-1}, U_{t-1}$ ，目标是预测k个相关领域 $(domain_1, domain_2, ..., domain_k)$ 和n个槽值对 $(slot_1 = value_1, slot_2 = value_2, ..., slot_n = value_n)$ ，并表示为JSON结构。

模型架构

系统由三个主要组件构成：

语音编码器：处理整个对话历史，计算每轮的密集表示
连接器：将语音特征映射到LLM输入空间
大语言模型(LLM)：以自回归方式生成对话状态
压缩模块（可选）：用于减少上下文长度

三种上下文管理策略

1. 多模态上下文 (Multimodal Context)

输入：口语用户话语 $U^{spoken}_n$ + 书面对话历史
提示格式：

h_n { "history": Context_n, "user last turn": U^{text}_n, 
     "domains": D_n, "predicted state": S_n }

特点：结合口语当前轮次和文本历史信息

2. 完整口语上下文 (Full Spoken Context)

输入：完整口语对话 $Context_n = (U^{spoken}_1, A^{spoken}_2, ..., U^{spoken}_n)$
提示格式：

Speech_Emb {"domains": D_n, "predicted state": S_n}

特点：纯口语输入，避免模态转换损失

3. 压缩口语上下文 (Compressed Spoken Context)

压缩机制：使用 $N_{queries}$ 个可训练查询向量Q，通过TransformerDecoder计算：

z_i = TransformerDecoder(Q, h_i)
Speech_Emb = (z_1||z_2||...||z_n)

特点：在保持性能的同时显著减少上下文长度

训练策略

采用两阶段训练：

ASR预训练：冻结LLM，训练语音编码器和连接器对齐语音-文本模态
DST微调：冻结语音编码器，训练连接器、压缩模块和LLM的LoRA适配器

实验设置

数据集

ASR预训练：Loquacious Medium (2,500小时) + Fisher语料库 (1,960小时) + SpokenWOZ训练集 (200小时)
DST微调：SpokenWOZ数据集，移除9个损坏对话，使用联合目标准确率(JGA)评估

模型配置

语音编码器：W2v-BERT
连接器：单层Transformer编码器 (隐藏维度1024，16个注意力头)
压缩模块：单层Transformer解码器 (相同配置)
LLM：OLMo 2 1B，使用LoRA适配器 (rank=16, alpha=1)

评价指标

主要使用联合目标准确率(JGA)，并进行后处理包括时间表达式规范化和模糊匹配。

实验结果

主要结果

模型	SWOZ测试集JGA
SPACE+WavLMalign	25.65%
E2E (Whisper+T5)	24.10%
UBAR + GenWOZ	25.90%
WavLM + conn. + OLMo-1B	34.66%
压缩口语上下文 (本文)	36.49%
完整口语上下文 (本文)	39.32%
WavLM + conn. + Gemma-2-9B	42.17%

上下文管理方法比较

方法	SWOZ Dev	SWOZ Test
多模态上下文 (基线)	31.85%	32.06%
完整口语上下文	36.89%	36.29%
压缩口语上下文 (1查询)	31.03%	30.99%
压缩口语上下文 (10查询)	34.26%	33.51%