2025-11-12T05:43:09.400515

The Speech-LLM Takes It All: A Truly Fully End-to-End Spoken Dialogue State Tracking Approach

Ghazal, CaubriÃ¨re, Vielzeuf

This paper presents a comparative study of context management strategies for end-to-end Spoken Dialog State Tracking using Speech-LLMs. We systematically evaluate traditional multimodal context (combining text history and spoken current turn), full spoken history, and compressed spoken history approaches. Our experiments on the SpokenWOZ corpus demonstrate that providing the full spoken conversation as input yields the highest performance among models of similar size, significantly surpassing prior methods. Furthermore, we show that attention-pooling-based compression of the spoken history offers a strong trade-off, maintaining competitive accuracy with reduced context size. Detailed analysis confirms that improvements stem from more effective context utilization.

academic

El Speech-LLM Lo Toma Todo: Un Enfoque Verdaderamente Completamente End-to-End para el Seguimiento del Estado del Diálogo Hablado

Información Básica

ID del Artículo: 2510.09424
Título: The Speech-LLM Takes It All: A Truly Fully End-to-End Spoken Dialogue State Tracking Approach
Autores: Nizar El Ghazal, Antoine Caubrière, Valentin Vielzeuf (Orange Innovation)
Clasificación: cs.CL cs.AI cs.LG eess.AS
Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09424

Resumen

Este artículo propone un estudio comparativo de estrategias de gestión de contexto basadas en Speech-LLM para la tarea de seguimiento del estado del diálogo hablado end-to-end. Los autores evalúan sistemáticamente tres enfoques: contexto multimodal tradicional (combinando historial de texto e intervenciones habladas actuales), historial hablado completo e historial hablado comprimido. Los experimentos en el corpus SpokenWOZ demuestran que proporcionar diálogos hablados completos como entrada logra el mejor rendimiento entre modelos de tamaño equivalente, superando significativamente los métodos existentes. Además, la compresión del historial hablado basada en agrupación de atención proporciona un equilibrio sólido, manteniendo precisión competitiva mientras se reduce el tamaño del contexto.

Antecedentes de Investigación y Motivación

Definición del Problema

El seguimiento del estado del diálogo (DST) es un componente clave de los sistemas de diálogo orientados a tareas, responsable de comprender y mantener el contexto de diálogos multiturno. Sin embargo, el seguimiento del estado del diálogo hablado (Spoken DST) sigue siendo un campo de investigación relativamente inmaduro, con el rendimiento del sistema actual significativamente rezagado respecto a escenarios de diálogo escrito.

Limitaciones de Métodos Existentes

Propagación de errores en sistemas en cascada: Los métodos tradicionales adoptan una arquitectura en cascada ASR + DST, propensa a sufrir la propagación de errores de la fase ASR, particularmente al procesar nombres propios y terminología específica del dominio
Falta de uniformidad en estrategias de gestión de contexto: Los métodos end-to-end existentes presentan divergencias en el procesamiento del contexto; cómo integrar efectivamente información hablada y textual sigue siendo incierto
Ausencia de comparación sistemática: Falta una evaluación y análisis sistemático de diferentes estrategias de gestión de contexto

Motivación de la Investigación

Los autores plantean la pregunta central: ¿qué sucedería si dependiéramos completamente del contexto hablado? ¿Proporcionando al sistema representaciones de voz de todo el diálogo, o comprimiendo estas representaciones a través de módulos intermedios? Esta investigación tiene como objetivo explorar estas posibilidades y proporcionar respuestas sistemáticas.

Contribuciones Principales

Validó la efectividad de Speech-LLM en la tarea de Spoken DST, proporcionando una nueva ruta tecnológica para el campo
Propuso dos métodos de gestión de contexto que alcanzan rendimiento SOTA: contexto hablado completo y contexto hablado comprimido
Demostró un método simple pero efectivo: alimentar directamente todo el diálogo hablado al modelo sin compresión adicional o mezcla modal logra el mejor rendimiento
Proporcionó análisis detallados y experimentos de ablación, verificando que las mejoras provienen de una utilización más efectiva del contexto

Explicación Detallada del Método

Definición de la Tarea

Dada una secuencia de intervenciones de diálogo hablado $U_1, A_2, ..., A_{t-1}, U_{t-1}$ , el objetivo es predecir k dominios relevantes $(domain_1, domain_2, ..., domain_k)$ y n pares ranura-valor $(slot_1 = value_1, slot_2 = value_2, ..., slot_n = value_n)$ , representados como estructura JSON.

Arquitectura del Modelo

El sistema consta de tres componentes principales:

Codificador de voz: Procesa todo el historial de diálogo, calculando representaciones densas para cada intervención
Conector: Mapea características de voz al espacio de entrada del LLM
Modelo de Lenguaje Grande (LLM): Genera el estado del diálogo de manera autorregresiva
Módulo de compresión (opcional): Reduce la longitud del contexto

Tres Estrategias de Gestión de Contexto

1. Contexto Multimodal (Multimodal Context)

Entrada: Intervención del usuario hablada $U^{spoken}_n$ + historial de diálogo escrito
Formato de indicación:

h_n { "history": Context_n, "user last turn": U^{text}_n, 
     "domains": D_n, "predicted state": S_n }

Características: Combina la intervención actual hablada e información de historial textual

2. Contexto Hablado Completo (Full Spoken Context)

Entrada: Diálogo hablado completo $Context_n = (U^{spoken}_1, A^{spoken}_2, ..., U^{spoken}_n)$
Formato de indicación:

Speech_Emb {"domains": D_n, "predicted state": S_n}

Características: Entrada puramente hablada, evitando pérdida de conversión modal

3. Contexto Hablado Comprimido (Compressed Spoken Context)

Mecanismo de compresión: Utiliza $N_{queries}$ vectores de consulta entrenables Q, calculados mediante TransformerDecoder:

z_i = TransformerDecoder(Q, h_i)
Speech_Emb = (z_1||z_2||...||z_n)

Características: Reduce significativamente la longitud del contexto mientras se mantiene el rendimiento

Estrategia de Entrenamiento

Se adopta entrenamiento en dos etapas:

Preentrenamiento ASR: Congela el LLM, entrena el codificador de voz y conector para alinear modalidades voz-texto
Ajuste fino DST: Congela el codificador de voz, entrena adaptadores LoRA del conector, módulo de compresión y LLM

Configuración Experimental

Conjunto de Datos

Preentrenamiento ASR: Loquacious Medium (2,500 horas) + corpus Fisher (1,960 horas) + conjunto de entrenamiento SpokenWOZ (200 horas)
Ajuste fino DST: Conjunto de datos SpokenWOZ, eliminando 9 diálogos dañados, evaluación mediante precisión de objetivo conjunto (JGA)

Configuración del Modelo

Codificador de voz: W2v-BERT
Conector: Codificador Transformer de una capa (dimensión oculta 1024, 16 cabezas de atención)
Módulo de compresión: Decodificador Transformer de una capa (misma configuración)
LLM: OLMo 2 1B, utilizando adaptadores LoRA (rank=16, alpha=1)

Métricas de Evaluación

Se utiliza principalmente la precisión de objetivo conjunto (JGA), con postprocesamiento incluyendo normalización de expresiones temporales y coincidencia difusa.

Resultados Experimentales

Resultados Principales

Modelo	JGA Conjunto de Prueba SWOZ
SPACE+WavLMalign	25.65%
E2E (Whisper+T5)	24.10%
UBAR + GenWOZ	25.90%
WavLM + conn. + OLMo-1B	34.66%
Contexto Hablado Comprimido (Este trabajo)	36.49%
Contexto Hablado Completo (Este trabajo)	39.32%
WavLM + conn. + Gemma-2-9B	42.17%

Comparación de Métodos de Gestión de Contexto

Método	SWOZ Dev	SWOZ Test
Contexto Multimodal (Línea Base)	31.85%	32.06%
Contexto Hablado Completo	36.89%	36.29%
Contexto Hablado Comprimido (1 consulta)	31.03%	30.99%
Contexto Hablado Comprimido (10 consultas)	34.26%	33.51%

Análisis de Grano Fino

Análisis por Tipo de Ranura

Ranuras categóricas: Todos los modelos funcionan bien, contexto hablado completo ligeramente superior
Ranuras temporales y abiertas: Contexto hablado completo y compresión de 10 consultas significativamente superiores a otros métodos
Ranuras de información personal: Más desafiantes, contexto hablado completo lidera, modelo de 1 consulta con peor rendimiento

Análisis por Turno de Diálogo

Turnos tempranos (1-5): Todos los modelos funcionan bien
Turnos intermedios (5-30): Precisión cae rápidamente, contexto hablado completo siempre lidera
Turnos tardíos (40+): Precisión cercana a cero, limitada por capacidad del LLM pequeño

Análisis de Errores

El análisis de los seis slots con mayor tasa de error revela:

La mayoría de predicciones alcanzan alta razón de coincidencia difusa (>0.8), indicando que el modelo generalmente puede predecir aproximadamente correctamente valores de ranura
Los errores en nombres de restaurantes, atracciones y hoteles provienen principalmente de inserciones y eliminaciones, no sustituciones
Las ranuras relacionadas con información personal siguen siendo extremadamente desafiantes

Trabajo Relacionado

Métodos Tradicionales

Sistemas en cascada: Enfoque de tubería ASR + DST, con excelente rendimiento en el desafío DSTC11
Sistemas end-to-end: Directamente de voz a estado de diálogo, evitando propagación de errores

Desarrollo de Speech-LLM

Los modelos de lenguaje grande conscientes del habla muestran potencial en tareas como ASR y generación de respuestas
Trabajos recientes aplican Speech-LLM a Spoken DST, logrando rendimiento SOTA

Estrategias de Gestión de Contexto

Los métodos existentes varían en el procesamiento del contexto; este trabajo es el primero en comparar sistemáticamente la efectividad de diferentes estrategias.

Conclusiones y Discusión

Conclusiones Principales

La estrategia de contexto hablado completo es más efectiva: Usar directamente todo el diálogo hablado como entrada logra el mejor rendimiento
La estrategia de compresión proporciona buen equilibrio: Compresión de 10 consultas reduce significativamente el tamaño del contexto mientras mantiene rendimiento competitivo
Speech-LLM funciona excepcionalmente bien en la tarea Spoken DST: Proporciona una nueva ruta tecnológica para el campo

Limitaciones

Complejidad computacional: El método de contexto hablado completo puede tener gran costo computacional para diálogos muy largos
Limitaciones de tamaño de modelo: No verificado en LLMs de mayor escala (como Gemma-2-9B)
Limitaciones del conjunto de datos: Validación principalmente en SpokenWOZ, requiere validación en más conjuntos de datos para verificar generalización

Direcciones Futuras

Explorar métodos más complejos y compactos para procesamiento de contexto hablado
Extender a modelos de mayor escala
Validar en más conjuntos de datos de diálogo hablado

Evaluación Profunda

Fortalezas

Definición clara del problema: Investigación sistemática de la gestión de contexto, un problema clave en Spoken DST
Fuerte innovación metodológica: Primera comparación sistemática de diferentes estrategias de gestión de contexto, proponiendo método de contexto hablado completo simple pero efectivo
Diseño experimental completo: Incluye experimentos de ablación suficientes, análisis de grano fino y análisis de errores
Resultados convincentes: Demuestra efectividad del método en múltiples dimensiones, logrando mejora de rendimiento significativa
Análisis profundo y exhaustivo: Analiza ventajas del método desde múltiples ángulos incluyendo tipo de ranura y turno de diálogo

Insuficiencias

Análisis de eficiencia computacional insuficiente: No analiza detalladamente complejidad computacional e tiempo de inferencia de diferentes métodos
Falta de validación en modelos grandes: No verifica escalabilidad del método en LLMs de mayor escala
Generalización entre conjuntos de datos: Validación principalmente en conjunto de datos único, generalización requiere verificación adicional
Análisis teórico insuficiente: Falta explicación teórica profunda de por qué contexto hablado completo es más efectivo

Impacto

Valor académico: Proporciona nuevas ideas de investigación y método de referencia para campo de Spoken DST
Valor práctico: Método simple y efectivo, fácil de reproducir y aplicar
Contribución técnica: Demuestra potencial de Speech-LLM en tareas de comprensión de habla

Escenarios Aplicables

Sistemas de diálogo orientados a tareas: Particularmente adecuado para sistemas de diálogo hablado que requieren seguimiento de estado preciso
Comprensión de diálogo multiturno: Aplicable a escenarios que requieren comprensión de contexto a largo plazo
Escenarios de recursos limitados: Tamaño de modelo relativamente pequeño lo hace adecuado para entornos de implementación con recursos limitados

Referencias

Este artículo cita literatura importante de campos relacionados incluyendo seguimiento del estado del diálogo, sistemas de diálogo hablado, Speech-LLM, particularmente:

Trabajos relacionados con conjunto de datos SpokenWOZ
Serie de desafíos DSTC
Investigación en sistemas de diálogo hablado end-to-end
Desarrollo de modelos Speech-LLM

Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución simple pero efectiva para el problema central en seguimiento del estado del diálogo hablado. El diseño experimental es completo, el análisis es profundo, proporcionando contribución importante al campo. A pesar de algunas limitaciones, su innovación y practicidad le confieren valor académico y aplicado significativo.