2025-11-12T05:43:09.400515

The Speech-LLM Takes It All: A Truly Fully End-to-End Spoken Dialogue State Tracking Approach

Ghazal, CaubriÃ¨re, Vielzeuf

This paper presents a comparative study of context management strategies for end-to-end Spoken Dialog State Tracking using Speech-LLMs. We systematically evaluate traditional multimodal context (combining text history and spoken current turn), full spoken history, and compressed spoken history approaches. Our experiments on the SpokenWOZ corpus demonstrate that providing the full spoken conversation as input yields the highest performance among models of similar size, significantly surpassing prior methods. Furthermore, we show that attention-pooling-based compression of the spoken history offers a strong trade-off, maintaining competitive accuracy with reduced context size. Detailed analysis confirms that improvements stem from more effective context utilization.

academic

Speech-LLM Берет Все: Подлинно Полностью Сквозной Подход к Отслеживанию Состояния Устного Диалога

Основная информация

ID статьи: 2510.09424
Название: The Speech-LLM Takes It All: A Truly Fully End-to-End Spoken Dialogue State Tracking Approach
Авторы: Nizar El Ghazal, Antoine Caubrière, Valentin Vielzeuf (Orange Innovation)
Классификация: cs.CL cs.AI cs.LG eess.AS
Дата публикации: 10 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.09424

Аннотация

В данной работе предлагается сравнительное исследование стратегий управления контекстом на основе Speech-LLM для задачи сквозного отслеживания состояния устного диалога. Авторы систематически оценивают три подхода: традиционный мультимодальный контекст (сочетающий историю текста и текущий устный ход), полную историю речи и сжатую историю речи. Эксперименты на корпусе SpokenWOZ показывают, что предоставление полного устного диалога в качестве входных данных достигает наивысшей производительности среди моделей эквивалентного размера, значительно превосходя существующие методы. Кроме того, сжатие истории речи на основе пулинга внимания обеспечивает надежный компромисс, сохраняя конкурентную точность при уменьшении размера контекста.

Исследовательский контекст и мотивация

Определение проблемы

Отслеживание состояния диалога (DST) является ключевым компонентом систем целевого диалога, отвечающим за понимание и поддержание контекста многоходовых диалогов. Однако отслеживание состояния устного диалога (Spoken DST) остается относительно незрелой областью исследований, и производительность текущих систем значительно отстает от сценариев письменного диалога.

Ограничения существующих методов

Распространение ошибок в каскадных системах: Традиционные методы используют каскадную архитектуру ASR + DST, подверженную распространению ошибок на этапе ASR, особенно при обработке собственных имен и специализированной терминологии
Отсутствие единообразной стратегии управления контекстом: Существующие сквозные методы расходятся в обработке контекста; вопрос об эффективной интеграции устной и текстовой информации остается нерешенным
Недостаток систематического сравнения: Отсутствует систематическая оценка и анализ различных стратегий управления контекстом

Исследовательская мотивация

Авторы ставят центральный вопрос: что произойдет, если полностью полагаться на устный контекст? Достигается ли это путем предоставления системе речевых представлений всего диалога или путем сжатия этих представлений промежуточным модулем? Данное исследование направлено на изучение этих возможностей и предоставление систематического ответа.

Основные вклады

Подтверждена эффективность Speech-LLM для задачи устного DST, предоставляя новый технологический путь для этой области
Предложены два метода достижения SOTA производительности: полный устный контекст и сжатый устный контекст
Продемонстрирована простота и эффективность метода: прямая передача всего устного диалога в модель без дополнительного сжатия или смешивания модальностей достигает оптимальной производительности
Предоставлены детальный анализ и абляционные эксперименты, подтверждающие, что улучшения обусловлены более эффективным использованием контекста

Подробное описание методологии

Определение задачи

Учитывая последовательность ходов устного диалога $U_1, A_2, ..., A_{t-1}, U_{t-1}$ , целью является предсказание k релевантных доменов $(domain_1, domain_2, ..., domain_k)$ и n пар слот-значение $(slot_1 = value_1, slot_2 = value_2, ..., slot_n = value_n)$ , представленных в формате JSON.

Архитектура модели

Система состоит из трех основных компонентов:

Кодировщик речи: Обрабатывает полную историю диалога, вычисляя плотные представления для каждого хода
Соединитель: Отображает речевые признаки в пространство входов LLM
Большая языковая модель (LLM): Генерирует состояние диалога авторегрессивным способом
Модуль сжатия (опционально): Используется для уменьшения длины контекста

Три стратегии управления контекстом

1. Мультимодальный контекст (Multimodal Context)

Входные данные: Устный ход пользователя $U^{spoken}_n$ + письменная история диалога
Формат подсказки:

h_n { "history": Context_n, "user last turn": U^{text}_n, 
     "domains": D_n, "predicted state": S_n }

Характеристики: Сочетает устный текущий ход и текстовую историю

2. Полный устный контекст (Full Spoken Context)

Входные данные: Полный устный диалог $Context_n = (U^{spoken}_1, A^{spoken}_2, ..., U^{spoken}_n)$
Формат подсказки:

Speech_Emb {"domains": D_n, "predicted state": S_n}

Характеристики: Чистые устные входные данные, избегающие потерь при преобразовании модальности

3. Сжатый устный контекст (Compressed Spoken Context)

Механизм сжатия: Использует $N_{queries}$ обучаемых векторов запросов Q, вычисляемых через TransformerDecoder:

z_i = TransformerDecoder(Q, h_i)
Speech_Emb = (z_1||z_2||...||z_n)

Характеристики: Значительно уменьшает длину контекста при сохранении производительности

Стратегия обучения

Используется двухэтапное обучение:

Предварительное обучение ASR: Замораживается LLM, обучаются кодировщик речи и соединитель для выравнивания речевой и текстовой модальностей
Тонкая настройка DST: Замораживается кодировщик речи, обучаются соединитель, модуль сжатия и адаптер LoRA для LLM

Экспериментальная установка

Наборы данных

Предварительное обучение ASR: Loquacious Medium (2500 часов) + корпус Fisher (1960 часов) + обучающий набор SpokenWOZ (200 часов)
Тонкая настройка DST: Набор данных SpokenWOZ с удалением 9 поврежденных диалогов, оценка по совместной точности целей (JGA)

Конфигурация модели

Кодировщик речи: W2v-BERT
Соединитель: Однослойный кодировщик Transformer (скрытое измерение 1024, 16 голов внимания)
Модуль сжатия: Однослойный декодер Transformer (аналогичная конфигурация)
LLM: OLMo 2 1B с адаптером LoRA (rank=16, alpha=1)

Метрики оценки

Основной метрикой является совместная точность целей (JGA) с постобработкой, включающей нормализацию временных выражений и нечеткое сопоставление.

Результаты экспериментов

Основные результаты

Модель	JGA на тестовом наборе SWOZ
SPACE+WavLMalign	25.65%
E2E (Whisper+T5)	24.10%
UBAR + GenWOZ	25.90%
WavLM + conn. + OLMo-1B	34.66%
Сжатый устный контекст (данная работа)	36.49%
Полный устный контекст (данная работа)	39.32%
WavLM + conn. + Gemma-2-9B	42.17%

Сравнение методов управления контекстом

Метод	SWOZ Dev	SWOZ Test
Мультимодальный контекст (базовый)	31.85%	32.06%
Полный устный контекст	36.89%	36.29%
Сжатый устный контекст (1 запрос)	31.03%	30.99%
Сжатый устный контекст (10 запросов)	34.26%	33.51%

Детальный анализ

Анализ по типам слотов

Категориальные слоты: Все модели показывают хорошие результаты, полный устный контекст немного лучше
Временные слоты и открытые слоты: Полный устный контекст и сжатие с 10 запросами значительно превосходят другие методы
Слоты личной информации: Наиболее сложные, полный устный контекст лидирует, модель с 1 запросом показывает наихудший результат

Анализ по ходам диалога

Ранние ходы (1-5): Все модели показывают хорошие результаты
Средние ходы (5-30): Точность быстро снижается, полный устный контекст постоянно лидирует
Поздние ходы (40+): Точность близка к нулю, ограничена емкостью небольшой LLM

Анализ ошибок

Анализ шести слотов с наивысшей частотой ошибок показывает:

Большинство предсказаний достигают высокого коэффициента нечеткого совпадения (>0.8), указывая на то, что модель обычно может приблизительно правильно предсказать значения слотов
Ошибки в названиях ресторанов, достопримечательностей и отелей в основном обусловлены вставками и удалениями, а не заменами
Слоты, связанные с личной информацией, остаются чрезвычайно сложными

Связанные работы

Традиционные методы

Каскадные системы: Конвейерный подход ASR + DST, показавший отличные результаты на конкурсе DSTC11
Сквозные системы: Прямое преобразование речи в состояние диалога, избегающее распространения ошибок

Развитие Speech-LLM

Речевые языковые модели демонстрируют потенциал в задачах ASR и генерации ответов
Недавние работы применяют Speech-LLM к устному DST, достигая SOTA производительности

Стратегии управления контекстом

Существующие методы различаются в обработке контекста; данная работа впервые систематически сравнивает эффективность различных стратегий.

Заключение и обсуждение

Основные выводы

Стратегия полного устного контекста наиболее эффективна: Прямое использование всего устного диалога в качестве входных данных достигает оптимальной производительности
Стратегия сжатия обеспечивает хороший компромисс: Сжатие с 10 запросами значительно уменьшает размер контекста при сохранении конкурентной производительности
Speech-LLM показывает отличные результаты в задаче устного DST: Предоставляет новый технологический путь для этой области

Ограничения

Вычислительная сложность: Метод полного устного контекста может иметь высокие вычислительные затраты для очень длинных диалогов
Ограничения размера модели: Не проверено на более крупных LLM (например, Gemma-2-9B)
Ограничения набора данных: Проверено в основном на SpokenWOZ, требуется валидация на большем количестве наборов данных

Направления будущих исследований

Изучение более сложных и компактных методов обработки устного контекста
Расширение на более крупные модели
Валидация на большем количестве наборов данных устного диалога

Глубокая оценка

Преимущества

Четкое определение проблемы: Систематическое исследование управления контекстом как ключевой проблемы в устном DST
Сильная методологическая новизна: Первое систематическое сравнение различных стратегий управления контекстом, предложение простого и эффективного метода полного устного контекста
Полный экспериментальный дизайн: Включает достаточные абляционные эксперименты, детальный анализ и анализ ошибок
Убедительные результаты: Доказывает эффективность метода по нескольким измерениям, достигает значительного улучшения производительности
Глубокий анализ: Анализирует преимущества метода с различных углов (типы слотов, ходы диалога и т.д.)

Недостатки

Недостаточный анализ вычислительной эффективности: Не предоставляется детальный анализ вычислительной сложности и времени вывода различных методов
Отсутствие валидации на крупных моделях: Не проверена масштабируемость метода на более крупных LLM
Ограниченная кроссдатасетовая обобщаемость: Валидация проведена в основном на одном наборе данных, обобщаемость требует дальнейшей проверки
Недостаточный теоретический анализ: Отсутствует глубокое теоретическое объяснение того, почему полный устный контекст более эффективен

Влияние

Академическая ценность: Предоставляет новые исследовательские идеи и базовый метод для области устного DST
Практическая ценность: Метод прост, эффективен и легко воспроизводим и применим
Технологический вклад: Демонстрирует потенциал Speech-LLM в задачах устного понимания

Применимые сценарии

Системы целевого диалога: Особенно подходит для систем устного диалога, требующих точного отслеживания состояния
Понимание многоходовых диалогов: Применимо к сценариям, требующим долгосрочного понимания контекста
Сценарии с ограниченными ресурсами: Относительно небольшой размер модели делает его подходящим для развертывания в условиях ограниченных ресурсов

Библиография

Данная работа цитирует важные работы в смежных областях отслеживания состояния диалога, систем устного диалога, развития Speech-LLM, в частности:

Работы, связанные с набором данных SpokenWOZ
Серия конкурсов DSTC
Исследования сквозных систем устного диалога
Развитие моделей Speech-LLM

Общая оценка: Это высококачественная исследовательская работа, предлагающая простое и эффективное решение центральной проблемы в отслеживании состояния устного диалога. Экспериментальный дизайн полный, анализ глубокий, работа предоставляет важный вклад в эту область. Несмотря на некоторые ограничения, ее инновационность и практическая применимость придают ей значительную академическую и прикладную ценность.