2025-11-12T05:43:09.400515

The Speech-LLM Takes It All: A Truly Fully End-to-End Spoken Dialogue State Tracking Approach

Ghazal, CaubriÃ¨re, Vielzeuf

This paper presents a comparative study of context management strategies for end-to-end Spoken Dialog State Tracking using Speech-LLMs. We systematically evaluate traditional multimodal context (combining text history and spoken current turn), full spoken history, and compressed spoken history approaches. Our experiments on the SpokenWOZ corpus demonstrate that providing the full spoken conversation as input yields the highest performance among models of similar size, significantly surpassing prior methods. Furthermore, we show that attention-pooling-based compression of the spoken history offers a strong trade-off, maintaining competitive accuracy with reduced context size. Detailed analysis confirms that improvements stem from more effective context utilization.

academic

Speech-LLMがすべてを制する：真の完全エンドツーエンド音声対話状態追跡アプローチ

基本情報

論文ID: 2510.09424
タイトル: The Speech-LLM Takes It All: A Truly Fully End-to-End Spoken Dialogue State Tracking Approach
著者: Nizar El Ghazal, Antoine Caubrière, Valentin Vielzeuf (Orange Innovation)
分類: cs.CL cs.AI cs.LG eess.AS
発表日: 2025年10月10日 (arXivプレプリント)
論文リンク: https://arxiv.org/abs/2510.09424

要約

本論文は、エンドツーエンド音声対話状態追跡タスクに対して、Speech-LLMに基づく文脈管理戦略の比較研究を提案している。著者は、従来のマルチモーダル文脈（テキスト履歴と現在の音声ターンを組み合わせたもの）、完全な音声履歴、および圧縮音声履歴の3つの方法を体系的に評価した。SpokenWOZコーパスでの実験により、完全な音声対話を入力として提供することが、同等規模のモデル内で最高性能を達成し、既存手法を大幅に上回ることが示された。さらに、注意力プーリングに基づく音声履歴圧縮は、文脈サイズを削減しながら競争力のある精度を維持する強力なトレードオフを提供する。

研究背景と動機

問題定義

対話状態追跡(DST)は、タスク指向対話システムの重要なコンポーネントであり、マルチターン対話の文脈を理解し維持する責務を負っている。しかし、音声対話状態追跡(Spoken DST)は依然として比較的未成熟な研究分野であり、現在のシステム性能は書き言葉対話シナリオから大幅に遅れている。

既存手法の限界

カスケードシステムにおける誤り伝播：従来の手法はASR + DSTのカスケードアーキテクチャを採用しており、ASR段階での誤り伝播の影響を受けやすく、特に固有名詞とドメイン固有用語の処理時に顕著である
文脈管理戦略の不統一：既存のエンドツーエンド手法は文脈処理において相違があり、音声情報とテキスト情報を効果的に統合する方法はいまだ定まっていない
体系的比較の欠如：異なる文脈管理戦略の体系的評価と分析が不足している

研究動機

著者は核心的な問題を提起している：音声文脈に完全に依存した場合はどうなるか？対話全体の音声表現をシステムに提供することによってか、それともこれらの表現を中間モジュールで圧縮することによってか？本研究は、これらの可能性を探索し、体系的な答えを提供することを目指している。

核心的貢献

音声DST タスクにおけるSpeech-LLMの有効性を検証し、当該分野に新しい技術経路を提供した
SOTA性能を達成する2つの文脈管理手法を提案：完全な音声文脈と圧縮音声文脈
シンプルで効果的な手法を実証：追加の圧縮やモダリティ混合なしに、対話全体の音声を直接モデルに入力することで最適な性能を達成
詳細な分析と消融実験を提供し、改善がより効果的な文脈利用から生じることを検証した

方法の詳細

タスク定義

音声対話ターン列 $U_1, A_2, ..., A_{t-1}, U_{t-1}$ が与えられたとき、目標はk個の関連ドメイン $(domain_1, domain_2, ..., domain_k)$ とn個のスロット値ペア $(slot_1 = value_1, slot_2 = value_2, ..., slot_n = value_n)$ を予測し、JSON構造として表現することである。

モデルアーキテクチャ

システムは3つの主要コンポーネントで構成される：

音声エンコーダ：対話履歴全体を処理し、各ターンの密集表現を計算
コネクタ：音声特徴をLLM入力空間にマッピング
大規模言語モデル(LLM)：自己回帰的に対話状態を生成
圧縮モジュール（オプション）：文脈長を削減するため

3つの文脈管理戦略

1. マルチモーダル文脈 (Multimodal Context)

入力：音声ユーザー発話 $U^{spoken}_n$ + 書き言葉対話履歴
プロンプト形式：

h_n { "history": Context_n, "user last turn": U^{text}_n, 
     "domains": D_n, "predicted state": S_n }

特徴：音声現在ターンとテキスト履歴情報を結合

2. 完全音声文脈 (Full Spoken Context)

入力：完全な音声対話 $Context_n = (U^{spoken}_1, A^{spoken}_2, ..., U^{spoken}_n)$
プロンプト形式：

Speech_Emb {"domains": D_n, "predicted state": S_n}

特徴：純粋な音声入力、モダリティ変換損失を回避

3. 圧縮音声文脈 (Compressed Spoken Context)

圧縮メカニズム： $N_{queries}$ 個の訓練可能なクエリベクトルQを使用し、TransformerDecoderを通じて計算：

z_i = TransformerDecoder(Q, h_i)
Speech_Emb = (z_1||z_2||...||z_n)

特徴：性能を維持しながら文脈長を大幅に削減

訓練戦略

2段階訓練を採用：

ASR事前訓練：LLMを凍結し、音声エンコーダとコネクタを訓練して音声テキストモダリティを整列
DST微調整：音声エンコーダを凍結し、コネクタ、圧縮モジュール、およびLLMのLoRAアダプタを訓練

実験設定

データセット

ASR事前訓練：Loquacious Medium (2,500時間) + Fisher コーパス (1,960時間) + SpokenWOZ訓練セット (200時間)
DST微調整：SpokenWOZデータセット、9つの破損対話を除去、結合目標精度(JGA)で評価

モデル構成

音声エンコーダ：W2v-BERT
コネクタ：単層Transformerエンコーダ (隠れ次元1024、16注意ヘッド)
圧縮モジュール：単層Transformerデコーダ (同じ構成)
LLM：OLMo 2 1B、LoRAアダプタを使用 (rank=16, alpha=1)

評価指標

主に結合目標精度(JGA)を使用し、時間表現の正規化とあいまいマッチングを含む後処理を実施。

実験結果

主要結果

モデル	SWOZ テストセット JGA
SPACE+WavLMalign	25.65%
E2E (Whisper+T5)	24.10%
UBAR + GenWOZ	25.90%
WavLM + conn. + OLMo-1B	34.66%
圧縮音声文脈 (本論文)	36.49%
完全音声文脈 (本論文)	39.32%
WavLM + conn. + Gemma-2-9B	42.17%

文脈管理手法の比較

手法	SWOZ Dev	SWOZ Test
マルチモーダル文脈 (ベースライン)	31.85%	32.06%
完全音声文脈	36.89%	36.29%
圧縮音声文脈 (1クエリ)	31.03%	30.99%
圧縮音声文脈 (10クエリ)	34.26%	33.51%