The Speech-LLM Takes It All: A Truly Fully End-to-End Spoken Dialogue State Tracking Approach
Ghazal, Caubrière, Vielzeuf
This paper presents a comparative study of context management strategies for end-to-end Spoken Dialog State Tracking using Speech-LLMs. We systematically evaluate traditional multimodal context (combining text history and spoken current turn), full spoken history, and compressed spoken history approaches. Our experiments on the SpokenWOZ corpus demonstrate that providing the full spoken conversation as input yields the highest performance among models of similar size, significantly surpassing prior methods. Furthermore, we show that attention-pooling-based compression of the spoken history offers a strong trade-off, maintaining competitive accuracy with reduced context size. Detailed analysis confirms that improvements stem from more effective context utilization.
academic
الكلام-LLM يأخذ الكل: نهج حقيقي بالكامل من النهاية إلى النهاية لتتبع حالة الحوار المنطوق
تقدم هذه الورقة دراسة مقارنة لاستراتيجيات إدارة السياق القائمة على Speech-LLM لمهمة تتبع حالة الحوار المنطوق من النهاية إلى النهاية. يقيّم المؤلفون بشكل منهجي ثلاث طرق: السياق متعدد الأنماط التقليدي (الجمع بين السجل النصي والدورة المنطوقة الحالية)، والسجل المنطوق الكامل، والسجل المنطوق المضغوط. تُظهر التجارب على مجموعة بيانات SpokenWOZ أن توفير الحوار المنطوق الكامل كمدخل يحقق أعلى أداء بين النماذج ذات الحجم المتساوي، متفوقاً بشكل كبير على الطرق الموجودة. علاوة على ذلك، يوفر ضغط السجل المنطوق القائم على تجميع الانتباه حلاً توازنياً قوياً، مع الحفاظ على دقة تنافسية مع تقليل حجم السياق.
يعتبر تتبع حالة الحوار (DST) مكوناً حاسماً في أنظمة الحوار الموجهة للمهام، حيث يتحمل مسؤولية فهم والحفاظ على السياق عبر دورات الحوار متعددة الأدوار. ومع ذلك، يظل تتبع حالة الحوار المنطوق (Spoken DST) مجالاً بحثياً نسبياً غير ناضج، حيث تتخلف أداء الأنظمة الحالية بشكل كبير عن سيناريوهات الحوار المكتوب.
انتشار الأخطاء في الأنظمة المتسلسلة: تعتمد الطرق التقليدية على بنية متسلسلة من ASR + DST، مما يجعلها عرضة لانتشار الأخطاء من مرحلة التعرف على الكلام، خاصة عند التعامل مع الأسماء الخاصة والمصطلحات الخاصة بالمجال
عدم توحيد استراتيجيات إدارة السياق: تختلف الطرق الحالية من النهاية إلى النهاية في معالجة السياق، ولا يزال كيفية دمج المعلومات المنطوقة والنصية بفعالية غير محسوم
نقص المقارنة المنهجية: يفتقد المجال إلى تقييم وتحليل منهجي لاستراتيجيات إدارة السياق المختلفة
يطرح المؤلفون السؤال الأساسي: ماذا لو اعتمدنا بالكامل على السياق المنطوق؟ هل من خلال توفير التمثيل الصوتي للحوار بأكمله للنظام، أم من خلال وحدة وسيطة تضغط هذه التمثيلات؟ تهدف هذه الدراسة إلى استكشاف هذه الاحتمالات وتقديم إجابة منهجية.
بالنظر إلى سلسلة دورات الحوار المنطوقة U1,A2,...,At−1,Ut−1، الهدف هو التنبؤ بـ k مجالات ذات صلة (domain1,domain2,...,domaink) و n أزواج فتحة-قيمة (slot1=value1,slot2=value2,...,slotn=valuen)، وتمثيلها كهيكل JSON.
تستشهد هذه الورقة بالأدبيات المهمة في مجالات تتبع حالة الحوار وأنظمة الحوار المنطوق و Speech-LLM، خاصة:
الأعمال المتعلقة بمجموعة بيانات SpokenWOZ
سلسلة تحديات DSTC
البحث في أنظمة الحوار المنطوق من النهاية إلى النهاية
تطور نماذج Speech-LLM
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة، تقترح حلاً بسيطاً وفعالاً لمشكلة أساسية في تتبع حالة الحوار المنطوق. يتميز التصميم التجريبي بالشمول، والتحليل بالعمق، مما يوفر مساهمة مهمة للمجال. على الرغم من وجود بعض القيود، فإن ابتكاريتها وقيمتها العملية تمنحها أهمية أكاديمية وتطبيقية كبيرة.