Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations
Zhang, Li, Yu et al.
Long-sequence causal reasoning seeks to uncover causal relationships within extended time series data but is hindered by complex dependencies and the challenges of validating causal links. To address the limitations of large-scale language models (e.g., GPT-4) in capturing intricate emotional causality within extended dialogues, we propose CauseMotion, a long-sequence emotional causal reasoning framework grounded in Retrieval-Augmented Generation (RAG) and multimodal fusion. Unlike conventional methods relying only on textual information, CauseMotion enriches semantic representations by incorporating audio-derived features-vocal emotion, emotional intensity, and speech rate-into textual modalities. By integrating RAG with a sliding window mechanism, it effectively retrieves and leverages contextually relevant dialogue segments, thus enabling the inference of complex emotional causal chains spanning multiple conversational turns. To evaluate its effectiveness, we constructed the first benchmark dataset dedicated to long-sequence emotional causal reasoning, featuring dialogues with over 70 turns. Experimental results demonstrate that the proposed RAG-based multimodal integrated approach, the efficacy of substantially enhances both the depth of emotional understanding and the causal inference capabilities of large-scale language models. A GLM-4 integrated with CauseMotion achieves an 8.7% improvement in causal accuracy over the original model and surpasses GPT-4o by 1.2%. Additionally, on the publicly available DiaASQ dataset, CauseMotion-GLM-4 achieves state-of-the-art results in accuracy, F1 score, and causal reasoning accuracy.
academic
فك تشفير التدفق: CauseMotion لتحليل السببية العاطفية في المحادثات الطويلة
تقدم هذه الورقة إطار عمل CauseMotion، وهو إطار استدلال سببي عاطفي للتسلسلات الطويلة يعتمد على الجيل المعزز بالاسترجاع (RAG) والدمج متعدد الأنماط. يدمج الإطار المميزات الصوتية (العاطفة الصوتية، وشدة العاطفة، وسرعة الكلام) والنمط النصي، ويستخدم آلية النافذة المنزلقة لاسترجاع مقاطع الحوار ذات الصلة، مما يمكّنه من الاستدلال على سلاسل السببية العاطفية المعقدة التي تمتد عبر عدة أدوار حوارية. أظهرت النتائج التجريبية أن نموذج GLM-4 المدمج مع CauseMotion يحقق تحسناً بنسبة 8.7% في دقة السببية مقارنة بالنموذج الأصلي، ويتفوق على GPT-4o بنسبة 1.2%.
يهدف الاستدلال السببي للتسلسلات الطويلة إلى اكتشاف العلاقات السببية في بيانات السلاسل الزمنية الممتدة، لكنه يواجه عقبات من التبعيات المعقدة وتحديات التحقق من السلاسل السببية. تظهر نماذج اللغة الكبيرة الحالية قيوداً كبيرة في التقاط العلاقات السببية العاطفية المعقدة في المحادثات الممتدة.
يعتبر الاستدلال السببي العاطفي حاسماً لأنظمة التفاعل الذكية بين الإنسان والآلة. مع انتشار وسائل التواصل الاجتماعي، أصبح التعبير العاطفي أكثر تعقيداً، حيث ينطوي على تسلسلات نصية طويلة ومعلومات متعددة الأنماط. يعتبر فهم أصل العواطف وتطورها ونتائجها ذا أهمية حيوية لبناء أنظمة أكثر ذكاءً عاطفياً.
قيود طول الإدخال: تتطلب اختصار أو تقسيم النص، مما يؤدي إلى فقدان السياق العام ويعيق التقاط التبعيات طويلة المدى عبر الفقرات أو أدوار الحوار
صعوبة نمذجة التبعيات طويلة المدى: يصعب إنشاء ارتباطات سببية عامة بدقة، مما يؤدي إلى استدلال غير كامل أو غير دقيق
المعالجة القائمة على المقاطع: قد تكسر ترتيب الأحداث والعلاقات المنطقية، مما يضعف فهم النموذج للسلسلة السببية الكلية
تحديات الدمج متعدد الأنماط: يختلف النمط النصي والصوتي بشكل كبير في تمثيل المميزات والخصائص الإحصائية، وتحد الطبيعة الملكية للنماذج المغلقة من التكامل العميق للمميزات الصوتية
آلية الدمج متعدد الأنماط: تقترح طريقة لدمج المميزات الصوتية بعمق في تصميم إدخال النموذج وقاعدة معارف الحوار، مما يحقق دمجاً فعالاً لبيانات النص والصوت
مجموعة بيانات كبيرة للتسلسلات الطويلة: تبني أول مجموعة بيانات معيارية متخصصة للاستدلال السببي العاطفي للتسلسلات الطويلة ATLAS-6، تحتوي على 70-300 دور حواري
إطار عمل CauseMotion: تقترح إطار استدلال سببي جديد مدمج مع RAG، يلتقط بفعالية التبعيات طويلة المدى والسلاسل السببية المعقدة
أداء متقدم (SOTA): تحقق أداءً متقدماً على مجموعة بيانات DiaASQ، حيث يتفوق CauseMotion-GLM-4 على GPT-4o بشكل شامل على مجموعة بيانات ATLAS
بالنظر إلى محادثة D = {u1, u2, ..., un} تحتوي على n عبارة، حيث تحتوي كل عبارة ui = {wi1, wi2, ..., wim} على m كلمة. الهدف هو استخراج جميع السداسيات السببية العاطفية المحتملة Q = {(hj, tj, aj, oj, pj, rj)} من نافذة الإدخال الزمنية W، حيث:
من تحليل العاطفة القائم على الجوانب (ABSA) إلى التحليل الدقيق، القادر على استخراج الأهداف والجوانب والآراء والعواطف من النص، لكنه يواجه تحديات جديدة في معالجة التسلسلات النصية الطويلة والمعلومات متعددة الأنماط.
يركز البحث الموجود بشكل أساسي على النصوص القصيرة، ويفتقر إلى القدرة على نمذجة التبعيات طويلة المدى والعلاقات المعقدة متعددة الطبقات، مما يحد من فهم السلاسل السببية العاطفية العميقة.
تستشهد الورقة بـ 34 مرجعاً ذا صلة، تغطي مجالات بحثية متعددة بما في ذلك تحليل العاطفة والدمج متعدد الأنماط والجيل المعزز بالاسترجاع ونماذج اللغة الكبيرة، مما يوفر أساساً نظرياً متيناً لهذا البحث.
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكراً لمهمة الاستدلال السببي العاطفي للتسلسلات الطويلة، وهي مهمة مهمة وتحديية. تستحق المساهمات التقنية وتصميم التجارب والنتائج الإعجاب، وتقدم مساهمات مهمة لتطور المجالات ذات الصلة.