2025-11-19T20:28:14.220145

Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations

Zhang, Li, Yu et al.
Long-sequence causal reasoning seeks to uncover causal relationships within extended time series data but is hindered by complex dependencies and the challenges of validating causal links. To address the limitations of large-scale language models (e.g., GPT-4) in capturing intricate emotional causality within extended dialogues, we propose CauseMotion, a long-sequence emotional causal reasoning framework grounded in Retrieval-Augmented Generation (RAG) and multimodal fusion. Unlike conventional methods relying only on textual information, CauseMotion enriches semantic representations by incorporating audio-derived features-vocal emotion, emotional intensity, and speech rate-into textual modalities. By integrating RAG with a sliding window mechanism, it effectively retrieves and leverages contextually relevant dialogue segments, thus enabling the inference of complex emotional causal chains spanning multiple conversational turns. To evaluate its effectiveness, we constructed the first benchmark dataset dedicated to long-sequence emotional causal reasoning, featuring dialogues with over 70 turns. Experimental results demonstrate that the proposed RAG-based multimodal integrated approach, the efficacy of substantially enhances both the depth of emotional understanding and the causal inference capabilities of large-scale language models. A GLM-4 integrated with CauseMotion achieves an 8.7% improvement in causal accuracy over the original model and surpasses GPT-4o by 1.2%. Additionally, on the publicly available DiaASQ dataset, CauseMotion-GLM-4 achieves state-of-the-art results in accuracy, F1 score, and causal reasoning accuracy.
academic

فك تشفير التدفق: CauseMotion لتحليل السببية العاطفية في المحادثات الطويلة

المعلومات الأساسية

  • معرّف الورقة: 2501.00778
  • العنوان: Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations
  • المؤلفون: Yuxuan Zhang, Yulong Li, Zichen Yu, Feilong Tang, Zhixiang Lu, Chong Li, Kang Dang, Jionglong Su
  • التصنيف: cs.CL (اللسانيات الحاسوبية)، cs.CY (الحواسيب والمجتمع)
  • تاريخ النشر: 1 يناير 2025
  • رابط الورقة: https://arxiv.org/abs/2501.00778

الملخص

تقدم هذه الورقة إطار عمل CauseMotion، وهو إطار استدلال سببي عاطفي للتسلسلات الطويلة يعتمد على الجيل المعزز بالاسترجاع (RAG) والدمج متعدد الأنماط. يدمج الإطار المميزات الصوتية (العاطفة الصوتية، وشدة العاطفة، وسرعة الكلام) والنمط النصي، ويستخدم آلية النافذة المنزلقة لاسترجاع مقاطع الحوار ذات الصلة، مما يمكّنه من الاستدلال على سلاسل السببية العاطفية المعقدة التي تمتد عبر عدة أدوار حوارية. أظهرت النتائج التجريبية أن نموذج GLM-4 المدمج مع CauseMotion يحقق تحسناً بنسبة 8.7% في دقة السببية مقارنة بالنموذج الأصلي، ويتفوق على GPT-4o بنسبة 1.2%.

الخلفية البحثية والدافع

تعريف المشكلة

يهدف الاستدلال السببي للتسلسلات الطويلة إلى اكتشاف العلاقات السببية في بيانات السلاسل الزمنية الممتدة، لكنه يواجه عقبات من التبعيات المعقدة وتحديات التحقق من السلاسل السببية. تظهر نماذج اللغة الكبيرة الحالية قيوداً كبيرة في التقاط العلاقات السببية العاطفية المعقدة في المحادثات الممتدة.

أهمية البحث

يعتبر الاستدلال السببي العاطفي حاسماً لأنظمة التفاعل الذكية بين الإنسان والآلة. مع انتشار وسائل التواصل الاجتماعي، أصبح التعبير العاطفي أكثر تعقيداً، حيث ينطوي على تسلسلات نصية طويلة ومعلومات متعددة الأنماط. يعتبر فهم أصل العواطف وتطورها ونتائجها ذا أهمية حيوية لبناء أنظمة أكثر ذكاءً عاطفياً.

قيود الطرق الموجودة

  1. قيود طول الإدخال: تتطلب اختصار أو تقسيم النص، مما يؤدي إلى فقدان السياق العام ويعيق التقاط التبعيات طويلة المدى عبر الفقرات أو أدوار الحوار
  2. صعوبة نمذجة التبعيات طويلة المدى: يصعب إنشاء ارتباطات سببية عامة بدقة، مما يؤدي إلى استدلال غير كامل أو غير دقيق
  3. المعالجة القائمة على المقاطع: قد تكسر ترتيب الأحداث والعلاقات المنطقية، مما يضعف فهم النموذج للسلسلة السببية الكلية
  4. تحديات الدمج متعدد الأنماط: يختلف النمط النصي والصوتي بشكل كبير في تمثيل المميزات والخصائص الإحصائية، وتحد الطبيعة الملكية للنماذج المغلقة من التكامل العميق للمميزات الصوتية

المساهمات الأساسية

  1. آلية الدمج متعدد الأنماط: تقترح طريقة لدمج المميزات الصوتية بعمق في تصميم إدخال النموذج وقاعدة معارف الحوار، مما يحقق دمجاً فعالاً لبيانات النص والصوت
  2. مجموعة بيانات كبيرة للتسلسلات الطويلة: تبني أول مجموعة بيانات معيارية متخصصة للاستدلال السببي العاطفي للتسلسلات الطويلة ATLAS-6، تحتوي على 70-300 دور حواري
  3. إطار عمل CauseMotion: تقترح إطار استدلال سببي جديد مدمج مع RAG، يلتقط بفعالية التبعيات طويلة المدى والسلاسل السببية المعقدة
  4. أداء متقدم (SOTA): تحقق أداءً متقدماً على مجموعة بيانات DiaASQ، حيث يتفوق CauseMotion-GLM-4 على GPT-4o بشكل شامل على مجموعة بيانات ATLAS

شرح الطريقة

تعريف المهمة

بالنظر إلى محادثة D = {u1, u2, ..., un} تحتوي على n عبارة، حيث تحتوي كل عبارة ui = {wi1, wi2, ..., wim} على m كلمة. الهدف هو استخراج جميع السداسيات السببية العاطفية المحتملة Q = {(hj, tj, aj, oj, pj, rj)} من نافذة الإدخال الزمنية W، حيث:

  • hj: صاحب العاطفة (Holder)
  • tj: الهدف (Target)
  • aj: الجانب (Aspect)
  • oj: الرأي (Opinion)
  • pj: العاطفة (Sentiment)
  • rj: المبرر (Rationale)

معمارية النموذج

1. آلية الدمج متعدد الأنماط

يستخدم SenseVoice لاستخراج المميزات العاطفية من الصوت، بما في ذلك:

  • العاطفة الصوتية ei ∈ Rd
  • شدة العاطفة θi ∈ R
  • سرعة الكلام ri = m/(tend_i - tstart_i)

يُعرّف متجه المميزات الصوتية كالتالي:

ai = {ei, θi}

يتم تحقيق الدمج متعدد الأنماط من خلال عملية الربط:

Em = Concat(Et, Ee, Er)

2. بناء قاعدة معارف الحوار

تستخدم طريقة النافذة الزمنية المنزلقة لإنشاء مجموعات فرعية محلية من الحوار:

Dt = {ut, ut+1, ..., ut+k}

بناء قاعدة معارف الحوار التي تحتوي على مميزات متعددة الأنماط:

Kd = {(W1, Em1), (W2, Em2), ..., (Wj, Emj)}

3. آلية RAG

تسترجع وحدة RAG مقاطع الحوار الأكثر صلة من خلال تشابه جيب التمام:

Similarity(Wj, Wi) = (Wj · Wi) / (||Wj|| ||Wi||)

يُعرّف عملية الاسترجاع كالتالي:

Cj = RAG(Wj, Kd)

نقاط الابتكار التقني

1. الاستدلال على السلاسل السببية المعقدة

بناء الاتصالات السببية بناءً على ثلاثة مؤشرات تقييم:

درجة التوافق الدلالي:

Semantic Score(ojk, pik) = (ojk · pik) / (||ojk|| ||pik||)

درجة القيد الزمني:

Temporal Score(Δtij) = exp(-Δtij/τ)

درجة محاذاة المبرر:

Rationale Score(rjk, Qi) = log(1 + PNLI(rjk → Qi))

حساب الوزن النهائي:

Weight(eij) = α·Semantic Score + β·Temporal Score + γ·Rationale Score

2. آلية النافذة المنزلقة

معالجة تسلسل الحوار بشكل مستمر من خلال نافذة منزلقة، مما يخفف بفعالية قيود طول الإدخال مع الحفاظ على معلومات السياق العام.

إعداد التجارب

مجموعات البيانات

مجموعة بيانات ATLAS-6 تحتوي على جزأين:

  1. مجموعة البيانات الاصطناعية المساعدة: 20,000 نص حوار ممتد (70-300 دور)، يغطي 8 سيناريوهات
  2. مجموعة البيانات الحقيقية للتحقق: 2,745 محادثة تسلسل طويل، مصدرها الأفلام والشبكات الاجتماعية

تم تصنيف كل عبارة بستة عناصر رئيسية، مع الخضوع للتصنيف اليدوي الصارم والفحص المتقاطع.

مؤشرات التقييم

  1. دقة السببية = عدد الاتصالات السببية الصحيحة / إجمالي عدد الاتصالات السببية المتنبأ بها
  2. اتساق السببية = عدد الاتصالات السببية المتسقة / إجمالي عدد الاتصالات السببية
  3. درجة السلسلة السببية = 0.5 × دقة السببية + 0.5 × اتساق السببية

طرق المقارنة

  • النماذج مفتوحة المصدر: LLama-3.3-70B, Qwen2.5-72B, InternLM2.5-20B
  • النماذج الملكية: GLM-4, GPT-4o
  • الطرق التقليدية: CRF-Extract-Classify, SpERT, DiaASQ, ParaPhrase, Span-ASTE

تفاصيل التنفيذ

  • تم تدريب النماذج مفتوحة المصدر باستخدام 64 وحدة معالجة رسومية A800 موزعة
  • يتم الوصول إلى النماذج الملكية من خلال واجهات برمجية رسمية
  • معاملات الأوزان α, β, γ تحقق α + β + γ = 1 و 0 < α, β, γ < 1

نتائج التجارب

النتائج الرئيسية

الأداء على مجموعة بيانات DiaASQ

يتفوق CauseMotion-GLM-4 بشكل كبير على النماذج الأخرى في جميع المؤشرات:

  • F1 لمطابقة نطاق الهدف: 91.43
  • F1 لمطابقة نطاق الجانب: 77.63
  • F1 لاستخراج الرأي: 61.35
  • F1 لاستخراج زوج الهدف-الجانب: 64.15
  • F1 لاستخراج زوج الهدف-الرأي: 50.22
  • F1 لاستخراج زوج الجانب-الرأي: 59.16

الأداء على مجموعة بيانات ATLAS

يحقق CauseMotion-GLM-4 أعلى دقة لسلسلة الاستدلال السببي العاطفي بقيمة 0.574، مما يمثل تحسناً بنسبة 8.7% مقارنة بـ GPT-4o الذي حقق 0.528.

تجارب الاستبدال

تظهر تجارب الاستبدال انخفاضاً كبيراً في الأداء عند إزالة إطار عمل CauseMotion:

  • GLM-4: من 0.574 إلى 0.487 (-0.075)
  • تظهر النماذج الأخرى أيضاً اتجاهات انخفاض أداء مماثلة

يثبت هذا الدور الحاسم لإطار عمل CauseMotion في تحسين الاستدلال السببي العاطفي.

النتائج التجريبية

  1. فعالية الدمج متعدد الأنماط: يحسّن إضافة المميزات الصوتية بشكل كبير من عمق فهم العاطفة
  2. أهمية آلية RAG: تخفف آلية الاسترجاع الديناميكي بفعالية من تحديات معالجة التسلسلات الطويلة
  3. عمومية الإطار: يمكن لـ CauseMotion تحسين أداء نماذج أساسية مختلفة بفعالية

الأعمال ذات الصلة

تطور تحليل العاطفة

من تحليل العاطفة القائم على الجوانب (ABSA) إلى التحليل الدقيق، القادر على استخراج الأهداف والجوانب والآراء والعواطف من النص، لكنه يواجه تحديات جديدة في معالجة التسلسلات النصية الطويلة والمعلومات متعددة الأنماط.

الاستدلال على التسلسلات الطويلة

يركز البحث الموجود بشكل أساسي على النصوص القصيرة، ويفتقر إلى القدرة على نمذجة التبعيات طويلة المدى والعلاقات المعقدة متعددة الطبقات، مما يحد من فهم السلاسل السببية العاطفية العميقة.

الدمج متعدد الأنماط

تعتمد الطرق التقليدية بشكل أساسي على معلومات النص، بينما تحقق هذه الورقة فهماً أكثر شمولاً للتعبير العاطفي من خلال دمج المميزات الصوتية.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. يحل إطار عمل CauseMotion بفعالية تحديات الاستدلال السببي العاطفي للتسلسلات الطويلة من خلال RAG والدمج متعدد الأنماط
  2. يحسّن التكامل العميق للمميزات الصوتية بشكل كبير من قدرة فهم العاطفة
  3. توفر مجموعة البيانات المبنية ATLAS-6 مورداً أساسياً مهماً لهذا المجال

القيود

  1. يركز الإطار الحالي بشكل أساسي على سيناريوهات الحوار، وتحتاج قابلية التطبيق على أنواع نصية أخرى إلى التحقق الإضافي
  2. يعتمد استخراج المميزات الصوتية على نموذج مدرب مسبقاً محدد (SenseVoice)
  3. التعقيد الحسابي مرتفع نسبياً، مما قد يحد من التطبيقات العملية

الاتجاهات المستقبلية

  1. توسيع الإطار إلى مجالات وأنواع نصية أخرى
  2. دمج بيانات نمطية إضافية (مثل المعلومات البصرية)
  3. تحسين الكفاءة الحسابية وضغط النموذج

التقييم المتعمق

المميزات

  1. قوة الابتكار التقني: أول تطبيق منهجي لتقنية RAG في الاستدلال السببي العاطفي للتسلسلات الطويلة
  2. دمج متعدد الأنماط عميق: دمج مبتكر للمميزات الصوتية في قاعدة المعارف وتصميم الإدخال
  3. مساهمة مجموعة البيانات كبيرة: بناء أول مجموعة بيانات كبيرة الحجم للاستدلال السببي العاطفي للتسلسلات الطويلة
  4. تجارب شاملة: تقييم شامل على مجموعات بيانات ونماذج متعددة
  5. تحسن الأداء كبير: تحقيق تحسينات واضحة مقارنة بطرق SOTA

أوجه القصور

  1. التعقيد الحسابي: تزيد آليات الدمج متعدد الأنماط و RAG من النفقات الحسابية
  2. الاعتماد القوي: يعتمد بشكل كبير على نموذج استخراج المميزات الصوتية ونماذج اللغة المدربة مسبقاً
  3. القابلية للتعميم غير المعروفة: يتم التحقق بشكل أساسي في سيناريوهات الحوار، وتحتاج قابلية التطبيق في سيناريوهات أخرى إلى مزيد من التجارب
  4. نقص التحليل النظري: يفتقر إلى شرح نظري عميق لسبب فعالية هذه الطريقة

التأثير

  1. المساهمة الأكاديمية: فتح اتجاه بحثي جديد للاستدلال السببي العاطفي للتسلسلات الطويلة
  2. القيمة العملية: ذات أهمية كبيرة في سيناريوهات التطبيق مثل خدمة العملاء الذكية وتحليل العاطفة
  3. قابلية الاستنساخ: توفير مستودع كود مجهول الهوية لتسهيل استنساخ البحث

السيناريوهات القابلة للتطبيق

  1. فهم العاطفة في أنظمة الحوار الطويلة
  2. مراقبة العاطفة على وسائل التواصل الاجتماعي
  3. تحليل جودة خدمة العملاء
  4. أنظمة تقييم الصحة النفسية
  5. أنظمة الحوار التعليمي

المراجع

تستشهد الورقة بـ 34 مرجعاً ذا صلة، تغطي مجالات بحثية متعددة بما في ذلك تحليل العاطفة والدمج متعدد الأنماط والجيل المعزز بالاسترجاع ونماذج اللغة الكبيرة، مما يوفر أساساً نظرياً متيناً لهذا البحث.


التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكراً لمهمة الاستدلال السببي العاطفي للتسلسلات الطويلة، وهي مهمة مهمة وتحديية. تستحق المساهمات التقنية وتصميم التجارب والنتائج الإعجاب، وتقدم مساهمات مهمة لتطور المجالات ذات الصلة.