2025-11-19T20:28:14.220145

Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations

Zhang, Li, Yu et al.

Long-sequence causal reasoning seeks to uncover causal relationships within extended time series data but is hindered by complex dependencies and the challenges of validating causal links. To address the limitations of large-scale language models (e.g., GPT-4) in capturing intricate emotional causality within extended dialogues, we propose CauseMotion, a long-sequence emotional causal reasoning framework grounded in Retrieval-Augmented Generation (RAG) and multimodal fusion. Unlike conventional methods relying only on textual information, CauseMotion enriches semantic representations by incorporating audio-derived features-vocal emotion, emotional intensity, and speech rate-into textual modalities. By integrating RAG with a sliding window mechanism, it effectively retrieves and leverages contextually relevant dialogue segments, thus enabling the inference of complex emotional causal chains spanning multiple conversational turns. To evaluate its effectiveness, we constructed the first benchmark dataset dedicated to long-sequence emotional causal reasoning, featuring dialogues with over 70 turns. Experimental results demonstrate that the proposed RAG-based multimodal integrated approach, the efficacy of substantially enhances both the depth of emotional understanding and the causal inference capabilities of large-scale language models. A GLM-4 integrated with CauseMotion achieves an 8.7% improvement in causal accuracy over the original model and surpasses GPT-4o by 1.2%. Additionally, on the publicly available DiaASQ dataset, CauseMotion-GLM-4 achieves state-of-the-art results in accuracy, F1 score, and causal reasoning accuracy.

academic

প্রবাহ ডিকোডিং: দীর্ঘ-ফর্ম কথোপকথনে আবেগজনক কার্যকারণ বিশ্লেষণের জন্য CauseMotion

মৌলিক তথ্য

পেপার আইডি: 2501.00778
শিরোনাম: Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations
লেখক: Yuxuan Zhang, Yulong Li, Zichen Yu, Feilong Tang, Zhixiang Lu, Chong Li, Kang Dang, Jionglong Su
শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল ভাষাবিজ্ঞান), cs.CY (কম্পিউটার এবং সমাজ)
প্রকাশনার সময়: ২০২৫ সালের ১ জানুয়ারি
পেপার লিংক: https://arxiv.org/abs/2501.00778

সারসংক্ষেপ

এই পেপারটি CauseMotion প্রস্তাব করে, যা পুনরুদ্ধার-বর্ধিত প্রজন্ম (RAG) এবং বহুমাধ্যম সংমিশ্রণের উপর ভিত্তি করে একটি দীর্ঘ-ক্রম আবেগজনক কার্যকারণ অনুমান কাঠামো। এই কাঠামোটি অডিও বৈশিষ্ট্য (শব্দ আবেগ, আবেগ তীব্রতা, কথার গতি) এবং পাঠ্য পদ্ধতি একীভূত করে, স্লাইডিং উইন্ডো প্রক্রিয়া ব্যবহার করে প্রাসঙ্গিক কথোপকথন খণ্ড পুনরুদ্ধার করে, একাধিক কথোপকথন পালার মধ্যে বিস্তৃত জটিল আবেগজনক কার্যকারণ শৃঙ্খল অনুমান করতে পারে। পরীক্ষামূলক ফলাফল দেখায় যে CauseMotion সমন্বিত GLM-4 মডেল কার্যকারণ নির্ভুলতায় মূল মডেলের তুলনায় ৮.৭% উন্নতি করে এবং GPT-4o কে ১.২% অতিক্রম করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

দীর্ঘ-ক্রম কার্যকারণ অনুমান সম্প্রসারিত সময় ক্রম ডেটায় কার্যকারণ সম্পর্ক আবিষ্কার করার লক্ষ্য রাখে, কিন্তু জটিল নির্ভরতা সম্পর্ক এবং কার্যকারণ শৃঙ্খল যাচাইকরণ চ্যালেঞ্জ দ্বারা বাধাগ্রস্ত। বিদ্যমান বৃহৎ-স্কেল ভাষা মডেলগুলি সম্প্রসারিত কথোপকথনে জটিল আবেগজনক কার্যকারণ সম্পর্ক ক্যাপচার করতে উল্লেখযোগ্য সীমাবদ্ধতা রয়েছে।

গবেষণার গুরুত্ব

আবেগজনক কার্যকারণ অনুমান বুদ্ধিমান মানব-কম্পিউটার ইন্টারঅ্যাকশন সিস্টেমের জন্য গুরুত্বপূর্ণ, সোশ্যাল মিডিয়ার প্রসারের সাথে, আবেগজনক প্রকাশ ক্রমবর্ধমান জটিল হয়ে উঠছে, যা দীর্ঘ পাঠ্য ক্রম এবং বহুমাধ্যম তথ্য জড়িত। আবেগের উৎপত্তি, বিকাশ এবং ফলাফল বোঝা আরও আবেগজনকভাবে বুদ্ধিমান সিস্টেম তৈরির জন্য গুরুত্বপূর্ণ।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

ইনপুট দৈর্ঘ্য সীমাবদ্ধতা: পাঠ্য কাটা বা বিভাজনের প্রয়োজন, যা বৈশ্বিক প্রসঙ্গ হারানোর দিকে পরিচালিত করে, অংশ বা কথোপকথন পালার মধ্যে দীর্ঘ-পরিসর নির্ভরতা ক্যাপচার বাধা দেয়
দীর্ঘ-পরিসর নির্ভরতা মডেলিং কঠিনতা: বৈশ্বিক কার্যকারণ সম্পর্ক সঠিকভাবে প্রতিষ্ঠা করা কঠিন, অসম্পূর্ণ বা অনির্ভুল অনুমানের দিকে পরিচালিত করে
খণ্ড-ভিত্তিক প্রক্রিয়াকরণ: ঘটনার ক্রম এবং যুক্তিসঙ্গত সম্পর্ক ভাঙতে পারে, সামগ্রিক কার্যকারণ শৃঙ্খলের প্রতি মডেলের বোঝাপড়া দুর্বল করে
বহুমাধ্যম সংমিশ্রণ চ্যালেঞ্জ: পাঠ্য এবং অডিও পদ্ধতি বৈশিষ্ট্য প্রতিনিধিত্ব এবং পরিসংখ্যানগত বৈশিষ্ট্যে উল্লেখযোগ্য পার্থক্য রয়েছে, এবং বন্ধ-উৎস মডেলের মালিকানাধীন প্রকৃতি অডিও বৈশিষ্ট্যের গভীর একীকরণ সীমাবদ্ধ করে

মূল অবদান

বহুমাধ্যম সংমিশ্রণ প্রক্রিয়া: মডেল ইনপুট ডিজাইন এবং কথোপকথন জ্ঞান ভাণ্ডারে অডিও বৈশিষ্ট্য গভীরভাবে এম্বেড করার পদ্ধতি প্রস্তাব করে, পাঠ্য এবং অডিও ডেটার কার্যকর সংমিশ্রণ অর্জন করে
বৃহৎ-স্কেল দীর্ঘ-ক্রম ডেটাসেট: দীর্ঘ-ক্রম আবেগজনক কার্যকারণ অনুমানের জন্য বিশেষভাবে ডিজাইন করা প্রথম বেঞ্চমার্ক ডেটাসেট ATLAS-6 তৈরি করে, যা ৭০-৩০০ পালার কথোপকথন অন্তর্ভুক্ত করে
CauseMotion কাঠামো: RAG একীভূত একটি নতুন কার্যকারণ অনুমান কাঠামো প্রস্তাব করে, কার্যকরভাবে দীর্ঘ-পরিসর নির্ভরতা এবং জটিল কার্যকারণ শৃঙ্খল ক্যাপচার করে
SOTA কর্মক্ষমতা: DiaASQ ডেটাসেটে অত্যাধুনিক কর্মক্ষমতা অর্জন করে, CauseMotion-GLM-4 ATLAS ডেটাসেটে GPT-4o কে ব্যাপকভাবে অতিক্রম করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

n টি উচ্চারণ সহ একটি কথোপকথন D = {u1, u2, ..., un} দেওয়া, যেখানে প্রতিটি উচ্চারণ ui = {wi1, wi2, ..., wim} m টি শব্দ ধারণ করে। লক্ষ্য হল ইনপুট সময় উইন্ডো W থেকে সমস্ত সম্ভাব্য আবেগজনক কার্যকারণ ষড়ভুজ Q = {(hj, tj, aj, oj, pj, rj)} নিষ্কাশন করা, যেখানে:

hj: ধারক (আবেগ ধারক)
tj: লক্ষ্য
aj: দিক
oj: মতামত
pj: অনুভূতি
rj: কারণ

মডেল স্থাপত্য

1. বহুমাধ্যম সংমিশ্রণ প্রক্রিয়া

SenseVoice ব্যবহার করে অডিও থেকে আবেগজনক বৈশিষ্ট্য নিষ্কাশন করে, যা অন্তর্ভুক্ত করে:

শব্দ আবেগ ei ∈ Rd
আবেগ তীব্রতা θi ∈ R
কথার গতি ri = m/(tend_i - tstart_i)

অডিও বৈশিষ্ট্য ভেক্টর সংজ্ঞায়িত করা হয়:

ai = {ei, θi}

বহুমাধ্যম এম্বেডিং সংযোগ অপারেশনের মাধ্যমে বাস্তবায়িত হয়:

Em = Concat(Et, Ee, Er)

2. কথোপকথন জ্ঞান ভাণ্ডার নির্মাণ

স্লাইডিং সময় উইন্ডো পদ্ধতি গ্রহণ করে, স্থানীয় কথোপকথন উপসেট তৈরি করে:

Dt = {ut, ut+1, ..., ut+k}

বহুমাধ্যম বৈশিষ্ট্য সহ কথোপকথন জ্ঞান ভাণ্ডার নির্মাণ করে:

Kd = {(W1, Em1), (W2, Em2), ..., (Wj, Emj)}

3. RAG প্রক্রিয়া

RAG মডিউল কোসাইন সাদৃশ্য দ্বারা সবচেয়ে প্রাসঙ্গিক কথোপকথন খণ্ড পুনরুদ্ধার করে:

Similarity(Wj, Wi) = (Wj · Wi) / (||Wj|| ||Wi||)

পুনরুদ্ধার প্রক্রিয়া সংজ্ঞায়িত করা হয়:

Cj = RAG(Wj, Kd)

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

1. জটিল কার্যকারণ শৃঙ্খল অনুমান

তিনটি স্কোরিং সূচকের উপর ভিত্তি করে কার্যকারণ সংযোগ প্রতিষ্ঠা করে:

শব্দার্থগত সামঞ্জস্য স্কোর:

Semantic Score(ojk, pik) = (ojk · pik) / (||ojk|| ||pik||)

সময়গত সীমাবদ্ধতা স্কোর:

Temporal Score(Δtij) = exp(-Δtij/τ)

কারণ সারিবদ্ধকরণ স্কোর:

Rationale Score(rjk, Qi) = log(1 + PNLI(rjk → Qi))

চূড়ান্ত ওজন গণনা:

Weight(eij) = α·Semantic Score + β·Temporal Score + γ·Rationale Score

2. স্লাইডিং উইন্ডো প্রক্রিয়া

স্লাইডিং উইন্ডোর মাধ্যমে কথোপকথন ক্রম ক্রমাগত প্রক্রিয়া করে, ইনপুট দৈর্ঘ্য সীমাবদ্ধতা কার্যকরভাবে হ্রাস করে, একই সাথে বৈশ্বিক প্রসঙ্গ তথ্য বজায় রাখে।

পরীক্ষামূলক সেটআপ

ডেটাসেট

ATLAS-6 ডেটাসেট দুটি অংশ অন্তর্ভুক্ত করে:

সহায়ক সংশ্লেষিত ডেটাসেট: ২০,০০০ টি সম্প্রসারিত কথোপকথন পাঠ্য (৭০-৩০০ পালা), ৮ টি দৃশ্য কভার করে
প্রকৃত যাচাইকরণ ডেটাসেট: ২,৭৪৫ টি দীর্ঘ-ক্রম কথোপকথন, চলচ্চিত্র এবং সোশ্যাল নেটওয়ার্ক থেকে উৎপন্ন

প্রতিটি উচ্চারণ ছয়টি মূল উপাদান দিয়ে চিহ্নিত করা হয়, কঠোর মানব টীকা এবং ক্রস-চেক মাধ্যমে।

মূল্যায়ন মেট্রিক্স

কার্যকারণ সঠিকতা = সঠিক কার্যকারণ সংযোগ সংখ্যা / পূর্বাভাসিত কার্যকারণ সংযোগ মোট সংখ্যা
কার্যকারণ সামঞ্জস্য = সামঞ্জস্যপূর্ণ কার্যকারণ সংযোগ সংখ্যা / মোট কার্যকারণ সংযোগ সংখ্যা
কার্যকারণ শৃঙ্খল স্কোর = 0.5 × কার্যকারণ সঠিকতা + 0.5 × কার্যকারণ সামঞ্জস্য

তুলনা পদ্ধতি

ওপেন-সোর্স মডেল: LLama-3.3-70B, Qwen2.5-72B, InternLM2.5-20B
মালিকানাধীন মডেল: GLM-4, GPT-4o
ঐতিহ্যবাহী পদ্ধতি: CRF-Extract-Classify, SpERT, DiaASQ, ParaPhrase, Span-ASTE

বাস্তবায়ন বিবরণ

ওপেন-সোর্স মডেল ৬৪ টি A800 GPU ব্যবহার করে বিতরণকৃত প্রশিক্ষণ
মালিকানাধীন মডেল অফিসিয়াল API এর মাধ্যমে অ্যাক্সেস করা হয়
ওজন পরামিতি α, β, γ α + β + γ = 1 এবং 0 < α, β, γ < 1 সন্তুষ্ট করে

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

DiaASQ ডেটাসেট কর্মক্ষমতা

CauseMotion-GLM-4 সমস্ত মেট্রিক্সে অন্যান্য মডেলের চেয়ে উল্লেখযোগ্যভাবে উন্নত:

লক্ষ্য স্প্যান ম্যাচিং F1: 91.43
দিক স্প্যান ম্যাচিং F1: 77.63
মতামত নিষ্কাশন F1: 61.35
T-A জোড়া নিষ্কাশন F1: 64.15
T-O জোড়া নিষ্কাশন F1: 50.22
A-O জোড়া নিষ্কাশন F1: 59.16

ATLAS ডেটাসেট কর্মক্ষমতা

CauseMotion-GLM-4 সর্বোচ্চ আবেগজনক কার্যকারণ অনুমান শৃঙ্খল নির্ভুলতা 0.574 অর্জন করে, GPT-4o এর 0.528 এর তুলনায় 8.7% উন্নতি।

বিলোপন পরীক্ষা

বিলোপন পরীক্ষা দেখায় যে CauseMotion কাঠামো সরানোর পরে কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস পায়:

GLM-4: 0.574 থেকে 0.487 এ হ্রাস (-0.075)
অন্যান্য মডেলও অনুরূপ কর্মক্ষমতা হ্রাস প্রবণতা প্রদর্শন করে

এটি আবেগজনক কার্যকারণ অনুমান উন্নত করতে CauseMotion কাঠামোর মূল ভূমিকা প্রমাণ করে।

পরীক্ষামূলক অনুসন্ধান

বহুমাধ্যম সংমিশ্রণের কার্যকারিতা: অডিও বৈশিষ্ট্যের সংযোজন আবেগজনক বোঝার গভীরতা উল্লেখযোগ্যভাবে উন্নত করে
RAG প্রক্রিয়ার গুরুত্ব: গতিশীল পুনরুদ্ধার প্রক্রিয়া দীর্ঘ-ক্রম প্রক্রিয়াকরণের চ্যালেঞ্জ কার্যকরভাবে হ্রাস করে
কাঠামোর সর্বজনীনতা: CauseMotion বিভিন্ন ভিত্তি মডেলের কর্মক্ষমতা কার্যকরভাবে উন্নত করতে পারে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

CauseMotion কাঠামো RAG এবং বহুমাধ্যম সংমিশ্রণের মাধ্যমে দীর্ঘ-ক্রম আবেগজনক কার্যকারণ অনুমানের চ্যালেঞ্জ কার্যকরভাবে সমাধান করে
অডিও বৈশিষ্ট্যের গভীর একীকরণ আবেগজনক বোঝার ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে
নির্মিত ATLAS-6 ডেটাসেট এই ক্ষেত্রের জন্য গুরুত্বপূর্ণ ভিত্তি সম্পদ প্রদান করে

সীমাবদ্ধতা

বর্তমানে প্রধানত কথোপকথন দৃশ্যের উপর ফোকাস করে, অন্যান্য পাঠ্য ধরনের প্রযোজ্যতা আরও যাচাইকরণের প্রয়োজন
অডিও বৈশিষ্ট্য নিষ্কাশন নির্দিষ্ট প্রশিক্ষিত মডেলের উপর নির্ভর করে (SenseVoice)
গণনা জটিলতা তুলনামূলকভাবে বেশি, যা ব্যবহারিক প্রয়োগ সীমাবদ্ধ করতে পারে

ভবিষ্যত দিকনির্দেশনা

কাঠামো অন্যান্য ডোমেইন এবং পাঠ্য ধরনে প্রসারিত করা
আরও বহুমাধ্যম ডেটা একীভূত করা (যেমন ভিজ্যুয়াল তথ্য)
গণনা দক্ষতা অপ্টিমাইজ করা এবং মডেল সংকোচন

গভীর মূল্যায়ন

সুবিধা

প্রযুক্তিগত উদ্ভাবন শক্তিশালী: প্রথমবারের মতো দীর্ঘ-ক্রম আবেগজনক কার্যকারণ অনুমানে RAG প্রযুক্তি সিস্টেমেটিকভাবে প্রয়োগ করা
বহুমাধ্যম সংমিশ্রণ গভীর: অডিও বৈশিষ্ট্য জ্ঞান ভাণ্ডার এবং ইনপুট ডিজাইনে উদ্ভাবনীভাবে এম্বেড করা
ডেটাসেট অবদান বড়: প্রথম বৃহৎ-স্কেল দীর্ঘ-ক্রম আবেগজনক কার্যকারণ অনুমান ডেটাসেট তৈরি করা
পরীক্ষা ব্যাপক: একাধিক ডেটাসেট এবং মডেলে ব্যাপক মূল্যায়ন পরিচালনা করা
কর্মক্ষমতা উন্নতি উল্লেখযোগ্য: SOTA পদ্ধতির তুলনায় স্পষ্ট উন্নতি অর্জন করা

অপূর্ণতা

গণনা জটিলতা: বহুমাধ্যম সংমিশ্রণ এবং RAG প্রক্রিয়া গণনা খরচ বৃদ্ধি করে
নির্ভরতা শক্তিশালী: অডিও বৈশিষ্ট্য নিষ্কাশন মডেল এবং প্রশিক্ষিত ভাষা মডেলের উপর বড় নির্ভরতা
সাধারণীকরণ অজানা: প্রধানত কথোপকথন দৃশ্যে যাচাই করা, অন্যান্য দৃশ্যের প্রযোজ্যতা আরও পরীক্ষার প্রয়োজন
তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: পদ্ধতি কেন কার্যকর তার গভীর তাত্ত্বিক ব্যাখ্যার অভাব

প্রভাব

একাডেমিক অবদান: দীর্ঘ-ক্রম আবেগজনক কার্যকারণ অনুমানের জন্য নতুন গবেষণা দিকনির্দেশনা খোলা
ব্যবহারিক মূল্য: বুদ্ধিমান গ্রাহক সেবা, আবেগজনক বিশ্লেষণ ইত্যাদি প্রয়োগ দৃশ্যে গুরুত্বপূর্ণ মূল্য
পুনরুৎপাদনযোগ্যতা: অনামী কোড ভাণ্ডার প্রদান করে, গবেষণা পুনরুৎপাদন সুবিধা প্রদান করে

প্রযোজ্য দৃশ্য

দীর্ঘ কথোপকথন সিস্টেমের আবেগজনক বোঝা
সোশ্যাল মিডিয়া আবেগজনক পর্যবেক্ষণ
গ্রাহক সেবা গুণমান বিশ্লেষণ
মানসিক স্বাস্থ্য মূল্যায়ন সিস্টেম
শিক্ষামূলক কথোপকথন সিস্টেম

সংদর্ভ

পেপারটি ৩৪ টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, যা আবেগজনক বিশ্লেষণ, বহুমাধ্যম সংমিশ্রণ, পুনরুদ্ধার-বর্ধিত প্রজন্ম, বৃহৎ ভাষা মডেল ইত্যাদি একাধিক গবেষণা ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, এই গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার, দীর্ঘ-ক্রম আবেগজনক কার্যকারণ অনুমানের এই গুরুত্বপূর্ণ এবং চ্যালেঞ্জিং কাজে উদ্ভাবনী সমাধান প্রস্তাব করে। পেপারের প্রযুক্তিগত অবদান, পরীক্ষামূলক ডিজাইন এবং ফলাফল সবই চিত্তাকর্ষক, সম্পর্কিত ক্ষেত্রের উন্নয়নে গুরুত্বপূর্ণ অবদান রাখে।