2025-11-19T20:28:14.220145

Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations

Zhang, Li, Yu et al.

Long-sequence causal reasoning seeks to uncover causal relationships within extended time series data but is hindered by complex dependencies and the challenges of validating causal links. To address the limitations of large-scale language models (e.g., GPT-4) in capturing intricate emotional causality within extended dialogues, we propose CauseMotion, a long-sequence emotional causal reasoning framework grounded in Retrieval-Augmented Generation (RAG) and multimodal fusion. Unlike conventional methods relying only on textual information, CauseMotion enriches semantic representations by incorporating audio-derived features-vocal emotion, emotional intensity, and speech rate-into textual modalities. By integrating RAG with a sliding window mechanism, it effectively retrieves and leverages contextually relevant dialogue segments, thus enabling the inference of complex emotional causal chains spanning multiple conversational turns. To evaluate its effectiveness, we constructed the first benchmark dataset dedicated to long-sequence emotional causal reasoning, featuring dialogues with over 70 turns. Experimental results demonstrate that the proposed RAG-based multimodal integrated approach, the efficacy of substantially enhances both the depth of emotional understanding and the causal inference capabilities of large-scale language models. A GLM-4 integrated with CauseMotion achieves an 8.7% improvement in causal accuracy over the original model and surpasses GPT-4o by 1.2%. Additionally, on the publicly available DiaASQ dataset, CauseMotion-GLM-4 achieves state-of-the-art results in accuracy, F1 score, and causal reasoning accuracy.

academic

Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations

基本信息

论文ID: 2501.00778
标题: Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations
作者: Yuxuan Zhang, Yulong Li, Zichen Yu, Feilong Tang, Zhixiang Lu, Chong Li, Kang Dang, Jionglong Su
分类: cs.CL (Computational Linguistics), cs.CY (Computers and Society)
发表时间: 2025年1月1日
论文链接: https://arxiv.org/abs/2501.00778

摘要

本文提出了CauseMotion，一个基于检索增强生成(RAG)和多模态融合的长序列情感因果推理框架。该框架通过整合音频特征(声音情感、情感强度、语速)和文本模态，利用滑动窗口机制检索相关对话片段，能够推理跨越多个对话轮次的复杂情感因果链。实验结果表明，集成CauseMotion的GLM-4模型在因果准确率上比原模型提升8.7%，并超越GPT-4o 1.2%。

研究背景与动机

问题定义

长序列因果推理旨在发现扩展时间序列数据中的因果关系，但受到复杂依赖关系和因果链验证挑战的阻碍。现有大规模语言模型在捕获扩展对话中复杂情感因果关系方面存在显著局限性。

研究重要性

情感因果推理对于智能人机交互系统至关重要，随着社交媒体的普及，情感表达变得越来越复杂，涉及长文本序列和多模态信息。理解情感的起源、发展和结果对于构建更具情感智能的系统具有重要意义。

现有方法局限性

输入长度约束：需要截断或分割文本，导致全局上下文丢失，阻碍跨段落或对话轮次的长程依赖捕获
长程依赖建模困难：难以准确建立全局因果关联，导致推理不完整或不精确
基于片段的处理：可能破坏事件顺序和逻辑关系，削弱模型对整体因果链的理解
多模态融合挑战：文本和音频模态在特征表示和统计特性上差异显著，且闭源模型的专有性质限制了音频特征的深度集成

核心贡献

多模态融合机制：提出了将音频特征深度嵌入模型输入设计和对话知识库的方法，实现文本和音频数据的有效融合
大规模长序列数据集：构建了首个专门用于长序列情感因果推理的基准数据集ATLAS-6，包含70-300轮对话
CauseMotion框架：提出了集成RAG的新型因果推理框架，有效捕获长程依赖和复杂因果链
SOTA性能：在DiaASQ数据集上达到最先进性能，CauseMotion-GLM-4在ATLAS数据集上全面超越GPT-4o

方法详解

任务定义

给定一个包含n个话语的对话D = {u1, u2, ..., un}，其中每个话语ui = {wi1, wi2, ..., wim}包含m个词。目标是从输入时间窗口W中提取所有可能的情感因果六元组Q = {(hj, tj, aj, oj, pj, rj)}，其中：

hj: Holder (情感持有者)
tj: Target (目标)
aj: Aspect (方面)
oj: Opinion (观点)
pj: Sentiment (情感)
rj: Rationale (理由)

模型架构

1. 多模态融合机制

使用SenseVoice从音频中提取情感特征，包括：

声音情感 ei ∈ Rd
情感强度 θi ∈ R
语速 ri = m/(tend_i - tstart_i)

音频特征向量定义为：

ai = {ei, θi}

多模态嵌入通过连接操作实现：

Em = Concat(Et, Ee, Er)

2. 对话知识库构建

采用滑动时间窗口方法，创建局部对话子集：

Dt = {ut, ut+1, ..., ut+k}

构建包含多模态特征的对话知识库：

Kd = {(W1, Em1), (W2, Em2), ..., (Wj, Emj)}

3. RAG机制

RAG模块通过余弦相似度检索最相关的对话片段：

Similarity(Wj, Wi) = (Wj · Wi) / (||Wj|| ||Wi||)

检索过程定义为：

Cj = RAG(Wj, Kd)

技术创新点

1. 复杂因果链推理

基于三个评分指标建立因果连接：

语义一致性评分：

Semantic Score(ojk, pik) = (ojk · pik) / (||ojk|| ||pik||)

时间约束评分：

Temporal Score(Δtij) = exp(-Δtij/τ)

理由对齐评分：

Rationale Score(rjk, Qi) = log(1 + PNLI(rjk → Qi))

最终权重计算：

Weight(eij) = α·Semantic Score + β·Temporal Score + γ·Rationale Score

辅助合成数据集：20,000个扩展对话文本(70-300轮)，覆盖8个场景
真实验证数据集：2,745个长序列对话，来源于电影和社交网络

每个话语都标注了六个关键元素，经过严格的人工标注和交叉检查。

评价指标

因果正确性 = 正确因果链接数 / 预测因果链接总数
因果一致性 = 一致因果链接数 / 总因果链接数
因果链评分 = 0.5 × 因果正确性 + 0.5 × 因果一致性

对比方法

开源模型：LLama-3.3-70B, Qwen2.5-72B, InternLM2.5-20B
专有模型：GLM-4, GPT-4o
传统方法：CRF-Extract-Classify, SpERT, DiaASQ, ParaPhrase, Span-ASTE

实现细节

开源模型使用64个A800 GPU进行分布式训练
专有模型通过官方API访问
权重参数α, β, γ满足α + β + γ = 1且0 < α, β, γ < 1

Target span matching F1: 91.43
Aspect span matching F1: 77.63
Opinion extraction F1: 61.35
T-A pair extraction F1: 64.15
T-O pair extraction F1: 50.22
A-O pair extraction F1: 59.16

ATLAS数据集表现

CauseMotion-GLM-4达到最高的情感因果推理链准确率0.574，相比GPT-4o的0.528提升8.7%。

消融实验

消融实验显示，去除CauseMotion框架后性能大幅下降：

GLM-4: 从0.574降至0.487(-0.075)
其他模型也表现出类似的性能下降趋势

这证明了CauseMotion框架在提升情感因果推理方面的关键作用。

实验发现

多模态融合的有效性：音频特征的加入显著提升了情感理解的深度
RAG机制的重要性：动态检索机制有效缓解了长序列处理的挑战
框架的通用性：CauseMotion可以有效提升不同基础模型的性能

结论与讨论

主要结论

CauseMotion框架通过RAG和多模态融合有效解决了长序列情感因果推理的挑战
音频特征的深度集成显著提升了情感理解能力
构建的ATLAS-6数据集为该领域提供了重要的基础资源

局限性

当前主要关注对话场景，其他文本类型的适用性需要进一步验证
音频特征提取依赖于特定的预训练模型(SenseVoice)
计算复杂度较高，可能限制实际应用

未来方向

扩展框架到其他领域和文本类型
整合更多模态数据(如视觉信息)
优化计算效率和模型压缩

深度评价

优点

技术创新性强：首次系统性地将RAG技术应用于长序列情感因果推理
多模态融合深入：创新性地将音频特征嵌入到知识库和输入设计中
数据集贡献大：构建了首个大规模长序列情感因果推理数据集
实验充分：在多个数据集和模型上进行了全面评估
性能提升显著：相比SOTA方法取得了明显改进

不足

计算复杂度：多模态融合和RAG机制增加了计算开销
依赖性强：对音频特征提取模型和预训练语言模型依赖较大
泛化性未知：主要在对话场景验证，其他场景的适用性需要更多实验
理论分析不足：缺乏对为什么该方法有效的深层理论解释

影响力

学术贡献：为长序列情感因果推理开辟了新的研究方向
实用价值：在智能客服、情感分析等应用场景具有重要价值
可复现性：提供了匿名代码库，便于研究复现

适用场景

长对话系统的情感理解
社交媒体情感监控
客户服务质量分析
心理健康评估系统
教育对话系统

参考文献

论文引用了34篇相关文献，涵盖了情感分析、多模态融合、检索增强生成、大语言模型等多个研究领域的重要工作，为本研究提供了坚实的理论基础。

总体评价：这是一篇高质量的研究论文，在长序列情感因果推理这一重要且具有挑战性的任务上提出了创新性解决方案。论文的技术贡献、实验设计和结果都令人印象深刻，为相关领域的发展做出了重要贡献。