Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations
Zhang, Li, Yu et al.
Long-sequence causal reasoning seeks to uncover causal relationships within extended time series data but is hindered by complex dependencies and the challenges of validating causal links. To address the limitations of large-scale language models (e.g., GPT-4) in capturing intricate emotional causality within extended dialogues, we propose CauseMotion, a long-sequence emotional causal reasoning framework grounded in Retrieval-Augmented Generation (RAG) and multimodal fusion. Unlike conventional methods relying only on textual information, CauseMotion enriches semantic representations by incorporating audio-derived features-vocal emotion, emotional intensity, and speech rate-into textual modalities. By integrating RAG with a sliding window mechanism, it effectively retrieves and leverages contextually relevant dialogue segments, thus enabling the inference of complex emotional causal chains spanning multiple conversational turns. To evaluate its effectiveness, we constructed the first benchmark dataset dedicated to long-sequence emotional causal reasoning, featuring dialogues with over 70 turns. Experimental results demonstrate that the proposed RAG-based multimodal integrated approach, the efficacy of substantially enhances both the depth of emotional understanding and the causal inference capabilities of large-scale language models. A GLM-4 integrated with CauseMotion achieves an 8.7% improvement in causal accuracy over the original model and surpasses GPT-4o by 1.2%. Additionally, on the publicly available DiaASQ dataset, CauseMotion-GLM-4 achieves state-of-the-art results in accuracy, F1 score, and causal reasoning accuracy.
본 논문은 검색 증강 생성(RAG)과 다중모달 융합을 기반으로 하는 장시간 정서 인과관계 추론 프레임워크인 CauseMotion을 제안한다. 본 프레임워크는 음성 특성(음성 정서, 정서 강도, 음성 속도)과 텍스트 모달리티를 통합하고, 슬라이딩 윈도우 메커니즘을 활용하여 관련 대화 세그먼트를 검색함으로써 여러 대화 턴에 걸친 복잡한 정서 인과 체인을 추론할 수 있다. 실험 결과는 CauseMotion이 통합된 GLM-4 모델이 인과관계 정확도에서 원래 모델보다 8.7% 향상되었으며, GPT-4o를 1.2% 초과했음을 보여준다.
정서 인과관계 추론은 지능형 인간-컴퓨터 상호작용 시스템에 필수적이며, 소셜 미디어의 확산으로 정서 표현이 점점 더 복잡해지고 있으며, 장문 시퀀스와 다중모달 정보를 포함한다. 정서의 기원, 발전 및 결과를 이해하는 것은 더욱 정서 지능형 시스템을 구축하는 데 중요한 의미가 있다.
n개의 발화를 포함하는 대화 D = {u1, u2, ..., un}이 주어졌을 때, 각 발화 ui = {wi1, wi2, ..., wim}은 m개의 단어를 포함한다. 목표는 입력 시간 윈도우 W에서 모든 가능한 정서 인과 6원조 Q = {(hj, tj, aj, oj, pj, rj)}를 추출하는 것이다. 여기서: