2025-11-19T20:28:14.220145

Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations

Zhang, Li, Yu et al.

Long-sequence causal reasoning seeks to uncover causal relationships within extended time series data but is hindered by complex dependencies and the challenges of validating causal links. To address the limitations of large-scale language models (e.g., GPT-4) in capturing intricate emotional causality within extended dialogues, we propose CauseMotion, a long-sequence emotional causal reasoning framework grounded in Retrieval-Augmented Generation (RAG) and multimodal fusion. Unlike conventional methods relying only on textual information, CauseMotion enriches semantic representations by incorporating audio-derived features-vocal emotion, emotional intensity, and speech rate-into textual modalities. By integrating RAG with a sliding window mechanism, it effectively retrieves and leverages contextually relevant dialogue segments, thus enabling the inference of complex emotional causal chains spanning multiple conversational turns. To evaluate its effectiveness, we constructed the first benchmark dataset dedicated to long-sequence emotional causal reasoning, featuring dialogues with over 70 turns. Experimental results demonstrate that the proposed RAG-based multimodal integrated approach, the efficacy of substantially enhances both the depth of emotional understanding and the causal inference capabilities of large-scale language models. A GLM-4 integrated with CauseMotion achieves an 8.7% improvement in causal accuracy over the original model and surpasses GPT-4o by 1.2%. Additionally, on the publicly available DiaASQ dataset, CauseMotion-GLM-4 achieves state-of-the-art results in accuracy, F1 score, and causal reasoning accuracy.

academic

Décoder le Flux : CauseMotion pour l'Analyse de la Causalité Émotionnelle dans les Conversations Longues

Informations Fondamentales

ID de l'article : 2501.00778
Titre : Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations
Auteurs : Yuxuan Zhang, Yulong Li, Zichen Yu, Feilong Tang, Zhixiang Lu, Chong Li, Kang Dang, Jionglong Su
Classification : cs.CL (Linguistique Informatique), cs.CY (Informatique et Société)
Date de publication : 1er janvier 2025
Lien de l'article : https://arxiv.org/abs/2501.00778

Résumé

Cet article propose CauseMotion, un cadre de raisonnement causal émotionnel pour longues séquences basé sur la génération augmentée par récupération (RAG) et la fusion multimodale. Ce cadre intègre les caractéristiques audio (émotion vocale, intensité émotionnelle, débit de parole) et la modalité textuelle, utilisant un mécanisme de fenêtre glissante pour récupérer les segments de conversation pertinents, permettant de raisonner sur les chaînes causales émotionnelles complexes s'étendant sur plusieurs tours de conversation. Les résultats expérimentaux montrent que le modèle GLM-4 intégrant CauseMotion améliore la précision causale de 8,7 % par rapport au modèle original et dépasse GPT-4o de 1,2 %.

Contexte de Recherche et Motivation

Définition du Problème

Le raisonnement causal sur longues séquences vise à découvrir les relations causales dans les données de séries temporelles étendues, mais est entravé par les dépendances complexes et les défis de vérification des chaînes causales. Les modèles de langage de grande taille existants présentent des limitations significatives dans la capture des relations causales émotionnelles complexes dans les conversations étendues.

Importance de la Recherche

Le raisonnement causal émotionnel est crucial pour les systèmes d'interaction homme-machine intelligents. Avec la prolifération des médias sociaux, l'expression émotionnelle devient de plus en plus complexe, impliquant des séquences de texte long et des informations multimodales. Comprendre l'origine, le développement et les conséquences des émotions est essentiel pour construire des systèmes plus intelligents émotionnellement.

Limitations des Méthodes Existantes

Contraintes de longueur d'entrée : Nécessité de tronquer ou segmenter le texte, entraînant une perte de contexte global et entravant la capture des dépendances à long terme entre les segments ou les tours de conversation
Difficultés de modélisation des dépendances à long terme : Difficulté à établir avec précision les associations causales globales, entraînant un raisonnement incomplet ou imprécis
Traitement basé sur des fragments : Peut perturber l'ordre des événements et les relations logiques, affaiblissant la compréhension du modèle de la chaîne causale globale
Défis de fusion multimodale : Les modalités texte et audio présentent des différences significatives dans la représentation des caractéristiques et les propriétés statistiques, et la nature propriétaire des modèles fermés limite l'intégration profonde des caractéristiques audio

Contributions Principales

Mécanisme de fusion multimodale : Propose une méthode pour intégrer profondément les caractéristiques audio dans la conception des entrées du modèle et la base de connaissances conversationnelle, réalisant une fusion efficace des données texte et audio
Ensemble de données longues séquences à grande échelle : Construit ATLAS-6, le premier ensemble de données de référence spécialisé pour le raisonnement causal émotionnel sur longues séquences, contenant 70-300 tours de conversation
Cadre CauseMotion : Propose un nouveau cadre de raisonnement causal intégrant RAG, capturant efficacement les dépendances à long terme et les chaînes causales complexes
Performance SOTA : Atteint les performances les plus avancées sur l'ensemble de données DiaASQ, CauseMotion-GLM-4 surpassant globalement GPT-4o sur l'ensemble de données ATLAS

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une conversation D = {u1, u2, ..., un} contenant n énoncés, où chaque énoncé ui = {wi1, wi2, ..., wim} contient m mots. L'objectif est d'extraire tous les sextuplets causaux émotionnels possibles Q = {(hj, tj, aj, oj, pj, rj)} de la fenêtre temporelle d'entrée W, où :

hj : Holder (détenteur de l'émotion)
tj : Target (cible)
aj : Aspect (aspect)
oj : Opinion (opinion)
pj : Sentiment (sentiment)
rj : Rationale (justification)

Architecture du Modèle

1. Mécanisme de Fusion Multimodale

Utilise SenseVoice pour extraire les caractéristiques émotionnelles de l'audio, incluant :

Émotion vocale ei ∈ Rd
Intensité émotionnelle θi ∈ R
Débit de parole ri = m/(tend_i - tstart_i)

Le vecteur de caractéristiques audio est défini comme :

ai = {ei, θi}

L'intégration multimodale est réalisée par une opération de concaténation :

Em = Concat(Et, Ee, Er)

2. Construction de la Base de Connaissances Conversationnelle

Adopte une méthode de fenêtre temporelle glissante, créant des sous-ensembles de conversation locaux :

Dt = {ut, ut+1, ..., ut+k}

Construit une base de connaissances conversationnelle contenant des caractéristiques multimodales :

Kd = {(W1, Em1), (W2, Em2), ..., (Wj, Emj)}

3. Mécanisme RAG

Le module RAG récupère les segments de conversation les plus pertinents par similarité cosinus :

Similarity(Wj, Wi) = (Wj · Wi) / (||Wj|| ||Wi||)

Le processus de récupération est défini comme :

Cj = RAG(Wj, Kd)

Points d'Innovation Technique

1. Raisonnement sur les Chaînes Causales Complexes

Établit les connexions causales basées sur trois métriques d'évaluation :

Score de Cohérence Sémantique :

Semantic Score(ojk, pik) = (ojk · pik) / (||ojk|| ||pik||)

Score de Contrainte Temporelle :

Temporal Score(Δtij) = exp(-Δtij/τ)

Score d'Alignement de Justification :

Rationale Score(rjk, Qi) = log(1 + PNLI(rjk → Qi))

Calcul du poids final :

Weight(eij) = α·Semantic Score + β·Temporal Score + γ·Rationale Score

2. Mécanisme de Fenêtre Glissante

Traite continuellement la séquence de conversation par fenêtre glissante, atténuant efficacement les limitations de longueur d'entrée tout en préservant les informations de contexte global.

Configuration Expérimentale

Ensembles de Données

L'ensemble de données ATLAS-6 comprend deux parties :

Ensemble de données synthétiques auxiliaires : 20 000 textes de conversation étendus (70-300 tours), couvrant 8 scénarios
Ensemble de données de validation réelle : 2 745 conversations longues séquences, provenant de films et de réseaux sociaux

Chaque énoncé est annoté avec six éléments clés, soumis à une annotation manuelle rigoureuse et à une vérification croisée.

Métriques d'Évaluation

Exactitude Causale = Nombre de liens causaux corrects / Nombre total de liens causaux prédits
Cohérence Causale = Nombre de liens causaux cohérents / Nombre total de liens causaux
Score de Chaîne Causale = 0,5 × Exactitude Causale + 0,5 × Cohérence Causale

Méthodes de Comparaison

Modèles open-source : LLama-3.3-70B, Qwen2.5-72B, InternLM2.5-20B
Modèles propriétaires : GLM-4, GPT-4o
Méthodes traditionnelles : CRF-Extract-Classify, SpERT, DiaASQ, ParaPhrase, Span-ASTE

Détails d'Implémentation

Les modèles open-source utilisent 64 GPU A800 pour l'entraînement distribué
Les modèles propriétaires sont accessibles via des API officielles
Les paramètres de poids α, β, γ satisfont α + β + γ = 1 et 0 < α, β, γ < 1

Résultats Expérimentaux

Résultats Principaux

Performance sur l'Ensemble de Données DiaASQ

CauseMotion-GLM-4 surpasse significativement les autres modèles sur toutes les métriques :

F1 d'appariement d'étendue cible : 91,43
F1 d'appariement d'étendue d'aspect : 77,63
F1 d'extraction d'opinion : 61,35
F1 d'extraction de paire T-A : 64,15
F1 d'extraction de paire T-O : 50,22
F1 d'extraction de paire A-O : 59,16

Performance sur l'Ensemble de Données ATLAS

CauseMotion-GLM-4 atteint le taux de précision de chaîne de raisonnement causal émotionnel le plus élevé de 0,574, améliorant de 8,7 % par rapport à GPT-4o (0,528).

Études d'Ablation

Les études d'ablation montrent une baisse significative de performance après suppression du cadre CauseMotion :

GLM-4 : Baisse de 0,574 à 0,487 (-0,075)
Les autres modèles montrent également des tendances de baisse de performance similaires

Cela démontre le rôle clé du cadre CauseMotion dans l'amélioration du raisonnement causal émotionnel.

Découvertes Expérimentales

Efficacité de la fusion multimodale : L'ajout de caractéristiques audio améliore significativement la profondeur de la compréhension émotionnelle
Importance du mécanisme RAG : Le mécanisme de récupération dynamique atténue efficacement les défis du traitement des longues séquences
Généralité du cadre : CauseMotion peut améliorer efficacement la performance de différents modèles de base

Travaux Connexes

Évolution de l'Analyse Émotionnelle

De l'analyse émotionnelle basée sur les aspects (ABSA) à l'analyse fine, capable d'extraire les cibles, aspects, opinions et sentiments du texte, mais confrontée à de nouveaux défis dans le traitement des séquences de texte long et des informations multimodales.

Raisonnement sur Longues Séquences

Les recherches existantes se concentrent principalement sur les textes courts, manquant de capacités de modélisation des dépendances à long terme et des relations multi-niveaux complexes, limitant la compréhension des chaînes causales émotionnelles profondes.

Fusion Multimodale

Les méthodes traditionnelles dépendent principalement des informations textuelles. Cet article réalise une compréhension plus complète de l'expression émotionnelle en intégrant les caractéristiques audio.

Conclusion et Discussion

Conclusions Principales

Le cadre CauseMotion résout efficacement les défis du raisonnement causal émotionnel sur longues séquences par RAG et fusion multimodale
L'intégration profonde des caractéristiques audio améliore significativement la capacité de compréhension émotionnelle
L'ensemble de données ATLAS-6 construit fournit une ressource fondamentale importante pour ce domaine

Limitations

Actuellement axé principalement sur les scénarios de conversation, l'applicabilité à d'autres types de texte nécessite une vérification supplémentaire
L'extraction de caractéristiques audio dépend d'un modèle pré-entraîné spécifique (SenseVoice)
La complexité computationnelle est relativement élevée, pouvant limiter les applications pratiques

Directions Futures

Étendre le cadre à d'autres domaines et types de texte
Intégrer davantage de données multimodales (par exemple, informations visuelles)
Optimiser l'efficacité computationnelle et la compression du modèle

Évaluation Approfondie

Avantages

Innovation Technique Forte : Première application systématique de la technologie RAG au raisonnement causal émotionnel sur longues séquences
Fusion Multimodale Approfondie : Intégration innovante des caractéristiques audio dans la base de connaissances et la conception des entrées
Contribution Importante aux Données : Construction du premier ensemble de données à grande échelle pour le raisonnement causal émotionnel sur longues séquences
Expérimentation Complète : Évaluation complète sur plusieurs ensembles de données et modèles
Amélioration Significative de Performance : Améliorations notables par rapport aux méthodes SOTA

Insuffisances

Complexité Computationnelle : La fusion multimodale et le mécanisme RAG augmentent les frais de calcul
Dépendance Forte : Dépendance importante vis-à-vis du modèle d'extraction de caractéristiques audio et des modèles de langage pré-entraînés
Généralisation Inconnue : Principalement validé dans les scénarios de conversation, l'applicabilité à d'autres scénarios nécessite plus d'expériences
Analyse Théorique Insuffisante : Manque d'explication théorique profonde sur les raisons de l'efficacité de cette méthode

Impact

Contribution Académique : Ouvre une nouvelle direction de recherche pour le raisonnement causal émotionnel sur longues séquences
Valeur Pratique : Importance significative dans les scénarios d'application tels que les services clients intelligents et l'analyse émotionnelle
Reproductibilité : Fournit un référentiel de code anonyme, facilitant la reproduction de la recherche

Scénarios d'Application

Compréhension émotionnelle dans les systèmes de conversation longue
Surveillance émotionnelle des médias sociaux
Analyse de la qualité du service client
Systèmes d'évaluation de la santé mentale
Systèmes de conversation éducative

Références

L'article cite 34 travaux connexes, couvrant plusieurs domaines de recherche importants incluant l'analyse émotionnelle, la fusion multimodale, la génération augmentée par récupération, et les modèles de langage de grande taille, fournissant une base théorique solide pour cette recherche.

Évaluation Globale : Ceci est un article de recherche de haute qualité proposant une solution innovante à la tâche importante et difficile du raisonnement causal émotionnel sur longues séquences. Les contributions techniques, la conception expérimentale et les résultats de l'article sont impressionnants, apportant une contribution importante au développement du domaine connexe.