Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations
Zhang, Li, Yu et al.
Long-sequence causal reasoning seeks to uncover causal relationships within extended time series data but is hindered by complex dependencies and the challenges of validating causal links. To address the limitations of large-scale language models (e.g., GPT-4) in capturing intricate emotional causality within extended dialogues, we propose CauseMotion, a long-sequence emotional causal reasoning framework grounded in Retrieval-Augmented Generation (RAG) and multimodal fusion. Unlike conventional methods relying only on textual information, CauseMotion enriches semantic representations by incorporating audio-derived features-vocal emotion, emotional intensity, and speech rate-into textual modalities. By integrating RAG with a sliding window mechanism, it effectively retrieves and leverages contextually relevant dialogue segments, thus enabling the inference of complex emotional causal chains spanning multiple conversational turns. To evaluate its effectiveness, we constructed the first benchmark dataset dedicated to long-sequence emotional causal reasoning, featuring dialogues with over 70 turns. Experimental results demonstrate that the proposed RAG-based multimodal integrated approach, the efficacy of substantially enhances both the depth of emotional understanding and the causal inference capabilities of large-scale language models. A GLM-4 integrated with CauseMotion achieves an 8.7% improvement in causal accuracy over the original model and surpasses GPT-4o by 1.2%. Additionally, on the publicly available DiaASQ dataset, CauseMotion-GLM-4 achieves state-of-the-art results in accuracy, F1 score, and causal reasoning accuracy.
academic
Décoder le Flux : CauseMotion pour l'Analyse de la Causalité Émotionnelle dans les Conversations Longues
Cet article propose CauseMotion, un cadre de raisonnement causal émotionnel pour longues séquences basé sur la génération augmentée par récupération (RAG) et la fusion multimodale. Ce cadre intègre les caractéristiques audio (émotion vocale, intensité émotionnelle, débit de parole) et la modalité textuelle, utilisant un mécanisme de fenêtre glissante pour récupérer les segments de conversation pertinents, permettant de raisonner sur les chaînes causales émotionnelles complexes s'étendant sur plusieurs tours de conversation. Les résultats expérimentaux montrent que le modèle GLM-4 intégrant CauseMotion améliore la précision causale de 8,7 % par rapport au modèle original et dépasse GPT-4o de 1,2 %.
Le raisonnement causal sur longues séquences vise à découvrir les relations causales dans les données de séries temporelles étendues, mais est entravé par les dépendances complexes et les défis de vérification des chaînes causales. Les modèles de langage de grande taille existants présentent des limitations significatives dans la capture des relations causales émotionnelles complexes dans les conversations étendues.
Le raisonnement causal émotionnel est crucial pour les systèmes d'interaction homme-machine intelligents. Avec la prolifération des médias sociaux, l'expression émotionnelle devient de plus en plus complexe, impliquant des séquences de texte long et des informations multimodales. Comprendre l'origine, le développement et les conséquences des émotions est essentiel pour construire des systèmes plus intelligents émotionnellement.
Contraintes de longueur d'entrée : Nécessité de tronquer ou segmenter le texte, entraînant une perte de contexte global et entravant la capture des dépendances à long terme entre les segments ou les tours de conversation
Difficultés de modélisation des dépendances à long terme : Difficulté à établir avec précision les associations causales globales, entraînant un raisonnement incomplet ou imprécis
Traitement basé sur des fragments : Peut perturber l'ordre des événements et les relations logiques, affaiblissant la compréhension du modèle de la chaîne causale globale
Défis de fusion multimodale : Les modalités texte et audio présentent des différences significatives dans la représentation des caractéristiques et les propriétés statistiques, et la nature propriétaire des modèles fermés limite l'intégration profonde des caractéristiques audio
Mécanisme de fusion multimodale : Propose une méthode pour intégrer profondément les caractéristiques audio dans la conception des entrées du modèle et la base de connaissances conversationnelle, réalisant une fusion efficace des données texte et audio
Ensemble de données longues séquences à grande échelle : Construit ATLAS-6, le premier ensemble de données de référence spécialisé pour le raisonnement causal émotionnel sur longues séquences, contenant 70-300 tours de conversation
Cadre CauseMotion : Propose un nouveau cadre de raisonnement causal intégrant RAG, capturant efficacement les dépendances à long terme et les chaînes causales complexes
Performance SOTA : Atteint les performances les plus avancées sur l'ensemble de données DiaASQ, CauseMotion-GLM-4 surpassant globalement GPT-4o sur l'ensemble de données ATLAS
Étant donné une conversation D = {u1, u2, ..., un} contenant n énoncés, où chaque énoncé ui = {wi1, wi2, ..., wim} contient m mots. L'objectif est d'extraire tous les sextuplets causaux émotionnels possibles Q = {(hj, tj, aj, oj, pj, rj)} de la fenêtre temporelle d'entrée W, où :
Traite continuellement la séquence de conversation par fenêtre glissante, atténuant efficacement les limitations de longueur d'entrée tout en préservant les informations de contexte global.
CauseMotion-GLM-4 atteint le taux de précision de chaîne de raisonnement causal émotionnel le plus élevé de 0,574, améliorant de 8,7 % par rapport à GPT-4o (0,528).
De l'analyse émotionnelle basée sur les aspects (ABSA) à l'analyse fine, capable d'extraire les cibles, aspects, opinions et sentiments du texte, mais confrontée à de nouveaux défis dans le traitement des séquences de texte long et des informations multimodales.
Les recherches existantes se concentrent principalement sur les textes courts, manquant de capacités de modélisation des dépendances à long terme et des relations multi-niveaux complexes, limitant la compréhension des chaînes causales émotionnelles profondes.
Les méthodes traditionnelles dépendent principalement des informations textuelles. Cet article réalise une compréhension plus complète de l'expression émotionnelle en intégrant les caractéristiques audio.
Innovation Technique Forte : Première application systématique de la technologie RAG au raisonnement causal émotionnel sur longues séquences
Fusion Multimodale Approfondie : Intégration innovante des caractéristiques audio dans la base de connaissances et la conception des entrées
Contribution Importante aux Données : Construction du premier ensemble de données à grande échelle pour le raisonnement causal émotionnel sur longues séquences
Expérimentation Complète : Évaluation complète sur plusieurs ensembles de données et modèles
Amélioration Significative de Performance : Améliorations notables par rapport aux méthodes SOTA
L'article cite 34 travaux connexes, couvrant plusieurs domaines de recherche importants incluant l'analyse émotionnelle, la fusion multimodale, la génération augmentée par récupération, et les modèles de langage de grande taille, fournissant une base théorique solide pour cette recherche.
Évaluation Globale : Ceci est un article de recherche de haute qualité proposant une solution innovante à la tâche importante et difficile du raisonnement causal émotionnel sur longues séquences. Les contributions techniques, la conception expérimentale et les résultats de l'article sont impressionnants, apportant une contribution importante au développement du domaine connexe.