2025-11-19T20:28:14.220145

Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations

Zhang, Li, Yu et al.

Long-sequence causal reasoning seeks to uncover causal relationships within extended time series data but is hindered by complex dependencies and the challenges of validating causal links. To address the limitations of large-scale language models (e.g., GPT-4) in capturing intricate emotional causality within extended dialogues, we propose CauseMotion, a long-sequence emotional causal reasoning framework grounded in Retrieval-Augmented Generation (RAG) and multimodal fusion. Unlike conventional methods relying only on textual information, CauseMotion enriches semantic representations by incorporating audio-derived features-vocal emotion, emotional intensity, and speech rate-into textual modalities. By integrating RAG with a sliding window mechanism, it effectively retrieves and leverages contextually relevant dialogue segments, thus enabling the inference of complex emotional causal chains spanning multiple conversational turns. To evaluate its effectiveness, we constructed the first benchmark dataset dedicated to long-sequence emotional causal reasoning, featuring dialogues with over 70 turns. Experimental results demonstrate that the proposed RAG-based multimodal integrated approach, the efficacy of substantially enhances both the depth of emotional understanding and the causal inference capabilities of large-scale language models. A GLM-4 integrated with CauseMotion achieves an 8.7% improvement in causal accuracy over the original model and surpasses GPT-4o by 1.2%. Additionally, on the publicly available DiaASQ dataset, CauseMotion-GLM-4 achieves state-of-the-art results in accuracy, F1 score, and causal reasoning accuracy.

academic

Entschlüsselung des Flusses: CauseMotion für die Analyse emotionaler Kausalität in längeren Gesprächen

Grundlegende Informationen

Papier-ID: 2501.00778
Titel: Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations
Autoren: Yuxuan Zhang, Yulong Li, Zichen Yu, Feilong Tang, Zhixiang Lu, Chong Li, Kang Dang, Jionglong Su
Klassifizierung: cs.CL (Computerlinguistik), cs.CY (Computer und Gesellschaft)
Veröffentlichungsdatum: 1. Januar 2025
Papierlink: https://arxiv.org/abs/2501.00778

Zusammenfassung

Dieses Papier präsentiert CauseMotion, ein Framework für die Inferenz emotionaler Kausalität in langen Sequenzen, das auf abrufverstärkter Generierung (RAG) und multimodaler Fusion basiert. Das Framework integriert Audiofeatures (emotionale Stimme, emotionale Intensität, Sprechgeschwindigkeit) und Textmodalität und nutzt einen Schiebefenstermechanismus, um relevante Gesprächsfragmente abzurufen. Dies ermöglicht die Inferenz komplexer emotionaler Kausalitätsketten über mehrere Gesprächsrunden hinweg. Die experimentellen Ergebnisse zeigen, dass das GLM-4-Modell mit integriertem CauseMotion die Kausalitätsgenauigkeit um 8,7% gegenüber dem Originalmodell verbessert und GPT-4o um 1,2% übertrifft.

Forschungshintergrund und Motivation

Problemdefinition

Die Kausalitätsinferenz in langen Sequenzen zielt darauf ab, Kausalbeziehungen in erweiterten Zeitreihendaten zu entdecken, wird jedoch durch komplexe Abhängigkeitsbeziehungen und Herausforderungen bei der Validierung von Kausalitätsketten behindert. Bestehende großsprachige Modelle weisen erhebliche Einschränkungen bei der Erfassung komplexer emotionaler Kausalbeziehungen in erweiterten Gesprächen auf.

Forschungsrelevanz

Die Inferenz emotionaler Kausalität ist für intelligente Mensch-Maschine-Interaktionssysteme von entscheidender Bedeutung. Mit der Verbreitung sozialer Medien werden emotionale Ausdrücke zunehmend komplexer und umfassen lange Textsequenzen und multimodale Informationen. Das Verständnis des Ursprungs, der Entwicklung und der Konsequenzen von Emotionen ist für den Aufbau emotional intelligenterer Systeme von großer Bedeutung.

Einschränkungen bestehender Methoden

Eingängelängenbeschränkungen: Erfordern Kürzung oder Segmentierung von Text, was zum Verlust des globalen Kontexts führt und die Erfassung langfristiger Abhängigkeiten über Absätze oder Gesprächsrunden hinweg behindert
Schwierigkeiten bei der Modellierung langfristiger Abhängigkeiten: Schwierigkeiten bei der genauen Etablierung globaler Kausalbeziehungen, was zu unvollständiger oder ungenauen Inferenzen führt
Fragmentbasierte Verarbeitung: Kann die Ereignisreihenfolge und logische Beziehungen stören und das Verständnis des Modells für die gesamte Kausalitätskette schwächen
Herausforderungen bei der multimodalen Fusion: Text- und Audiomodalitäten unterscheiden sich erheblich in Merkmaldarstellung und statistischen Eigenschaften, und die proprietäre Natur von Closed-Source-Modellen begrenzt die tiefe Integration von Audiofeatures

Kernbeiträge

Multimodaler Fusionsmechanismus: Präsentiert eine Methode zur tiefen Einbettung von Audiofeatures in das Eingabedesign des Modells und die Gesprächswissensdatenbank, um eine effektive Fusion von Text- und Audiodaten zu erreichen
Großflächiger Langsequenz-Datensatz: Konstruiert ATLAS-6, den ersten speziell für die Inferenz emotionaler Kausalität in langen Sequenzen entwickelten Benchmark-Datensatz mit 70-300 Gesprächsrunden
CauseMotion-Framework: Präsentiert ein neuartiges Kausalitätsinferenz-Framework mit integriertem RAG, das langfristige Abhängigkeiten und komplexe Kausalitätsketten effektiv erfasst
SOTA-Leistung: Erreicht State-of-the-Art-Leistung auf dem DiaASQ-Datensatz; CauseMotion-GLM-4 übertrifft GPT-4o umfassend auf dem ATLAS-Datensatz

Methodische Details

Aufgabendefinition

Gegeben ein Dialog D = {u1, u2, ..., un} mit n Äußerungen, wobei jede Äußerung ui = {wi1, wi2, ..., wim} m Wörter enthält. Das Ziel besteht darin, alle möglichen emotionalen Kausalitätssextupel Q = {(hj, tj, aj, oj, pj, rj)} aus dem Eingabezeitfenster W zu extrahieren, wobei:

hj: Holder (Emotionsträger)
tj: Target (Ziel)
aj: Aspect (Aspekt)
oj: Opinion (Meinung)
pj: Sentiment (Stimmung)
rj: Rationale (Begründung)

Modellarchitektur

1. Multimodaler Fusionsmechanismus

Verwendet SenseVoice zur Extraktion emotionaler Features aus Audio, einschließlich:

Emotionale Stimme ei ∈ Rd
Emotionale Intensität θi ∈ R
Sprechgeschwindigkeit ri = m/(tend_i - tstart_i)

Der Audiofeature-Vektor ist definiert als:

ai = {ei, θi}

Die multimodale Einbettung wird durch Verkettungsoperation realisiert:

Em = Concat(Et, Ee, Er)

2. Konstruktion der Gesprächswissensdatenbank

Verwendet eine Schiebezeitfenster-Methode zur Erstellung lokaler Gesprächssubsets:

Dt = {ut, ut+1, ..., ut+k}

Konstruiert eine Gesprächswissensdatenbank mit multimodalen Features:

Kd = {(W1, Em1), (W2, Em2), ..., (Wj, Emj)}

3. RAG-Mechanismus

Das RAG-Modul ruft die relevantesten Gesprächsfragmente durch Kosinusähnlichkeit ab:

Similarity(Wj, Wi) = (Wj · Wi) / (||Wj|| ||Wi||)

Der Abrufprozess ist definiert als:

Cj = RAG(Wj, Kd)

Technische Innovationen

1. Inferenz komplexer Kausalitätsketten

Basiert auf drei Bewertungsmetriken zur Etablierung von Kausalverbindungen:

Semantische Konsistenz-Bewertung:

Semantic Score(ojk, pik) = (ojk · pik) / (||ojk|| ||pik||)

Zeitliche Beschränkungs-Bewertung:

Temporal Score(Δtij) = exp(-Δtij/τ)

Begründungs-Ausrichtungs-Bewertung:

Rationale Score(rjk, Qi) = log(1 + PNLI(rjk → Qi))

Endgültige Gewichtsberechnung:

Weight(eij) = α·Semantic Score + β·Temporal Score + γ·Rationale Score

2. Schiebefenstermechanismus

Verarbeitet die Gesprächssequenz kontinuierlich durch ein Schiebefenster, lindert effektiv Eingängelängenbeschränkungen und bewahrt gleichzeitig globale Kontextinformationen.

Experimentelle Einrichtung

Datensätze

Der ATLAS-6-Datensatz besteht aus zwei Teilen:

Hilfssynthetischer Datensatz: 20.000 erweiterte Gesprächstexte (70-300 Runden), die 8 Szenarien abdecken
Echter Validierungsdatensatz: 2.745 Langsequenz-Dialoge aus Filmen und sozialen Netzwerken

Jede Äußerung ist mit sechs Schlüsselelementen gekennzeichnet und wurde einer strengen manuellen Annotation und Kreuzvalidierung unterzogen.

Bewertungsmetriken

Kausalitätskorrektheit = Anzahl korrekter Kausalverbindungen / Gesamtzahl vorhergesagter Kausalverbindungen
Kausalitätskonsistenz = Anzahl konsistenter Kausalverbindungen / Gesamtzahl Kausalverbindungen
Kausalitätsketten-Bewertung = 0,5 × Kausalitätskorrektheit + 0,5 × Kausalitätskonsistenz

Vergleichsmethoden

Open-Source-Modelle: LLama-3.3-70B, Qwen2.5-72B, InternLM2.5-20B
Proprietäre Modelle: GLM-4, GPT-4o
Traditionelle Methoden: CRF-Extract-Classify, SpERT, DiaASQ, ParaPhrase, Span-ASTE

Implementierungsdetails

Open-Source-Modelle werden mit 64 A800-GPUs für verteiltes Training verwendet
Proprietäre Modelle werden über offizielle APIs aufgerufen
Gewichtungsparameter α, β, γ erfüllen α + β + γ = 1 und 0 < α, β, γ < 1

Experimentelle Ergebnisse

Hauptergebnisse

Leistung auf dem DiaASQ-Datensatz

CauseMotion-GLM-4 übertrifft andere Modelle bei allen Metriken erheblich:

Target Span Matching F1: 91,43
Aspect Span Matching F1: 77,63
Opinion Extraction F1: 61,35
T-A Pair Extraction F1: 64,15
T-O Pair Extraction F1: 50,22
A-O Pair Extraction F1: 59,16

Leistung auf dem ATLAS-Datensatz

CauseMotion-GLM-4 erreicht die höchste Genauigkeit der emotionalen Kausalitätsinferenz-Kette von 0,574, eine Verbesserung von 8,7% gegenüber GPT-4o mit 0,528.

Ablationsstudien

Ablationsstudien zeigen, dass die Leistung nach Entfernung des CauseMotion-Frameworks erheblich sinkt:

GLM-4: Sinkt von 0,574 auf 0,487 (-0,075)
Andere Modelle zeigen ähnliche Leistungsabfalltrends

Dies beweist die Schlüsselrolle des CauseMotion-Frameworks bei der Verbesserung der Inferenz emotionaler Kausalität.

Experimentelle Erkenntnisse

Effektivität der multimodalen Fusion: Die Hinzufügung von Audiofeatures verbessert die Tiefe des emotionalen Verständnisses erheblich
Bedeutung des RAG-Mechanismus: Der dynamische Abrufmechanismus lindert effektiv die Herausforderungen der Langsequenzverarbeitung
Universalität des Frameworks: CauseMotion kann die Leistung verschiedener Basismodelle effektiv verbessern

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Das CauseMotion-Framework löst effektiv die Herausforderungen der Inferenz emotionaler Kausalität in langen Sequenzen durch RAG und multimodale Fusion
Die tiefe Integration von Audiofeatures verbessert die Fähigkeit zum emotionalen Verständnis erheblich
Der konstruierte ATLAS-6-Datensatz bietet eine wichtige Grundressource für das Feld

Einschränkungen

Der aktuelle Fokus liegt hauptsächlich auf Gesprächsszenarien; die Anwendbarkeit auf andere Texttypen erfordert weitere Überprüfung
Die Audiofeature-Extraktion hängt von einem spezifischen vortrainierten Modell (SenseVoice) ab
Die Rechenkomplexität ist relativ hoch und kann praktische Anwendungen einschränken

Zukünftige Richtungen

Erweiterung des Frameworks auf andere Domänen und Texttypen
Integration weiterer Modalitätsdaten (z. B. visuelle Informationen)
Optimierung der Recheneffizienz und Modellkompression

Tiefgreifende Bewertung

Stärken

Starke technische Innovation: Erstmalige systematische Anwendung der RAG-Technologie auf die Inferenz emotionaler Kausalität in langen Sequenzen
Tiefe multimodale Fusion: Innovative Einbettung von Audiofeatures in die Wissensdatenbank und das Eingabedesign
Großer Datensatzbeitrag: Konstruktion des ersten großflächigen Datensatzes für die Inferenz emotionaler Kausalität in langen Sequenzen
Umfassende Experimente: Umfassende Bewertung über mehrere Datensätze und Modelle
Signifikante Leistungsverbesserung: Deutliche Verbesserungen gegenüber SOTA-Methoden

Mängel

Rechenkomplexität: Multimodale Fusion und RAG-Mechanismus erhöhen den Rechenaufwand
Starke Abhängigkeit: Hohe Abhängigkeit von Audiofeature-Extraktionsmodellen und vortrainierten Sprachmodellen
Unbekannte Verallgemeinerbarkeit: Hauptsächlich in Gesprächsszenarien validiert; die Anwendbarkeit in anderen Szenarien erfordert mehr Experimente
Unzureichende theoretische Analyse: Mangel an tieferer theoretischer Erklärung, warum die Methode effektiv ist

Auswirkungen

Akademischer Beitrag: Eröffnet eine neue Forschungsrichtung für die Inferenz emotionaler Kausalität in langen Sequenzen
Praktischer Wert: Wichtiger Wert in Anwendungsszenarien wie intelligente Kundenservice und Sentimentanalyse
Reproduzierbarkeit: Bietet anonyme Code-Repositories für einfache Forschungsreproduzierung

Anwendungsszenarien

Emotionales Verständnis in langen Gesprächssystemen
Sentimentüberwachung in sozialen Medien
Analyse der Kundenservicequalität
Systeme zur Bewertung der psychischen Gesundheit
Bildungsdialoge-Systeme

Referenzen

Das Papier zitiert 34 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Forschungsbereichen abdecken, einschließlich Sentimentanalyse, multimodaler Fusion, abrufverstärkter Generierung und großsprachiger Modelle, und bietet eine solide theoretische Grundlage für diese Forschung.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung für die wichtige und herausfordernde Aufgabe der Inferenz emotionaler Kausalität in langen Sequenzen präsentiert. Die technischen Beiträge, das experimentelle Design und die Ergebnisse des Papiers sind beeindruckend und leisten einen wichtigen Beitrag zur Entwicklung des verwandten Feldes.