2025-11-19T20:28:14.220145

Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations

Zhang, Li, Yu et al.
Long-sequence causal reasoning seeks to uncover causal relationships within extended time series data but is hindered by complex dependencies and the challenges of validating causal links. To address the limitations of large-scale language models (e.g., GPT-4) in capturing intricate emotional causality within extended dialogues, we propose CauseMotion, a long-sequence emotional causal reasoning framework grounded in Retrieval-Augmented Generation (RAG) and multimodal fusion. Unlike conventional methods relying only on textual information, CauseMotion enriches semantic representations by incorporating audio-derived features-vocal emotion, emotional intensity, and speech rate-into textual modalities. By integrating RAG with a sliding window mechanism, it effectively retrieves and leverages contextually relevant dialogue segments, thus enabling the inference of complex emotional causal chains spanning multiple conversational turns. To evaluate its effectiveness, we constructed the first benchmark dataset dedicated to long-sequence emotional causal reasoning, featuring dialogues with over 70 turns. Experimental results demonstrate that the proposed RAG-based multimodal integrated approach, the efficacy of substantially enhances both the depth of emotional understanding and the causal inference capabilities of large-scale language models. A GLM-4 integrated with CauseMotion achieves an 8.7% improvement in causal accuracy over the original model and surpasses GPT-4o by 1.2%. Additionally, on the publicly available DiaASQ dataset, CauseMotion-GLM-4 achieves state-of-the-art results in accuracy, F1 score, and causal reasoning accuracy.
academic

Entschlüsselung des Flusses: CauseMotion für die Analyse emotionaler Kausalität in längeren Gesprächen

Grundlegende Informationen

  • Papier-ID: 2501.00778
  • Titel: Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations
  • Autoren: Yuxuan Zhang, Yulong Li, Zichen Yu, Feilong Tang, Zhixiang Lu, Chong Li, Kang Dang, Jionglong Su
  • Klassifizierung: cs.CL (Computerlinguistik), cs.CY (Computer und Gesellschaft)
  • Veröffentlichungsdatum: 1. Januar 2025
  • Papierlink: https://arxiv.org/abs/2501.00778

Zusammenfassung

Dieses Papier präsentiert CauseMotion, ein Framework für die Inferenz emotionaler Kausalität in langen Sequenzen, das auf abrufverstärkter Generierung (RAG) und multimodaler Fusion basiert. Das Framework integriert Audiofeatures (emotionale Stimme, emotionale Intensität, Sprechgeschwindigkeit) und Textmodalität und nutzt einen Schiebefenstermechanismus, um relevante Gesprächsfragmente abzurufen. Dies ermöglicht die Inferenz komplexer emotionaler Kausalitätsketten über mehrere Gesprächsrunden hinweg. Die experimentellen Ergebnisse zeigen, dass das GLM-4-Modell mit integriertem CauseMotion die Kausalitätsgenauigkeit um 8,7% gegenüber dem Originalmodell verbessert und GPT-4o um 1,2% übertrifft.

Forschungshintergrund und Motivation

Problemdefinition

Die Kausalitätsinferenz in langen Sequenzen zielt darauf ab, Kausalbeziehungen in erweiterten Zeitreihendaten zu entdecken, wird jedoch durch komplexe Abhängigkeitsbeziehungen und Herausforderungen bei der Validierung von Kausalitätsketten behindert. Bestehende großsprachige Modelle weisen erhebliche Einschränkungen bei der Erfassung komplexer emotionaler Kausalbeziehungen in erweiterten Gesprächen auf.

Forschungsrelevanz

Die Inferenz emotionaler Kausalität ist für intelligente Mensch-Maschine-Interaktionssysteme von entscheidender Bedeutung. Mit der Verbreitung sozialer Medien werden emotionale Ausdrücke zunehmend komplexer und umfassen lange Textsequenzen und multimodale Informationen. Das Verständnis des Ursprungs, der Entwicklung und der Konsequenzen von Emotionen ist für den Aufbau emotional intelligenterer Systeme von großer Bedeutung.

Einschränkungen bestehender Methoden

  1. Eingängelängenbeschränkungen: Erfordern Kürzung oder Segmentierung von Text, was zum Verlust des globalen Kontexts führt und die Erfassung langfristiger Abhängigkeiten über Absätze oder Gesprächsrunden hinweg behindert
  2. Schwierigkeiten bei der Modellierung langfristiger Abhängigkeiten: Schwierigkeiten bei der genauen Etablierung globaler Kausalbeziehungen, was zu unvollständiger oder ungenauen Inferenzen führt
  3. Fragmentbasierte Verarbeitung: Kann die Ereignisreihenfolge und logische Beziehungen stören und das Verständnis des Modells für die gesamte Kausalitätskette schwächen
  4. Herausforderungen bei der multimodalen Fusion: Text- und Audiomodalitäten unterscheiden sich erheblich in Merkmaldarstellung und statistischen Eigenschaften, und die proprietäre Natur von Closed-Source-Modellen begrenzt die tiefe Integration von Audiofeatures

Kernbeiträge

  1. Multimodaler Fusionsmechanismus: Präsentiert eine Methode zur tiefen Einbettung von Audiofeatures in das Eingabedesign des Modells und die Gesprächswissensdatenbank, um eine effektive Fusion von Text- und Audiodaten zu erreichen
  2. Großflächiger Langsequenz-Datensatz: Konstruiert ATLAS-6, den ersten speziell für die Inferenz emotionaler Kausalität in langen Sequenzen entwickelten Benchmark-Datensatz mit 70-300 Gesprächsrunden
  3. CauseMotion-Framework: Präsentiert ein neuartiges Kausalitätsinferenz-Framework mit integriertem RAG, das langfristige Abhängigkeiten und komplexe Kausalitätsketten effektiv erfasst
  4. SOTA-Leistung: Erreicht State-of-the-Art-Leistung auf dem DiaASQ-Datensatz; CauseMotion-GLM-4 übertrifft GPT-4o umfassend auf dem ATLAS-Datensatz

Methodische Details

Aufgabendefinition

Gegeben ein Dialog D = {u1, u2, ..., un} mit n Äußerungen, wobei jede Äußerung ui = {wi1, wi2, ..., wim} m Wörter enthält. Das Ziel besteht darin, alle möglichen emotionalen Kausalitätssextupel Q = {(hj, tj, aj, oj, pj, rj)} aus dem Eingabezeitfenster W zu extrahieren, wobei:

  • hj: Holder (Emotionsträger)
  • tj: Target (Ziel)
  • aj: Aspect (Aspekt)
  • oj: Opinion (Meinung)
  • pj: Sentiment (Stimmung)
  • rj: Rationale (Begründung)

Modellarchitektur

1. Multimodaler Fusionsmechanismus

Verwendet SenseVoice zur Extraktion emotionaler Features aus Audio, einschließlich:

  • Emotionale Stimme ei ∈ Rd
  • Emotionale Intensität θi ∈ R
  • Sprechgeschwindigkeit ri = m/(tend_i - tstart_i)

Der Audiofeature-Vektor ist definiert als:

ai = {ei, θi}

Die multimodale Einbettung wird durch Verkettungsoperation realisiert:

Em = Concat(Et, Ee, Er)

2. Konstruktion der Gesprächswissensdatenbank

Verwendet eine Schiebezeitfenster-Methode zur Erstellung lokaler Gesprächssubsets:

Dt = {ut, ut+1, ..., ut+k}

Konstruiert eine Gesprächswissensdatenbank mit multimodalen Features:

Kd = {(W1, Em1), (W2, Em2), ..., (Wj, Emj)}

3. RAG-Mechanismus

Das RAG-Modul ruft die relevantesten Gesprächsfragmente durch Kosinusähnlichkeit ab:

Similarity(Wj, Wi) = (Wj · Wi) / (||Wj|| ||Wi||)

Der Abrufprozess ist definiert als:

Cj = RAG(Wj, Kd)

Technische Innovationen

1. Inferenz komplexer Kausalitätsketten

Basiert auf drei Bewertungsmetriken zur Etablierung von Kausalverbindungen:

Semantische Konsistenz-Bewertung:

Semantic Score(ojk, pik) = (ojk · pik) / (||ojk|| ||pik||)

Zeitliche Beschränkungs-Bewertung:

Temporal Score(Δtij) = exp(-Δtij/τ)

Begründungs-Ausrichtungs-Bewertung:

Rationale Score(rjk, Qi) = log(1 + PNLI(rjk → Qi))

Endgültige Gewichtsberechnung:

Weight(eij) = α·Semantic Score + β·Temporal Score + γ·Rationale Score

2. Schiebefenstermechanismus

Verarbeitet die Gesprächssequenz kontinuierlich durch ein Schiebefenster, lindert effektiv Eingängelängenbeschränkungen und bewahrt gleichzeitig globale Kontextinformationen.

Experimentelle Einrichtung

Datensätze

Der ATLAS-6-Datensatz besteht aus zwei Teilen:

  1. Hilfssynthetischer Datensatz: 20.000 erweiterte Gesprächstexte (70-300 Runden), die 8 Szenarien abdecken
  2. Echter Validierungsdatensatz: 2.745 Langsequenz-Dialoge aus Filmen und sozialen Netzwerken

Jede Äußerung ist mit sechs Schlüsselelementen gekennzeichnet und wurde einer strengen manuellen Annotation und Kreuzvalidierung unterzogen.

Bewertungsmetriken

  1. Kausalitätskorrektheit = Anzahl korrekter Kausalverbindungen / Gesamtzahl vorhergesagter Kausalverbindungen
  2. Kausalitätskonsistenz = Anzahl konsistenter Kausalverbindungen / Gesamtzahl Kausalverbindungen
  3. Kausalitätsketten-Bewertung = 0,5 × Kausalitätskorrektheit + 0,5 × Kausalitätskonsistenz

Vergleichsmethoden

  • Open-Source-Modelle: LLama-3.3-70B, Qwen2.5-72B, InternLM2.5-20B
  • Proprietäre Modelle: GLM-4, GPT-4o
  • Traditionelle Methoden: CRF-Extract-Classify, SpERT, DiaASQ, ParaPhrase, Span-ASTE

Implementierungsdetails

  • Open-Source-Modelle werden mit 64 A800-GPUs für verteiltes Training verwendet
  • Proprietäre Modelle werden über offizielle APIs aufgerufen
  • Gewichtungsparameter α, β, γ erfüllen α + β + γ = 1 und 0 < α, β, γ < 1

Experimentelle Ergebnisse

Hauptergebnisse

Leistung auf dem DiaASQ-Datensatz

CauseMotion-GLM-4 übertrifft andere Modelle bei allen Metriken erheblich:

  • Target Span Matching F1: 91,43
  • Aspect Span Matching F1: 77,63
  • Opinion Extraction F1: 61,35
  • T-A Pair Extraction F1: 64,15
  • T-O Pair Extraction F1: 50,22
  • A-O Pair Extraction F1: 59,16

Leistung auf dem ATLAS-Datensatz

CauseMotion-GLM-4 erreicht die höchste Genauigkeit der emotionalen Kausalitätsinferenz-Kette von 0,574, eine Verbesserung von 8,7% gegenüber GPT-4o mit 0,528.

Ablationsstudien

Ablationsstudien zeigen, dass die Leistung nach Entfernung des CauseMotion-Frameworks erheblich sinkt:

  • GLM-4: Sinkt von 0,574 auf 0,487 (-0,075)
  • Andere Modelle zeigen ähnliche Leistungsabfalltrends

Dies beweist die Schlüsselrolle des CauseMotion-Frameworks bei der Verbesserung der Inferenz emotionaler Kausalität.

Experimentelle Erkenntnisse

  1. Effektivität der multimodalen Fusion: Die Hinzufügung von Audiofeatures verbessert die Tiefe des emotionalen Verständnisses erheblich
  2. Bedeutung des RAG-Mechanismus: Der dynamische Abrufmechanismus lindert effektiv die Herausforderungen der Langsequenzverarbeitung
  3. Universalität des Frameworks: CauseMotion kann die Leistung verschiedener Basismodelle effektiv verbessern

Verwandte Arbeiten

Entwicklung der Sentimentanalyse

Von aspektbasierter Sentimentanalyse (ABSA) bis zur feingranularen Analyse, die Ziele, Aspekte, Meinungen und Stimmungen aus Text extrahieren kann, steht jedoch vor neuen Herausforderungen bei der Verarbeitung langer Textsequenzen und multimodaler Informationen.

Langsequenz-Inferenz

Bestehende Forschung konzentriert sich hauptsächlich auf Kurztexte und mangelt es an Modellierungsfähigkeiten für langfristige Abhängigkeiten und komplexe mehrschichtige Beziehungen, was das Verständnis tieferer emotionaler Kausalitätsketten einschränkt.

Multimodale Fusion

Traditionelle Methoden verlassen sich hauptsächlich auf Textinformationen; dieses Papier erreicht ein umfassenderes Verständnis emotionaler Ausdrücke durch die Integration von Audiofeatures.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Das CauseMotion-Framework löst effektiv die Herausforderungen der Inferenz emotionaler Kausalität in langen Sequenzen durch RAG und multimodale Fusion
  2. Die tiefe Integration von Audiofeatures verbessert die Fähigkeit zum emotionalen Verständnis erheblich
  3. Der konstruierte ATLAS-6-Datensatz bietet eine wichtige Grundressource für das Feld

Einschränkungen

  1. Der aktuelle Fokus liegt hauptsächlich auf Gesprächsszenarien; die Anwendbarkeit auf andere Texttypen erfordert weitere Überprüfung
  2. Die Audiofeature-Extraktion hängt von einem spezifischen vortrainierten Modell (SenseVoice) ab
  3. Die Rechenkomplexität ist relativ hoch und kann praktische Anwendungen einschränken

Zukünftige Richtungen

  1. Erweiterung des Frameworks auf andere Domänen und Texttypen
  2. Integration weiterer Modalitätsdaten (z. B. visuelle Informationen)
  3. Optimierung der Recheneffizienz und Modellkompression

Tiefgreifende Bewertung

Stärken

  1. Starke technische Innovation: Erstmalige systematische Anwendung der RAG-Technologie auf die Inferenz emotionaler Kausalität in langen Sequenzen
  2. Tiefe multimodale Fusion: Innovative Einbettung von Audiofeatures in die Wissensdatenbank und das Eingabedesign
  3. Großer Datensatzbeitrag: Konstruktion des ersten großflächigen Datensatzes für die Inferenz emotionaler Kausalität in langen Sequenzen
  4. Umfassende Experimente: Umfassende Bewertung über mehrere Datensätze und Modelle
  5. Signifikante Leistungsverbesserung: Deutliche Verbesserungen gegenüber SOTA-Methoden

Mängel

  1. Rechenkomplexität: Multimodale Fusion und RAG-Mechanismus erhöhen den Rechenaufwand
  2. Starke Abhängigkeit: Hohe Abhängigkeit von Audiofeature-Extraktionsmodellen und vortrainierten Sprachmodellen
  3. Unbekannte Verallgemeinerbarkeit: Hauptsächlich in Gesprächsszenarien validiert; die Anwendbarkeit in anderen Szenarien erfordert mehr Experimente
  4. Unzureichende theoretische Analyse: Mangel an tieferer theoretischer Erklärung, warum die Methode effektiv ist

Auswirkungen

  1. Akademischer Beitrag: Eröffnet eine neue Forschungsrichtung für die Inferenz emotionaler Kausalität in langen Sequenzen
  2. Praktischer Wert: Wichtiger Wert in Anwendungsszenarien wie intelligente Kundenservice und Sentimentanalyse
  3. Reproduzierbarkeit: Bietet anonyme Code-Repositories für einfache Forschungsreproduzierung

Anwendungsszenarien

  1. Emotionales Verständnis in langen Gesprächssystemen
  2. Sentimentüberwachung in sozialen Medien
  3. Analyse der Kundenservicequalität
  4. Systeme zur Bewertung der psychischen Gesundheit
  5. Bildungsdialoge-Systeme

Referenzen

Das Papier zitiert 34 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Forschungsbereichen abdecken, einschließlich Sentimentanalyse, multimodaler Fusion, abrufverstärkter Generierung und großsprachiger Modelle, und bietet eine solide theoretische Grundlage für diese Forschung.


Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung für die wichtige und herausfordernde Aufgabe der Inferenz emotionaler Kausalität in langen Sequenzen präsentiert. Die technischen Beiträge, das experimentelle Design und die Ergebnisse des Papiers sind beeindruckend und leisten einen wichtigen Beitrag zur Entwicklung des verwandten Feldes.