2025-11-19T20:28:14.220145

Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations

Zhang, Li, Yu et al.

Long-sequence causal reasoning seeks to uncover causal relationships within extended time series data but is hindered by complex dependencies and the challenges of validating causal links. To address the limitations of large-scale language models (e.g., GPT-4) in capturing intricate emotional causality within extended dialogues, we propose CauseMotion, a long-sequence emotional causal reasoning framework grounded in Retrieval-Augmented Generation (RAG) and multimodal fusion. Unlike conventional methods relying only on textual information, CauseMotion enriches semantic representations by incorporating audio-derived features-vocal emotion, emotional intensity, and speech rate-into textual modalities. By integrating RAG with a sliding window mechanism, it effectively retrieves and leverages contextually relevant dialogue segments, thus enabling the inference of complex emotional causal chains spanning multiple conversational turns. To evaluate its effectiveness, we constructed the first benchmark dataset dedicated to long-sequence emotional causal reasoning, featuring dialogues with over 70 turns. Experimental results demonstrate that the proposed RAG-based multimodal integrated approach, the efficacy of substantially enhances both the depth of emotional understanding and the causal inference capabilities of large-scale language models. A GLM-4 integrated with CauseMotion achieves an 8.7% improvement in causal accuracy over the original model and surpasses GPT-4o by 1.2%. Additionally, on the publicly available DiaASQ dataset, CauseMotion-GLM-4 achieves state-of-the-art results in accuracy, F1 score, and causal reasoning accuracy.

academic

Decodificazione del Flusso: CauseMotion per l'Analisi della Causalità Emotiva nelle Conversazioni Lunghe

Informazioni Fondamentali

ID Articolo: 2501.00778
Titolo: Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations
Autori: Yuxuan Zhang, Yulong Li, Zichen Yu, Feilong Tang, Zhixiang Lu, Chong Li, Kang Dang, Jionglong Su
Classificazione: cs.CL (Linguistica Computazionale), cs.CY (Informatica e Società)
Data di Pubblicazione: 1 gennaio 2025
Link Articolo: https://arxiv.org/abs/2501.00778

Riassunto

Questo articolo propone CauseMotion, un framework di ragionamento causale emotivo per sequenze lunghe basato su generazione aumentata da recupero (RAG) e fusione multimodale. Il framework integra caratteristiche audio (emozione vocale, intensità emotiva, velocità di eloquio) e modalità testuale, utilizzando un meccanismo di finestra scorrevole per recuperare segmenti di conversazione rilevanti, consentendo il ragionamento di catene causali emotive complesse che si estendono su più turni di conversazione. I risultati sperimentali dimostrano che il modello GLM-4 integrato con CauseMotion migliora l'accuratezza causale dell'8,7% rispetto al modello originale, superando GPT-4o dell'1,2%.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il ragionamento causale su sequenze lunghe mira a scoprire relazioni causali in dati di serie temporali estese, ma è ostacolato da dipendenze complesse e sfide nella verifica delle catene causali. I modelli linguistici di grandi dimensioni esistenti presentano limitazioni significative nel catturare relazioni causali emotive complesse nelle conversazioni estese.

Importanza della Ricerca

Il ragionamento causale emotivo è cruciale per sistemi di interazione uomo-macchina intelligenti. Con la diffusione dei social media, l'espressione emotiva è diventata sempre più complessa, coinvolgendo sequenze di testo lunghe e informazioni multimodali. Comprendere l'origine, lo sviluppo e le conseguenze delle emozioni è essenziale per costruire sistemi con maggiore intelligenza emotiva.

Limitazioni dei Metodi Esistenti

Vincoli di Lunghezza di Input: Richiedono il troncamento o la divisione del testo, causando perdita di contesto globale e ostacolando la cattura di dipendenze a lungo raggio tra paragrafi o turni di conversazione
Difficoltà nella Modellazione di Dipendenze a Lungo Raggio: Difficile stabilire associazioni causali globali accurate, risultando in ragionamento incompleto o impreciso
Elaborazione Basata su Frammenti: Può interrompere l'ordine degli eventi e le relazioni logiche, indebolendo la comprensione del modello della catena causale complessiva
Sfide nella Fusione Multimodale: Le modalità testuale e audio differiscono significativamente nella rappresentazione delle caratteristiche e nelle proprietà statistiche, e la natura proprietaria dei modelli closed-source limita l'integrazione profonda delle caratteristiche audio

Contributi Principali

Meccanismo di Fusione Multimodale: Propone un metodo per incorporare profondamente le caratteristiche audio nella progettazione dell'input del modello e nella base di conoscenza conversazionale, realizzando una fusione efficace di dati testuali e audio
Dataset di Sequenze Lunghe su Larga Scala: Costruisce ATLAS-6, il primo dataset di benchmark specializzato per il ragionamento causale emotivo su sequenze lunghe, contenente 70-300 turni di conversazione
Framework CauseMotion: Propone un nuovo framework di ragionamento causale integrato con RAG che cattura efficacemente dipendenze a lungo raggio e catene causali complesse
Prestazioni SOTA: Raggiunge prestazioni all'avanguardia sul dataset DiaASQ, con CauseMotion-GLM-4 che supera complessivamente GPT-4o sul dataset ATLAS

Spiegazione Dettagliata del Metodo

Definizione del Compito

Data una conversazione D = {u1, u2, ..., un} contenente n enunciati, dove ogni enunciato ui = {wi1, wi2, ..., wim} contiene m parole. L'obiettivo è estrarre tutte le possibili sestuple di causalità emotiva Q = {(hj, tj, aj, oj, pj, rj)} dalla finestra temporale di input, dove:

hj: Holder (detentore dell'emozione)
tj: Target (obiettivo)
aj: Aspect (aspetto)
oj: Opinion (opinione)
pj: Sentiment (sentimento)
rj: Rationale (razionale)

Architettura del Modello

1. Meccanismo di Fusione Multimodale

Utilizza SenseVoice per estrarre caratteristiche emotive dall'audio, incluse:

Emozione vocale ei ∈ Rd
Intensità emotiva θi ∈ R
Velocità di eloquio ri = m/(tend_i - tstart_i)

Il vettore di caratteristiche audio è definito come:

ai = {ei, θi}

L'embedding multimodale è realizzato attraverso operazione di concatenazione:

Em = Concat(Et, Ee, Er)

2. Costruzione della Base di Conoscenza Conversazionale

Adotta il metodo della finestra temporale scorrevole, creando sottoinsiemi di conversazione locali:

Dt = {ut, ut+1, ..., ut+k}

Costruisce una base di conoscenza conversazionale contenente caratteristiche multimodali:

Kd = {(W1, Em1), (W2, Em2), ..., (Wj, Emj)}

3. Meccanismo RAG

Il modulo RAG recupera i segmenti di conversazione più rilevanti attraverso similarità del coseno:

Similarity(Wj, Wi) = (Wj · Wi) / (||Wj|| ||Wi||)

Il processo di recupero è definito come:

Cj = RAG(Wj, Kd)

Punti di Innovazione Tecnica

1. Ragionamento su Catene Causali Complesse

Stabilisce connessioni causali basate su tre metriche di valutazione:

Punteggio di Coerenza Semantica:

Semantic Score(ojk, pik) = (ojk · pik) / (||ojk|| ||pik||)

Punteggio di Vincolo Temporale:

Temporal Score(Δtij) = exp(-Δtij/τ)

Punteggio di Allineamento del Razionale:

Rationale Score(rjk, Qi) = log(1 + PNLI(rjk → Qi))

Calcolo del peso finale:

Weight(eij) = α·Semantic Score + β·Temporal Score + γ·Rationale Score

2. Meccanismo di Finestra Scorrevole

Elabora continuamente la sequenza di conversazione attraverso una finestra scorrevole, alleviando efficacemente i vincoli di lunghezza dell'input mantenendo le informazioni di contesto globale.

Configurazione Sperimentale

Dataset

Il dataset ATLAS-6 contiene due parti:

Dataset Sintetico Ausiliario: 20.000 testi di conversazione estesa (70-300 turni), coprendo 8 scenari
Dataset di Validazione Reale: 2.745 conversazioni di sequenza lunga, provenienti da film e reti sociali

Ogni enunciato è annotato con sei elementi chiave, sottoposto a rigorosa annotazione manuale e verifica incrociata.

Metriche di Valutazione

Correttezza Causale = Numero di connessioni causali corrette / Numero totale di connessioni causali previste
Coerenza Causale = Numero di connessioni causali coerenti / Numero totale di connessioni causali
Punteggio della Catena Causale = 0,5 × Correttezza Causale + 0,5 × Coerenza Causale

Metodi di Confronto

Modelli open-source: LLama-3.3-70B, Qwen2.5-72B, InternLM2.5-20B
Modelli proprietari: GLM-4, GPT-4o
Metodi tradizionali: CRF-Extract-Classify, SpERT, DiaASQ, ParaPhrase, Span-ASTE

Dettagli di Implementazione

I modelli open-source sono addestrati utilizzando 64 GPU A800 in modalità distribuita
I modelli proprietari sono accessibili tramite API ufficiali
I parametri di peso α, β, γ soddisfano α + β + γ = 1 e 0 < α, β, γ < 1

Risultati Sperimentali

Risultati Principali

Prestazioni sul Dataset DiaASQ

CauseMotion-GLM-4 supera significativamente altri modelli su tutte le metriche:

Target span matching F1: 91,43
Aspect span matching F1: 77,63
Opinion extraction F1: 61,35
T-A pair extraction F1: 64,15
T-O pair extraction F1: 50,22
A-O pair extraction F1: 59,16

Prestazioni sul Dataset ATLAS

CauseMotion-GLM-4 raggiunge il più alto tasso di accuratezza della catena di causalità emotiva di 0,574, migliorando di 8,7% rispetto a GPT-4o con 0,528.

Esperimenti di Ablazione

Gli esperimenti di ablazione mostrano che la rimozione del framework CauseMotion causa un calo significativo delle prestazioni:

GLM-4: da 0,574 a 0,487 (-0,075)
Altri modelli mostrano anche tendenze di calo di prestazioni simili

Ciò dimostra il ruolo critico del framework CauseMotion nel migliorare il ragionamento causale emotivo.

Risultati Sperimentali

Efficacia della Fusione Multimodale: L'aggiunta di caratteristiche audio migliora significativamente la profondità della comprensione emotiva
Importanza del Meccanismo RAG: Il meccanismo di recupero dinamico allevia efficacemente le sfide dell'elaborazione di sequenze lunghe
Generalità del Framework: CauseMotion può migliorare efficacemente le prestazioni di diversi modelli di base

Lavori Correlati

Sviluppo dell'Analisi Emotiva

Dall'analisi del sentimento basata su aspetti (ABSA) all'analisi fine-grained, in grado di estrarre target, aspetti, opinioni e sentimenti dal testo, ma affrontando nuove sfide nell'elaborazione di sequenze di testo lunghe e informazioni multimodali.

Ragionamento su Sequenze Lunghe

La ricerca esistente si concentra principalmente su testi brevi, mancando di capacità di modellazione di dipendenze a lungo raggio e relazioni complesse multi-livello, limitando la comprensione di catene causali emotive profonde.

Fusione Multimodale

I metodi tradizionali si basano principalmente su informazioni testuali. Questo articolo realizza una comprensione più completa dell'espressione emotiva integrando caratteristiche audio.

Conclusioni e Discussione

Conclusioni Principali

Il framework CauseMotion risolve efficacemente le sfide del ragionamento causale emotivo su sequenze lunghe attraverso RAG e fusione multimodale
L'integrazione profonda di caratteristiche audio migliora significativamente la capacità di comprensione emotiva
Il dataset ATLAS-6 costruito fornisce una risorsa fondamentale importante per il campo

Limitazioni

Attualmente si concentra principalmente su scenari conversazionali; l'applicabilità ad altri tipi di testo richiede ulteriore verifica
L'estrazione di caratteristiche audio dipende da modelli pre-addestrati specifici (SenseVoice)
La complessità computazionale è relativamente elevata, il che potrebbe limitare le applicazioni pratiche

Direzioni Future

Estendere il framework ad altri domini e tipi di testo
Integrare più dati modali (come informazioni visive)
Ottimizzare l'efficienza computazionale e la compressione del modello

Valutazione Approfondita

Punti di Forza

Forte Innovazione Tecnica: Prima applicazione sistematica della tecnologia RAG al ragionamento causale emotivo su sequenze lunghe
Fusione Multimodale Profonda: Integrazione innovativa di caratteristiche audio nella progettazione della base di conoscenza e dell'input
Grande Contributo di Dataset: Costruzione del primo dataset su larga scala per il ragionamento causale emotivo su sequenze lunghe
Esperimenti Completi: Valutazione completa su più dataset e modelli
Miglioramento Significativo delle Prestazioni: Miglioramenti evidenti rispetto ai metodi SOTA

Insufficienze

Complessità Computazionale: La fusione multimodale e il meccanismo RAG aumentano il carico computazionale
Forte Dipendenza: Dipendenza significativa dal modello di estrazione delle caratteristiche audio e dai modelli linguistici pre-addestrati
Generalizzabilità Sconosciuta: Principalmente verificato in scenari conversazionali; l'applicabilità in altri scenari richiede più esperimenti
Analisi Teorica Insufficiente: Mancanza di spiegazioni teoriche profonde sul perché il metodo sia efficace

Impatto

Contributo Accademico: Apre una nuova direzione di ricerca per il ragionamento causale emotivo su sequenze lunghe
Valore Pratico: Ha importanza significativa in scenari di applicazione come servizio clienti intelligente e analisi del sentimento
Riproducibilità: Fornisce una base di codice anonima per facilitare la riproduzione della ricerca

Scenari Applicabili

Comprensione emotiva in sistemi di conversazione lunga
Monitoraggio del sentimento nei social media
Analisi della qualità del servizio clienti
Sistemi di valutazione della salute mentale
Sistemi di conversazione educativa

Riferimenti Bibliografici

L'articolo cita 34 lavori correlati, coprendo importanti contributi in più aree di ricerca incluse analisi del sentimento, fusione multimodale, generazione aumentata da recupero e modelli linguistici di grandi dimensioni, fornendo una base teorica solida per questa ricerca.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa al compito importante e impegnativo del ragionamento causale emotivo su sequenze lunghe. I contributi tecnici, la progettazione sperimentale e i risultati dell'articolo sono impressionanti, fornendo un contributo importante allo sviluppo del campo correlato.