2025-11-19T20:28:14.220145

Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations

Zhang, Li, Yu et al.
Long-sequence causal reasoning seeks to uncover causal relationships within extended time series data but is hindered by complex dependencies and the challenges of validating causal links. To address the limitations of large-scale language models (e.g., GPT-4) in capturing intricate emotional causality within extended dialogues, we propose CauseMotion, a long-sequence emotional causal reasoning framework grounded in Retrieval-Augmented Generation (RAG) and multimodal fusion. Unlike conventional methods relying only on textual information, CauseMotion enriches semantic representations by incorporating audio-derived features-vocal emotion, emotional intensity, and speech rate-into textual modalities. By integrating RAG with a sliding window mechanism, it effectively retrieves and leverages contextually relevant dialogue segments, thus enabling the inference of complex emotional causal chains spanning multiple conversational turns. To evaluate its effectiveness, we constructed the first benchmark dataset dedicated to long-sequence emotional causal reasoning, featuring dialogues with over 70 turns. Experimental results demonstrate that the proposed RAG-based multimodal integrated approach, the efficacy of substantially enhances both the depth of emotional understanding and the causal inference capabilities of large-scale language models. A GLM-4 integrated with CauseMotion achieves an 8.7% improvement in causal accuracy over the original model and surpasses GPT-4o by 1.2%. Additionally, on the publicly available DiaASQ dataset, CauseMotion-GLM-4 achieves state-of-the-art results in accuracy, F1 score, and causal reasoning accuracy.
academic

Descifrando el Flujo: CauseMotion para el Análisis de Causalidad Emocional en Conversaciones de Larga Duración

Información Básica

  • ID del Artículo: 2501.00778
  • Título: Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations
  • Autores: Yuxuan Zhang, Yulong Li, Zichen Yu, Feilong Tang, Zhixiang Lu, Chong Li, Kang Dang, Jionglong Su
  • Clasificación: cs.CL (Lingüística Computacional), cs.CY (Computadoras y Sociedad)
  • Fecha de Publicación: 1 de enero de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2501.00778

Resumen

En este artículo se propone CauseMotion, un marco de razonamiento de causalidad emocional para secuencias largas basado en generación aumentada por recuperación (RAG) y fusión multimodal. El marco integra características de audio (emoción de voz, intensidad emocional, velocidad de habla) y modalidad textual, utilizando un mecanismo de ventana deslizante para recuperar fragmentos de conversación relevantes, permitiendo razonar sobre cadenas de causalidad emocional complejas que abarcan múltiples turnos de conversación. Los resultados experimentales demuestran que el modelo GLM-4 integrado con CauseMotion mejora la precisión causal en un 8,7% en comparación con el modelo original, superando a GPT-4o en un 1,2%.

Antecedentes de Investigación y Motivación

Definición del Problema

El razonamiento de causalidad en secuencias largas tiene como objetivo descubrir relaciones causales en datos de series temporales extendidas, pero se ve obstaculizado por dependencias complejas y desafíos en la verificación de cadenas causales. Los modelos de lenguaje de gran escala existentes presentan limitaciones significativas en la captura de relaciones de causalidad emocional complejas en conversaciones extendidas.

Importancia de la Investigación

El razonamiento de causalidad emocional es crucial para sistemas inteligentes de interacción humano-máquina. Con la proliferación de las redes sociales, la expresión emocional se ha vuelto cada vez más compleja, involucrando secuencias de texto largo e información multimodal. Comprender el origen, desarrollo y consecuencias de las emociones es fundamental para construir sistemas con mayor inteligencia emocional.

Limitaciones de los Métodos Existentes

  1. Restricciones de Longitud de Entrada: Requieren truncar o segmentar texto, resultando en pérdida de contexto global e impidiendo la captura de dependencias a largo plazo entre párrafos o turnos de conversación
  2. Dificultad en el Modelado de Dependencias a Largo Plazo: Difícil establecer asociaciones causales globales precisas, resultando en razonamiento incompleto o impreciso
  3. Procesamiento Basado en Fragmentos: Puede interrumpir el orden de eventos y relaciones lógicas, debilitando la comprensión del modelo sobre cadenas causales generales
  4. Desafíos en la Fusión Multimodal: Las modalidades de texto y audio presentan diferencias significativas en representación de características y propiedades estadísticas, y la naturaleza propietaria de los modelos de código cerrado limita la integración profunda de características de audio

Contribuciones Principales

  1. Mecanismo de Fusión Multimodal: Se propone un método para incrustar profundamente características de audio en el diseño de entrada del modelo y en la base de conocimiento de conversación, logrando una fusión efectiva de datos de texto y audio
  2. Conjunto de Datos de Secuencia Larga a Gran Escala: Se construye ATLAS-6, el primer conjunto de datos de referencia especializado para razonamiento de causalidad emocional en secuencias largas, que contiene 70-300 turnos de conversación
  3. Marco CauseMotion: Se propone un nuevo marco de razonamiento causal integrado con RAG que captura efectivamente dependencias a largo plazo y cadenas causales complejas
  4. Rendimiento SOTA: Se logra rendimiento de última generación en el conjunto de datos DiaASQ, con CauseMotion-GLM-4 superando comprehensivamente a GPT-4o en el conjunto de datos ATLAS

Explicación Detallada del Método

Definición de la Tarea

Dada una conversación D = {u1, u2, ..., un} que contiene n enunciados, donde cada enunciado ui = {wi1, wi2, ..., wim} contiene m palabras. El objetivo es extraer todas las posibles sextuplas de causalidad emocional Q = {(hj, tj, aj, oj, pj, rj)} de la ventana de tiempo de entrada W, donde:

  • hj: Holder (Poseedor de la emoción)
  • tj: Target (Objetivo)
  • aj: Aspect (Aspecto)
  • oj: Opinion (Opinión)
  • pj: Sentiment (Sentimiento)
  • rj: Rationale (Justificación)

Arquitectura del Modelo

1. Mecanismo de Fusión Multimodal

Se utiliza SenseVoice para extraer características emocionales del audio, incluyendo:

  • Emoción de voz ei ∈ Rd
  • Intensidad emocional θi ∈ R
  • Velocidad de habla ri = m/(tend_i - tstart_i)

El vector de características de audio se define como:

ai = {ei, θi}

La incrustación multimodal se logra mediante operación de concatenación:

Em = Concat(Et, Ee, Er)

2. Construcción de la Base de Conocimiento de Conversación

Se adopta un método de ventana de tiempo deslizante, creando subconjuntos de conversación locales:

Dt = {ut, ut+1, ..., ut+k}

Se construye una base de conocimiento de conversación que contiene características multimodales:

Kd = {(W1, Em1), (W2, Em2), ..., (Wj, Emj)}

3. Mecanismo RAG

El módulo RAG recupera los fragmentos de conversación más relevantes mediante similitud de coseno:

Similarity(Wj, Wi) = (Wj · Wi) / (||Wj|| ||Wi||)

El proceso de recuperación se define como:

Cj = RAG(Wj, Kd)

Puntos de Innovación Técnica

1. Razonamiento de Cadenas Causales Complejas

Se establece conexión causal basada en tres métricas de puntuación:

Puntuación de Consistencia Semántica:

Semantic Score(ojk, pik) = (ojk · pik) / (||ojk|| ||pik||)

Puntuación de Restricción Temporal:

Temporal Score(Δtij) = exp(-Δtij/τ)

Puntuación de Alineación de Justificación:

Rationale Score(rjk, Qi) = log(1 + PNLI(rjk → Qi))

Cálculo final de pesos:

Weight(eij) = α·Semantic Score + β·Temporal Score + γ·Rationale Score

2. Mecanismo de Ventana Deslizante

Procesa continuamente la secuencia de conversación mediante una ventana deslizante, aliviando efectivamente las limitaciones de longitud de entrada mientras se mantiene la información de contexto global.

Configuración Experimental

Conjuntos de Datos

El conjunto de datos ATLAS-6 contiene dos partes:

  1. Conjunto de Datos Sintéticos Auxiliares: 20,000 textos de conversación extendida (70-300 turnos), cubriendo 8 escenarios
  2. Conjunto de Datos de Validación Real: 2,745 conversaciones de secuencia larga, procedentes de películas y redes sociales

Cada enunciado está anotado con seis elementos clave, sometido a anotación manual rigurosa y verificación cruzada.

Métricas de Evaluación

  1. Precisión Causal = Número de conexiones causales correctas / Número total de conexiones causales predichas
  2. Consistencia Causal = Número de conexiones causales consistentes / Número total de conexiones causales
  3. Puntuación de Cadena Causal = 0,5 × Precisión Causal + 0,5 × Consistencia Causal

Métodos de Comparación

  • Modelos de código abierto: LLama-3.3-70B, Qwen2.5-72B, InternLM2.5-20B
  • Modelos propietarios: GLM-4, GPT-4o
  • Métodos tradicionales: CRF-Extract-Classify, SpERT, DiaASQ, ParaPhrase, Span-ASTE

Detalles de Implementación

  • Los modelos de código abierto se entrenan con distribución en 64 GPUs A800
  • Los modelos propietarios se acceden a través de API oficial
  • Los parámetros de peso α, β, γ satisfacen α + β + γ = 1 y 0 < α, β, γ < 1

Resultados Experimentales

Resultados Principales

Rendimiento en el Conjunto de Datos DiaASQ

CauseMotion-GLM-4 supera significativamente a otros modelos en todas las métricas:

  • Target span matching F1: 91,43
  • Aspect span matching F1: 77,63
  • Opinion extraction F1: 61,35
  • T-A pair extraction F1: 64,15
  • T-O pair extraction F1: 50,22
  • A-O pair extraction F1: 59,16

Rendimiento en el Conjunto de Datos ATLAS

CauseMotion-GLM-4 logra la mayor precisión de cadena de razonamiento de causalidad emocional de 0,574, mejorando en un 8,7% en comparación con GPT-4o de 0,528.

Experimentos de Ablación

Los experimentos de ablación muestran que el rendimiento disminuye significativamente sin el marco CauseMotion:

  • GLM-4: De 0,574 a 0,487 (-0,075)
  • Otros modelos también muestran tendencias similares de disminución de rendimiento

Esto demuestra el papel crucial del marco CauseMotion en mejorar el razonamiento de causalidad emocional.

Hallazgos Experimentales

  1. Efectividad de la Fusión Multimodal: La incorporación de características de audio mejora significativamente la profundidad de la comprensión emocional
  2. Importancia del Mecanismo RAG: El mecanismo de recuperación dinámica alivia efectivamente los desafíos del procesamiento de secuencias largas
  3. Universalidad del Marco: CauseMotion puede mejorar efectivamente el rendimiento de diferentes modelos base

Trabajos Relacionados

Desarrollo del Análisis de Sentimientos

Desde el análisis de sentimientos basado en aspectos (ABSA) hasta análisis de grano fino, capaz de extraer objetivos, aspectos, opiniones y sentimientos del texto, pero enfrentando nuevos desafíos en el procesamiento de secuencias de texto largo e información multimodal.

Razonamiento de Secuencias Largas

La investigación existente se enfoca principalmente en textos cortos, careciendo de capacidad de modelado de dependencias a largo plazo y relaciones complejas multicapa, limitando la comprensión de cadenas de causalidad emocional profundas.

Fusión Multimodal

Los métodos tradicionales dependen principalmente de información textual. Este artículo logra una comprensión más completa de la expresión emocional mediante la integración de características de audio.

Conclusiones y Discusión

Conclusiones Principales

  1. El marco CauseMotion resuelve efectivamente los desafíos del razonamiento de causalidad emocional en secuencias largas mediante RAG y fusión multimodal
  2. La integración profunda de características de audio mejora significativamente la capacidad de comprensión emocional
  3. El conjunto de datos ATLAS-6 construido proporciona un recurso fundamental importante para el campo

Limitaciones

  1. Actualmente se enfoca principalmente en escenarios de conversación; la aplicabilidad a otros tipos de texto requiere verificación adicional
  2. La extracción de características de audio depende de un modelo preentrenado específico (SenseVoice)
  3. La complejidad computacional es relativamente alta, lo que puede limitar las aplicaciones prácticas

Direcciones Futuras

  1. Extender el marco a otros dominios y tipos de texto
  2. Integrar más datos multimodales (como información visual)
  3. Optimizar la eficiencia computacional y compresión de modelos

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación Técnica: Primera aplicación sistemática de tecnología RAG al razonamiento de causalidad emocional en secuencias largas
  2. Fusión Multimodal Profunda: Integración innovadora de características de audio en el diseño de entrada y base de conocimiento
  3. Gran Contribución de Conjunto de Datos: Construcción del primer conjunto de datos a gran escala para razonamiento de causalidad emocional en secuencias largas
  4. Experimentación Completa: Evaluación exhaustiva en múltiples conjuntos de datos y modelos
  5. Mejora de Rendimiento Significativa: Logra mejoras evidentes en comparación con métodos SOTA

Insuficiencias

  1. Complejidad Computacional: La fusión multimodal y el mecanismo RAG aumentan la carga computacional
  2. Fuerte Dependencia: Dependencia considerable de modelos de extracción de características de audio y modelos de lenguaje preentrenados
  3. Generalización Desconocida: Validación principalmente en escenarios de conversación; la aplicabilidad en otros escenarios requiere más experimentación
  4. Análisis Teórico Insuficiente: Falta de explicación teórica profunda sobre por qué el método es efectivo

Impacto

  1. Contribución Académica: Abre una nueva dirección de investigación para el razonamiento de causalidad emocional en secuencias largas
  2. Valor Práctico: Tiene valor importante en escenarios de aplicación como servicio al cliente inteligente y análisis de sentimientos
  3. Reproducibilidad: Proporciona repositorio de código anónimo, facilitando la reproducción de investigación

Escenarios Aplicables

  1. Comprensión emocional en sistemas de conversación larga
  2. Monitoreo de sentimientos en redes sociales
  3. Análisis de calidad del servicio al cliente
  4. Sistemas de evaluación de salud mental
  5. Sistemas de conversación educativa

Referencias

El artículo cita 34 referencias relacionadas, cubriendo trabajos importantes en múltiples campos de investigación incluyendo análisis de sentimientos, fusión multimodal, generación aumentada por recuperación y modelos de lenguaje grande, proporcionando una base teórica sólida para esta investigación.


Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para la tarea importante y desafiante del razonamiento de causalidad emocional en secuencias largas. Las contribuciones técnicas, diseño experimental y resultados del artículo son impresionantes, realizando una contribución importante al desarrollo del campo relacionado.