Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations
Zhang, Li, Yu et al.
Long-sequence causal reasoning seeks to uncover causal relationships within extended time series data but is hindered by complex dependencies and the challenges of validating causal links. To address the limitations of large-scale language models (e.g., GPT-4) in capturing intricate emotional causality within extended dialogues, we propose CauseMotion, a long-sequence emotional causal reasoning framework grounded in Retrieval-Augmented Generation (RAG) and multimodal fusion. Unlike conventional methods relying only on textual information, CauseMotion enriches semantic representations by incorporating audio-derived features-vocal emotion, emotional intensity, and speech rate-into textual modalities. By integrating RAG with a sliding window mechanism, it effectively retrieves and leverages contextually relevant dialogue segments, thus enabling the inference of complex emotional causal chains spanning multiple conversational turns. To evaluate its effectiveness, we constructed the first benchmark dataset dedicated to long-sequence emotional causal reasoning, featuring dialogues with over 70 turns. Experimental results demonstrate that the proposed RAG-based multimodal integrated approach, the efficacy of substantially enhances both the depth of emotional understanding and the causal inference capabilities of large-scale language models. A GLM-4 integrated with CauseMotion achieves an 8.7% improvement in causal accuracy over the original model and surpasses GPT-4o by 1.2%. Additionally, on the publicly available DiaASQ dataset, CauseMotion-GLM-4 achieves state-of-the-art results in accuracy, F1 score, and causal reasoning accuracy.
academic
Descifrando el Flujo: CauseMotion para el Análisis de Causalidad Emocional en Conversaciones de Larga Duración
En este artículo se propone CauseMotion, un marco de razonamiento de causalidad emocional para secuencias largas basado en generación aumentada por recuperación (RAG) y fusión multimodal. El marco integra características de audio (emoción de voz, intensidad emocional, velocidad de habla) y modalidad textual, utilizando un mecanismo de ventana deslizante para recuperar fragmentos de conversación relevantes, permitiendo razonar sobre cadenas de causalidad emocional complejas que abarcan múltiples turnos de conversación. Los resultados experimentales demuestran que el modelo GLM-4 integrado con CauseMotion mejora la precisión causal en un 8,7% en comparación con el modelo original, superando a GPT-4o en un 1,2%.
El razonamiento de causalidad en secuencias largas tiene como objetivo descubrir relaciones causales en datos de series temporales extendidas, pero se ve obstaculizado por dependencias complejas y desafíos en la verificación de cadenas causales. Los modelos de lenguaje de gran escala existentes presentan limitaciones significativas en la captura de relaciones de causalidad emocional complejas en conversaciones extendidas.
El razonamiento de causalidad emocional es crucial para sistemas inteligentes de interacción humano-máquina. Con la proliferación de las redes sociales, la expresión emocional se ha vuelto cada vez más compleja, involucrando secuencias de texto largo e información multimodal. Comprender el origen, desarrollo y consecuencias de las emociones es fundamental para construir sistemas con mayor inteligencia emocional.
Restricciones de Longitud de Entrada: Requieren truncar o segmentar texto, resultando en pérdida de contexto global e impidiendo la captura de dependencias a largo plazo entre párrafos o turnos de conversación
Dificultad en el Modelado de Dependencias a Largo Plazo: Difícil establecer asociaciones causales globales precisas, resultando en razonamiento incompleto o impreciso
Procesamiento Basado en Fragmentos: Puede interrumpir el orden de eventos y relaciones lógicas, debilitando la comprensión del modelo sobre cadenas causales generales
Desafíos en la Fusión Multimodal: Las modalidades de texto y audio presentan diferencias significativas en representación de características y propiedades estadísticas, y la naturaleza propietaria de los modelos de código cerrado limita la integración profunda de características de audio
Mecanismo de Fusión Multimodal: Se propone un método para incrustar profundamente características de audio en el diseño de entrada del modelo y en la base de conocimiento de conversación, logrando una fusión efectiva de datos de texto y audio
Conjunto de Datos de Secuencia Larga a Gran Escala: Se construye ATLAS-6, el primer conjunto de datos de referencia especializado para razonamiento de causalidad emocional en secuencias largas, que contiene 70-300 turnos de conversación
Marco CauseMotion: Se propone un nuevo marco de razonamiento causal integrado con RAG que captura efectivamente dependencias a largo plazo y cadenas causales complejas
Rendimiento SOTA: Se logra rendimiento de última generación en el conjunto de datos DiaASQ, con CauseMotion-GLM-4 superando comprehensivamente a GPT-4o en el conjunto de datos ATLAS
Dada una conversación D = {u1, u2, ..., un} que contiene n enunciados, donde cada enunciado ui = {wi1, wi2, ..., wim} contiene m palabras. El objetivo es extraer todas las posibles sextuplas de causalidad emocional Q = {(hj, tj, aj, oj, pj, rj)} de la ventana de tiempo de entrada W, donde:
Procesa continuamente la secuencia de conversación mediante una ventana deslizante, aliviando efectivamente las limitaciones de longitud de entrada mientras se mantiene la información de contexto global.
CauseMotion-GLM-4 logra la mayor precisión de cadena de razonamiento de causalidad emocional de 0,574, mejorando en un 8,7% en comparación con GPT-4o de 0,528.
Desde el análisis de sentimientos basado en aspectos (ABSA) hasta análisis de grano fino, capaz de extraer objetivos, aspectos, opiniones y sentimientos del texto, pero enfrentando nuevos desafíos en el procesamiento de secuencias de texto largo e información multimodal.
La investigación existente se enfoca principalmente en textos cortos, careciendo de capacidad de modelado de dependencias a largo plazo y relaciones complejas multicapa, limitando la comprensión de cadenas de causalidad emocional profundas.
Los métodos tradicionales dependen principalmente de información textual. Este artículo logra una comprensión más completa de la expresión emocional mediante la integración de características de audio.
El marco CauseMotion resuelve efectivamente los desafíos del razonamiento de causalidad emocional en secuencias largas mediante RAG y fusión multimodal
La integración profunda de características de audio mejora significativamente la capacidad de comprensión emocional
El conjunto de datos ATLAS-6 construido proporciona un recurso fundamental importante para el campo
Fuerte Innovación Técnica: Primera aplicación sistemática de tecnología RAG al razonamiento de causalidad emocional en secuencias largas
Fusión Multimodal Profunda: Integración innovadora de características de audio en el diseño de entrada y base de conocimiento
Gran Contribución de Conjunto de Datos: Construcción del primer conjunto de datos a gran escala para razonamiento de causalidad emocional en secuencias largas
Experimentación Completa: Evaluación exhaustiva en múltiples conjuntos de datos y modelos
Mejora de Rendimiento Significativa: Logra mejoras evidentes en comparación con métodos SOTA
El artículo cita 34 referencias relacionadas, cubriendo trabajos importantes en múltiples campos de investigación incluyendo análisis de sentimientos, fusión multimodal, generación aumentada por recuperación y modelos de lenguaje grande, proporcionando una base teórica sólida para esta investigación.
Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para la tarea importante y desafiante del razonamiento de causalidad emocional en secuencias largas. Las contribuciones técnicas, diseño experimental y resultados del artículo son impresionantes, realizando una contribución importante al desarrollo del campo relacionado.