Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations
Zhang, Li, Yu et al.
Long-sequence causal reasoning seeks to uncover causal relationships within extended time series data but is hindered by complex dependencies and the challenges of validating causal links. To address the limitations of large-scale language models (e.g., GPT-4) in capturing intricate emotional causality within extended dialogues, we propose CauseMotion, a long-sequence emotional causal reasoning framework grounded in Retrieval-Augmented Generation (RAG) and multimodal fusion. Unlike conventional methods relying only on textual information, CauseMotion enriches semantic representations by incorporating audio-derived features-vocal emotion, emotional intensity, and speech rate-into textual modalities. By integrating RAG with a sliding window mechanism, it effectively retrieves and leverages contextually relevant dialogue segments, thus enabling the inference of complex emotional causal chains spanning multiple conversational turns. To evaluate its effectiveness, we constructed the first benchmark dataset dedicated to long-sequence emotional causal reasoning, featuring dialogues with over 70 turns. Experimental results demonstrate that the proposed RAG-based multimodal integrated approach, the efficacy of substantially enhances both the depth of emotional understanding and the causal inference capabilities of large-scale language models. A GLM-4 integrated with CauseMotion achieves an 8.7% improvement in causal accuracy over the original model and surpasses GPT-4o by 1.2%. Additionally, on the publicly available DiaASQ dataset, CauseMotion-GLM-4 achieves state-of-the-art results in accuracy, F1 score, and causal reasoning accuracy.
academic
Декодирование потока: CauseMotion для анализа эмоциональной причинности в длинных диалогах
В данной статье предлагается CauseMotion — структура для рассуждений о причинности эмоций в длинных последовательностях, основанная на поиск-ориентированной генерации (RAG) и многомодальном слиянии. Структура интегрирует аудиофункции (эмоция голоса, интенсивность эмоции, скорость речи) и текстовую модальность, используя механизм скользящего окна для извлечения релевантных фрагментов диалога, что позволяет рассуждать о сложных цепочках эмоциональной причинности, охватывающих несколько ходов диалога. Экспериментальные результаты показывают, что модель GLM-4 с интегрированным CauseMotion превосходит исходную модель на 8,7% по точности причинности и превосходит GPT-4o на 1,2%.
Рассуждение о причинности в длинных последовательностях направлено на выявление причинно-следственных связей в расширенных временных рядах данных, но затруднено сложными зависимостями и проблемами верификации причинных цепей. Существующие крупномасштабные языковые модели имеют значительные ограничения в захвате сложных эмоциональных причинно-следственных связей в расширенных диалогах.
Анализ эмоциональной причинности критически важен для интеллектуальных систем взаимодействия человека и компьютера. С распространением социальных сетей эмоциональное выражение становится все более сложным, охватывая длинные текстовые последовательности и многомодальную информацию. Понимание происхождения, развития и последствий эмоций имеет важное значение для построения более эмоционально интеллектуальных систем.
Ограничения длины входных данных: Требуется усечение или разделение текста, что приводит к потере глобального контекста и препятствует захвату долгосрочных зависимостей между абзацами или ходами диалога
Сложность моделирования долгосрочных зависимостей: Трудно точно установить глобальные причинно-следственные связи, что приводит к неполным или неточным рассуждениям
Обработка на основе фрагментов: Может нарушить порядок событий и логические связи, ослабляя понимание моделью общей цепочки причинности
Проблемы многомодального слияния: Текстовая и аудиомодальности значительно различаются по представлению признаков и статистическим свойствам, а проприетарный характер закрытых моделей ограничивает глубокую интеграцию аудиофункций
Механизм многомодального слияния: Предложен метод глубокого встраивания аудиофункций в дизайн входных данных модели и базу знаний диалога, обеспечивающий эффективное слияние текстовых и аудиоданных
Крупномасштабный набор данных длинных последовательностей: Создан первый эталонный набор данных ATLAS-6, специально предназначенный для рассуждений о причинности эмоций в длинных последовательностях, содержащий 70-300 ходов диалога
Структура CauseMotion: Предложена новая структура причинного рассуждения, интегрирующая RAG, которая эффективно захватывает долгосрочные зависимости и сложные причинные цепи
Производительность SOTA: Достигнута передовая производительность на наборе данных DiaASQ, CauseMotion-GLM-4 полностью превосходит GPT-4o на наборе данных ATLAS
Дан диалог D = {u1, u2, ..., un}, содержащий n высказываний, где каждое высказывание ui = {wi1, wi2, ..., wim} содержит m слов. Цель состоит в извлечении всех возможных эмоциональных причинных кортежей Q = {(hj, tj, aj, oj, pj, rj)} из входного временного окна W, где:
Последовательная обработка последовательности диалога через скользящее окно эффективно смягчает ограничения длины входных данных, сохраняя при этом информацию глобального контекста.
От анализа эмоций на основе аспектов (ABSA) к детальному анализу, способному извлекать цели, аспекты, мнения и тональность из текста, но сталкивающемуся с новыми проблемами обработки длинных текстовых последовательностей и многомодальной информации.
Существующие исследования в основном сосредоточены на коротких текстах, не хватает способности моделирования долгосрочных зависимостей и сложных многоуровневых отношений, что ограничивает понимание глубоких цепочек эмоциональной причинности.
Традиционные методы в основном полагаются на текстовую информацию; в данной работе достигнуто более полное понимание эмоционального выражения путем интеграции аудиофункций.
Сильная техническая инновативность: Первое систематическое применение технологии RAG к рассуждениям о причинности эмоций в длинных последовательностях
Глубокое многомодальное слияние: Инновационное встраивание аудиофункций в базу знаний и дизайн входных данных
Значительный вклад в наборы данных: Создание первого крупномасштабного набора данных для рассуждений о причинности эмоций в длинных последовательностях
Полные эксперименты: Комплексная оценка на нескольких наборах данных и моделях
Значительное улучшение производительности: Явное улучшение по сравнению с методами SOTA
Статья цитирует 34 соответствующих источника, охватывающих важные работы в нескольких областях исследований, включая анализ эмоций, многомодальное слияние, поиск-ориентированную генерацию и крупномасштабные языковые модели, обеспечивая прочную теоретическую основу для данного исследования.
Общая оценка: Это высококачественная исследовательская статья, предлагающая инновационное решение для важной и сложной задачи рассуждений о причинности эмоций в длинных последовательностях. Технические вклады, дизайн экспериментов и результаты статьи впечатляют и вносят значительный вклад в развитие соответствующей области.