2025-11-19T20:28:14.220145

Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations

Zhang, Li, Yu et al.

Long-sequence causal reasoning seeks to uncover causal relationships within extended time series data but is hindered by complex dependencies and the challenges of validating causal links. To address the limitations of large-scale language models (e.g., GPT-4) in capturing intricate emotional causality within extended dialogues, we propose CauseMotion, a long-sequence emotional causal reasoning framework grounded in Retrieval-Augmented Generation (RAG) and multimodal fusion. Unlike conventional methods relying only on textual information, CauseMotion enriches semantic representations by incorporating audio-derived features-vocal emotion, emotional intensity, and speech rate-into textual modalities. By integrating RAG with a sliding window mechanism, it effectively retrieves and leverages contextually relevant dialogue segments, thus enabling the inference of complex emotional causal chains spanning multiple conversational turns. To evaluate its effectiveness, we constructed the first benchmark dataset dedicated to long-sequence emotional causal reasoning, featuring dialogues with over 70 turns. Experimental results demonstrate that the proposed RAG-based multimodal integrated approach, the efficacy of substantially enhances both the depth of emotional understanding and the causal inference capabilities of large-scale language models. A GLM-4 integrated with CauseMotion achieves an 8.7% improvement in causal accuracy over the original model and surpasses GPT-4o by 1.2%. Additionally, on the publicly available DiaASQ dataset, CauseMotion-GLM-4 achieves state-of-the-art results in accuracy, F1 score, and causal reasoning accuracy.

academic

Декодирование потока: CauseMotion для анализа эмоциональной причинности в длинных диалогах

Основная информация

ID статьи: 2501.00778
Название: Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations
Авторы: Yuxuan Zhang, Yulong Li, Zichen Yu, Feilong Tang, Zhixiang Lu, Chong Li, Kang Dang, Jionglong Su
Категория: cs.CL (Вычислительная лингвистика), cs.CY (Компьютеры и общество)
Дата публикации: 1 января 2025 г.
Ссылка на статью: https://arxiv.org/abs/2501.00778

Аннотация

В данной статье предлагается CauseMotion — структура для рассуждений о причинности эмоций в длинных последовательностях, основанная на поиск-ориентированной генерации (RAG) и многомодальном слиянии. Структура интегрирует аудиофункции (эмоция голоса, интенсивность эмоции, скорость речи) и текстовую модальность, используя механизм скользящего окна для извлечения релевантных фрагментов диалога, что позволяет рассуждать о сложных цепочках эмоциональной причинности, охватывающих несколько ходов диалога. Экспериментальные результаты показывают, что модель GLM-4 с интегрированным CauseMotion превосходит исходную модель на 8,7% по точности причинности и превосходит GPT-4o на 1,2%.

Исследовательский контекст и мотивация

Определение проблемы

Рассуждение о причинности в длинных последовательностях направлено на выявление причинно-следственных связей в расширенных временных рядах данных, но затруднено сложными зависимостями и проблемами верификации причинных цепей. Существующие крупномасштабные языковые модели имеют значительные ограничения в захвате сложных эмоциональных причинно-следственных связей в расширенных диалогах.

Значимость исследования

Анализ эмоциональной причинности критически важен для интеллектуальных систем взаимодействия человека и компьютера. С распространением социальных сетей эмоциональное выражение становится все более сложным, охватывая длинные текстовые последовательности и многомодальную информацию. Понимание происхождения, развития и последствий эмоций имеет важное значение для построения более эмоционально интеллектуальных систем.

Ограничения существующих методов

Ограничения длины входных данных: Требуется усечение или разделение текста, что приводит к потере глобального контекста и препятствует захвату долгосрочных зависимостей между абзацами или ходами диалога
Сложность моделирования долгосрочных зависимостей: Трудно точно установить глобальные причинно-следственные связи, что приводит к неполным или неточным рассуждениям
Обработка на основе фрагментов: Может нарушить порядок событий и логические связи, ослабляя понимание моделью общей цепочки причинности
Проблемы многомодального слияния: Текстовая и аудиомодальности значительно различаются по представлению признаков и статистическим свойствам, а проприетарный характер закрытых моделей ограничивает глубокую интеграцию аудиофункций

Основные вклады

Механизм многомодального слияния: Предложен метод глубокого встраивания аудиофункций в дизайн входных данных модели и базу знаний диалога, обеспечивающий эффективное слияние текстовых и аудиоданных
Крупномасштабный набор данных длинных последовательностей: Создан первый эталонный набор данных ATLAS-6, специально предназначенный для рассуждений о причинности эмоций в длинных последовательностях, содержащий 70-300 ходов диалога
Структура CauseMotion: Предложена новая структура причинного рассуждения, интегрирующая RAG, которая эффективно захватывает долгосрочные зависимости и сложные причинные цепи
Производительность SOTA: Достигнута передовая производительность на наборе данных DiaASQ, CauseMotion-GLM-4 полностью превосходит GPT-4o на наборе данных ATLAS

Подробное описание методов

Определение задачи

Дан диалог D = {u1, u2, ..., un}, содержащий n высказываний, где каждое высказывание ui = {wi1, wi2, ..., wim} содержит m слов. Цель состоит в извлечении всех возможных эмоциональных причинных кортежей Q = {(hj, tj, aj, oj, pj, rj)} из входного временного окна W, где:

hj: Holder (носитель эмоции)
tj: Target (цель)
aj: Aspect (аспект)
oj: Opinion (мнение)
pj: Sentiment (тональность)
rj: Rationale (обоснование)

Архитектура модели

1. Механизм многомодального слияния

Использование SenseVoice для извлечения эмоциональных функций из аудио, включая:

Эмоция голоса ei ∈ Rd
Интенсивность эмоции θi ∈ R
Скорость речи ri = m/(tend_i - tstart_i)

Вектор аудиофункций определяется как:

ai = {ei, θi}

Многомодальное встраивание реализуется операцией конкатенации:

Em = Concat(Et, Ee, Er)

2. Построение базы знаний диалога

Применение метода скользящего временного окна для создания локальных подмножеств диалога:

Dt = {ut, ut+1, ..., ut+k}

Построение базы знаний диалога с многомодальными функциями:

Kd = {(W1, Em1), (W2, Em2), ..., (Wj, Emj)}

3. Механизм RAG

Модуль RAG извлекает наиболее релевантные фрагменты диалога через косинусное сходство:

Similarity(Wj, Wi) = (Wj · Wi) / (||Wj|| ||Wi||)

Процесс извлечения определяется как:

Cj = RAG(Wj, Kd)

Технические инновации

1. Рассуждение о сложных причинных цепях

Установление причинных связей на основе трех показателей оценки:

Оценка семантической согласованности:

Semantic Score(ojk, pik) = (ojk · pik) / (||ojk|| ||pik||)

Оценка временных ограничений:

Temporal Score(Δtij) = exp(-Δtij/τ)

Оценка выравнивания обоснования:

Rationale Score(rjk, Qi) = log(1 + PNLI(rjk → Qi))

Окончательный расчет веса:

Weight(eij) = α·Semantic Score + β·Temporal Score + γ·Rationale Score

2. Механизм скользящего окна

Последовательная обработка последовательности диалога через скользящее окно эффективно смягчает ограничения длины входных данных, сохраняя при этом информацию глобального контекста.

Экспериментальная установка

Наборы данных

Набор данных ATLAS-6 состоит из двух частей:

Вспомогательный синтетический набор данных: 20 000 расширенных текстов диалогов (70-300 ходов), охватывающих 8 сценариев
Набор данных реальной проверки: 2 745 диалогов длинных последовательностей из фильмов и социальных сетей

Каждое высказывание аннотировано шестью ключевыми элементами, прошедшими строгую ручную аннотацию и перекрестную проверку.

Метрики оценки

Точность причинности = Количество правильных причинных связей / Общее количество предсказанных причинных связей
Согласованность причинности = Количество согласованных причинных связей / Общее количество причинных связей
Оценка причинной цепи = 0,5 × Точность причинности + 0,5 × Согласованность причинности

Методы сравнения

Открытые модели: LLama-3.3-70B, Qwen2.5-72B, InternLM2.5-20B
Проприетарные модели: GLM-4, GPT-4o
Традиционные методы: CRF-Extract-Classify, SpERT, DiaASQ, ParaPhrase, Span-ASTE

Детали реализации

Открытые модели обучены на 64 GPU A800 с распределенным обучением
Проприетарные модели доступны через официальные API
Параметры веса α, β, γ удовлетворяют α + β + γ = 1 и 0 < α, β, γ < 1

Экспериментальные результаты

Основные результаты

Производительность на наборе данных DiaASQ

CauseMotion-GLM-4 значительно превосходит другие модели по всем метрикам:

Target span matching F1: 91,43
Aspect span matching F1: 77,63
Opinion extraction F1: 61,35
T-A pair extraction F1: 64,15
T-O pair extraction F1: 50,22
A-O pair extraction F1: 59,16

Производительность на наборе данных ATLAS

CauseMotion-GLM-4 достигает наивысшей точности цепи эмоциональной причинности 0,574, что на 8,7% выше, чем у GPT-4o (0,528).

Абляционные эксперименты

Абляционные эксперименты показывают значительное снижение производительности при удалении структуры CauseMotion:

GLM-4: снижение с 0,574 до 0,487 (-0,075)
Другие модели также показывают аналогичные тенденции снижения производительности

Это подтверждает ключевую роль структуры CauseMotion в повышении производительности рассуждений о причинности эмоций.

Экспериментальные выводы

Эффективность многомодального слияния: Добавление аудиофункций значительно улучшает глубину понимания эмоций
Важность механизма RAG: Динамический механизм извлечения эффективно смягчает проблемы обработки длинных последовательностей
Универсальность структуры: CauseMotion может эффективно повысить производительность различных базовых моделей

Связанные работы

Развитие анализа эмоций

От анализа эмоций на основе аспектов (ABSA) к детальному анализу, способному извлекать цели, аспекты, мнения и тональность из текста, но сталкивающемуся с новыми проблемами обработки длинных текстовых последовательностей и многомодальной информации.

Рассуждение о длинных последовательностях

Существующие исследования в основном сосредоточены на коротких текстах, не хватает способности моделирования долгосрочных зависимостей и сложных многоуровневых отношений, что ограничивает понимание глубоких цепочек эмоциональной причинности.

Многомодальное слияние

Традиционные методы в основном полагаются на текстовую информацию; в данной работе достигнуто более полное понимание эмоционального выражения путем интеграции аудиофункций.

Заключение и обсуждение

Основные выводы

Структура CauseMotion эффективно решает проблемы рассуждений о причинности эмоций в длинных последовательностях через RAG и многомодальное слияние
Глубокая интеграция аудиофункций значительно повышает способность понимания эмоций
Построенный набор данных ATLAS-6 предоставляет важный базовый ресурс для этой области

Ограничения

В настоящее время основное внимание уделяется сценариям диалога; применимость к другим типам текстов требует дальнейшей проверки
Извлечение аудиофункций зависит от конкретной предварительно обученной модели (SenseVoice)
Высокая вычислительная сложность может ограничить практическое применение

Будущие направления

Расширение структуры на другие области и типы текстов
Интеграция дополнительных модальностей данных (например, визуальной информации)
Оптимизация вычислительной эффективности и сжатие модели

Глубокая оценка

Преимущества

Сильная техническая инновативность: Первое систематическое применение технологии RAG к рассуждениям о причинности эмоций в длинных последовательностях
Глубокое многомодальное слияние: Инновационное встраивание аудиофункций в базу знаний и дизайн входных данных
Значительный вклад в наборы данных: Создание первого крупномасштабного набора данных для рассуждений о причинности эмоций в длинных последовательностях
Полные эксперименты: Комплексная оценка на нескольких наборах данных и моделях
Значительное улучшение производительности: Явное улучшение по сравнению с методами SOTA

Недостатки

Вычислительная сложность: Многомодальное слияние и механизм RAG увеличивают вычислительные затраты
Сильная зависимость: Значительная зависимость от модели извлечения аудиофункций и предварительно обученных языковых моделей
Неизвестная обобщаемость: Главным образом проверено в сценариях диалога; применимость в других сценариях требует дополнительных экспериментов
Недостаточный теоретический анализ: Отсутствует глубокое теоретическое объяснение того, почему этот метод эффективен

Влияние

Академический вклад: Открывает новое направление исследований для рассуждений о причинности эмоций в длинных последовательностях
Практическая ценность: Имеет важное значение в сценариях применения, таких как интеллектуальное обслуживание клиентов и анализ эмоций
Воспроизводимость: Предоставляет анонимный репозиторий кода, облегчающий воспроизведение исследований

Применимые сценарии

Понимание эмоций в системах длинных диалогов
Мониторинг эмоций в социальных сетях
Анализ качества обслуживания клиентов
Системы оценки психического здоровья
Системы образовательного диалога

Ссылки

Статья цитирует 34 соответствующих источника, охватывающих важные работы в нескольких областях исследований, включая анализ эмоций, многомодальное слияние, поиск-ориентированную генерацию и крупномасштабные языковые модели, обеспечивая прочную теоретическую основу для данного исследования.

Общая оценка: Это высококачественная исследовательская статья, предлагающая инновационное решение для важной и сложной задачи рассуждений о причинности эмоций в длинных последовательностях. Технические вклады, дизайн экспериментов и результаты статьи впечатляют и вносят значительный вклад в развитие соответствующей области.