2025-11-13T00:52:10.146166

MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition

Jon, Jin, Jung et al.

This paper presents our contributions to the Speech Emotion Recognition in Naturalistic Conditions (SERNC) Challenge, where we address categorical emotion recognition and emotional attribute prediction. To handle the complexities of natural speech, including intra- and inter-subject variability, we propose Multi-level Acoustic-Textual Emotion Representation (MATER), a novel hierarchical framework that integrates acoustic and textual features at the word, utterance, and embedding levels. By fusing low-level lexical and acoustic cues with high-level contextualized representations, MATER effectively captures both fine-grained prosodic variations and semantic nuances. Additionally, we introduce an uncertainty-aware ensemble strategy to mitigate annotator inconsistencies, improving robustness in ambiguous emotional expressions. MATER ranks fourth in both tasks with a Macro-F1 of 41.01% and an average CCC of 0.5928, securing second place in valence prediction with an impressive CCC of 0.6941.

academic

MATER: Многоуровневое акустическое и текстовое представление эмоций для интерпретируемого распознавания эмоций в речи

Основная информация

ID статьи: 2506.19887
Название: MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition
Авторы: Hyo Jin Jon, Longbin Jin, Hyuntaek Jung, Hyunseo Kim, Donghun Min, Eun Yi Kim
Классификация: eess.AS cs.AI cs.SD
Дата публикации/конференция: Interspeech 2025
Ссылка на статью: https://arxiv.org/abs/2506.19887

Аннотация

В данной работе предлагается MATER (Multi-level Acoustic-Textual Emotion Representation) — многоуровневая иерархическая структура для распознавания эмоций в речи в естественных условиях. Метод интегрирует акустические и текстовые признаки на трёх уровнях: словном, предложенческом и уровне встраивания, эффективно захватывая тонкие просодические вариации и семантические нюансы путём слияния низкоуровневых лексических и акустических сигналов с высокоуровневыми контекстуализированными представлениями. Кроме того, введена стратегия ансамбля, учитывающая неопределённость, для смягчения проблемы несогласованности аннотаторов и повышения робастности при неоднозначном выражении эмоций. MATER занял четвёртое место в обеих задачах с Macro-F1 41,01% и средним CCC 0,5928, а также второе место в прогнозировании эмоциональной валентности с CCC 0,6941.

Исследовательский контекст и мотивация

Определение проблемы

Сложность распознавания эмоций в естественной речи: Большинство существующих наборов данных SER не полностью отражают реальные эмоциональные выражения, обычно состоя из исполненных или вызванных записей, что снижает способность к обобщению.
Внутри- и междикторная вариативность: Естественная речь содержит значительные индивидуальные различия и сложность эмоциональных выражений.
Проблема несогласованности аннотаций: Перекрывающиеся, неоднозначные и высоко вариативные эмоциональные выражения приводят к недостаточному консенсусу аннотаторов, вводя различия в уверенность и смещение классов.

Значимость исследования

Эмоция является основой человеческого опыта, влияя на принятие решений, коммуникацию и психическое здоровье. Речь как наиболее распространённая форма коммуникации содержит богатые эмоциональные сигналы, включая идентичность говорящего, эмоциональное состояние и языковое ударение.

Ограничения существующих методов

Большинство наборов данных содержат ограниченное количество участников, что снижает обобщение на разнообразные реальные сценарии
Отсутствует эффективная интеграция многоуровневых признаков
Неадекватная обработка смещений, вызванных несогласованностью аннотаций

Основные вклады

Предложена структура MATER: Новая иерархическая структура, интегрирующая акустические и текстовые признаки на трёх уровнях: словном, предложенческом и уровне встраивания
Многоуровневое слияние признаков: Систематическое моделирование эмоций от низкоуровневых синтаксических и просодических сигналов к высокоуровневым контекстуализированным представлениям
Стратегия ансамбля, учитывающая неопределённость: Повышение робастности путём выбора эмоциональных предсказаний с минимальной неопределённостью, смягчение аннотационных смещений
Превосходные результаты в конкурсе SERNC: Четвёртое место в обеих задачах, второе место в прогнозировании эмоциональной валентности

Подробное описание метода

Определение задач

Исследование охватывает две задачи:

Задача 1: Категориальное распознавание эмоций: Классификация речевых фрагментов в 8 категорий эмоций (гнев, презрение, отвращение, страх, радость, нейтральность, грусть, удивление)
Задача 2: Прогнозирование атрибутов эмоций: Оценка по 7-балльной шкале Лайкерта на трёх эмоциональных измерениях (возбуждение, доминантность, эмоциональная валентность)

Архитектура модели

Извлечение признаков

MATER извлекает акустические и текстовые признаки на трёх различных уровнях:

Словный уровень (Word-level):

Синтаксические признаки: Использование синтаксического парсера BERTweet для извлечения языковых паттернов, включая информацию о грамматическом лице местоимений, формирующих 20-мерный вектор синтаксических признаков
Просодические признаки: Использование библиотеки openSMILE для извлечения 22-мерного вектора признаков, включающего громкость, дрожание, микротремор, α-отношение и статистику звонких/глухих сегментов
Формирование синтаксически-осведомлённого просодического представления путём конкатенации

Предложенческий уровень (Utterance-level):

Эмоциональные признаки: Производные из набора признаков SEANCE, создающие 517-мерное представление, захватывающее эмоциональную тональность всей транскрипции
Ритмические признаки: Анализ плавности, интенсивности и тонкостей речи, включая громкость, дрожание, микротремор, отношение гармоник к шуму (HNR), паузы и статистику звонких/глухих сегментов, формирующие 34-мерный вектор признаков

Уровень встраивания (Embedding-level):

Аудиокодировщики: WavLM и HuBERT захватывают богатую фонемную и просодическую информацию
Текстовые кодировщики: BERT и T5 предоставляют представление семантической информации
Постпредварительное обучение на корпусе MSP-Podcast для улучшения адаптации к предметной области

Агрегация признаков

Словный уровень: Обработка двухслойной LSTM, финальное скрытое состояние служит словным встраиванием
Предложенческий уровень: Сначала через слой частичной линейной встраивания (PLE), затем через линейный слой для получения представления фиксированной размерности
Уровень встраивания: При использовании нескольких источников встраивания применяется архитектура Perceiver; в противном случае используются непосредственно объединённые признаки
Финальное слияние: Объединённые многоуровневые встраивания подаются на линейный слой для предсказания

Технические инновации

Многоуровневое моделирование признаков: Систематическое захватывание полной информации об эмоциях от тонких синтаксических просодических сигналов к высокоуровневым семантическим представлениям
Синтаксически-осведомлённое просодическое представление: Моделирование взаимодействия между языковой структурой и интонацией, играющее ключевую роль в эмоциональном выражении
Стратегия адаптации к предметной области: Постпредварительное обучение предварительно обученных кодировщиков на целевом наборе данных
Ансамбль, учитывающий неопределённость: Оценка когнитивной неопределённости путём ранжирования вероятностей предсказания, приоритизация высокодоверительных предсказаний

Экспериментальная установка

Набор данных

Использован корпус MSP-Podcast:

Обучающий набор: 84 260 образцов от 2 112 говорящих
Набор разработки: 31 961 образец от 714 говорящих
Тестовый набор: 3 200 сбалансированных образцов, охватывающих 8 категорий эмоций
Использование Whisper-large-v3 для генерации транскрипций и принудительного выравнивания

Метрики оценки

Задача 1: Macro-F1 и точность
Задача 2: Коэффициент конкордантной корреляции (CCC)

Методы сравнения

Базовый метод WavLM
Абляционные эксперименты с различными комбинациями признаков
Сравнение различных стратегий ансамбля

Детали реализации

Проекция словных и предложенческих признаков в 128-мерные векторы
Perceiver генерирует 768-мерный выход, используя 64×768 скрытый массив
Функции потерь, специфичные для задач: взвешенная кросс-энтропия для задачи 1, потеря CCC для задачи 2
Обучение в течение 50 эпох, скорость обучения 1×10⁻⁵ до 5×10⁻⁷, размер пакета 128–2048

Результаты экспериментов

Основные результаты

Задача 1 (Категориальное распознавание эмоций):

Финальные результаты: Macro-F1 = 41,01%, точность = 40,97%
Значительное улучшение по сравнению с базовым методом WavLM (32,93% Macro-F1)
Четвёртое место в конкурсе SERNC

Задача 2 (Прогнозирование атрибутов эмоций):

Средний CCC = 0,5928
CCC эмоциональной валентности = 0,6941 (второе место)
CCC возбуждения = 0,6119
CCC доминантности = 0,4775

Абляционные эксперименты

Вклад уровней признаков: Словные признаки вносят больший вклад, чем предложенческие, указывая на то, что синтаксически-осведомлённые просодические признаки более информативны для категориального распознавания эмоций
Эффект мягких меток: Эффективны при тонкой настройке моделей, но предельная полезность в MATER ограничена
Сравнение стратегий ансамбля: Ансамбль, учитывающий неопределённость, превосходит усреднение и голосование большинством

Экспериментальные находки

Анализ после конкурса:

Акустические признаки превосходят текстовые в обеих задачах
Оптимальные кодировщики различаются для разных задач, подчёркивая необходимость выбора кодировщиков, специфичных для задачи
Многомодальное слияние в MATER улучшает производительность на словном и предложенческом уровнях
Эмоциональная валентность больше зависит от текста, тогда как возбуждение и доминантность больше зависят от акустических сигналов

Связанные работы

Основные направления исследований

Традиционные методы SER: Главным образом используют исполненные или вызванные наборы данных
SER естественной речи: Появление наборов данных, таких как MSP-Podcast
Многомодальное распознавание эмоций: Слияние акустических и текстовых признаков
Обработка неопределённости: Методы обработки несогласованности аннотаций

Преимущества данной работы

Систематическое многоуровневое моделирование признаков
Новая стратегия ансамбля, учитывающая неопределённость
Валидация на крупномасштабном наборе данных естественной речи

Выводы и обсуждение

Основные выводы

MATER эффективно повышает производительность распознавания эмоций в речи в естественных условиях путём многоуровневого слияния признаков и ансамбля, учитывающего неопределённость, особенно выделяясь в прогнозировании эмоциональной валентности.

Ограничения

Прогнозирование возбуждения и доминантности: Остаются вызовом, возможно, из-за того, что текстово-ориентированная стратегия слияния не полностью использует акустические вариации
Вычислительная сложность: Многоуровневое извлечение признаков и архитектура Perceiver увеличивают вычислительные затраты
Адаптация к предметной области: Валидация проведена главным образом на данных подкастов, способность к обобщению на другие области требует проверки

Направления будущих исследований

Выбор признаков, специфичных для эмоций: Применение адаптивных весов признаков для различных эмоциональных измерений
Динамические стратегии слияния: Динамическое слияние для балансировки интеграции аудио-текста
Расширение на разнообразные наборы данных: Валидация производительности MATER на различных наборах данных SER

Глубокая оценка

Преимущества

Инновационность метода: Многоуровневое моделирование признаков и ансамбль, учитывающий неопределённость, обладают новизной
Систематическое проектирование: Логичное проектирование полной иерархии признаков от словного уровня до уровня встраивания
Полнота экспериментов: Детальные абляционные эксперименты и постанализ предоставляют глубокие инсайты
Практическая ценность: Валидация метода в крупномасштабном конкурсе демонстрирует практическую эффективность

Недостатки

Недостаток теоретического анализа: Отсутствует теоретическое объяснение того, почему многоуровневое слияние эффективно
Отсутствие анализа вычислительной эффективности: Не предоставлены детальные анализы вычислительной сложности и времени вывода
Кросс-доменное обобщение: Валидация только на данных подкастов, отсутствуют кросс-доменные эксперименты
Интерпретируемость: Несмотря на упоминание интерпретируемости в названии, в статье отсутствует соответствующий анализ

Влияние

Научный вклад: Предоставляет новую структуру для распознавания эмоций в естественной речи
Практическая ценность: Превосходные результаты в реальном конкурсе доказывают практическую применимость метода
Воспроизводимость: Предоставлены детальные детали реализации, способствующие воспроизведению

Применимые сценарии

Системы распознавания эмоций в естественной речи
Приложения многомодального анализа эмоций
Задачи эмоциональных вычислений, требующие обработки аннотационной неопределённости
Сценарии естественной речи, такие как подкасты и диалоговые системы

Библиография

Статья цитирует 68 связанных работ, охватывающих важные исследования в области эмоциональных вычислений, обработки речи и глубокого обучения, обеспечивая прочную теоретическую базу для исследования.