This paper presents our contributions to the Speech Emotion Recognition in Naturalistic Conditions (SERNC) Challenge, where we address categorical emotion recognition and emotional attribute prediction. To handle the complexities of natural speech, including intra- and inter-subject variability, we propose Multi-level Acoustic-Textual Emotion Representation (MATER), a novel hierarchical framework that integrates acoustic and textual features at the word, utterance, and embedding levels. By fusing low-level lexical and acoustic cues with high-level contextualized representations, MATER effectively captures both fine-grained prosodic variations and semantic nuances. Additionally, we introduce an uncertainty-aware ensemble strategy to mitigate annotator inconsistencies, improving robustness in ambiguous emotional expressions. MATER ranks fourth in both tasks with a Macro-F1 of 41.01% and an average CCC of 0.5928, securing second place in valence prediction with an impressive CCC of 0.6941.
- ID статьи: 2506.19887
- Название: MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition
- Авторы: Hyo Jin Jon, Longbin Jin, Hyuntaek Jung, Hyunseo Kim, Donghun Min, Eun Yi Kim
- Классификация: eess.AS cs.AI cs.SD
- Дата публикации/конференция: Interspeech 2025
- Ссылка на статью: https://arxiv.org/abs/2506.19887
В данной работе предлагается MATER (Multi-level Acoustic-Textual Emotion Representation) — многоуровневая иерархическая структура для распознавания эмоций в речи в естественных условиях. Метод интегрирует акустические и текстовые признаки на трёх уровнях: словном, предложенческом и уровне встраивания, эффективно захватывая тонкие просодические вариации и семантические нюансы путём слияния низкоуровневых лексических и акустических сигналов с высокоуровневыми контекстуализированными представлениями. Кроме того, введена стратегия ансамбля, учитывающая неопределённость, для смягчения проблемы несогласованности аннотаторов и повышения робастности при неоднозначном выражении эмоций. MATER занял четвёртое место в обеих задачах с Macro-F1 41,01% и средним CCC 0,5928, а также второе место в прогнозировании эмоциональной валентности с CCC 0,6941.
- Сложность распознавания эмоций в естественной речи: Большинство существующих наборов данных SER не полностью отражают реальные эмоциональные выражения, обычно состоя из исполненных или вызванных записей, что снижает способность к обобщению.
- Внутри- и междикторная вариативность: Естественная речь содержит значительные индивидуальные различия и сложность эмоциональных выражений.
- Проблема несогласованности аннотаций: Перекрывающиеся, неоднозначные и высоко вариативные эмоциональные выражения приводят к недостаточному консенсусу аннотаторов, вводя различия в уверенность и смещение классов.
Эмоция является основой человеческого опыта, влияя на принятие решений, коммуникацию и психическое здоровье. Речь как наиболее распространённая форма коммуникации содержит богатые эмоциональные сигналы, включая идентичность говорящего, эмоциональное состояние и языковое ударение.
- Большинство наборов данных содержат ограниченное количество участников, что снижает обобщение на разнообразные реальные сценарии
- Отсутствует эффективная интеграция многоуровневых признаков
- Неадекватная обработка смещений, вызванных несогласованностью аннотаций
- Предложена структура MATER: Новая иерархическая структура, интегрирующая акустические и текстовые признаки на трёх уровнях: словном, предложенческом и уровне встраивания
- Многоуровневое слияние признаков: Систематическое моделирование эмоций от низкоуровневых синтаксических и просодических сигналов к высокоуровневым контекстуализированным представлениям
- Стратегия ансамбля, учитывающая неопределённость: Повышение робастности путём выбора эмоциональных предсказаний с минимальной неопределённостью, смягчение аннотационных смещений
- Превосходные результаты в конкурсе SERNC: Четвёртое место в обеих задачах, второе место в прогнозировании эмоциональной валентности
Исследование охватывает две задачи:
- Задача 1: Категориальное распознавание эмоций: Классификация речевых фрагментов в 8 категорий эмоций (гнев, презрение, отвращение, страх, радость, нейтральность, грусть, удивление)
- Задача 2: Прогнозирование атрибутов эмоций: Оценка по 7-балльной шкале Лайкерта на трёх эмоциональных измерениях (возбуждение, доминантность, эмоциональная валентность)
MATER извлекает акустические и текстовые признаки на трёх различных уровнях:
Словный уровень (Word-level):
- Синтаксические признаки: Использование синтаксического парсера BERTweet для извлечения языковых паттернов, включая информацию о грамматическом лице местоимений, формирующих 20-мерный вектор синтаксических признаков
- Просодические признаки: Использование библиотеки openSMILE для извлечения 22-мерного вектора признаков, включающего громкость, дрожание, микротремор, α-отношение и статистику звонких/глухих сегментов
- Формирование синтаксически-осведомлённого просодического представления путём конкатенации
Предложенческий уровень (Utterance-level):
- Эмоциональные признаки: Производные из набора признаков SEANCE, создающие 517-мерное представление, захватывающее эмоциональную тональность всей транскрипции
- Ритмические признаки: Анализ плавности, интенсивности и тонкостей речи, включая громкость, дрожание, микротремор, отношение гармоник к шуму (HNR), паузы и статистику звонких/глухих сегментов, формирующие 34-мерный вектор признаков
Уровень встраивания (Embedding-level):
- Аудиокодировщики: WavLM и HuBERT захватывают богатую фонемную и просодическую информацию
- Текстовые кодировщики: BERT и T5 предоставляют представление семантической информации
- Постпредварительное обучение на корпусе MSP-Podcast для улучшения адаптации к предметной области
- Словный уровень: Обработка двухслойной LSTM, финальное скрытое состояние служит словным встраиванием
- Предложенческий уровень: Сначала через слой частичной линейной встраивания (PLE), затем через линейный слой для получения представления фиксированной размерности
- Уровень встраивания: При использовании нескольких источников встраивания применяется архитектура Perceiver; в противном случае используются непосредственно объединённые признаки
- Финальное слияние: Объединённые многоуровневые встраивания подаются на линейный слой для предсказания
- Многоуровневое моделирование признаков: Систематическое захватывание полной информации об эмоциях от тонких синтаксических просодических сигналов к высокоуровневым семантическим представлениям
- Синтаксически-осведомлённое просодическое представление: Моделирование взаимодействия между языковой структурой и интонацией, играющее ключевую роль в эмоциональном выражении
- Стратегия адаптации к предметной области: Постпредварительное обучение предварительно обученных кодировщиков на целевом наборе данных
- Ансамбль, учитывающий неопределённость: Оценка когнитивной неопределённости путём ранжирования вероятностей предсказания, приоритизация высокодоверительных предсказаний
Использован корпус MSP-Podcast:
- Обучающий набор: 84 260 образцов от 2 112 говорящих
- Набор разработки: 31 961 образец от 714 говорящих
- Тестовый набор: 3 200 сбалансированных образцов, охватывающих 8 категорий эмоций
- Использование Whisper-large-v3 для генерации транскрипций и принудительного выравнивания
- Задача 1: Macro-F1 и точность
- Задача 2: Коэффициент конкордантной корреляции (CCC)
- Базовый метод WavLM
- Абляционные эксперименты с различными комбинациями признаков
- Сравнение различных стратегий ансамбля
- Проекция словных и предложенческих признаков в 128-мерные векторы
- Perceiver генерирует 768-мерный выход, используя 64×768 скрытый массив
- Функции потерь, специфичные для задач: взвешенная кросс-энтропия для задачи 1, потеря CCC для задачи 2
- Обучение в течение 50 эпох, скорость обучения 1×10⁻⁵ до 5×10⁻⁷, размер пакета 128–2048
Задача 1 (Категориальное распознавание эмоций):
- Финальные результаты: Macro-F1 = 41,01%, точность = 40,97%
- Значительное улучшение по сравнению с базовым методом WavLM (32,93% Macro-F1)
- Четвёртое место в конкурсе SERNC
Задача 2 (Прогнозирование атрибутов эмоций):
- Средний CCC = 0,5928
- CCC эмоциональной валентности = 0,6941 (второе место)
- CCC возбуждения = 0,6119
- CCC доминантности = 0,4775
- Вклад уровней признаков: Словные признаки вносят больший вклад, чем предложенческие, указывая на то, что синтаксически-осведомлённые просодические признаки более информативны для категориального распознавания эмоций
- Эффект мягких меток: Эффективны при тонкой настройке моделей, но предельная полезность в MATER ограничена
- Сравнение стратегий ансамбля: Ансамбль, учитывающий неопределённость, превосходит усреднение и голосование большинством
Анализ после конкурса:
- Акустические признаки превосходят текстовые в обеих задачах
- Оптимальные кодировщики различаются для разных задач, подчёркивая необходимость выбора кодировщиков, специфичных для задачи
- Многомодальное слияние в MATER улучшает производительность на словном и предложенческом уровнях
- Эмоциональная валентность больше зависит от текста, тогда как возбуждение и доминантность больше зависят от акустических сигналов
- Традиционные методы SER: Главным образом используют исполненные или вызванные наборы данных
- SER естественной речи: Появление наборов данных, таких как MSP-Podcast
- Многомодальное распознавание эмоций: Слияние акустических и текстовых признаков
- Обработка неопределённости: Методы обработки несогласованности аннотаций
- Систематическое многоуровневое моделирование признаков
- Новая стратегия ансамбля, учитывающая неопределённость
- Валидация на крупномасштабном наборе данных естественной речи
MATER эффективно повышает производительность распознавания эмоций в речи в естественных условиях путём многоуровневого слияния признаков и ансамбля, учитывающего неопределённость, особенно выделяясь в прогнозировании эмоциональной валентности.
- Прогнозирование возбуждения и доминантности: Остаются вызовом, возможно, из-за того, что текстово-ориентированная стратегия слияния не полностью использует акустические вариации
- Вычислительная сложность: Многоуровневое извлечение признаков и архитектура Perceiver увеличивают вычислительные затраты
- Адаптация к предметной области: Валидация проведена главным образом на данных подкастов, способность к обобщению на другие области требует проверки
- Выбор признаков, специфичных для эмоций: Применение адаптивных весов признаков для различных эмоциональных измерений
- Динамические стратегии слияния: Динамическое слияние для балансировки интеграции аудио-текста
- Расширение на разнообразные наборы данных: Валидация производительности MATER на различных наборах данных SER
- Инновационность метода: Многоуровневое моделирование признаков и ансамбль, учитывающий неопределённость, обладают новизной
- Систематическое проектирование: Логичное проектирование полной иерархии признаков от словного уровня до уровня встраивания
- Полнота экспериментов: Детальные абляционные эксперименты и постанализ предоставляют глубокие инсайты
- Практическая ценность: Валидация метода в крупномасштабном конкурсе демонстрирует практическую эффективность
- Недостаток теоретического анализа: Отсутствует теоретическое объяснение того, почему многоуровневое слияние эффективно
- Отсутствие анализа вычислительной эффективности: Не предоставлены детальные анализы вычислительной сложности и времени вывода
- Кросс-доменное обобщение: Валидация только на данных подкастов, отсутствуют кросс-доменные эксперименты
- Интерпретируемость: Несмотря на упоминание интерпретируемости в названии, в статье отсутствует соответствующий анализ
- Научный вклад: Предоставляет новую структуру для распознавания эмоций в естественной речи
- Практическая ценность: Превосходные результаты в реальном конкурсе доказывают практическую применимость метода
- Воспроизводимость: Предоставлены детальные детали реализации, способствующие воспроизведению
- Системы распознавания эмоций в естественной речи
- Приложения многомодального анализа эмоций
- Задачи эмоциональных вычислений, требующие обработки аннотационной неопределённости
- Сценарии естественной речи, такие как подкасты и диалоговые системы
Статья цитирует 68 связанных работ, охватывающих важные исследования в области эмоциональных вычислений, обработки речи и глубокого обучения, обеспечивая прочную теоретическую базу для исследования.