2025-11-13T03:49:10.242464

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Ahn, Rana, Sivadas et al.

Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.

academic

Улучшение распознавания эмоций в речи с помощью генеративной модели с регуляризацией взаимной информации

Основная информация

ID статьи: 2510.10078
Название: Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
Авторы: Chung-Soo Ahn, Rajib Rana, Sunil Sivadas, Carlos Busso, Jagath C. Rajapakse
Категория: cs.SD (Звук), cs.LG (Машинное обучение)
Дата публикации: 2025 год (формат Journal of LaTeX Class Files, Vol. 14, No. 8, August 2021)
Ссылка на статью: https://arxiv.org/abs/2510.10078

Аннотация

Несмотря на прогресс, достигнутый методами глубокого обучения в исследованиях распознавания эмоций в речи (SER), область по-прежнему сталкивается с проблемой нехватки высококачественных размеченных обучающих данных. Для решения этой проблемы исследователи экспериментировали с методами увеличения данных, в которых генеративные модели недавно показали отличные результаты. В данной работе предложена структура увеличения данных, основанная на кроссмодальной передаче информации и регуляризации взаимной информации. Взаимная информация может служить показателем качества сгенерированных данных. Кроме того, благодаря свойству взаимной информации обеспечивать зависимость между модальностями, структура расширяется на мультимодальные входные данные. Тестирование на трёх эталонных наборах данных (IEMOCAP, MSP-IMPROV и MSP-Podcast) показывает, что структура превосходит существующие работы по производительности предсказания эмоций и обнаруживает способность структуры генерировать новые входные признаки без кроссмодальной информации.

Исследовательский контекст и мотивация

Основная проблема

Основной вызов в области распознавания эмоций в речи — это дефицит высококачественных размеченных данных. По сравнению с крупномасштабными наборами данных в компьютерном зрении (например, MNIST), наборы данных SER имеют меньший размер, что серьёзно влияет на способность моделей глубокого обучения к обобщению.

Значимость проблемы

Проблема нехватки данных напрямую влияет на производительность и практическую применимость моделей SER, особенно в эпоху глубокого обучения, требующей больших объёмов обучающих данных. Эффективные методы увеличения данных критически важны для повышения производительности моделей.

Ограничения существующих методов

Традиционное увеличение данных: простые преобразования сигналов и добавление шума являются лишь возмущённой копией исходных данных с ограниченным информационным содержанием
Условные генеративные модели: предполагают детерминированное отображение от метки эмоции к сгенерированному образцу, что нереалистично и не гарантирует качество сгенерированных образцов
Кроссмодальные методы: существующие работы в основном сосредоточены на дополнении или восстановлении отсутствующих модальностей, не предлагая явной структуры увеличения для улучшения мультимодального распознавания эмоций

Исследовательская мотивация

В данной работе предполагается, что предположение условных генеративных моделей о детерминированном отображении от метки эмоции к сгенерированному образцу неоправданно. Предлагается использовать регуляризацию взаимной информации как альтернативу, количественно определяя зависимость между сгенерированными образцами и метками классов для обеспечения качества увеличения данных.

Основные вклады

Предложена структура увеличения данных с использованием генеративных моделей, применимая к SER и мультимодальному SER, объединяющая кроссмодальную передачу информации и регуляризацию взаимной информации
Введён метод увеличения данных SER, объединяющий кроссмодальную передачу и взаимную информацию, реализованный с использованием архитектуры InfoGAN
Обнаружено, что регуляризатор взаимной информации предоставляет наблюдаемую метрику для проверки зависимости сгенерированных данных от эмоций и текстовой информации
Расширено на мультимодальное увеличение, генерируя все комбинации аудио и текстовых признаков, достигая четырёхкратного увеличения размера данных

Подробное описание метода

Определение задачи

Входные данные: аудиосигнал xa и соответствующая текстовая транскрипция xt
Выходные данные: предсказание класса эмоции ŷ
Цель: повысить производительность классификации эмоций путём генерации увеличенных данных

Архитектура модели

Первый этап: подготовка базовой модели

Извлечение аудиопризнаков:
```
h = fa(xa)
```
Использование предварительно обученного аудиотрансформера (AST или Wav2Vec2) для извлечения аудиопризнаков
Извлечение текстовых признаков:
```
t = ft(xt)
```
Использование предварительно обученного текстового трансформера (BERT/RoBERTa) для извлечения текстовых признаков
Кроссмодальное выравнивание:
- Потеря контрастного обучения: $L_{CL} = -\log\frac{\exp(sim(t_i, h_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, h_j)/\tau)}$
- Потеря InfoNCE: $L_{MI} = -\log\frac{\exp(sim(t_i, \hat{h}_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{h}_j)/\tau)}$

Второй этап: обучение InfoGAN

Цель генератора:
```
min max V(D,G) - λI(c;G(z,c))
```
где c содержит метку эмоции и текстовое вложение
Максимизация взаимной информации:
- Взаимная информация эмоции: $L_{Iy} = -E\{\sum_c 1(y=c)\log(\hat{y}_g)\}$
- Взаимная информация текста: $L_{It} = -\log\frac{\exp(sim(t_i, \hat{t}^g_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{t}^g_j)/\tau)}$

Третий этап: обучение с увеличением данных

Сценарий SER: обучение классификатора с использованием исходных признаков h и сгенерированных признаков ĥ
Мультимодальный SER: обучение с использованием четырёх комбинаций (h,t), (h,t'), (ĥ,t), (ĥ,t')

Технические инновации

Метрика качества взаимной информации: использование потери взаимной информации как наблюдаемого показателя качества сгенерированных образцов
Кроссмодальная передача информации: направление генерации аудиопризнаков с помощью текстовой информации для повышения качества генерации
Мультимодальное расширение: одновременная генерация аудио и текстовых признаков для истинного мультимодального увеличения данных
Генерация на уровне признаков: генерация в пространстве признаков, а не в пространстве исходного сигнала, снижающая сложность

Экспериментальная установка

Наборы данных

IEMOCAP: 12 часов записей, 5 пар мужских и женских актёров в диалогах, четыре класса эмоций (нейтральная, радость, грусть, гнев)
MSP-IMPROV: 9 часов записей, 12 актёров в интерактивных сценах, четыре базовых класса эмоций
MSP-Podcast: речь из подкастов "в дикой природе", более близкая к реальным сценариям применения

Метрики оценки

Невзвешенный средний коэффициент отзыва (UAR): более справедливый показатель оценки для несбалансированных наборов данных
Перекрёстная проверка с исключением одного говорящего: обеспечение производительности обобщения модели

Методы сравнения

Включают существующие методы увеличения данных Sahu et al., Bao et al., Latif et al., Malik et al. и другие, а также мультимодальные методы MMIN, CIF-MMIN.

Детали реализации

Аудиомодель: AST (SER), Wav2Vec2 (мультимодальный SER)
Текстовая модель: BERT, RoBERTa, Llama 3.0
Архитектура InfoGAN: простые линейные слои для реализации генератора и дискриминатора
Стратегия обучения: использование стратегии mix-up для стабилизации обучения генератора

Результаты экспериментов

Основные результаты

Эксперименты SER (IEMOCAP)

Метод	Без увеличения	С увеличением	Улучшение
Sahu et al.	59.42%	60.29%	0.87%
Bao et al.	59.48±0.71%	60.37±0.70%	0.89%
Latif et al.	60.51±0.57%	61.05±0.68%	0.54%
Malik et al.	58.62±2.11%	61.22±1.85%	2.6%
Предложенный метод	60.81±4.83%	63.40±2.52%	2.59%

Эксперименты мультимодального SER

На наборе данных IEMOCAP предложенный метод достигает 76.54% UAR на комбинации модальностей аудио+текст, превосходя существующие методы, такие как CIF-MMIN (75.65%).

Абляционные эксперименты

Конфигурация	UAR
Полная модель	63.40±2.52%
Без кроссмодального выравнивания	62.31±3.65%
Без кроссмодального выравнивания и текстового вложения	61.07±2.45%
Без кроссмодального выравнивания и максимизации взаимной информации	61.70±2.58%

Абляционные эксперименты показывают, что каждый компонент вносит важный вклад в окончательную производительность.

Экспериментальные находки

Эффективность регуляризации взаимной информации: потеря взаимной информации действительно может служить показателем качества сгенерированных образцов
Важность кроссмодальной информации: текстовая информация значительно повышает качество генерации аудиопризнаков
Обработка дисбаланса классов: метод эффективно смягчает проблему дисбаланса классов на наборе данных MSP-Podcast
Способность генерации без кроссмодальной информации: обнаружено, что структура может генерировать новые входные данные без информации других модальностей

Связанные работы

Генеративное увеличение данных

Ранние работы использовали структуру автокодировщика (Latif et al.)
Методы, объединяющие GAN и автокодировщик (Yi et al., Latif et al.)
Недавние расширения на модели диффузии (Malik et al., Kim et al.)

Мультимодальное глубокое обучение

Механизмы кроссмодального внимания (Goncalves et al.)
Методы контрастного обучения (Liu et al.)
Методы восстановления (Meng et al., Wang et al.)

Преимущества данной работы

По сравнению с существующими работами, данная работа впервые объединяет кроссмодальную передачу информации с регуляризацией взаимной информации и расширяет её на истинное мультимодальное увеличение данных.

Заключение и обсуждение

Основные выводы

Генеративные модели с регуляризацией взаимной информации эффективно повышают производительность SER
Кроссмодальная передача информации значительно улучшает качество сгенерированных образцов
Структура мультимодального увеличения данных достигает оптимальной производительности на нескольких эталонных наборах данных
Метод имеет потенциал для решения проблемы дисбаланса классов

Ограничения

Вычислительная сложность: требует обучения нескольких этапов модели, значительные вычислительные затраты
Ограничения пространства признаков: генерация в пространстве признаков, а не в пространстве исходного сигнала, может привести к потере некоторой информации
Зависимость от набора данных: производительность метода может зависеть от характеристик конкретного набора данных
Чувствительность к гиперпараметрам: гиперпараметры, такие как вес взаимной информации λ, требуют тщательной настройки

Направления будущих исследований

Исследование методов генерации исходного сигнала end-to-end
Изучение более эффективных стратегий обучения
Расширение на большее количество модальностей и классов эмоций
Теоретический анализ свойств сходимости регуляризации взаимной информации

Глубокая оценка

Преимущества

Высокая инновационность метода: впервые объединяет регуляризацию взаимной информации с кроссмодальной передачей информации для увеличения данных SER
Полнота экспериментов: всесторонняя оценка на нескольких эталонных наборах данных, включая абляционные эксперименты
Прочная теоретическая база: теория взаимной информации обеспечивает теоретическое обоснование качества сгенерированных образцов
Высокая практическая ценность: метод обладает хорошей масштабируемостью в практических приложениях

Недостатки

Сложность архитектуры: трёхэтапный процесс обучения относительно сложен, может столкнуться с проблемами при практическом развёртывании
Вычислительная эффективность: вычислительные затраты значительно выше по сравнению с простыми методами увеличения данных
Недостаточный анализ обобщаемости: отсутствует глубокий анализ производительности обобщения между наборами данных
Ограниченный теоретический анализ: отсутствуют теоретические гарантии свойств сходимости регуляризации взаимной информации

Влияние

Академический вклад: предоставляет новые идеи и методологическую структуру для исследований увеличения данных SER
Практическая ценность: имеет важное прикладное значение в сценариях с дефицитом данных
Воспроизводимость: детальная экспериментальная установка обеспечивает хорошую воспроизводимость
Вдохновляющий потенциал: идея регуляризации взаимной информации может быть расширена на другие генеративные задачи

Применимые сценарии

Сценарии с дефицитом данных: особенно подходит для задач распознавания эмоций с ограниченным количеством высококачественных размеченных данных
Мультимодальные приложения: демонстрирует отличную производительность при необходимости одновременной обработки аудио и текстовой информации
Проблема дисбаланса классов: эффективно смягчает проблему неравномерного распределения классов эмоций
Разработка исследовательских прототипов: предоставляет эффективный базовый метод увеличения данных для исследований SER

Библиография

Статья цитирует 48 связанных работ, охватывающих множество областей, включая SER, генеративные модели и мультимодальное обучение, обеспечивая прочную теоретическую базу и эталоны для сравнения.