Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
Ahn, Rana, Sivadas et al.
Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.
academic
Улучшение распознавания эмоций в речи с помощью генеративной модели с регуляризацией взаимной информации
Несмотря на прогресс, достигнутый методами глубокого обучения в исследованиях распознавания эмоций в речи (SER), область по-прежнему сталкивается с проблемой нехватки высококачественных размеченных обучающих данных. Для решения этой проблемы исследователи экспериментировали с методами увеличения данных, в которых генеративные модели недавно показали отличные результаты. В данной работе предложена структура увеличения данных, основанная на кроссмодальной передаче информации и регуляризации взаимной информации. Взаимная информация может служить показателем качества сгенерированных данных. Кроме того, благодаря свойству взаимной информации обеспечивать зависимость между модальностями, структура расширяется на мультимодальные входные данные. Тестирование на трёх эталонных наборах данных (IEMOCAP, MSP-IMPROV и MSP-Podcast) показывает, что структура превосходит существующие работы по производительности предсказания эмоций и обнаруживает способность структуры генерировать новые входные признаки без кроссмодальной информации.
Основной вызов в области распознавания эмоций в речи — это дефицит высококачественных размеченных данных. По сравнению с крупномасштабными наборами данных в компьютерном зрении (например, MNIST), наборы данных SER имеют меньший размер, что серьёзно влияет на способность моделей глубокого обучения к обобщению.
Проблема нехватки данных напрямую влияет на производительность и практическую применимость моделей SER, особенно в эпоху глубокого обучения, требующей больших объёмов обучающих данных. Эффективные методы увеличения данных критически важны для повышения производительности моделей.
Традиционное увеличение данных: простые преобразования сигналов и добавление шума являются лишь возмущённой копией исходных данных с ограниченным информационным содержанием
Условные генеративные модели: предполагают детерминированное отображение от метки эмоции к сгенерированному образцу, что нереалистично и не гарантирует качество сгенерированных образцов
Кроссмодальные методы: существующие работы в основном сосредоточены на дополнении или восстановлении отсутствующих модальностей, не предлагая явной структуры увеличения для улучшения мультимодального распознавания эмоций
В данной работе предполагается, что предположение условных генеративных моделей о детерминированном отображении от метки эмоции к сгенерированному образцу неоправданно. Предлагается использовать регуляризацию взаимной информации как альтернативу, количественно определяя зависимость между сгенерированными образцами и метками классов для обеспечения качества увеличения данных.
Предложена структура увеличения данных с использованием генеративных моделей, применимая к SER и мультимодальному SER, объединяющая кроссмодальную передачу информации и регуляризацию взаимной информации
Введён метод увеличения данных SER, объединяющий кроссмодальную передачу и взаимную информацию, реализованный с использованием архитектуры InfoGAN
Обнаружено, что регуляризатор взаимной информации предоставляет наблюдаемую метрику для проверки зависимости сгенерированных данных от эмоций и текстовой информации
Расширено на мультимодальное увеличение, генерируя все комбинации аудио и текстовых признаков, достигая четырёхкратного увеличения размера данных
Включают существующие методы увеличения данных Sahu et al., Bao et al., Latif et al., Malik et al. и другие, а также мультимодальные методы MMIN, CIF-MMIN.
На наборе данных IEMOCAP предложенный метод достигает 76.54% UAR на комбинации модальностей аудио+текст, превосходя существующие методы, такие как CIF-MMIN (75.65%).
Эффективность регуляризации взаимной информации: потеря взаимной информации действительно может служить показателем качества сгенерированных образцов
Важность кроссмодальной информации: текстовая информация значительно повышает качество генерации аудиопризнаков
Обработка дисбаланса классов: метод эффективно смягчает проблему дисбаланса классов на наборе данных MSP-Podcast
Способность генерации без кроссмодальной информации: обнаружено, что структура может генерировать новые входные данные без информации других модальностей
По сравнению с существующими работами, данная работа впервые объединяет кроссмодальную передачу информации с регуляризацией взаимной информации и расширяет её на истинное мультимодальное увеличение данных.
Вычислительная сложность: требует обучения нескольких этапов модели, значительные вычислительные затраты
Ограничения пространства признаков: генерация в пространстве признаков, а не в пространстве исходного сигнала, может привести к потере некоторой информации
Зависимость от набора данных: производительность метода может зависеть от характеристик конкретного набора данных
Чувствительность к гиперпараметрам: гиперпараметры, такие как вес взаимной информации λ, требуют тщательной настройки
Статья цитирует 48 связанных работ, охватывающих множество областей, включая SER, генеративные модели и мультимодальное обучение, обеспечивая прочную теоретическую базу и эталоны для сравнения.