2025-11-13T03:49:10.242464

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Ahn, Rana, Sivadas et al.

Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.

academic

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

基本信息

论文ID: 2510.10078
标题: Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
作者: Chung-Soo Ahn, Rajib Rana, Sunil Sivadas, Carlos Busso, Jagath C. Rajapakse
分类: cs.SD (Sound), cs.LG (Machine Learning)
发表时间: 2025年（Journal of LaTeX Class Files, Vol. 14, No. 8, August 2021格式）
论文链接: https://arxiv.org/abs/2510.10078

摘要

尽管深度学习方法推动了语音情感识别（SER）研究的进展，但该领域仍面临高质量标注训练数据不足的问题。为缓解这一问题，研究者尝试了数据增强方法，其中生成模型近期表现出色。本文提出了一个基于跨模态信息传递和互信息正则化的数据增强框架。互信息度量可作为生成数据质量的指标。此外，得益于互信息确保模态间依赖性的特性，该框架扩展到多模态输入。在三个基准数据集（IEMOCAP、MSP-IMPROV和MSP-Podcast）上的测试表明，该框架在情感预测性能上超越了现有工作，并发现该框架能够在无跨模态信息的情况下生成新的输入特征。

传统数据增强：简单的信号变换和噪声添加仅是原数据的扰动复制，信息含量有限
条件生成模型：假设情感标签到生成样本的确定性映射，这种假设不现实，无法保证生成样本质量
跨模态方法：现有工作主要关注补充或恢复缺失模态，缺乏明确改善多模态情感识别的增强框架

研究动机

本文假设条件生成模型对情感标签到生成样本的确定性映射假设不合理，提出使用互信息正则化作为替代方案，通过量化生成样本与类别标签间的依赖性来确保数据增强质量。

核心贡献

提出了适用于SER和多模态SER的生成模型数据增强框架，结合跨模态信息传递和互信息正则化
引入了跨模态传递与互信息相结合的SER数据增强方法，使用InfoGAN架构实现
发现互信息正则化器可提供可观测量来验证生成数据与情感及文本信息的依赖性
扩展到多模态增强，通过生成音频和文本特征的所有组合实现数据规模四倍增长

方法详解

任务定义

输入：音频信号xa和对应文本转录xt
输出：情感类别预测ŷ
目标：通过生成增强数据提升情感分类性能

模型架构

第一阶段：基线模型准备

音频特征提取：
```
h = fa(xa)
```
使用预训练的音频变换器（AST或Wav2Vec2）提取音频特征
文本特征提取：
```
t = ft(xt)
```
使用预训练的文本变换器（BERT/RoBERTa）提取文本特征
跨模态对齐：
- 对比学习损失： $L_{CL} = -\log\frac{\exp(sim(t_i, h_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, h_j)/\tau)}$
- InfoNCE损失： $L_{MI} = -\log\frac{\exp(sim(t_i, \hat{h}_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{h}_j)/\tau)}$

第二阶段：InfoGAN训练

生成器目标：
```
min max V(D,G) - λI(c;G(z,c))
```
其中c包含情感标签和文本嵌入
互信息最大化：
- 情感互信息： $L_{Iy} = -E\{\sum_c 1(y=c)\log(\hat{y}_g)\}$
- 文本互信息： $L_{It} = -\log\frac{\exp(sim(t_i, \hat{t}^g_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{t}^g_j)/\tau)}$

第三阶段：数据增强训练

SER场景：使用原始特征h和生成特征ĥ训练分类器
多模态SER：使用(h,t)、(h,t')、(ĥ,t)、(ĥ,t')四种组合训练

技术创新点

互信息质量指标：利用互信息损失作为生成样本质量的可观测指标
跨模态信息传递：通过文本信息指导音频特征生成，提升生成质量
多模态扩展：同时生成音频和文本特征，实现真正的多模态数据增强
特征级生成：在特征空间而非原始信号空间进行生成，降低复杂度

实验设置

数据集

IEMOCAP：12小时录音，5对男女演员对话，四类情感（中性、快乐、悲伤、愤怒）
MSP-IMPROV：9小时录音，12名演员交互，四类基本情感
MSP-Podcast：来自播客的"野外"语音数据，更接近真实应用场景

评价指标

无权重平均召回率（UAR）：对不平衡数据集更公平的评价指标
Leave-one-speaker-out交叉验证：确保模型泛化性能

对比方法

包括Sahu et al.、Bao et al.、Latif et al.、Malik et al.等现有数据增强方法，以及MMIN、CIF-MMIN等多模态方法。

实现细节

音频模型：AST（SER）、Wav2Vec2（多模态SER）
文本模型：BERT、RoBERTa、Llama 3.0
InfoGAN架构：简单线性层实现生成器和判别器
训练策略：采用mix-up策略稳定生成器训练

方法	无增强	有增强	提升
Sahu et al.	59.42%	60.29%	0.87%
Bao et al.	59.48±0.71%	60.37±0.70%	0.89%
Latif et al.	60.51±0.57%	61.05±0.68%	0.54%
Malik et al.	58.62±2.11%	61.22±1.85%	2.6%
本文方法	60.81±4.83%	63.40±2.52%	2.59%

多模态SER实验

在IEMOCAP数据集上，本文方法在音频+文本模态组合上达到76.54%的UAR，超越了现有的CIF-MMIN（75.65%）等方法。

消融实验

配置	UAR
完整模型	63.40±2.52%
无跨模态对齐	62.31±3.65%
无跨模态对齐和文本嵌入	61.07±2.45%
无跨模态对齐和互信息最大化	61.70±2.58%