2025-11-13T03:49:10.242464

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Ahn, Rana, Sivadas et al.
Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.
academic

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

基本信息

  • 论文ID: 2510.10078
  • 标题: Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
  • 作者: Chung-Soo Ahn, Rajib Rana, Sunil Sivadas, Carlos Busso, Jagath C. Rajapakse
  • 分类: cs.SD (Sound), cs.LG (Machine Learning)
  • 发表时间: 2025年(Journal of LaTeX Class Files, Vol. 14, No. 8, August 2021格式)
  • 论文链接: https://arxiv.org/abs/2510.10078

摘要

尽管深度学习方法推动了语音情感识别(SER)研究的进展,但该领域仍面临高质量标注训练数据不足的问题。为缓解这一问题,研究者尝试了数据增强方法,其中生成模型近期表现出色。本文提出了一个基于跨模态信息传递和互信息正则化的数据增强框架。互信息度量可作为生成数据质量的指标。此外,得益于互信息确保模态间依赖性的特性,该框架扩展到多模态输入。在三个基准数据集(IEMOCAP、MSP-IMPROV和MSP-Podcast)上的测试表明,该框架在情感预测性能上超越了现有工作,并发现该框架能够在无跨模态信息的情况下生成新的输入特征。

研究背景与动机

核心问题

语音情感识别领域面临的主要挑战是高质量标注数据的稀缺性。与计算机视觉领域的大规模数据集(如MNIST)相比,SER数据集规模较小,这严重影响了深度学习模型的泛化能力。

问题重要性

数据稀缺问题直接影响SER模型的性能和实用性,特别是在需要大量训练数据的深度学习时代。有效的数据增强方法对提升模型性能至关重要。

现有方法局限性

  1. 传统数据增强:简单的信号变换和噪声添加仅是原数据的扰动复制,信息含量有限
  2. 条件生成模型:假设情感标签到生成样本的确定性映射,这种假设不现实,无法保证生成样本质量
  3. 跨模态方法:现有工作主要关注补充或恢复缺失模态,缺乏明确改善多模态情感识别的增强框架

研究动机

本文假设条件生成模型对情感标签到生成样本的确定性映射假设不合理,提出使用互信息正则化作为替代方案,通过量化生成样本与类别标签间的依赖性来确保数据增强质量。

核心贡献

  1. 提出了适用于SER和多模态SER的生成模型数据增强框架,结合跨模态信息传递和互信息正则化
  2. 引入了跨模态传递与互信息相结合的SER数据增强方法,使用InfoGAN架构实现
  3. 发现互信息正则化器可提供可观测量来验证生成数据与情感及文本信息的依赖性
  4. 扩展到多模态增强,通过生成音频和文本特征的所有组合实现数据规模四倍增长

方法详解

任务定义

  • 输入:音频信号xa和对应文本转录xt
  • 输出:情感类别预测ŷ
  • 目标:通过生成增强数据提升情感分类性能

模型架构

第一阶段:基线模型准备

  1. 音频特征提取
    h = fa(xa)
    

    使用预训练的音频变换器(AST或Wav2Vec2)提取音频特征
  2. 文本特征提取
    t = ft(xt)
    

    使用预训练的文本变换器(BERT/RoBERTa)提取文本特征
  3. 跨模态对齐
    • 对比学习损失:LCL=logexp(sim(ti,hi)/τ)j=1Bexp(sim(ti,hj)/τ)L_{CL} = -\log\frac{\exp(sim(t_i, h_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, h_j)/\tau)}
    • InfoNCE损失:LMI=logexp(sim(ti,h^i)/τ)j=1Bexp(sim(ti,h^j)/τ)L_{MI} = -\log\frac{\exp(sim(t_i, \hat{h}_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{h}_j)/\tau)}

第二阶段:InfoGAN训练

  1. 生成器目标
    min max V(D,G) - λI(c;G(z,c))
    

    其中c包含情感标签和文本嵌入
  2. 互信息最大化
    • 情感互信息:LIy=E{c1(y=c)log(y^g)}L_{Iy} = -E\{\sum_c 1(y=c)\log(\hat{y}_g)\}
    • 文本互信息:LIt=logexp(sim(ti,t^ig)/τ)j=1Bexp(sim(ti,t^jg)/τ)L_{It} = -\log\frac{\exp(sim(t_i, \hat{t}^g_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{t}^g_j)/\tau)}

第三阶段:数据增强训练

  • SER场景:使用原始特征h和生成特征ĥ训练分类器
  • 多模态SER:使用(h,t)、(h,t')、(ĥ,t)、(ĥ,t')四种组合训练

技术创新点

  1. 互信息质量指标:利用互信息损失作为生成样本质量的可观测指标
  2. 跨模态信息传递:通过文本信息指导音频特征生成,提升生成质量
  3. 多模态扩展:同时生成音频和文本特征,实现真正的多模态数据增强
  4. 特征级生成:在特征空间而非原始信号空间进行生成,降低复杂度

实验设置

数据集

  1. IEMOCAP:12小时录音,5对男女演员对话,四类情感(中性、快乐、悲伤、愤怒)
  2. MSP-IMPROV:9小时录音,12名演员交互,四类基本情感
  3. MSP-Podcast:来自播客的"野外"语音数据,更接近真实应用场景

评价指标

  • 无权重平均召回率(UAR):对不平衡数据集更公平的评价指标
  • Leave-one-speaker-out交叉验证:确保模型泛化性能

对比方法

包括Sahu et al.、Bao et al.、Latif et al.、Malik et al.等现有数据增强方法,以及MMIN、CIF-MMIN等多模态方法。

实现细节

  • 音频模型:AST(SER)、Wav2Vec2(多模态SER)
  • 文本模型:BERT、RoBERTa、Llama 3.0
  • InfoGAN架构:简单线性层实现生成器和判别器
  • 训练策略:采用mix-up策略稳定生成器训练

实验结果

主要结果

SER实验(IEMOCAP)

方法无增强有增强提升
Sahu et al.59.42%60.29%0.87%
Bao et al.59.48±0.71%60.37±0.70%0.89%
Latif et al.60.51±0.57%61.05±0.68%0.54%
Malik et al.58.62±2.11%61.22±1.85%2.6%
本文方法60.81±4.83%63.40±2.52%2.59%

多模态SER实验

在IEMOCAP数据集上,本文方法在音频+文本模态组合上达到76.54%的UAR,超越了现有的CIF-MMIN(75.65%)等方法。

消融实验

配置UAR
完整模型63.40±2.52%
无跨模态对齐62.31±3.65%
无跨模态对齐和文本嵌入61.07±2.45%
无跨模态对齐和互信息最大化61.70±2.58%

消融实验表明每个组件都对最终性能有重要贡献。

实验发现

  1. 互信息正则化有效性:互信息损失确实能够作为生成样本质量的指标
  2. 跨模态信息的重要性:文本信息显著提升了音频特征生成质量
  3. 类别不平衡处理:在MSP-Podcast数据集上,该方法有效缓解了类别不平衡问题
  4. 无跨模态信息生成能力:发现该框架能够在无其他模态信息的情况下生成新输入

相关工作

生成式数据增强

  • 早期工作采用自编码器框架(Latif et al.)
  • GAN与自编码器结合方法(Yi et al., Latif et al.)
  • 近期扩展到扩散模型(Malik et al., Kim et al.)

多模态深度学习

  • 跨模态注意力机制(Goncalves et al.)
  • 对比学习方法(Liu et al.)
  • 重建方法(Meng et al., Wang et al.)

本文优势

相比现有工作,本文首次将跨模态传递与互信息正则化结合,并扩展到真正的多模态数据增强。

结论与讨论

主要结论

  1. 互信息正则化的生成模型能够有效提升SER性能
  2. 跨模态信息传递显著改善生成样本质量
  3. 多模态数据增强框架在多个基准数据集上取得最优性能
  4. 该方法具有处理类别不平衡问题的潜力

局限性

  1. 计算复杂度:需要训练多个模型阶段,计算开销较大
  2. 特征空间限制:在特征空间而非原始信号空间生成,可能丢失某些信息
  3. 数据集依赖:方法性能可能依赖于特定数据集特性
  4. 超参数敏感性:互信息权重λ等超参数需要仔细调节

未来方向

  1. 探索端到端的原始信号生成方法
  2. 研究更高效的训练策略
  3. 扩展到更多模态和情感类别
  4. 理论分析互信息正则化的收敛性质

深度评价

优点

  1. 方法创新性强:首次将互信息正则化与跨模态信息传递结合用于SER数据增强
  2. 实验充分:在多个基准数据集上进行了全面评估,包括消融实验
  3. 理论基础扎实:互信息理论为生成样本质量提供了理论保障
  4. 实用价值高:方法在实际应用中具有良好的可扩展性

不足

  1. 架构复杂性:三阶段训练流程较为复杂,实际部署可能面临挑战
  2. 计算效率:相比简单数据增强方法,计算开销显著增加
  3. 泛化性分析不足:缺乏跨数据集泛化性能的深入分析
  4. 理论分析有限:对互信息正则化收敛性质缺乏理论保证

影响力

  1. 学术贡献:为SER数据增强提供了新的研究思路和方法框架
  2. 实用价值:在数据稀缺场景下具有重要应用价值
  3. 可复现性:实验设置详细,具有良好的可复现性
  4. 启发性:互信息正则化思想可扩展到其他生成任务

适用场景

  1. 数据稀缺场景:特别适用于高质量标注数据有限的情感识别任务
  2. 多模态应用:在需要同时处理音频和文本信息的应用中表现优异
  3. 类别不平衡问题:对于情感类别分布不均的数据集具有缓解作用
  4. 研究原型开发:为SER研究提供了有效的数据增强基线方法

参考文献

论文引用了48篇相关文献,涵盖了SER、生成模型、多模态学习等多个领域的重要工作,为研究提供了坚实的理论基础和对比基准。