2025-11-18T20:58:12.950706

learning discriminative features from spectrograms using center loss for speech emotion recognition

Dai, Wu, Li et al.
Identifying the emotional state from speech is essential for the natural interaction of the machine with the speaker. However, extracting effective features for emotion recognition is difficult, as emotions are ambiguous. We propose a novel approach to learn discriminative features from variable length spectrograms for emotion recognition by cooperating softmax cross-entropy loss and center loss together. The softmax cross-entropy loss enables features from different emotion categories separable, and center loss efficiently pulls the features belonging to the same emotion category to their center. By combining the two losses together, the discriminative power will be highly enhanced, which leads to network learning more effective features for emotion recognition. As demonstrated by the experimental results, after introducing center loss, both the unweighted accuracy and weighted accuracy are improved by over 3\% on Mel-spectrogram input, and more than 4\% on Short Time Fourier Transform spectrogram input.
academic

learning discriminative features from spectrograms using center loss for speech emotion recognition

基本信息

  • 论文ID: 2501.01103
  • 标题: Learning Discriminative Features from Spectrograms Using Center Loss for Speech Emotion Recognition
  • 作者: Dongyang Dai, Zhiyong Wu, Runnan Li, Xixin Wu, Jia Jia, Helen Meng
  • 分类: eess.AS (Audio and Speech Processing), cs.AI (Artificial Intelligence), cs.SD (Sound)
  • 发表时间: 2025年1月2日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2501.01103

摘要

本文针对语音情感识别中情感的模糊性导致特征提取困难的问题,提出了一种结合softmax交叉熵损失和中心损失(center loss)的新方法,从变长频谱图中学习判别性特征。Softmax交叉熵损失使不同情感类别的特征可分离,中心损失有效地将同一情感类别的特征拉向其中心。实验结果表明,引入中心损失后,在Mel频谱图输入上无权重准确率和加权准确率均提升超过3%,在短时傅立叶变换(STFT)频谱图输入上提升超过4%。

研究背景与动机

1. 问题定义

语音情感识别(SER)是自然人机交互的关键技术,需要从语音波形中提取特征并将其分类到相应的情感类别。然而,情感的天然模糊性使得提取有效特征变得困难。

2. 问题重要性

  • 语音情感识别对于实现自然的人机交互至关重要
  • 不同类型的情感可能令人困惑,增加了提取有效特征的难度
  • 传统方法在处理情感的模糊性方面存在局限

3. 现有方法局限性

  • 传统方法:从重叠帧中提取帧级特征,然后应用统计函数,特征表达能力有限
  • 现有深度学习方法:虽然利用神经网络提取高级特征,但在处理情感模糊性方面仍有不足
  • 现有判别性学习方法:如余弦相似度损失和三元组损失方法采用两步策略,可能导致性能下降,且依赖于样本对或三元组的选择策略

4. 研究动机

提出一种端到端的方法,通过联合监督损失函数(softmax交叉熵损失+中心损失)学习判别性特征,避免两步策略的不一致性问题。

核心贡献

  1. 提出了一种新颖的联合损失函数方法:将softmax交叉熵损失与中心损失结合,用于从变长频谱图中学习判别性特征
  2. 实现了端到端的语音情感识别:避免了现有方法的两步策略问题,无需构建样本对或三元组
  3. 在IEMOCAP数据集上取得显著性能提升:Mel频谱图输入提升3%以上,STFT频谱图输入提升4%以上
  4. 提供了详细的可视化分析:通过PCA嵌入展示了中心损失对特征判别性的增强效果

方法详解

任务定义

输入:变长频谱图 (LT × LF,其中LT为时间维度,LF为频率维度) 输出:情感类别标签 (neutral, angry, happy, sad) 目标:学习具有小类内方差和大类间方差的判别性特征

模型架构

模型包含以下组件:

  1. CNN层:提取频谱图的空间信息
    • 第一层:48个7×7卷积核,步长2,2,ReLU激活
    • 第二层:64个3×3卷积核,步长1,1,ReLU激活
    • 第三层:80个3×3卷积核,步长1,1,ReLU激活
    • 第四层:96个3×3卷积核,步长1,1,ReLU激活
    • 每层后接最大池化层(2×2,步长2,2)
  2. 双向RNN层(Bi-RNN)
    • 使用128维GRU单元
    • 将变长序列压缩为固定长度向量(256维)
    • 连接前向和后向RNN的最后输出
  3. 全连接层
    • FC1:将Bi-RNN输出投影到目标特征空间(64维),使用PReLU激活
    • FC2:输出后验概率,用于计算softmax交叉熵损失

损失函数设计

1. Softmax交叉熵损失

L_s = -1/Σω_yi * Σ(i=1 to m) ω_yi * log(e^(W_yi^T * z_i + b_yi) / Σ(j=1 to n) e^(W_j^T * z_i + b_j))

其中ω_j为类别权重,用于处理类别不平衡问题。

2. 中心损失

L_c = 1/Σω_yi * Σ(i=1 to m) ω_yi * ||z_i - c_yi||²

其中c_j为第j类的全局中心,通过以下方式更新:

c_j^(t+1) = (1-α)c_j^t + α*ċ_j^t  (当mini-batch中有第j类样本时)
c_j^(t+1) = c_j^t                  (当mini-batch中无第j类样本时)

3. 联合损失

L = L_s + λL_c

其中λ为平衡两个损失的超参数。

技术创新点

  1. 端到端学习:避免了传统判别性学习方法的两步策略问题
  2. 自然集成:中心损失可以自然地集成到常见SER模型中
  3. 无需样本配对:不需要构建样本对或三元组,简化了训练过程
  4. 类别平衡处理:通过加权损失函数有效处理数据不平衡问题

实验设置

数据集

IEMOCAP数据集

  • 约12小时的音视频数据
  • 使用4类情感:neutral(30.9%), angry(19.9%), happy+excited(29.6%), sad(19.6%)
  • 总计5531个话语,happy和excited合并处理
  • 5折交叉验证,保持情感分布

评价指标

  • 无权重准确率(UA):各类别召回率的平均值
  • 加权准确率(WA):正确分类样本数除以总样本数

对比方法

  • 基线方法:仅使用softmax交叉熵损失(λ=0)
  • 提出方法:联合softmax交叉熵损失和中心损失

实现细节

  • 优化器:Adam,学习率0.0003
  • 批大小:32
  • 特征维度:64维(FC1输出)
  • 频谱图参数:窗移10ms,窗长40ms,采样率16kHz,DFT长度1024
  • Mel频谱图:128个Mel频带
  • 最大话语长度:14秒

实验结果

主要结果

Mel频谱图实验结果:

  • 基线(λ=0):UA=63.80%, WA=61.83%
  • 提出方法(λ=0.3, α=0.5):UA=66.86%, WA=65.40%
  • 提升:UA提升3.06%, WA提升3.57%

STFT频谱图实验结果:

  • 基线(λ=0):UA=60.98%, WA=58.93%
  • 提出方法(λ=0.3, α=0.5):UA=65.13%, WA=62.96%
  • 提升:UA提升4.15%, WA提升4.03%

超参数敏感性分析

  • α参数:UA和WA对α不敏感,在0.1-0.9范围内性能相对稳定
  • λ参数:λ=0.3时达到最优性能,λ过大或过小都会影响性能

可视化分析

通过PCA降维可视化显示:

  • 使用中心损失后,同类特征更加紧密聚集
  • 不同类别之间的分离度得到提升
  • 训练集和测试集都表现出相似的改善模式

混淆矩阵分析

引入中心损失后,各情感类别的识别准确率均有不同程度提升:

  • Neutral: 57.5%→63.7%
  • Angry: 69.1%→70.5%
  • Happy: 51.1%→55.6%
  • Sad: 77.6%→77.7%

相关工作

传统方法

  • 基于手工特征的统计方法
  • 帧级特征提取和统计函数应用

深度学习方法

  • DNN和极限学习机结合
  • 双向LSTM用于高级特征表示
  • 端到端原始波形学习
  • CNN和RNN结合的频谱图学习

判别性学习方法

  • 成对判别任务:使用余弦相似度损失+二元交叉熵
  • 三元组框架:使用三元组损失学习判别性特征
  • 本文方法相比这些方法的优势:端到端学习,无需样本配对

结论与讨论

主要结论

  1. 中心损失能够有效减少类内方差,提升特征判别性
  2. 联合损失函数在两种频谱图输入上都取得显著性能提升
  3. 该方法可以自然集成到现有SER模型中,无需额外的分类器

局限性

  1. 主要关注减少类内方差,对增加类间方差的探索有限
  2. 仅在IEMOCAP数据集上验证,泛化性需要进一步验证
  3. 对于极度不平衡的数据集,加权策略可能需要进一步优化

未来方向

作者提出将探索更多损失函数设计,特别是增加特征类间方差的方法,以进一步提升SER性能。

深度评价

优点

  1. 方法创新性强:将人脸识别中的中心损失成功迁移到语音情感识别领域
  2. 实验设计严谨:包含超参数敏感性分析、可视化验证和详细的消融实验
  3. 结果说服力强:在两种不同的频谱图输入上都取得一致的性能提升
  4. 写作清晰:技术细节描述详细,数学公式表达准确

不足

  1. 数据集单一:仅在IEMOCAP数据集上验证,缺乏跨数据集的泛化性验证
  2. 对比方法有限:主要与自身基线对比,缺乏与其他SOTA方法的详细比较
  3. 理论分析不足:对为什么中心损失在SER任务中有效缺乏深入的理论分析
  4. 计算复杂度分析缺失:未讨论引入中心损失对训练和推理效率的影响

影响力

  1. 技术贡献:为语音情感识别提供了一种简单有效的特征学习方法
  2. 实用价值:方法易于实现和集成,具有良好的实用性
  3. 可复现性:技术细节描述充分,便于复现

适用场景

  1. 适用于各种基于频谱图的语音情感识别任务
  2. 特别适合处理类别不平衡的情感数据集
  3. 可以作为现有SER系统的性能提升模块

参考文献

论文引用了19篇相关文献,涵盖了语音情感识别的传统方法、深度学习方法以及判别性特征学习等关键领域,为研究提供了充分的理论基础和技术对比。


总体评价:这是一篇技术扎实、实验充分的论文,成功将中心损失引入语音情感识别领域并取得了显著的性能提升。虽然在理论分析和跨数据集验证方面还有提升空间,但其简单有效的方法和一致的实验结果使其具有较好的学术价值和实用价值。