2025-11-23T04:34:16.871813

Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition

Upadhyay, Chien, Lee

Speech emotion recognition (SER) is a vital component in various everyday applications. Cross-corpus SER models are increasingly recognized for their ability to generalize performance. However, concerns arise regarding fairness across demographics in diverse corpora. Existing fairness research often focuses solely on corpus-specific fairness, neglecting its generalizability in cross-corpus scenarios. Our study focuses on this underexplored area, examining the gender fairness generalizability in cross-corpus SER scenarios. We emphasize that the performance of cross-corpus SER models and their fairness are two distinct considerations. Moreover, we propose the approach of a combined fairness adaptation mechanism to enhance gender fairness in the SER transfer learning tasks by addressing both source and target genders. Our findings bring one of the first insights into the generalizability of gender fairness in cross-corpus SER systems.

academic

Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition

基本信息

论文ID: 2501.00995
标题: Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition
作者: Shreya G. Upadhyay, Woan-Shiuan Chien, Chi-Chun Lee (National Tsing Hua University, Taiwan)
分类: cs.LG (Machine Learning)
发表时间: 2025年1月2日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2501.00995

摘要

语音情感识别(SER)是各种日常应用中的重要组件。跨语料库SER模型因其泛化性能而日益受到认可。然而，在不同语料库中关于人口统计学特征的公平性问题引起了关注。现有的公平性研究往往只关注特定语料库的公平性，忽略了其在跨语料库场景中的泛化性。本研究关注这一未充分探索的领域，考察跨语料库SER场景中的性别公平性泛化能力。我们强调跨语料库SER模型的性能和公平性是两个不同的考量因素。此外，我们提出了一种组合公平性适应机制来增强SER迁移学习任务中的性别公平性，通过同时处理源域和目标域的性别问题。我们的发现为跨语料库SER系统中性别公平性的泛化提供了首批洞察之一。

研究背景与动机

问题定义

本研究要解决的核心问题是：跨语料库语音情感识别模型的性别公平性泛化问题。具体而言：

在源语料库上表现出性别公平的SER模型，在目标语料库上是否仍能保持公平性？
现有的公平性技术是否能在跨语料库设置中有效泛化？

重要性分析

实际应用需求：SER系统广泛应用于人机交互、情感感知应用等领域，公平性至关重要
跨域部署现实：实际应用中，模型往往需要在不同于训练数据的环境中部署
文化语言差异：情感表达具有文化和语言特异性，跨语料库场景中的公平性挑战更加复杂

现有方法局限性

单语料库局限：现有公平性研究主要关注单一数据集场景
泛化性缺失：缺乏对公平性在跨域场景中泛化能力的研究
方法适用性：现有公平性技术主要针对源域设计，未考虑目标域的公平性需求

核心贡献

首次系统性研究：对跨语料库SER中性别公平性泛化问题进行了首次深入调查
重要发现：揭示了性能和公平性在跨域场景中的分离现象——模型可能在性能上泛化良好但公平性泛化失败
新颖方法：提出了组合公平性适应(CFA)机制，同时优化源域和目标域的性别公平性
实证验证：在两个大规模自然语音语料库上验证了方法的有效性

方法详解

任务定义

输入：语音信号特征(wav2vec2.0特征)
输出：情感类别预测(中性、快乐、愤怒、悲伤的二分类)
约束：在源域和目标域上同时保持性别公平性

模型架构

整体设计

提出的CFA方法包含两个核心模块：

情感分类(EC)块：基础SER架构，使用Transformer和全连接层进行情感分类
组合公平性适应(CFA)块：包含对抗性网络进行性别分类，通过反向梯度层实现性别中性

关键技术组件

1. 对抗训练机制

使用反向梯度层使特征表示对性别信息不敏感
EC模块目标：生成性别中性的情感特征
GC模块目标：准确预测性别(用于对抗训练)

2. 性别相似性损失 引入对比损失鼓励相同性别样本在特征空间中接近：

$L_{GSim}(x_1, x_2, y) = (1-y)\frac{1}{2}D^2 + y\frac{1}{2}\max(0, m-D)^2$

其中D是样本嵌入间的欧氏距离，m是边界参数(设为1)。

3. 总体损失函数 $L_{total} = L_{EC} + α \cdot L_{GSim} - β \cdot L_{GC}$

其中α和β均设为0.5，负号表示对抗训练。

技术创新点

跨域公平性设计：首次提出同时考虑源域和目标域公平性的方法
性别特征对齐：通过对比损失实现跨语料库的性别特征对齐
联合优化策略：在训练过程中使用源域和目标域的混合批次进行性别中性对抗训练

实验设置

数据集

MSP-Podcast (MSP-P)

166小时美式英语情感语音
49,018个样本(24,466男性，24,552女性)
作为源语料库

BIIC-Podcast (BIIC-P)

157小时台湾国语情感语音
18,706个样本(9,654男性，9,326女性)
作为目标语料库

评价指标

性能指标：

UAR (Unweighted Average Recall)：无权重平均召回率

公平性指标：

统计均等性(ΔSP)：确保不同群体获得相同比例的正面结果
机会均等性(ΔEO)：要求模型对不同群体具有相等的真正率和假正率
两个指标范围均为-1,1，越接近0表示公平性越好

对比方法

迁移学习方法：

Few-shot (FS)：利用源语料库知识适应目标域
GAN-based (GAN)：采用对抗训练
Phonetically-anchored (PA)：在共享语音空间中学习

公平性方法：

Fairway：源域特定的公平性方法
Reweigh：重新加权的公平性技术

实现细节

优化器：Adam，学习率0.0001，衰减因子0.001
训练：最多50轮，批次大小64，早停机制
损失函数：二元交叉熵损失
实验重复：每个实验重复10次取平均

实验结果

主要结果

跨语料库公平性泛化失败：实验发现，即使在源域(MSP-P)上表现出较好公平性的模型，在目标域(BIIC-P)上仍存在显著的性别偏见。例如，在愤怒情感分类中：

PA模型在BIIC-P上：男性UAR 58.01%，女性UAR 71.79%
ΔSP值从MSP-P的0.380增加到BIIC-P的0.534

现有公平性方法的局限性： PA-FairW和PA-ReW虽然在源域公平性上有改善，但在目标域上改善有限：

PA-ReW在MSP-P愤怒类别：ΔSP=0.159，ΔEO=0.168
但在BIIC-P上：ΔSP=0.321，ΔEO=0.416(几乎无改善)

CFA方法效果

显著的公平性改善： PA-CFA相比PA-ReW在目标域公平性上取得显著提升：

愤怒类别：ΔSP从0.363降至0.260
中性类别：ΔSP从0.391降至0.205
快乐类别：ΔSP从0.412降至0.223

统计显著性验证：通过统计检验(表II中的星号标记)，CFA方法在多数情况下达到显著性水平(p<0.05或p<0.1)。

消融实验

性别相似性损失的作用：对比PA-Adv(无性别相似性损失)和PA-CFA：

PA-Adv在BIIC-P愤怒类别：ΔSP=0.322
PA-CFA：ΔSP=0.260 验证了L_GSim在改善跨域公平性中的重要作用。

可视化分析

t-SNE特征空间分析：

PA-ReW：男女特征呈现明显聚类分离
PA-CFA：男女特征混合分布，表明更好的性别中性

性别检测准确率分析：

PA-ReW：MSP-P和BIIC-P上性别检测准确率差异较大
PA-CFA：两个语料库上性别检测准确率相近(如愤怒：MSP-P 36%，BIIC-P 35%)

相关工作

SER公平性研究

现有研究主要关注单语料库场景的公平性，采用对抗网络、重新加权等技术中和性别、年龄等敏感属性的影响。

跨语料库SER

主要通过迁移学习、半监督学习等技术解决域间的特征、标签不匹配问题，但较少考虑公平性泛化。

本文贡献定位

本文首次将公平性研究扩展到跨语料库场景，填补了该领域的研究空白。

结论与讨论

主要结论

性能与公平性分离：跨语料库SER模型的性能泛化和公平性泛化是两个独立问题
现有方法不足：源域特定的公平性技术无法有效泛化到目标域
CFA有效性：提出的组合公平性适应方法能显著改善跨域性别公平性

局限性

性能权衡：CFA方法在改善公平性的同时略微牺牲了整体性能
语料库限制：实验仅在两个特定语料库上进行，泛化性有待进一步验证
属性范围：主要关注性别公平性，其他敏感属性(如年龄、种族)未涉及

未来方向

特征层面分析：通过特征层面的分析识别跨语料库公平性问题的具体来源
多属性公平性：扩展到多个敏感属性的联合公平性优化
理论框架：建立跨域公平性的理论分析框架

深度评价

优点

问题重要性：首次系统性地研究了跨语料库SER中的公平性泛化问题，具有重要的实际意义
方法创新：提出的CFA方法设计合理，通过对抗训练和对比学习实现跨域公平性优化
实验充分：实验设计全面，包含多种基线方法、消融实验和可视化分析
发现有价值：揭示了性能泛化与公平性泛化的分离现象，为领域提供了重要洞察

不足

理论基础：缺乏对跨域公平性问题的理论分析，主要基于经验观察
数据局限：仅在两个语料库上验证，且都是播客数据，多样性有限
评估单一：主要关注性别公平性，对其他敏感属性的考虑不足
实用性：方法需要目标域的性别标签进行训练，在真实应用中可能受限

影响力

学术价值：开创了跨语料库SER公平性研究的新方向，预期会引发更多相关研究
实用价值：为SER系统的跨域部署提供了公平性保障的技术方案
可复现性：实验设置详细，代码和数据可获得性良好

适用场景

跨语言SER系统：特别适用于需要在不同语言环境中部署的情感识别系统
多域应用：适合需要在多个数据域中保持公平性的SER应用
公平性敏感场景：如医疗健康、教育评估等对公平性要求较高的应用领域

参考文献

论文引用了21篇相关文献，涵盖了SER、公平性、迁移学习等多个相关领域的重要工作，为研究提供了坚实的理论基础。

总体评价：这是一篇在SER公平性研究领域具有开创性意义的工作，首次系统性地研究了跨语料库场景中的公平性泛化问题，提出的CFA方法在技术上有一定创新性，实验验证较为充分。尽管存在一些局限性，但为该领域的发展提供了重要的基础和方向指引。