2025-11-23T04:34:16.871813

Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition

Upadhyay, Chien, Lee

Speech emotion recognition (SER) is a vital component in various everyday applications. Cross-corpus SER models are increasingly recognized for their ability to generalize performance. However, concerns arise regarding fairness across demographics in diverse corpora. Existing fairness research often focuses solely on corpus-specific fairness, neglecting its generalizability in cross-corpus scenarios. Our study focuses on this underexplored area, examining the gender fairness generalizability in cross-corpus SER scenarios. We emphasize that the performance of cross-corpus SER models and their fairness are two distinct considerations. Moreover, we propose the approach of a combined fairness adaptation mechanism to enhance gender fairness in the SER transfer learning tasks by addressing both source and target genders. Our findings bring one of the first insights into the generalizability of gender fairness in cross-corpus SER systems.

academic

Est-ce toujours équitable ? Enquête sur l'équité de genre dans la reconnaissance des émotions vocales inter-corpus

Informations fondamentales

ID de l'article : 2501.00995
Titre : Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition
Auteurs : Shreya G. Upadhyay, Woan-Shiuan Chien, Chi-Chun Lee (Université nationale Tsing Hua, Taïwan)
Classification : cs.LG (Apprentissage automatique)
Date de publication : 2 janvier 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2501.00995

Résumé

La reconnaissance des émotions vocales (SER) est un composant essentiel dans diverses applications quotidiennes. Les modèles SER inter-corpus sont de plus en plus reconnus pour leurs performances de généralisation. Cependant, les questions d'équité concernant les caractéristiques démographiques dans différents corpus suscitent des préoccupations. Les recherches existantes sur l'équité se concentrent souvent uniquement sur l'équité spécifique à un corpus, négligeant sa généralisation dans les scénarios inter-corpus. Cette étude se concentre sur ce domaine insuffisamment exploré, examinant la capacité de généralisation de l'équité de genre dans les scénarios SER inter-corpus. Nous soulignons que la performance et l'équité des modèles SER inter-corpus sont deux facteurs distincts à considérer. De plus, nous proposons un mécanisme d'adaptation d'équité combinée pour améliorer l'équité de genre dans les tâches d'apprentissage par transfert SER, en traitant simultanément les problèmes de genre dans les domaines source et cible. Nos résultats fournissent l'une des premières perspectives sur la généralisation de l'équité de genre dans les systèmes SER inter-corpus.

Contexte et motivation de la recherche

Définition du problème

Le problème fondamental que cette recherche vise à résoudre est : le problème de généralisation de l'équité de genre dans la reconnaissance des émotions vocales inter-corpus. Plus précisément :

Un modèle SER présentant une équité de genre sur le corpus source maintient-il cette équité sur le corpus cible ?
Les techniques d'équité existantes peuvent-elles se généraliser efficacement dans les paramètres inter-corpus ?

Analyse de l'importance

Besoins pratiques : Les systèmes SER sont largement appliqués dans l'interaction homme-machine et les applications de perception émotionnelle, où l'équité est cruciale
Réalité du déploiement inter-domaines : En pratique, les modèles doivent souvent être déployés dans des environnements différents des données d'entraînement
Différences culturelles et linguistiques : L'expression émotionnelle présente des spécificités culturelles et linguistiques, rendant les défis d'équité dans les scénarios inter-corpus plus complexes

Limitations des méthodes existantes

Limitations mono-corpus : Les recherches existantes sur l'équité se concentrent principalement sur des scénarios de jeu de données unique
Absence de généralisation : Manque de recherche sur la capacité de généralisation de l'équité dans les scénarios inter-domaines
Applicabilité des méthodes : Les techniques d'équité existantes sont principalement conçues pour le domaine source, sans tenir compte des besoins d'équité du domaine cible

Contributions principales

Première étude systématique : Investigation approfondie du problème de généralisation de l'équité de genre dans la SER inter-corpus
Découvertes importantes : Révélation du phénomène de séparation entre performance et équité dans les scénarios inter-domaines — un modèle peut bien se généraliser en performance mais échouer en généralisation d'équité
Méthode novatrice : Proposition d'un mécanisme d'adaptation d'équité combinée (CFA) optimisant simultanément l'équité de genre dans les domaines source et cible
Validation empirique : Vérification de l'efficacité de la méthode sur deux grands corpus de parole naturelle

Explication détaillée de la méthode

Définition de la tâche

Entrée : Caractéristiques de signal vocal (caractéristiques wav2vec2.0)
Sortie : Prédiction de catégorie émotionnelle (classification binaire pour neutre, heureux, en colère, triste)
Contrainte : Maintien simultané de l'équité de genre sur les domaines source et cible

Architecture du modèle

Conception globale

La méthode CFA proposée comprend deux modules principaux :

Bloc de classification émotionnelle (EC) : Architecture SER de base utilisant Transformer et couches entièrement connectées pour la classification émotionnelle
Bloc d'adaptation d'équité combinée (CFA) : Contient un réseau adversarial pour la classification de genre, implémentant la neutralité de genre via une couche de gradient inversé

Composants techniques clés

1. Mécanisme d'entraînement adversarial

Utilisation d'une couche de gradient inversé rendant les représentations de caractéristiques insensibles aux informations de genre
Objectif du module EC : générer des caractéristiques émotionnelles neutres en genre
Objectif du module GC : prédire précisément le genre (utilisé pour l'entraînement adversarial)

2. Perte de similarité de genre Introduction d'une perte contrastive encourageant les échantillons du même genre à se rapprocher dans l'espace de caractéristiques :

$L_{GSim}(x_1, x_2, y) = (1-y)\frac{1}{2}D^2 + y\frac{1}{2}\max(0, m-D)^2$

où D est la distance euclidienne entre les plongements d'échantillons et m est le paramètre de marge (fixé à 1).

3. Fonction de perte globale $L_{total} = L_{EC} + α \cdot L_{GSim} - β \cdot L_{GC}$

où α et β sont tous deux fixés à 0,5, le signe négatif indiquant l'entraînement adversarial.

Points d'innovation technique

Conception d'équité inter-domaines : Première approche considérant simultanément l'équité des domaines source et cible
Alignement des caractéristiques de genre : Réalisation de l'alignement des caractéristiques de genre inter-corpus via perte contrastive
Stratégie d'optimisation conjointe : Utilisation de lots mixtes des domaines source et cible pour l'entraînement adversarial neutre en genre

Configuration expérimentale

Ensembles de données

MSP-Podcast (MSP-P)

166 heures de parole émotionnelle en anglais américain
49 018 échantillons (24 466 hommes, 24 552 femmes)
Utilisé comme corpus source

BIIC-Podcast (BIIC-P)

157 heures de parole émotionnelle en mandarin taïwanais
18 706 échantillons (9 654 hommes, 9 326 femmes)
Utilisé comme corpus cible

Indicateurs d'évaluation

Indicateurs de performance :

UAR (Unweighted Average Recall) : Rappel moyen non pondéré

Indicateurs d'équité :

Parité statistique (ΔSP) : Assure que différents groupes reçoivent une proportion égale de résultats positifs
Égalité des chances (ΔEO) : Exige que le modèle ait des taux de vrais positifs et de faux positifs égaux pour différents groupes
Les deux indicateurs sont dans la plage -1,1, plus proche de 0 indiquant une meilleure équité

Méthodes de comparaison

Méthodes d'apprentissage par transfert :

Few-shot (FS) : Utilisation des connaissances du corpus source pour adapter le domaine cible
GAN-based (GAN) : Adoption d'entraînement adversarial
Phonetically-anchored (PA) : Apprentissage dans un espace vocal partagé

Méthodes d'équité :

Fairway : Méthode d'équité spécifique au domaine source
Reweigh : Technique d'équité par repondération

Détails d'implémentation

Optimiseur : Adam, taux d'apprentissage 0,0001, facteur de décroissance 0,001
Entraînement : Jusqu'à 50 épochs, taille de lot 64, mécanisme d'arrêt anticipé
Fonction de perte : Perte d'entropie croisée binaire
Répétitions expérimentales : Chaque expérience répétée 10 fois pour la moyenne

Résultats expérimentaux

Résultats principaux

Échec de la généralisation de l'équité inter-corpus : Les expériences révèlent que même les modèles présentant une bonne équité de genre sur le domaine source (MSP-P) présentent des biais de genre significatifs sur le domaine cible (BIIC-P). Par exemple, dans la classification des émotions en colère :

Modèle PA sur BIIC-P : UAR masculin 58,01 %, UAR féminin 71,79 %
La valeur ΔSP passe de 0,380 sur MSP-P à 0,534 sur BIIC-P

Limitations des méthodes d'équité existantes : Bien que PA-FairW et PA-ReW améliorent l'équité du domaine source, l'amélioration sur le domaine cible est limitée :

PA-ReW sur MSP-P catégorie colère : ΔSP=0,159, ΔEO=0,168
Mais sur BIIC-P : ΔSP=0,321, ΔEO=0,416 (pratiquement aucune amélioration)

Efficacité de la méthode CFA

Amélioration significative de l'équité : PA-CFA par rapport à PA-ReW réalise une amélioration significative de l'équité du domaine cible :

Catégorie colère : ΔSP réduit de 0,363 à 0,260
Catégorie neutre : ΔSP réduit de 0,391 à 0,205
Catégorie heureux : ΔSP réduit de 0,412 à 0,223

Vérification de la signification statistique : Par test statistique (marquages d'astérisques dans le tableau II), la méthode CFA atteint un niveau de signification dans la plupart des cas (p<0,05 ou p<0,1).

Expériences d'ablation

Rôle de la perte de similarité de genre : Comparaison entre PA-Adv (sans perte de similarité de genre) et PA-CFA :

PA-Adv sur BIIC-P catégorie colère : ΔSP=0,322
PA-CFA : ΔSP=0,260 Validation de l'importance de L_GSim dans l'amélioration de l'équité inter-domaines.

Analyse de visualisation

Analyse de l'espace de caractéristiques t-SNE :

PA-ReW : Les caractéristiques masculines et féminines présentent une séparation de clustering évidente
PA-CFA : Distribution mixte des caractéristiques masculines et féminines, indiquant une meilleure neutralité de genre

Analyse de la précision de détection de genre :

PA-ReW : Différence importante dans la précision de détection de genre entre MSP-P et BIIC-P
PA-CFA : Précision de détection de genre similaire sur les deux corpus (par exemple, colère : MSP-P 36 %, BIIC-P 35 %)

Travaux connexes

Recherche sur l'équité en SER

Les recherches existantes se concentrent principalement sur l'équité dans les scénarios mono-corpus, utilisant des réseaux adversariaux, la repondération et d'autres techniques pour neutraliser les effets des attributs sensibles tels que le genre et l'âge.

SER inter-corpus

Principalement résolu par apprentissage par transfert, apprentissage semi-supervisé et autres techniques pour résoudre les problèmes de non-correspondance de caractéristiques et d'étiquettes entre domaines, mais considère rarement la généralisation de l'équité.

Positionnement de la contribution de cet article

Cet article étend pour la première fois la recherche sur l'équité aux scénarios inter-corpus, comblant un vide dans ce domaine.

Conclusions et discussion

Conclusions principales

Séparation entre performance et équité : La généralisation de performance et la généralisation d'équité des modèles SER inter-corpus sont deux problèmes indépendants
Insuffisance des méthodes existantes : Les techniques d'équité spécifiques au domaine source ne peuvent pas se généraliser efficacement au domaine cible
Efficacité de CFA : La méthode d'adaptation d'équité combinée proposée peut améliorer significativement l'équité de genre inter-domaines

Limitations

Compromis de performance : La méthode CFA sacrifie légèrement la performance globale tout en améliorant l'équité
Limitation des corpus : Les expériences ne sont menées que sur deux corpus spécifiques, la généralisation nécessite une vérification supplémentaire
Portée des attributs : Se concentre principalement sur l'équité de genre, ne couvrant pas d'autres attributs sensibles (tels que l'âge, la race)

Directions futures

Analyse au niveau des caractéristiques : Identification des sources spécifiques des problèmes d'équité inter-corpus par analyse au niveau des caractéristiques
Équité multi-attributs : Extension à l'optimisation d'équité conjointe de multiples attributs sensibles
Cadre théorique : Établissement d'un cadre d'analyse théorique pour l'équité inter-domaines

Évaluation approfondie

Avantages

Importance du problème : Première étude systématique du problème de généralisation de l'équité dans la SER inter-corpus, d'une importance pratique significative
Innovation méthodologique : La méthode CFA proposée est bien conçue, réalisant l'optimisation de l'équité inter-domaines par entraînement adversarial et apprentissage contrastif
Expériences complètes : Conception expérimentale complète incluant plusieurs méthodes de base, expériences d'ablation et analyses de visualisation
Découvertes précieuses : Révélation du phénomène de séparation entre généralisation de performance et généralisation d'équité, fournissant des perspectives importantes au domaine

Insuffisances

Fondement théorique : Manque d'analyse théorique des problèmes d'équité inter-domaines, principalement basé sur des observations empiriques
Limitations des données : Vérification sur seulement deux corpus, tous deux des données de podcast, diversité limitée
Évaluation unique : Se concentre principalement sur l'équité de genre, considération insuffisante d'autres attributs sensibles
Praticité : La méthode nécessite des étiquettes de genre du domaine cible pour l'entraînement, ce qui peut être limité dans les applications réelles

Impact

Valeur académique : Ouverture d'une nouvelle direction de recherche sur l'équité en SER inter-corpus, prévu de susciter davantage de recherches connexes
Valeur pratique : Fourniture d'une solution technique de garantie d'équité pour le déploiement inter-domaines des systèmes SER
Reproductibilité : Configuration expérimentale détaillée, bonne disponibilité du code et des données

Scénarios d'application

Systèmes SER multilingues : Particulièrement applicables aux systèmes de reconnaissance d'émotions devant être déployés dans différents environnements linguistiques
Applications multi-domaines : Adaptés aux applications SER nécessitant le maintien de l'équité dans plusieurs domaines de données
Scénarios sensibles à l'équité : Tels que l'évaluation en santé, éducation et autres domaines d'application exigeant une équité élevée

Références

L'article cite 21 références connexes, couvrant plusieurs domaines pertinents incluant SER, équité et apprentissage par transfert, fournissant une base théorique solide pour la recherche.

Évaluation globale : Ceci est un travail d'importance fondatrice dans le domaine de la recherche sur l'équité en SER, étudiant systématiquement pour la première fois le problème de généralisation de l'équité dans les scénarios inter-corpus, avec la méthode CFA proposée présentant une certaine innovation technique et une vérification expérimentale relativement complète. Malgré certaines limitations, il fournit une base importante et une orientation pour le développement du domaine.