Speech emotion recognition (SER) is a vital component in various everyday applications. Cross-corpus SER models are increasingly recognized for their ability to generalize performance. However, concerns arise regarding fairness across demographics in diverse corpora. Existing fairness research often focuses solely on corpus-specific fairness, neglecting its generalizability in cross-corpus scenarios. Our study focuses on this underexplored area, examining the gender fairness generalizability in cross-corpus SER scenarios. We emphasize that the performance of cross-corpus SER models and their fairness are two distinct considerations. Moreover, we propose the approach of a combined fairness adaptation mechanism to enhance gender fairness in the SER transfer learning tasks by addressing both source and target genders. Our findings bring one of the first insights into the generalizability of gender fairness in cross-corpus SER systems.
- ID de l'article : 2501.00995
- Titre : Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition
- Auteurs : Shreya G. Upadhyay, Woan-Shiuan Chien, Chi-Chun Lee (Université nationale Tsing Hua, Taïwan)
- Classification : cs.LG (Apprentissage automatique)
- Date de publication : 2 janvier 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2501.00995
La reconnaissance des émotions vocales (SER) est un composant essentiel dans diverses applications quotidiennes. Les modèles SER inter-corpus sont de plus en plus reconnus pour leurs performances de généralisation. Cependant, les questions d'équité concernant les caractéristiques démographiques dans différents corpus suscitent des préoccupations. Les recherches existantes sur l'équité se concentrent souvent uniquement sur l'équité spécifique à un corpus, négligeant sa généralisation dans les scénarios inter-corpus. Cette étude se concentre sur ce domaine insuffisamment exploré, examinant la capacité de généralisation de l'équité de genre dans les scénarios SER inter-corpus. Nous soulignons que la performance et l'équité des modèles SER inter-corpus sont deux facteurs distincts à considérer. De plus, nous proposons un mécanisme d'adaptation d'équité combinée pour améliorer l'équité de genre dans les tâches d'apprentissage par transfert SER, en traitant simultanément les problèmes de genre dans les domaines source et cible. Nos résultats fournissent l'une des premières perspectives sur la généralisation de l'équité de genre dans les systèmes SER inter-corpus.
Le problème fondamental que cette recherche vise à résoudre est : le problème de généralisation de l'équité de genre dans la reconnaissance des émotions vocales inter-corpus. Plus précisément :
- Un modèle SER présentant une équité de genre sur le corpus source maintient-il cette équité sur le corpus cible ?
- Les techniques d'équité existantes peuvent-elles se généraliser efficacement dans les paramètres inter-corpus ?
- Besoins pratiques : Les systèmes SER sont largement appliqués dans l'interaction homme-machine et les applications de perception émotionnelle, où l'équité est cruciale
- Réalité du déploiement inter-domaines : En pratique, les modèles doivent souvent être déployés dans des environnements différents des données d'entraînement
- Différences culturelles et linguistiques : L'expression émotionnelle présente des spécificités culturelles et linguistiques, rendant les défis d'équité dans les scénarios inter-corpus plus complexes
- Limitations mono-corpus : Les recherches existantes sur l'équité se concentrent principalement sur des scénarios de jeu de données unique
- Absence de généralisation : Manque de recherche sur la capacité de généralisation de l'équité dans les scénarios inter-domaines
- Applicabilité des méthodes : Les techniques d'équité existantes sont principalement conçues pour le domaine source, sans tenir compte des besoins d'équité du domaine cible
- Première étude systématique : Investigation approfondie du problème de généralisation de l'équité de genre dans la SER inter-corpus
- Découvertes importantes : Révélation du phénomène de séparation entre performance et équité dans les scénarios inter-domaines — un modèle peut bien se généraliser en performance mais échouer en généralisation d'équité
- Méthode novatrice : Proposition d'un mécanisme d'adaptation d'équité combinée (CFA) optimisant simultanément l'équité de genre dans les domaines source et cible
- Validation empirique : Vérification de l'efficacité de la méthode sur deux grands corpus de parole naturelle
- Entrée : Caractéristiques de signal vocal (caractéristiques wav2vec2.0)
- Sortie : Prédiction de catégorie émotionnelle (classification binaire pour neutre, heureux, en colère, triste)
- Contrainte : Maintien simultané de l'équité de genre sur les domaines source et cible
La méthode CFA proposée comprend deux modules principaux :
- Bloc de classification émotionnelle (EC) : Architecture SER de base utilisant Transformer et couches entièrement connectées pour la classification émotionnelle
- Bloc d'adaptation d'équité combinée (CFA) : Contient un réseau adversarial pour la classification de genre, implémentant la neutralité de genre via une couche de gradient inversé
1. Mécanisme d'entraînement adversarial
- Utilisation d'une couche de gradient inversé rendant les représentations de caractéristiques insensibles aux informations de genre
- Objectif du module EC : générer des caractéristiques émotionnelles neutres en genre
- Objectif du module GC : prédire précisément le genre (utilisé pour l'entraînement adversarial)
2. Perte de similarité de genre
Introduction d'une perte contrastive encourageant les échantillons du même genre à se rapprocher dans l'espace de caractéristiques :
LGSim(x1,x2,y)=(1−y)21D2+y21max(0,m−D)2
où D est la distance euclidienne entre les plongements d'échantillons et m est le paramètre de marge (fixé à 1).
3. Fonction de perte globaleLtotal=LEC+α⋅LGSim−β⋅LGC
où α et β sont tous deux fixés à 0,5, le signe négatif indiquant l'entraînement adversarial.
- Conception d'équité inter-domaines : Première approche considérant simultanément l'équité des domaines source et cible
- Alignement des caractéristiques de genre : Réalisation de l'alignement des caractéristiques de genre inter-corpus via perte contrastive
- Stratégie d'optimisation conjointe : Utilisation de lots mixtes des domaines source et cible pour l'entraînement adversarial neutre en genre
MSP-Podcast (MSP-P)
- 166 heures de parole émotionnelle en anglais américain
- 49 018 échantillons (24 466 hommes, 24 552 femmes)
- Utilisé comme corpus source
BIIC-Podcast (BIIC-P)
- 157 heures de parole émotionnelle en mandarin taïwanais
- 18 706 échantillons (9 654 hommes, 9 326 femmes)
- Utilisé comme corpus cible
Indicateurs de performance :
- UAR (Unweighted Average Recall) : Rappel moyen non pondéré
Indicateurs d'équité :
- Parité statistique (ΔSP) : Assure que différents groupes reçoivent une proportion égale de résultats positifs
- Égalité des chances (ΔEO) : Exige que le modèle ait des taux de vrais positifs et de faux positifs égaux pour différents groupes
- Les deux indicateurs sont dans la plage -1,1, plus proche de 0 indiquant une meilleure équité
Méthodes d'apprentissage par transfert :
- Few-shot (FS) : Utilisation des connaissances du corpus source pour adapter le domaine cible
- GAN-based (GAN) : Adoption d'entraînement adversarial
- Phonetically-anchored (PA) : Apprentissage dans un espace vocal partagé
Méthodes d'équité :
- Fairway : Méthode d'équité spécifique au domaine source
- Reweigh : Technique d'équité par repondération
- Optimiseur : Adam, taux d'apprentissage 0,0001, facteur de décroissance 0,001
- Entraînement : Jusqu'à 50 épochs, taille de lot 64, mécanisme d'arrêt anticipé
- Fonction de perte : Perte d'entropie croisée binaire
- Répétitions expérimentales : Chaque expérience répétée 10 fois pour la moyenne
Échec de la généralisation de l'équité inter-corpus :
Les expériences révèlent que même les modèles présentant une bonne équité de genre sur le domaine source (MSP-P) présentent des biais de genre significatifs sur le domaine cible (BIIC-P). Par exemple, dans la classification des émotions en colère :
- Modèle PA sur BIIC-P : UAR masculin 58,01 %, UAR féminin 71,79 %
- La valeur ΔSP passe de 0,380 sur MSP-P à 0,534 sur BIIC-P
Limitations des méthodes d'équité existantes :
Bien que PA-FairW et PA-ReW améliorent l'équité du domaine source, l'amélioration sur le domaine cible est limitée :
- PA-ReW sur MSP-P catégorie colère : ΔSP=0,159, ΔEO=0,168
- Mais sur BIIC-P : ΔSP=0,321, ΔEO=0,416 (pratiquement aucune amélioration)
Amélioration significative de l'équité :
PA-CFA par rapport à PA-ReW réalise une amélioration significative de l'équité du domaine cible :
- Catégorie colère : ΔSP réduit de 0,363 à 0,260
- Catégorie neutre : ΔSP réduit de 0,391 à 0,205
- Catégorie heureux : ΔSP réduit de 0,412 à 0,223
Vérification de la signification statistique :
Par test statistique (marquages d'astérisques dans le tableau II), la méthode CFA atteint un niveau de signification dans la plupart des cas (p<0,05 ou p<0,1).
Rôle de la perte de similarité de genre :
Comparaison entre PA-Adv (sans perte de similarité de genre) et PA-CFA :
- PA-Adv sur BIIC-P catégorie colère : ΔSP=0,322
- PA-CFA : ΔSP=0,260
Validation de l'importance de L_GSim dans l'amélioration de l'équité inter-domaines.
Analyse de l'espace de caractéristiques t-SNE :
- PA-ReW : Les caractéristiques masculines et féminines présentent une séparation de clustering évidente
- PA-CFA : Distribution mixte des caractéristiques masculines et féminines, indiquant une meilleure neutralité de genre
Analyse de la précision de détection de genre :
- PA-ReW : Différence importante dans la précision de détection de genre entre MSP-P et BIIC-P
- PA-CFA : Précision de détection de genre similaire sur les deux corpus (par exemple, colère : MSP-P 36 %, BIIC-P 35 %)
Les recherches existantes se concentrent principalement sur l'équité dans les scénarios mono-corpus, utilisant des réseaux adversariaux, la repondération et d'autres techniques pour neutraliser les effets des attributs sensibles tels que le genre et l'âge.
Principalement résolu par apprentissage par transfert, apprentissage semi-supervisé et autres techniques pour résoudre les problèmes de non-correspondance de caractéristiques et d'étiquettes entre domaines, mais considère rarement la généralisation de l'équité.
Cet article étend pour la première fois la recherche sur l'équité aux scénarios inter-corpus, comblant un vide dans ce domaine.
- Séparation entre performance et équité : La généralisation de performance et la généralisation d'équité des modèles SER inter-corpus sont deux problèmes indépendants
- Insuffisance des méthodes existantes : Les techniques d'équité spécifiques au domaine source ne peuvent pas se généraliser efficacement au domaine cible
- Efficacité de CFA : La méthode d'adaptation d'équité combinée proposée peut améliorer significativement l'équité de genre inter-domaines
- Compromis de performance : La méthode CFA sacrifie légèrement la performance globale tout en améliorant l'équité
- Limitation des corpus : Les expériences ne sont menées que sur deux corpus spécifiques, la généralisation nécessite une vérification supplémentaire
- Portée des attributs : Se concentre principalement sur l'équité de genre, ne couvrant pas d'autres attributs sensibles (tels que l'âge, la race)
- Analyse au niveau des caractéristiques : Identification des sources spécifiques des problèmes d'équité inter-corpus par analyse au niveau des caractéristiques
- Équité multi-attributs : Extension à l'optimisation d'équité conjointe de multiples attributs sensibles
- Cadre théorique : Établissement d'un cadre d'analyse théorique pour l'équité inter-domaines
- Importance du problème : Première étude systématique du problème de généralisation de l'équité dans la SER inter-corpus, d'une importance pratique significative
- Innovation méthodologique : La méthode CFA proposée est bien conçue, réalisant l'optimisation de l'équité inter-domaines par entraînement adversarial et apprentissage contrastif
- Expériences complètes : Conception expérimentale complète incluant plusieurs méthodes de base, expériences d'ablation et analyses de visualisation
- Découvertes précieuses : Révélation du phénomène de séparation entre généralisation de performance et généralisation d'équité, fournissant des perspectives importantes au domaine
- Fondement théorique : Manque d'analyse théorique des problèmes d'équité inter-domaines, principalement basé sur des observations empiriques
- Limitations des données : Vérification sur seulement deux corpus, tous deux des données de podcast, diversité limitée
- Évaluation unique : Se concentre principalement sur l'équité de genre, considération insuffisante d'autres attributs sensibles
- Praticité : La méthode nécessite des étiquettes de genre du domaine cible pour l'entraînement, ce qui peut être limité dans les applications réelles
- Valeur académique : Ouverture d'une nouvelle direction de recherche sur l'équité en SER inter-corpus, prévu de susciter davantage de recherches connexes
- Valeur pratique : Fourniture d'une solution technique de garantie d'équité pour le déploiement inter-domaines des systèmes SER
- Reproductibilité : Configuration expérimentale détaillée, bonne disponibilité du code et des données
- Systèmes SER multilingues : Particulièrement applicables aux systèmes de reconnaissance d'émotions devant être déployés dans différents environnements linguistiques
- Applications multi-domaines : Adaptés aux applications SER nécessitant le maintien de l'équité dans plusieurs domaines de données
- Scénarios sensibles à l'équité : Tels que l'évaluation en santé, éducation et autres domaines d'application exigeant une équité élevée
L'article cite 21 références connexes, couvrant plusieurs domaines pertinents incluant SER, équité et apprentissage par transfert, fournissant une base théorique solide pour la recherche.
Évaluation globale : Ceci est un travail d'importance fondatrice dans le domaine de la recherche sur l'équité en SER, étudiant systématiquement pour la première fois le problème de généralisation de l'équité dans les scénarios inter-corpus, avec la méthode CFA proposée présentant une certaine innovation technique et une vérification expérimentale relativement complète. Malgré certaines limitations, il fournit une base importante et une orientation pour le développement du domaine.