2025-11-23T04:34:16.871813

Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition

Upadhyay, Chien, Lee
Speech emotion recognition (SER) is a vital component in various everyday applications. Cross-corpus SER models are increasingly recognized for their ability to generalize performance. However, concerns arise regarding fairness across demographics in diverse corpora. Existing fairness research often focuses solely on corpus-specific fairness, neglecting its generalizability in cross-corpus scenarios. Our study focuses on this underexplored area, examining the gender fairness generalizability in cross-corpus SER scenarios. We emphasize that the performance of cross-corpus SER models and their fairness are two distinct considerations. Moreover, we propose the approach of a combined fairness adaptation mechanism to enhance gender fairness in the SER transfer learning tasks by addressing both source and target genders. Our findings bring one of the first insights into the generalizability of gender fairness in cross-corpus SER systems.
academic

È ancora equo? Indagine sull'equità di genere nel riconoscimento delle emozioni vocali tra corpora

Informazioni di base

  • ID articolo: 2501.00995
  • Titolo: Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition
  • Autori: Shreya G. Upadhyay, Woan-Shiuan Chien, Chi-Chun Lee (National Tsing Hua University, Taiwan)
  • Classificazione: cs.LG (Machine Learning)
  • Data di pubblicazione: 2 gennaio 2025 (preprint arXiv)
  • Link articolo: https://arxiv.org/abs/2501.00995

Riassunto

Il riconoscimento delle emozioni vocali (SER) è un componente essenziale in varie applicazioni quotidiane. I modelli SER tra corpora sono sempre più riconosciuti per le loro prestazioni di generalizzazione. Tuttavia, le questioni di equità relative alle caratteristiche demografiche tra diversi corpora hanno suscitato preoccupazioni. La ricerca esistente sull'equità spesso si concentra esclusivamente sull'equità all'interno di un singolo corpus, trascurando la sua generalizzazione in scenari tra corpora. Questo studio affronta questo ambito poco esplorato, esaminando la capacità di generalizzazione dell'equità di genere negli scenari SER tra corpora. Evidenziamo che le prestazioni e l'equità dei modelli SER tra corpora sono due fattori di considerazione distinti. Inoltre, proponiamo un meccanismo di adattamento dell'equità combinato per migliorare l'equità di genere nei compiti di apprendimento per trasferimento SER, affrontando simultaneamente i problemi di genere nei domini di origine e di destinazione. I nostri risultati forniscono una delle prime intuizioni sulla generalizzazione dell'equità di genere nei sistemi SER tra corpora.

Contesto e motivazione della ricerca

Definizione del problema

Il problema centrale affrontato da questo studio è: il problema della generalizzazione dell'equità di genere nei modelli di riconoscimento delle emozioni vocali tra corpora. Nello specifico:

  1. I modelli SER che mostrano equità di genere sul corpus di origine mantengono ancora l'equità sul corpus di destinazione?
  2. Le tecniche di equità esistenti possono generalizzarsi efficacemente in configurazioni tra corpora?

Analisi dell'importanza

  1. Esigenze di applicazione pratica: I sistemi SER sono ampiamente utilizzati in interazione uomo-macchina, applicazioni consapevoli delle emozioni, ecc., dove l'equità è cruciale
  2. Realtà della distribuzione tra domini: Nelle applicazioni pratiche, i modelli spesso devono essere distribuiti in ambienti diversi dai dati di addestramento
  3. Differenze culturali e linguistiche: L'espressione emotiva ha specificità culturali e linguistiche; le sfide di equità negli scenari tra corpora sono più complesse

Limitazioni dei metodi esistenti

  1. Limitazioni a singolo corpus: La ricerca esistente sull'equità si concentra principalmente su scenari di singolo dataset
  2. Mancanza di generalizzazione: Mancano ricerche sulla capacità di generalizzazione dell'equità in scenari tra domini
  3. Applicabilità del metodo: Le tecniche di equità esistenti sono principalmente progettate per il dominio di origine, senza considerare le esigenze di equità del dominio di destinazione

Contributi principali

  1. Studio sistematico per la prima volta: Prima indagine approfondita sul problema della generalizzazione dell'equità di genere negli SER tra corpora
  2. Scoperte importanti: Rivela il fenomeno della separazione tra prestazioni e equità negli scenari tra domini—i modelli potrebbero generalizzarsi bene nelle prestazioni ma fallire nella generalizzazione dell'equità
  3. Metodo innovativo: Propone il meccanismo di adattamento dell'equità combinato (CFA) che ottimizza simultaneamente l'equità di genere nei domini di origine e di destinazione
  4. Verifica empirica: Convalida l'efficacia del metodo su due grandi corpora di linguaggio naturale vocale

Spiegazione dettagliata del metodo

Definizione del compito

  • Input: Caratteristiche del segnale vocale (caratteristiche wav2vec2.0)
  • Output: Previsione della categoria emotiva (classificazione binaria di neutro, felice, arrabbiato, triste)
  • Vincoli: Mantenimento simultaneo dell'equità di genere nei domini di origine e di destinazione

Architettura del modello

Progettazione complessiva

Il metodo CFA proposto contiene due moduli principali:

  1. Blocco di classificazione emotiva (EC): Architettura SER di base, utilizza Transformer e strati completamente connessi per la classificazione emotiva
  2. Blocco di adattamento dell'equità combinato (CFA): Contiene una rete avversaria per la classificazione di genere, implementa la neutralità di genere attraverso uno strato di gradiente inverso

Componenti tecniche chiave

1. Meccanismo di addestramento avversario

  • Utilizza uno strato di gradiente inverso per rendere le rappresentazioni delle caratteristiche insensibili alle informazioni di genere
  • Obiettivo del modulo EC: generare caratteristiche emotive neutre dal punto di vista del genere
  • Obiettivo del modulo GC: prevedere accuratamente il genere (utilizzato per l'addestramento avversario)

2. Perdita di somiglianza di genere Introduce una perdita contrastiva per incoraggiare i campioni dello stesso genere a stare vicini nello spazio delle caratteristiche:

LGSim(x1,x2,y)=(1y)12D2+y12max(0,mD)2L_{GSim}(x_1, x_2, y) = (1-y)\frac{1}{2}D^2 + y\frac{1}{2}\max(0, m-D)^2

dove D è la distanza euclidea tra gli embedding dei campioni, m è il parametro di margine (impostato a 1).

3. Funzione di perdita totaleLtotal=LEC+αLGSimβLGCL_{total} = L_{EC} + α \cdot L_{GSim} - β \cdot L_{GC}

dove α e β sono entrambi impostati a 0,5, il segno negativo indica l'addestramento avversario.

Punti di innovazione tecnica

  1. Progettazione dell'equità tra domini: Primo metodo che considera simultaneamente l'equità nei domini di origine e di destinazione
  2. Allineamento delle caratteristiche di genere: Realizza l'allineamento delle caratteristiche di genere tra corpora attraverso la perdita contrastiva
  3. Strategia di ottimizzazione congiunta: Utilizza batch misti dai domini di origine e di destinazione per l'addestramento avversario neutro dal punto di vista del genere durante il processo di addestramento

Configurazione sperimentale

Dataset

MSP-Podcast (MSP-P)

  • 166 ore di linguaggio vocale emotivo inglese americano
  • 49.018 campioni (24.466 maschi, 24.552 femmine)
  • Utilizzato come corpus di origine

BIIC-Podcast (BIIC-P)

  • 157 ore di linguaggio vocale emotivo mandarino taiwanese
  • 18.706 campioni (9.654 maschi, 9.326 femmine)
  • Utilizzato come corpus di destinazione

Metriche di valutazione

Metriche di prestazione:

  • UAR (Unweighted Average Recall): Tasso di richiamo medio non ponderato

Metriche di equità:

  • Parità statistica (ΔSP): Assicura che diversi gruppi ricevano la stessa proporzione di risultati positivi
  • Uguaglianza di opportunità (ΔEO): Richiede che il modello abbia tassi di veri positivi e falsi positivi uguali per diversi gruppi
  • L'intervallo di entrambe le metriche è -1,1, più vicino a 0 indica migliore equità

Metodi di confronto

Metodi di apprendimento per trasferimento:

  • Few-shot (FS): Sfrutta la conoscenza dal corpus di origine per adattarsi al dominio di destinazione
  • GAN-based (GAN): Impiega l'addestramento avversario
  • Phonetically-anchored (PA): Apprende nello spazio vocale condiviso

Metodi di equità:

  • Fairway: Metodo di equità specifico del dominio di origine
  • Reweigh: Tecnica di equità con ripeseramento

Dettagli di implementazione

  • Ottimizzatore: Adam, tasso di apprendimento 0,0001, fattore di decadimento 0,001
  • Addestramento: Massimo 50 epoche, dimensione batch 64, meccanismo di arresto anticipato
  • Funzione di perdita: Perdita di entropia incrociata binaria
  • Ripetizioni sperimentali: Ogni esperimento ripetuto 10 volte e mediato

Risultati sperimentali

Risultati principali

Fallimento della generalizzazione dell'equità tra corpora: Gli esperimenti rivelano che anche i modelli che mostrano buona equità sul dominio di origine (MSP-P) presentano ancora pregiudizi di genere significativi sul dominio di destinazione (BIIC-P). Ad esempio, nella classificazione delle emozioni di rabbia:

  • Modello PA su BIIC-P: UAR maschile 58,01%, UAR femminile 71,79%
  • Valore ΔSP aumenta da 0,380 su MSP-P a 0,534 su BIIC-P

Limitazioni dei metodi di equità esistenti: Sebbene PA-FairW e PA-ReW mostrino miglioramenti nell'equità del dominio di origine, i miglioramenti nel dominio di destinazione sono limitati:

  • PA-ReW su MSP-P categoria rabbia: ΔSP=0,159, ΔEO=0,168
  • Ma su BIIC-P: ΔSP=0,321, ΔEO=0,416 (praticamente nessun miglioramento)

Effetto del metodo CFA

Miglioramento significativo dell'equità: PA-CFA rispetto a PA-ReW raggiunge miglioramenti significativi nell'equità del dominio di destinazione:

  • Categoria rabbia: ΔSP ridotto da 0,363 a 0,260
  • Categoria neutro: ΔSP ridotto da 0,391 a 0,205
  • Categoria felice: ΔSP ridotto da 0,412 a 0,223

Verifica della significatività statistica: Attraverso test statistici (contrassegni di asterisco nella Tabella II), il metodo CFA raggiunge livelli di significatività nella maggior parte dei casi (p<0,05 o p<0,1).

Esperimenti di ablazione

Ruolo della perdita di somiglianza di genere: Confronto tra PA-Adv (senza perdita di somiglianza di genere) e PA-CFA:

  • PA-Adv su BIIC-P categoria rabbia: ΔSP=0,322
  • PA-CFA: ΔSP=0,260 Convalida il ruolo importante di L_GSim nel miglioramento dell'equità tra domini.

Analisi di visualizzazione

Analisi dello spazio delle caratteristiche t-SNE:

  • PA-ReW: Le caratteristiche maschili e femminili mostrano una chiara separazione di clustering
  • PA-CFA: Le caratteristiche maschili e femminili sono distribuite in modo misto, indicando migliore neutralità di genere

Analisi dell'accuratezza del rilevamento di genere:

  • PA-ReW: Differenza significativa nell'accuratezza del rilevamento di genere tra MSP-P e BIIC-P
  • PA-CFA: Accuratezza del rilevamento di genere simile tra i due corpora (ad es. rabbia: MSP-P 36%, BIIC-P 35%)

Lavori correlati

Ricerca sull'equità SER

La ricerca esistente si concentra principalmente sull'equità in scenari a singolo corpus, utilizzando reti avversarie, ripeseramento e altre tecniche per neutralizzare gli effetti di attributi sensibili come genere ed età.

SER tra corpora

Affronta principalmente i problemi di mancata corrispondenza di caratteristiche e etichette tra domini attraverso apprendimento per trasferimento, apprendimento semi-supervisionato e altre tecniche, ma raramente considera la generalizzazione dell'equità.

Posizionamento del contributo di questo articolo

Questo articolo estende per la prima volta la ricerca sull'equità a scenari tra corpora, colmando un vuoto di ricerca in questo campo.

Conclusioni e discussione

Conclusioni principali

  1. Separazione tra prestazioni e equità: La generalizzazione delle prestazioni e la generalizzazione dell'equità nei modelli SER tra corpora sono due problemi indipendenti
  2. Insufficienza dei metodi esistenti: Le tecniche di equità specifiche del dominio di origine non possono generalizzarsi efficacemente al dominio di destinazione
  3. Efficacia di CFA: Il metodo di adattamento dell'equità combinato proposto può migliorare significativamente l'equità di genere tra domini

Limitazioni

  1. Compromesso di prestazioni: Il metodo CFA sacrifica leggermente le prestazioni complessive mentre migliora l'equità
  2. Limitazioni del corpus: Gli esperimenti sono condotti solo su due corpora specifici, la generalizzazione richiede ulteriore verifica
  3. Intervallo di attributi: Si concentra principalmente sull'equità di genere, altri attributi sensibili (come età, razza) non sono considerati

Direzioni future

  1. Analisi a livello di caratteristiche: Identificare le fonti specifiche dei problemi di equità tra corpora attraverso analisi a livello di caratteristiche
  2. Equità multi-attributo: Estendere all'ottimizzazione dell'equità congiunta di più attributi sensibili
  3. Quadro teorico: Stabilire un quadro di analisi teorica per l'equità tra domini

Valutazione approfondita

Punti di forza

  1. Importanza del problema: Prima indagine sistematica del problema della generalizzazione dell'equità negli SER tra corpora, con significato pratico importante
  2. Innovazione del metodo: Il metodo CFA proposto è ben progettato, realizza l'ottimizzazione dell'equità tra domini attraverso addestramento avversario e apprendimento contrastivo
  3. Esperimenti completi: La progettazione sperimentale è completa, includendo molteplici metodi di base, esperimenti di ablazione e analisi di visualizzazione
  4. Scoperte di valore: Rivela il fenomeno della separazione tra generalizzazione delle prestazioni e generalizzazione dell'equità, fornendo intuizioni importanti al campo

Insufficienze

  1. Fondamenti teorici: Mancanza di analisi teorica del problema dell'equità tra domini, principalmente basata su osservazioni empiriche
  2. Limitazioni dei dati: Verifica su soli due corpora, entrambi dati di podcast, diversità limitata
  3. Valutazione singola: Si concentra principalmente sull'equità di genere, considerazione insufficiente di altri attributi sensibili
  4. Praticità: Il metodo richiede etichette di genere del dominio di destinazione per l'addestramento, potrebbe essere limitato nelle applicazioni reali

Impatto

  1. Valore accademico: Apre una nuova direzione di ricerca sull'equità SER tra corpora, previsto di stimolare più ricerche correlate
  2. Valore pratico: Fornisce una soluzione tecnica per garantire l'equità nella distribuzione tra domini dei sistemi SER
  3. Riproducibilità: La configurazione sperimentale è dettagliata, con buona disponibilità di codice e dati

Scenari applicabili

  1. Sistemi SER multilingue: Particolarmente adatto per sistemi di riconoscimento emotivo che devono essere distribuiti in ambienti linguistici diversi
  2. Applicazioni multi-dominio: Adatto per applicazioni SER che richiedono il mantenimento dell'equità su più domini di dati
  3. Scenari sensibili all'equità: Come valutazione sanitaria, educativa e altri campi di applicazione con elevati requisiti di equità

Riferimenti bibliografici

L'articolo cita 21 articoli correlati, coprendo molteplici campi correlati come SER, equità e apprendimento per trasferimento, fornendo una base teorica solida per la ricerca.


Valutazione complessiva: Questo è un lavoro di significato pioneristico nel campo della ricerca sull'equità SER, che per la prima volta indaga sistematicamente il problema della generalizzazione dell'equità negli scenari tra corpora. Il metodo CFA proposto ha una certa innovazione tecnica e la verifica sperimentale è relativamente completa. Nonostante alcune limitazioni, fornisce importanti fondamenti e orientamenti direzionali per lo sviluppo del campo.