2025-11-23T04:34:16.871813

Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition

Upadhyay, Chien, Lee
Speech emotion recognition (SER) is a vital component in various everyday applications. Cross-corpus SER models are increasingly recognized for their ability to generalize performance. However, concerns arise regarding fairness across demographics in diverse corpora. Existing fairness research often focuses solely on corpus-specific fairness, neglecting its generalizability in cross-corpus scenarios. Our study focuses on this underexplored area, examining the gender fairness generalizability in cross-corpus SER scenarios. We emphasize that the performance of cross-corpus SER models and their fairness are two distinct considerations. Moreover, we propose the approach of a combined fairness adaptation mechanism to enhance gender fairness in the SER transfer learning tasks by addressing both source and target genders. Our findings bring one of the first insights into the generalizability of gender fairness in cross-corpus SER systems.
academic

Ist es noch fair? Untersuchung der Geschlechtergerechtigkeit in der sprachübergreifenden Sprachemotion-Erkennung

Grundlegende Informationen

  • Papier-ID: 2501.00995
  • Titel: Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition
  • Autoren: Shreya G. Upadhyay, Woan-Shiuan Chien, Chi-Chun Lee (National Tsing Hua University, Taiwan)
  • Klassifizierung: cs.LG (Maschinelles Lernen)
  • Veröffentlichungsdatum: 2. Januar 2025 (arXiv-Preprint)
  • Papier-Link: https://arxiv.org/abs/2501.00995

Zusammenfassung

Die Sprachemotion-Erkennung (SER) ist eine wichtige Komponente in verschiedenen alltäglichen Anwendungen. Sprachübergreifende SER-Modelle werden zunehmend wegen ihrer Verallgemeinerungsleistung anerkannt. Allerdings haben Fragen zur Gerechtigkeit bezüglich demografischer Merkmale in verschiedenen Korpora Aufmerksamkeit erregt. Bestehende Fairness-Forschungen konzentrieren sich häufig nur auf die Fairness eines bestimmten Korpus und vernachlässigen deren Verallgemeinerung in sprachübergreifenden Szenarien. Diese Forschung konzentriert sich auf dieses unterexplorierten Bereich und untersucht die Verallgemeinerungsfähigkeit der Geschlechtergerechtigkeit in sprachübergreifenden SER-Szenarien. Wir betonen, dass Leistung und Fairness von sprachübergreifenden SER-Modellen zwei unterschiedliche Überlegungen sind. Darüber hinaus schlagen wir einen kombinierten Fairness-Adaptationsmechanismus vor, um die Geschlechtergerechtigkeit in SER-Transferlernaufgaben zu verbessern, indem wir gleichzeitig Geschlechterfragen in Quell- und Zieldomäne behandeln. Unsere Ergebnisse liefern einen der ersten Einblicke in die Verallgemeinerung der Geschlechtergerechtigkeit in sprachübergreifenden SER-Systemen.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Das Problem der Verallgemeinerung der Geschlechtergerechtigkeit in sprachübergreifenden Sprachemotion-Erkennungsmodellen. Konkret:

  1. Bleiben SER-Modelle, die auf dem Quellkorpus Geschlechtergerechtigkeit aufweisen, auf dem Zielkorpus noch fair?
  2. Können bestehende Fairness-Techniken in sprachübergreifenden Einstellungen effektiv verallgemeinert werden?

Wichtigkeitsanalyse

  1. Praktische Anwendungsanforderungen: SER-Systeme werden häufig in der Mensch-Computer-Interaktion, emotionsbewussten Anwendungen und anderen Bereichen eingesetzt, wobei Fairness entscheidend ist
  2. Realistische domänenübergreifende Bereitstellung: In praktischen Anwendungen müssen Modelle häufig in Umgebungen bereitgestellt werden, die sich von den Trainingsdaten unterscheiden
  3. Kulturelle und sprachliche Unterschiede: Emotionale Ausdrücke haben kulturelle und sprachliche Besonderheiten, was die Fairness-Herausforderungen in sprachübergreifenden Szenarien komplexer macht

Einschränkungen bestehender Methoden

  1. Beschränkung auf einzelne Korpora: Bestehende Fairness-Forschungen konzentrieren sich hauptsächlich auf Szenarien mit einzelnen Datensätzen
  2. Fehlende Verallgemeinerung: Es fehlt an Forschung zur Verallgemeinerungsfähigkeit von Fairness in domänenübergreifenden Szenarien
  3. Methodische Anwendbarkeit: Bestehende Fairness-Techniken sind hauptsächlich für die Quelldomäne konzipiert und berücksichtigen nicht die Fairness-Anforderungen der Zieldomäne

Kernbeiträge

  1. Erste systematische Untersuchung: Erste tiefgreifende Untersuchung des Problems der Verallgemeinerung der Geschlechtergerechtigkeit in sprachübergreifender SER
  2. Wichtige Erkenntnisse: Offenlegung des Trennungsphänomens zwischen Leistung und Fairness in domänenübergreifenden Szenarien – Modelle können bei der Leistung gut verallgemeinert werden, aber die Fairness-Verallgemeinerung fehlschlagen
  3. Neuartige Methode: Vorschlag eines kombinierten Fairness-Adaptationsmechanismus (CFA), der die Geschlechtergerechtigkeit in Quell- und Zieldomäne gleichzeitig optimiert
  4. Empirische Validierung: Validierung der Methodeneffektivität auf zwei großen natürlichen Sprachkorpora

Methodische Erklärung

Aufgabendefinition

  • Eingabe: Sprachsignalmerkmale (wav2vec2.0-Merkmale)
  • Ausgabe: Emotionsklassen-Vorhersage (binäre Klassifizierung von neutral, glücklich, wütend, traurig)
  • Einschränkungen: Gleichzeitige Aufrechterhaltung der Geschlechtergerechtigkeit in Quell- und Zieldomäne

Modellarchitektur

Gesamtdesign

Die vorgeschlagene CFA-Methode enthält zwei Kernmodule:

  1. Emotions-Klassifizierungsblock (EC): Basis-SER-Architektur mit Transformer und vollständig verbundenen Schichten für Emotionsklassifizierung
  2. Kombinierter Fairness-Adaptationsblock (CFA): Enthält adversariales Netzwerk für Geschlechtsklassifizierung, implementiert Geschlechtsneutralität durch Reverse-Gradient-Schicht

Wichtige technische Komponenten

1. Adversariales Trainingsmechanismus

  • Verwendung einer Reverse-Gradient-Schicht, um Merkmalsdarstellungen gegenüber Geschlechtsinformationen unempfindlich zu machen
  • EC-Modul-Ziel: Generierung geschlechtsneutraler Emotionsmerkmale
  • GC-Modul-Ziel: Genaue Geschlechtsvorhersage (für adversariales Training)

2. Geschlechtssimilaritätsverlust Einführung eines kontrastiven Verlusts, um Stichproben desselben Geschlechts im Merkmalsraum näher zusammenzubringen:

LGSim(x1,x2,y)=(1y)12D2+y12max(0,mD)2L_{GSim}(x_1, x_2, y) = (1-y)\frac{1}{2}D^2 + y\frac{1}{2}\max(0, m-D)^2

wobei D der euklidische Abstand zwischen Stichproben-Einbettungen ist und m der Grenzparameter (auf 1 gesetzt).

3. GesamtverlustfunktionLtotal=LEC+αLGSimβLGCL_{total} = L_{EC} + α \cdot L_{GSim} - β \cdot L_{GC}

wobei α und β beide auf 0,5 gesetzt sind, und das negative Vorzeichen adversariales Training anzeigt.

Technische Innovationspunkte

  1. Domänenübergreifendes Fairness-Design: Erste Methode, die gleichzeitig Fairness in Quell- und Zieldomäne berücksichtigt
  2. Geschlechtsmerkmals-Ausrichtung: Realisierung der sprachübergreifenden Geschlechtsmerkmals-Ausrichtung durch kontrastiven Verlust
  3. Gemeinsame Optimierungsstrategie: Verwendung von gemischten Batches aus Quell- und Zieldomäne für geschlechtsneutrales adversariales Training während des Trainings

Experimentelle Einrichtung

Datensätze

MSP-Podcast (MSP-P)

  • 166 Stunden amerikanisches Englisch-Sprachemotion
  • 49.018 Stichproben (24.466 männlich, 24.552 weiblich)
  • Als Quellkorpus

BIIC-Podcast (BIIC-P)

  • 157 Stunden taiwanesisches Mandarin-Sprachemotion
  • 18.706 Stichproben (9.654 männlich, 9.326 weiblich)
  • Als Zielkorpus

Bewertungsmetriken

Leistungsindikatoren:

  • UAR (Unweighted Average Recall): Ungewichtete durchschnittliche Rückrufquote

Fairness-Indikatoren:

  • Statistische Parität (ΔSP): Sicherstellung, dass verschiedene Gruppen den gleichen Anteil positiver Ergebnisse erhalten
  • Chancengleichheit (ΔEO): Anforderung, dass das Modell für verschiedene Gruppen gleiche wahre Positiv- und falsch-positive Raten hat
  • Beide Indikatoren reichen von -1,1, je näher an 0, desto besser die Fairness

Vergleichsmethoden

Transferlernmethoden:

  • Few-shot (FS): Nutzung von Quellkorpus-Wissen zur Anpassung an Zieldomäne
  • GAN-basiert (GAN): Verwendung von adversarialem Training
  • Phonetisch verankert (PA): Lernen im gemeinsamen Sprachraum

Fairness-Methoden:

  • Fairway: Quelldomänen-spezifische Fairness-Methode
  • Reweigh: Neugewichtungs-Fairness-Technik

Implementierungsdetails

  • Optimierer: Adam, Lernrate 0,0001, Zerfallsfaktor 0,001
  • Training: Maximal 50 Epochen, Batch-Größe 64, Early-Stopping-Mechanismus
  • Verlustfunktion: Binäre Kreuzentropie-Verlust
  • Experimentwiederholung: Jedes Experiment 10-mal wiederholt und gemittelt

Experimentelle Ergebnisse

Hauptergebnisse

Versagen der sprachübergreifenden Fairness-Verallgemeinerung: Experimente zeigen, dass selbst Modelle, die auf der Quelldomäne (MSP-P) gute Fairness aufweisen, auf der Zieldomäne (BIIC-P) erhebliche Geschlechtsverzerrungen aufweisen. Beispielsweise in der Wut-Emotionsklassifizierung:

  • PA-Modell auf BIIC-P: Männlich UAR 58,01%, Weiblich UAR 71,79%
  • ΔSP-Wert stieg von 0,380 auf MSP-P auf 0,534 auf BIIC-P

Einschränkungen bestehender Fairness-Methoden: Obwohl PA-FairW und PA-ReW Verbesserungen in der Quelldomänen-Fairness zeigen, ist die Verbesserung in der Zieldomäne begrenzt:

  • PA-ReW auf MSP-P Wut-Kategorie: ΔSP=0,159, ΔEO=0,168
  • Aber auf BIIC-P: ΔSP=0,321, ΔEO=0,416 (fast keine Verbesserung)

CFA-Methodeneffektivität

Signifikante Fairness-Verbesserung: PA-CFA erreicht signifikante Verbesserungen in der Zieldomänen-Fairness im Vergleich zu PA-ReW:

  • Wut-Kategorie: ΔSP von 0,363 auf 0,260 reduziert
  • Neutral-Kategorie: ΔSP von 0,391 auf 0,205 reduziert
  • Glücklich-Kategorie: ΔSP von 0,412 auf 0,223 reduziert

Statistische Signifikanzvalidierung: Durch statistische Tests (Sternchen-Markierungen in Tabelle II) erreicht die CFA-Methode in den meisten Fällen Signifikanzniveaus (p<0,05 oder p<0,1).

Ablationsstudien

Rolle des Geschlechtssimilaritätsverlusts: Vergleich von PA-Adv (ohne Geschlechtssimilaritätsverlust) und PA-CFA:

  • PA-Adv auf BIIC-P Wut-Kategorie: ΔSP=0,322
  • PA-CFA: ΔSP=0,260 Validiert die wichtige Rolle von L_GSim bei der Verbesserung der domänenübergreifenden Fairness.

Visualisierungsanalyse

t-SNE-Merkmalsraum-Analyse:

  • PA-ReW: Männliche und weibliche Merkmale zeigen deutliche Cluster-Trennung
  • PA-CFA: Männliche und weibliche Merkmale mit gemischter Verteilung, was auf bessere Geschlechtsneutralität hinweist

Geschlechtserkennungs-Genauigkeitsanalyse:

  • PA-ReW: Große Unterschiede in der Geschlechtserkennungs-Genauigkeit zwischen MSP-P und BIIC-P
  • PA-CFA: Ähnliche Geschlechtserkennungs-Genauigkeit auf beiden Korpora (z.B. Wut: MSP-P 36%, BIIC-P 35%)

Verwandte Arbeiten

SER-Fairness-Forschung

Bestehende Forschungen konzentrieren sich hauptsächlich auf Fairness in Szenarien mit einzelnen Korpora und verwenden Techniken wie adversariale Netzwerke und Neugewichtung, um die Auswirkungen sensibler Attribute wie Geschlecht und Alter zu neutralisieren.

Sprachübergreifende SER

Hauptsächlich durch Transferlernen, halbüberwachtes Lernen und andere Techniken zur Lösung von Merkmals- und Label-Nichtübereinstimmungen zwischen Domänen, aber mit weniger Berücksichtigung der Fairness-Verallgemeinerung.

Positionierung des Beitrags dieses Papiers

Dieses Papier erweitert die Fairness-Forschung erstmals auf sprachübergreifende Szenarien und füllt eine Forschungslücke in diesem Bereich.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Trennung von Leistung und Fairness: Leistungsverallgemeinerung und Fairness-Verallgemeinerung von sprachübergreifenden SER-Modellen sind zwei unabhängige Probleme
  2. Unzulänglichkeit bestehender Methoden: Quelldomänen-spezifische Fairness-Techniken können nicht effektiv auf die Zieldomäne verallgemeinert werden
  3. Effektivität von CFA: Die vorgeschlagene kombinierte Fairness-Adaptationsmethode kann die Geschlechtergerechtigkeit domänenübergreifend signifikant verbessern

Einschränkungen

  1. Leistungs-Kompromiss: Die CFA-Methode opfert leicht die Gesamtleistung, während die Fairness verbessert wird
  2. Korpus-Einschränkungen: Experimente wurden nur auf zwei spezifischen Korpora durchgeführt, die Verallgemeinerbarkeit muss weiter überprüft werden
  3. Attribut-Bereich: Konzentriert sich hauptsächlich auf Geschlechtergerechtigkeit, andere sensible Attribute (wie Alter, Rasse) werden nicht berücksichtigt

Zukünftige Richtungen

  1. Merkmalsebenen-Analyse: Identifizierung der spezifischen Quellen von domänenübergreifenden Fairness-Problemen durch Merkmalsebenen-Analyse
  2. Multi-Attribut-Fairness: Erweiterung auf gemeinsame Fairness-Optimierung mehrerer sensibler Attribute
  3. Theoretischer Rahmen: Aufbau eines theoretischen Analyserahmens für domänenübergreifende Fairness

Tiefgreifende Bewertung

Stärken

  1. Problemwichtigkeit: Erste systematische Untersuchung des Fairness-Verallgemeinerungsproblems in sprachübergreifender SER mit wichtiger praktischer Bedeutung
  2. Methodische Innovation: Die vorgeschlagene CFA-Methode ist gut konzipiert und realisiert domänenübergreifende Fairness-Optimierung durch adversariales Training und kontrastives Lernen
  3. Umfassende Experimente: Umfassende Experimentgestaltung mit mehreren Baseline-Methoden, Ablationsstudien und Visualisierungsanalysen
  4. Wertvolle Erkenntnisse: Offenlegung des Trennungsphänomens zwischen Leistungs- und Fairness-Verallgemeinerung, das wichtige Einblicke für das Feld bietet

Mängel

  1. Theoretische Grundlagen: Mangel an theoretischer Analyse des domänenübergreifenden Fairness-Problems, hauptsächlich basierend auf empirischen Beobachtungen
  2. Datenlimitierungen: Validierung nur auf zwei Korpora durchgeführt, beide sind Podcast-Daten mit begrenzter Vielfalt
  3. Einzelne Bewertung: Konzentriert sich hauptsächlich auf Geschlechtergerechtigkeit, unzureichende Berücksichtigung anderer sensibler Attribute
  4. Praktische Anwendbarkeit: Die Methode erfordert Geschlechtskennzeichnungen der Zieldomäne zum Training, was in realen Anwendungen einschränkend sein kann

Einflussfähigkeit

  1. Akademischer Wert: Eröffnet eine neue Forschungsrichtung in der sprachübergreifenden SER-Fairness und wird voraussichtlich mehr verwandte Forschungen auslösen
  2. Praktischer Wert: Bietet technische Lösungen für Fairness-Sicherung bei der domänenübergreifenden Bereitstellung von SER-Systemen
  3. Reproduzierbarkeit: Detaillierte Experimentgestaltung mit guter Verfügbarkeit von Code und Daten

Anwendungsszenarien

  1. Sprachübergreifende SER-Systeme: Besonders geeignet für Emotionserkennungssysteme, die in verschiedenen Sprachumgebungen bereitgestellt werden müssen
  2. Multi-Domain-Anwendungen: Geeignet für SER-Anwendungen, die Fairness über mehrere Datendomänen hinweg aufrechterhalten müssen
  3. Fairness-sensitive Szenarien: Wie medizinische Gesundheit, Bildungsbewertung und andere Anwendungsbereiche mit hohen Fairness-Anforderungen

Referenzen

Das Papier zitiert 21 verwandte Referenzen, die wichtige Arbeiten in mehreren verwandten Bereichen wie SER, Fairness und Transferlernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist eine bahnbrechende Arbeit im Bereich der SER-Fairness-Forschung, die erstmals systematisch das Problem der Fairness-Verallgemeinerung in sprachübergreifenden Szenarien untersucht. Die vorgeschlagene CFA-Methode weist technische Innovationen auf, und die experimentelle Validierung ist relativ umfassend. Trotz einiger Einschränkungen bietet sie wichtige Grundlagen und Richtungsvorgaben für die Entwicklung des Feldes.