2025-11-23T04:34:16.871813

Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition

Upadhyay, Chien, Lee

Speech emotion recognition (SER) is a vital component in various everyday applications. Cross-corpus SER models are increasingly recognized for their ability to generalize performance. However, concerns arise regarding fairness across demographics in diverse corpora. Existing fairness research often focuses solely on corpus-specific fairness, neglecting its generalizability in cross-corpus scenarios. Our study focuses on this underexplored area, examining the gender fairness generalizability in cross-corpus SER scenarios. We emphasize that the performance of cross-corpus SER models and their fairness are two distinct considerations. Moreover, we propose the approach of a combined fairness adaptation mechanism to enhance gender fairness in the SER transfer learning tasks by addressing both source and target genders. Our findings bring one of the first insights into the generalizability of gender fairness in cross-corpus SER systems.

academic

Ist es noch fair? Untersuchung der Geschlechtergerechtigkeit in der sprachübergreifenden Sprachemotion-Erkennung

Grundlegende Informationen

Papier-ID: 2501.00995
Titel: Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition
Autoren: Shreya G. Upadhyay, Woan-Shiuan Chien, Chi-Chun Lee (National Tsing Hua University, Taiwan)
Klassifizierung: cs.LG (Maschinelles Lernen)
Veröffentlichungsdatum: 2. Januar 2025 (arXiv-Preprint)
Papier-Link: https://arxiv.org/abs/2501.00995

Zusammenfassung

Die Sprachemotion-Erkennung (SER) ist eine wichtige Komponente in verschiedenen alltäglichen Anwendungen. Sprachübergreifende SER-Modelle werden zunehmend wegen ihrer Verallgemeinerungsleistung anerkannt. Allerdings haben Fragen zur Gerechtigkeit bezüglich demografischer Merkmale in verschiedenen Korpora Aufmerksamkeit erregt. Bestehende Fairness-Forschungen konzentrieren sich häufig nur auf die Fairness eines bestimmten Korpus und vernachlässigen deren Verallgemeinerung in sprachübergreifenden Szenarien. Diese Forschung konzentriert sich auf dieses unterexplorierten Bereich und untersucht die Verallgemeinerungsfähigkeit der Geschlechtergerechtigkeit in sprachübergreifenden SER-Szenarien. Wir betonen, dass Leistung und Fairness von sprachübergreifenden SER-Modellen zwei unterschiedliche Überlegungen sind. Darüber hinaus schlagen wir einen kombinierten Fairness-Adaptationsmechanismus vor, um die Geschlechtergerechtigkeit in SER-Transferlernaufgaben zu verbessern, indem wir gleichzeitig Geschlechterfragen in Quell- und Zieldomäne behandeln. Unsere Ergebnisse liefern einen der ersten Einblicke in die Verallgemeinerung der Geschlechtergerechtigkeit in sprachübergreifenden SER-Systemen.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Das Problem der Verallgemeinerung der Geschlechtergerechtigkeit in sprachübergreifenden Sprachemotion-Erkennungsmodellen. Konkret:

Bleiben SER-Modelle, die auf dem Quellkorpus Geschlechtergerechtigkeit aufweisen, auf dem Zielkorpus noch fair?
Können bestehende Fairness-Techniken in sprachübergreifenden Einstellungen effektiv verallgemeinert werden?

Wichtigkeitsanalyse

Praktische Anwendungsanforderungen: SER-Systeme werden häufig in der Mensch-Computer-Interaktion, emotionsbewussten Anwendungen und anderen Bereichen eingesetzt, wobei Fairness entscheidend ist
Realistische domänenübergreifende Bereitstellung: In praktischen Anwendungen müssen Modelle häufig in Umgebungen bereitgestellt werden, die sich von den Trainingsdaten unterscheiden
Kulturelle und sprachliche Unterschiede: Emotionale Ausdrücke haben kulturelle und sprachliche Besonderheiten, was die Fairness-Herausforderungen in sprachübergreifenden Szenarien komplexer macht

Einschränkungen bestehender Methoden

Beschränkung auf einzelne Korpora: Bestehende Fairness-Forschungen konzentrieren sich hauptsächlich auf Szenarien mit einzelnen Datensätzen
Fehlende Verallgemeinerung: Es fehlt an Forschung zur Verallgemeinerungsfähigkeit von Fairness in domänenübergreifenden Szenarien
Methodische Anwendbarkeit: Bestehende Fairness-Techniken sind hauptsächlich für die Quelldomäne konzipiert und berücksichtigen nicht die Fairness-Anforderungen der Zieldomäne

Kernbeiträge

Erste systematische Untersuchung: Erste tiefgreifende Untersuchung des Problems der Verallgemeinerung der Geschlechtergerechtigkeit in sprachübergreifender SER
Wichtige Erkenntnisse: Offenlegung des Trennungsphänomens zwischen Leistung und Fairness in domänenübergreifenden Szenarien – Modelle können bei der Leistung gut verallgemeinert werden, aber die Fairness-Verallgemeinerung fehlschlagen
Neuartige Methode: Vorschlag eines kombinierten Fairness-Adaptationsmechanismus (CFA), der die Geschlechtergerechtigkeit in Quell- und Zieldomäne gleichzeitig optimiert
Empirische Validierung: Validierung der Methodeneffektivität auf zwei großen natürlichen Sprachkorpora

Methodische Erklärung

Aufgabendefinition

Eingabe: Sprachsignalmerkmale (wav2vec2.0-Merkmale)
Ausgabe: Emotionsklassen-Vorhersage (binäre Klassifizierung von neutral, glücklich, wütend, traurig)
Einschränkungen: Gleichzeitige Aufrechterhaltung der Geschlechtergerechtigkeit in Quell- und Zieldomäne

Modellarchitektur

Gesamtdesign

Die vorgeschlagene CFA-Methode enthält zwei Kernmodule:

Emotions-Klassifizierungsblock (EC): Basis-SER-Architektur mit Transformer und vollständig verbundenen Schichten für Emotionsklassifizierung
Kombinierter Fairness-Adaptationsblock (CFA): Enthält adversariales Netzwerk für Geschlechtsklassifizierung, implementiert Geschlechtsneutralität durch Reverse-Gradient-Schicht

Wichtige technische Komponenten

1. Adversariales Trainingsmechanismus

Verwendung einer Reverse-Gradient-Schicht, um Merkmalsdarstellungen gegenüber Geschlechtsinformationen unempfindlich zu machen
EC-Modul-Ziel: Generierung geschlechtsneutraler Emotionsmerkmale
GC-Modul-Ziel: Genaue Geschlechtsvorhersage (für adversariales Training)

2. Geschlechtssimilaritätsverlust Einführung eines kontrastiven Verlusts, um Stichproben desselben Geschlechts im Merkmalsraum näher zusammenzubringen:

$L_{GSim}(x_1, x_2, y) = (1-y)\frac{1}{2}D^2 + y\frac{1}{2}\max(0, m-D)^2$

wobei D der euklidische Abstand zwischen Stichproben-Einbettungen ist und m der Grenzparameter (auf 1 gesetzt).

3. Gesamtverlustfunktion $L_{total} = L_{EC} + α \cdot L_{GSim} - β \cdot L_{GC}$

wobei α und β beide auf 0,5 gesetzt sind, und das negative Vorzeichen adversariales Training anzeigt.

Technische Innovationspunkte

Domänenübergreifendes Fairness-Design: Erste Methode, die gleichzeitig Fairness in Quell- und Zieldomäne berücksichtigt
Geschlechtsmerkmals-Ausrichtung: Realisierung der sprachübergreifenden Geschlechtsmerkmals-Ausrichtung durch kontrastiven Verlust
Gemeinsame Optimierungsstrategie: Verwendung von gemischten Batches aus Quell- und Zieldomäne für geschlechtsneutrales adversariales Training während des Trainings

Experimentelle Einrichtung

Datensätze

MSP-Podcast (MSP-P)

166 Stunden amerikanisches Englisch-Sprachemotion
49.018 Stichproben (24.466 männlich, 24.552 weiblich)
Als Quellkorpus

BIIC-Podcast (BIIC-P)

157 Stunden taiwanesisches Mandarin-Sprachemotion
18.706 Stichproben (9.654 männlich, 9.326 weiblich)
Als Zielkorpus

Bewertungsmetriken

Leistungsindikatoren:

UAR (Unweighted Average Recall): Ungewichtete durchschnittliche Rückrufquote

Fairness-Indikatoren:

Statistische Parität (ΔSP): Sicherstellung, dass verschiedene Gruppen den gleichen Anteil positiver Ergebnisse erhalten
Chancengleichheit (ΔEO): Anforderung, dass das Modell für verschiedene Gruppen gleiche wahre Positiv- und falsch-positive Raten hat
Beide Indikatoren reichen von -1,1, je näher an 0, desto besser die Fairness

Vergleichsmethoden

Transferlernmethoden:

Few-shot (FS): Nutzung von Quellkorpus-Wissen zur Anpassung an Zieldomäne
GAN-basiert (GAN): Verwendung von adversarialem Training
Phonetisch verankert (PA): Lernen im gemeinsamen Sprachraum

Fairness-Methoden:

Fairway: Quelldomänen-spezifische Fairness-Methode
Reweigh: Neugewichtungs-Fairness-Technik

Implementierungsdetails

Optimierer: Adam, Lernrate 0,0001, Zerfallsfaktor 0,001
Training: Maximal 50 Epochen, Batch-Größe 64, Early-Stopping-Mechanismus
Verlustfunktion: Binäre Kreuzentropie-Verlust
Experimentwiederholung: Jedes Experiment 10-mal wiederholt und gemittelt

Experimentelle Ergebnisse

Hauptergebnisse

Versagen der sprachübergreifenden Fairness-Verallgemeinerung: Experimente zeigen, dass selbst Modelle, die auf der Quelldomäne (MSP-P) gute Fairness aufweisen, auf der Zieldomäne (BIIC-P) erhebliche Geschlechtsverzerrungen aufweisen. Beispielsweise in der Wut-Emotionsklassifizierung:

PA-Modell auf BIIC-P: Männlich UAR 58,01%, Weiblich UAR 71,79%
ΔSP-Wert stieg von 0,380 auf MSP-P auf 0,534 auf BIIC-P

Einschränkungen bestehender Fairness-Methoden: Obwohl PA-FairW und PA-ReW Verbesserungen in der Quelldomänen-Fairness zeigen, ist die Verbesserung in der Zieldomäne begrenzt:

PA-ReW auf MSP-P Wut-Kategorie: ΔSP=0,159, ΔEO=0,168
Aber auf BIIC-P: ΔSP=0,321, ΔEO=0,416 (fast keine Verbesserung)

CFA-Methodeneffektivität

Signifikante Fairness-Verbesserung: PA-CFA erreicht signifikante Verbesserungen in der Zieldomänen-Fairness im Vergleich zu PA-ReW:

Wut-Kategorie: ΔSP von 0,363 auf 0,260 reduziert
Neutral-Kategorie: ΔSP von 0,391 auf 0,205 reduziert
Glücklich-Kategorie: ΔSP von 0,412 auf 0,223 reduziert

Statistische Signifikanzvalidierung: Durch statistische Tests (Sternchen-Markierungen in Tabelle II) erreicht die CFA-Methode in den meisten Fällen Signifikanzniveaus (p<0,05 oder p<0,1).

Ablationsstudien

Rolle des Geschlechtssimilaritätsverlusts: Vergleich von PA-Adv (ohne Geschlechtssimilaritätsverlust) und PA-CFA:

PA-Adv auf BIIC-P Wut-Kategorie: ΔSP=0,322
PA-CFA: ΔSP=0,260 Validiert die wichtige Rolle von L_GSim bei der Verbesserung der domänenübergreifenden Fairness.

Visualisierungsanalyse

t-SNE-Merkmalsraum-Analyse:

PA-ReW: Männliche und weibliche Merkmale zeigen deutliche Cluster-Trennung
PA-CFA: Männliche und weibliche Merkmale mit gemischter Verteilung, was auf bessere Geschlechtsneutralität hinweist

Geschlechtserkennungs-Genauigkeitsanalyse:

PA-ReW: Große Unterschiede in der Geschlechtserkennungs-Genauigkeit zwischen MSP-P und BIIC-P
PA-CFA: Ähnliche Geschlechtserkennungs-Genauigkeit auf beiden Korpora (z.B. Wut: MSP-P 36%, BIIC-P 35%)

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Trennung von Leistung und Fairness: Leistungsverallgemeinerung und Fairness-Verallgemeinerung von sprachübergreifenden SER-Modellen sind zwei unabhängige Probleme
Unzulänglichkeit bestehender Methoden: Quelldomänen-spezifische Fairness-Techniken können nicht effektiv auf die Zieldomäne verallgemeinert werden
Effektivität von CFA: Die vorgeschlagene kombinierte Fairness-Adaptationsmethode kann die Geschlechtergerechtigkeit domänenübergreifend signifikant verbessern

Einschränkungen

Leistungs-Kompromiss: Die CFA-Methode opfert leicht die Gesamtleistung, während die Fairness verbessert wird
Korpus-Einschränkungen: Experimente wurden nur auf zwei spezifischen Korpora durchgeführt, die Verallgemeinerbarkeit muss weiter überprüft werden
Attribut-Bereich: Konzentriert sich hauptsächlich auf Geschlechtergerechtigkeit, andere sensible Attribute (wie Alter, Rasse) werden nicht berücksichtigt

Zukünftige Richtungen

Merkmalsebenen-Analyse: Identifizierung der spezifischen Quellen von domänenübergreifenden Fairness-Problemen durch Merkmalsebenen-Analyse
Multi-Attribut-Fairness: Erweiterung auf gemeinsame Fairness-Optimierung mehrerer sensibler Attribute
Theoretischer Rahmen: Aufbau eines theoretischen Analyserahmens für domänenübergreifende Fairness

Tiefgreifende Bewertung

Stärken

Problemwichtigkeit: Erste systematische Untersuchung des Fairness-Verallgemeinerungsproblems in sprachübergreifender SER mit wichtiger praktischer Bedeutung
Methodische Innovation: Die vorgeschlagene CFA-Methode ist gut konzipiert und realisiert domänenübergreifende Fairness-Optimierung durch adversariales Training und kontrastives Lernen
Umfassende Experimente: Umfassende Experimentgestaltung mit mehreren Baseline-Methoden, Ablationsstudien und Visualisierungsanalysen
Wertvolle Erkenntnisse: Offenlegung des Trennungsphänomens zwischen Leistungs- und Fairness-Verallgemeinerung, das wichtige Einblicke für das Feld bietet

Mängel

Theoretische Grundlagen: Mangel an theoretischer Analyse des domänenübergreifenden Fairness-Problems, hauptsächlich basierend auf empirischen Beobachtungen
Datenlimitierungen: Validierung nur auf zwei Korpora durchgeführt, beide sind Podcast-Daten mit begrenzter Vielfalt
Einzelne Bewertung: Konzentriert sich hauptsächlich auf Geschlechtergerechtigkeit, unzureichende Berücksichtigung anderer sensibler Attribute
Praktische Anwendbarkeit: Die Methode erfordert Geschlechtskennzeichnungen der Zieldomäne zum Training, was in realen Anwendungen einschränkend sein kann

Einflussfähigkeit

Akademischer Wert: Eröffnet eine neue Forschungsrichtung in der sprachübergreifenden SER-Fairness und wird voraussichtlich mehr verwandte Forschungen auslösen
Praktischer Wert: Bietet technische Lösungen für Fairness-Sicherung bei der domänenübergreifenden Bereitstellung von SER-Systemen
Reproduzierbarkeit: Detaillierte Experimentgestaltung mit guter Verfügbarkeit von Code und Daten

Anwendungsszenarien

Sprachübergreifende SER-Systeme: Besonders geeignet für Emotionserkennungssysteme, die in verschiedenen Sprachumgebungen bereitgestellt werden müssen
Multi-Domain-Anwendungen: Geeignet für SER-Anwendungen, die Fairness über mehrere Datendomänen hinweg aufrechterhalten müssen
Fairness-sensitive Szenarien: Wie medizinische Gesundheit, Bildungsbewertung und andere Anwendungsbereiche mit hohen Fairness-Anforderungen

Referenzen

Das Papier zitiert 21 verwandte Referenzen, die wichtige Arbeiten in mehreren verwandten Bereichen wie SER, Fairness und Transferlernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist eine bahnbrechende Arbeit im Bereich der SER-Fairness-Forschung, die erstmals systematisch das Problem der Fairness-Verallgemeinerung in sprachübergreifenden Szenarien untersucht. Die vorgeschlagene CFA-Methode weist technische Innovationen auf, und die experimentelle Validierung ist relativ umfassend. Trotz einiger Einschränkungen bietet sie wichtige Grundlagen und Richtungsvorgaben für die Entwicklung des Feldes.