Speech emotion recognition (SER) is a vital component in various everyday applications. Cross-corpus SER models are increasingly recognized for their ability to generalize performance. However, concerns arise regarding fairness across demographics in diverse corpora. Existing fairness research often focuses solely on corpus-specific fairness, neglecting its generalizability in cross-corpus scenarios. Our study focuses on this underexplored area, examining the gender fairness generalizability in cross-corpus SER scenarios. We emphasize that the performance of cross-corpus SER models and their fairness are two distinct considerations. Moreover, we propose the approach of a combined fairness adaptation mechanism to enhance gender fairness in the SER transfer learning tasks by addressing both source and target genders. Our findings bring one of the first insights into the generalizability of gender fairness in cross-corpus SER systems.
- Papier-ID: 2501.00995
- Titel: Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition
- Autoren: Shreya G. Upadhyay, Woan-Shiuan Chien, Chi-Chun Lee (National Tsing Hua University, Taiwan)
- Klassifizierung: cs.LG (Maschinelles Lernen)
- Veröffentlichungsdatum: 2. Januar 2025 (arXiv-Preprint)
- Papier-Link: https://arxiv.org/abs/2501.00995
Die Sprachemotion-Erkennung (SER) ist eine wichtige Komponente in verschiedenen alltäglichen Anwendungen. Sprachübergreifende SER-Modelle werden zunehmend wegen ihrer Verallgemeinerungsleistung anerkannt. Allerdings haben Fragen zur Gerechtigkeit bezüglich demografischer Merkmale in verschiedenen Korpora Aufmerksamkeit erregt. Bestehende Fairness-Forschungen konzentrieren sich häufig nur auf die Fairness eines bestimmten Korpus und vernachlässigen deren Verallgemeinerung in sprachübergreifenden Szenarien. Diese Forschung konzentriert sich auf dieses unterexplorierten Bereich und untersucht die Verallgemeinerungsfähigkeit der Geschlechtergerechtigkeit in sprachübergreifenden SER-Szenarien. Wir betonen, dass Leistung und Fairness von sprachübergreifenden SER-Modellen zwei unterschiedliche Überlegungen sind. Darüber hinaus schlagen wir einen kombinierten Fairness-Adaptationsmechanismus vor, um die Geschlechtergerechtigkeit in SER-Transferlernaufgaben zu verbessern, indem wir gleichzeitig Geschlechterfragen in Quell- und Zieldomäne behandeln. Unsere Ergebnisse liefern einen der ersten Einblicke in die Verallgemeinerung der Geschlechtergerechtigkeit in sprachübergreifenden SER-Systemen.
Das Kernproblem dieser Forschung ist: Das Problem der Verallgemeinerung der Geschlechtergerechtigkeit in sprachübergreifenden Sprachemotion-Erkennungsmodellen. Konkret:
- Bleiben SER-Modelle, die auf dem Quellkorpus Geschlechtergerechtigkeit aufweisen, auf dem Zielkorpus noch fair?
- Können bestehende Fairness-Techniken in sprachübergreifenden Einstellungen effektiv verallgemeinert werden?
- Praktische Anwendungsanforderungen: SER-Systeme werden häufig in der Mensch-Computer-Interaktion, emotionsbewussten Anwendungen und anderen Bereichen eingesetzt, wobei Fairness entscheidend ist
- Realistische domänenübergreifende Bereitstellung: In praktischen Anwendungen müssen Modelle häufig in Umgebungen bereitgestellt werden, die sich von den Trainingsdaten unterscheiden
- Kulturelle und sprachliche Unterschiede: Emotionale Ausdrücke haben kulturelle und sprachliche Besonderheiten, was die Fairness-Herausforderungen in sprachübergreifenden Szenarien komplexer macht
- Beschränkung auf einzelne Korpora: Bestehende Fairness-Forschungen konzentrieren sich hauptsächlich auf Szenarien mit einzelnen Datensätzen
- Fehlende Verallgemeinerung: Es fehlt an Forschung zur Verallgemeinerungsfähigkeit von Fairness in domänenübergreifenden Szenarien
- Methodische Anwendbarkeit: Bestehende Fairness-Techniken sind hauptsächlich für die Quelldomäne konzipiert und berücksichtigen nicht die Fairness-Anforderungen der Zieldomäne
- Erste systematische Untersuchung: Erste tiefgreifende Untersuchung des Problems der Verallgemeinerung der Geschlechtergerechtigkeit in sprachübergreifender SER
- Wichtige Erkenntnisse: Offenlegung des Trennungsphänomens zwischen Leistung und Fairness in domänenübergreifenden Szenarien – Modelle können bei der Leistung gut verallgemeinert werden, aber die Fairness-Verallgemeinerung fehlschlagen
- Neuartige Methode: Vorschlag eines kombinierten Fairness-Adaptationsmechanismus (CFA), der die Geschlechtergerechtigkeit in Quell- und Zieldomäne gleichzeitig optimiert
- Empirische Validierung: Validierung der Methodeneffektivität auf zwei großen natürlichen Sprachkorpora
- Eingabe: Sprachsignalmerkmale (wav2vec2.0-Merkmale)
- Ausgabe: Emotionsklassen-Vorhersage (binäre Klassifizierung von neutral, glücklich, wütend, traurig)
- Einschränkungen: Gleichzeitige Aufrechterhaltung der Geschlechtergerechtigkeit in Quell- und Zieldomäne
Die vorgeschlagene CFA-Methode enthält zwei Kernmodule:
- Emotions-Klassifizierungsblock (EC): Basis-SER-Architektur mit Transformer und vollständig verbundenen Schichten für Emotionsklassifizierung
- Kombinierter Fairness-Adaptationsblock (CFA): Enthält adversariales Netzwerk für Geschlechtsklassifizierung, implementiert Geschlechtsneutralität durch Reverse-Gradient-Schicht
1. Adversariales Trainingsmechanismus
- Verwendung einer Reverse-Gradient-Schicht, um Merkmalsdarstellungen gegenüber Geschlechtsinformationen unempfindlich zu machen
- EC-Modul-Ziel: Generierung geschlechtsneutraler Emotionsmerkmale
- GC-Modul-Ziel: Genaue Geschlechtsvorhersage (für adversariales Training)
2. Geschlechtssimilaritätsverlust
Einführung eines kontrastiven Verlusts, um Stichproben desselben Geschlechts im Merkmalsraum näher zusammenzubringen:
LGSim(x1,x2,y)=(1−y)21D2+y21max(0,m−D)2
wobei D der euklidische Abstand zwischen Stichproben-Einbettungen ist und m der Grenzparameter (auf 1 gesetzt).
3. GesamtverlustfunktionLtotal=LEC+α⋅LGSim−β⋅LGC
wobei α und β beide auf 0,5 gesetzt sind, und das negative Vorzeichen adversariales Training anzeigt.
- Domänenübergreifendes Fairness-Design: Erste Methode, die gleichzeitig Fairness in Quell- und Zieldomäne berücksichtigt
- Geschlechtsmerkmals-Ausrichtung: Realisierung der sprachübergreifenden Geschlechtsmerkmals-Ausrichtung durch kontrastiven Verlust
- Gemeinsame Optimierungsstrategie: Verwendung von gemischten Batches aus Quell- und Zieldomäne für geschlechtsneutrales adversariales Training während des Trainings
MSP-Podcast (MSP-P)
- 166 Stunden amerikanisches Englisch-Sprachemotion
- 49.018 Stichproben (24.466 männlich, 24.552 weiblich)
- Als Quellkorpus
BIIC-Podcast (BIIC-P)
- 157 Stunden taiwanesisches Mandarin-Sprachemotion
- 18.706 Stichproben (9.654 männlich, 9.326 weiblich)
- Als Zielkorpus
Leistungsindikatoren:
- UAR (Unweighted Average Recall): Ungewichtete durchschnittliche Rückrufquote
Fairness-Indikatoren:
- Statistische Parität (ΔSP): Sicherstellung, dass verschiedene Gruppen den gleichen Anteil positiver Ergebnisse erhalten
- Chancengleichheit (ΔEO): Anforderung, dass das Modell für verschiedene Gruppen gleiche wahre Positiv- und falsch-positive Raten hat
- Beide Indikatoren reichen von -1,1, je näher an 0, desto besser die Fairness
Transferlernmethoden:
- Few-shot (FS): Nutzung von Quellkorpus-Wissen zur Anpassung an Zieldomäne
- GAN-basiert (GAN): Verwendung von adversarialem Training
- Phonetisch verankert (PA): Lernen im gemeinsamen Sprachraum
Fairness-Methoden:
- Fairway: Quelldomänen-spezifische Fairness-Methode
- Reweigh: Neugewichtungs-Fairness-Technik
- Optimierer: Adam, Lernrate 0,0001, Zerfallsfaktor 0,001
- Training: Maximal 50 Epochen, Batch-Größe 64, Early-Stopping-Mechanismus
- Verlustfunktion: Binäre Kreuzentropie-Verlust
- Experimentwiederholung: Jedes Experiment 10-mal wiederholt und gemittelt
Versagen der sprachübergreifenden Fairness-Verallgemeinerung:
Experimente zeigen, dass selbst Modelle, die auf der Quelldomäne (MSP-P) gute Fairness aufweisen, auf der Zieldomäne (BIIC-P) erhebliche Geschlechtsverzerrungen aufweisen. Beispielsweise in der Wut-Emotionsklassifizierung:
- PA-Modell auf BIIC-P: Männlich UAR 58,01%, Weiblich UAR 71,79%
- ΔSP-Wert stieg von 0,380 auf MSP-P auf 0,534 auf BIIC-P
Einschränkungen bestehender Fairness-Methoden:
Obwohl PA-FairW und PA-ReW Verbesserungen in der Quelldomänen-Fairness zeigen, ist die Verbesserung in der Zieldomäne begrenzt:
- PA-ReW auf MSP-P Wut-Kategorie: ΔSP=0,159, ΔEO=0,168
- Aber auf BIIC-P: ΔSP=0,321, ΔEO=0,416 (fast keine Verbesserung)
Signifikante Fairness-Verbesserung:
PA-CFA erreicht signifikante Verbesserungen in der Zieldomänen-Fairness im Vergleich zu PA-ReW:
- Wut-Kategorie: ΔSP von 0,363 auf 0,260 reduziert
- Neutral-Kategorie: ΔSP von 0,391 auf 0,205 reduziert
- Glücklich-Kategorie: ΔSP von 0,412 auf 0,223 reduziert
Statistische Signifikanzvalidierung:
Durch statistische Tests (Sternchen-Markierungen in Tabelle II) erreicht die CFA-Methode in den meisten Fällen Signifikanzniveaus (p<0,05 oder p<0,1).
Rolle des Geschlechtssimilaritätsverlusts:
Vergleich von PA-Adv (ohne Geschlechtssimilaritätsverlust) und PA-CFA:
- PA-Adv auf BIIC-P Wut-Kategorie: ΔSP=0,322
- PA-CFA: ΔSP=0,260
Validiert die wichtige Rolle von L_GSim bei der Verbesserung der domänenübergreifenden Fairness.
t-SNE-Merkmalsraum-Analyse:
- PA-ReW: Männliche und weibliche Merkmale zeigen deutliche Cluster-Trennung
- PA-CFA: Männliche und weibliche Merkmale mit gemischter Verteilung, was auf bessere Geschlechtsneutralität hinweist
Geschlechtserkennungs-Genauigkeitsanalyse:
- PA-ReW: Große Unterschiede in der Geschlechtserkennungs-Genauigkeit zwischen MSP-P und BIIC-P
- PA-CFA: Ähnliche Geschlechtserkennungs-Genauigkeit auf beiden Korpora (z.B. Wut: MSP-P 36%, BIIC-P 35%)
Bestehende Forschungen konzentrieren sich hauptsächlich auf Fairness in Szenarien mit einzelnen Korpora und verwenden Techniken wie adversariale Netzwerke und Neugewichtung, um die Auswirkungen sensibler Attribute wie Geschlecht und Alter zu neutralisieren.
Hauptsächlich durch Transferlernen, halbüberwachtes Lernen und andere Techniken zur Lösung von Merkmals- und Label-Nichtübereinstimmungen zwischen Domänen, aber mit weniger Berücksichtigung der Fairness-Verallgemeinerung.
Dieses Papier erweitert die Fairness-Forschung erstmals auf sprachübergreifende Szenarien und füllt eine Forschungslücke in diesem Bereich.
- Trennung von Leistung und Fairness: Leistungsverallgemeinerung und Fairness-Verallgemeinerung von sprachübergreifenden SER-Modellen sind zwei unabhängige Probleme
- Unzulänglichkeit bestehender Methoden: Quelldomänen-spezifische Fairness-Techniken können nicht effektiv auf die Zieldomäne verallgemeinert werden
- Effektivität von CFA: Die vorgeschlagene kombinierte Fairness-Adaptationsmethode kann die Geschlechtergerechtigkeit domänenübergreifend signifikant verbessern
- Leistungs-Kompromiss: Die CFA-Methode opfert leicht die Gesamtleistung, während die Fairness verbessert wird
- Korpus-Einschränkungen: Experimente wurden nur auf zwei spezifischen Korpora durchgeführt, die Verallgemeinerbarkeit muss weiter überprüft werden
- Attribut-Bereich: Konzentriert sich hauptsächlich auf Geschlechtergerechtigkeit, andere sensible Attribute (wie Alter, Rasse) werden nicht berücksichtigt
- Merkmalsebenen-Analyse: Identifizierung der spezifischen Quellen von domänenübergreifenden Fairness-Problemen durch Merkmalsebenen-Analyse
- Multi-Attribut-Fairness: Erweiterung auf gemeinsame Fairness-Optimierung mehrerer sensibler Attribute
- Theoretischer Rahmen: Aufbau eines theoretischen Analyserahmens für domänenübergreifende Fairness
- Problemwichtigkeit: Erste systematische Untersuchung des Fairness-Verallgemeinerungsproblems in sprachübergreifender SER mit wichtiger praktischer Bedeutung
- Methodische Innovation: Die vorgeschlagene CFA-Methode ist gut konzipiert und realisiert domänenübergreifende Fairness-Optimierung durch adversariales Training und kontrastives Lernen
- Umfassende Experimente: Umfassende Experimentgestaltung mit mehreren Baseline-Methoden, Ablationsstudien und Visualisierungsanalysen
- Wertvolle Erkenntnisse: Offenlegung des Trennungsphänomens zwischen Leistungs- und Fairness-Verallgemeinerung, das wichtige Einblicke für das Feld bietet
- Theoretische Grundlagen: Mangel an theoretischer Analyse des domänenübergreifenden Fairness-Problems, hauptsächlich basierend auf empirischen Beobachtungen
- Datenlimitierungen: Validierung nur auf zwei Korpora durchgeführt, beide sind Podcast-Daten mit begrenzter Vielfalt
- Einzelne Bewertung: Konzentriert sich hauptsächlich auf Geschlechtergerechtigkeit, unzureichende Berücksichtigung anderer sensibler Attribute
- Praktische Anwendbarkeit: Die Methode erfordert Geschlechtskennzeichnungen der Zieldomäne zum Training, was in realen Anwendungen einschränkend sein kann
- Akademischer Wert: Eröffnet eine neue Forschungsrichtung in der sprachübergreifenden SER-Fairness und wird voraussichtlich mehr verwandte Forschungen auslösen
- Praktischer Wert: Bietet technische Lösungen für Fairness-Sicherung bei der domänenübergreifenden Bereitstellung von SER-Systemen
- Reproduzierbarkeit: Detaillierte Experimentgestaltung mit guter Verfügbarkeit von Code und Daten
- Sprachübergreifende SER-Systeme: Besonders geeignet für Emotionserkennungssysteme, die in verschiedenen Sprachumgebungen bereitgestellt werden müssen
- Multi-Domain-Anwendungen: Geeignet für SER-Anwendungen, die Fairness über mehrere Datendomänen hinweg aufrechterhalten müssen
- Fairness-sensitive Szenarien: Wie medizinische Gesundheit, Bildungsbewertung und andere Anwendungsbereiche mit hohen Fairness-Anforderungen
Das Papier zitiert 21 verwandte Referenzen, die wichtige Arbeiten in mehreren verwandten Bereichen wie SER, Fairness und Transferlernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist eine bahnbrechende Arbeit im Bereich der SER-Fairness-Forschung, die erstmals systematisch das Problem der Fairness-Verallgemeinerung in sprachübergreifenden Szenarien untersucht. Die vorgeschlagene CFA-Methode weist technische Innovationen auf, und die experimentelle Validierung ist relativ umfassend. Trotz einiger Einschränkungen bietet sie wichtige Grundlagen und Richtungsvorgaben für die Entwicklung des Feldes.