2025-11-13T03:49:10.242464

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Ahn, Rana, Sivadas et al.

Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.

academic

Verbesserung der Sprachemotion-Erkennung mit gegenseitiger Information regularisiertem generativem Modell

Grundinformationen

Papier-ID: 2510.10078
Titel: Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
Autoren: Chung-Soo Ahn, Rajib Rana, Sunil Sivadas, Carlos Busso, Jagath C. Rajapakse
Klassifizierung: cs.SD (Sound), cs.LG (Machine Learning)
Veröffentlichungsdatum: 2025 (Journal of LaTeX Class Files, Vol. 14, No. 8, August 2021 Format)
Papier-Link: https://arxiv.org/abs/2510.10078

Zusammenfassung

Obwohl Deep-Learning-Methoden Fortschritte in der Sprachemotion-Erkennung (SER) vorangetrieben haben, steht das Feld weiterhin vor der Herausforderung mangelnder hochqualitativer annotierter Trainingsdaten. Um dieses Problem zu lindern, haben Forscher Datenerweiterungsmethoden untersucht, bei denen generative Modelle kürzlich hervorragende Ergebnisse gezeigt haben. Dieses Papier präsentiert ein Datenerweiterungsframework, das auf modalitätsübergreifender Informationsübertragung und gegenseitiger Information-Regularisierung basiert. Die gegenseitige Information kann als Qualitätsindikator für generierte Daten dienen. Darüber hinaus ermöglicht die Eigenschaft der gegenseitigen Information, die Abhängigkeiten zwischen Modalitäten sicherzustellen, eine Erweiterung auf multimodale Eingaben. Tests auf drei Benchmark-Datensätzen (IEMOCAP, MSP-IMPROV und MSP-Podcast) zeigen, dass das Framework bestehende Arbeiten bei der Emotionsvorhersageleistung übertrifft und dass das Framework neue Eingabemerkmale ohne modalitätsübergreifende Informationen generieren kann.

Forschungshintergrund und Motivation

Kernproblem

Die Hauptherausforderung im Bereich der Sprachemotion-Erkennung ist die Knappheit hochqualitativer annotierter Daten. Im Vergleich zu großen Datensätzen in der Computervision (wie MNIST) sind SER-Datensätze relativ klein, was die Verallgemeinerungsfähigkeit von Deep-Learning-Modellen erheblich beeinträchtigt.

Bedeutung des Problems

Das Datenmangelproblem wirkt sich direkt auf die Leistung und Praktikabilität von SER-Modellen aus, besonders im Zeitalter des Deep Learning, das große Mengen an Trainingsdaten erfordert. Effektive Datenerweiterungsmethoden sind entscheidend für die Verbesserung der Modellleistung.

Einschränkungen bestehender Methoden

Traditionelle Datenerweiterung: Einfache Signaltransformationen und Rauschzusätze sind nur gestörte Kopien der Originaldaten mit begrenztem Informationsgehalt
Bedingte generative Modelle: Gehen von einer deterministischen Abbildung von Emotionsetiketten zu generierten Stichproben aus, eine unrealistische Annahme, die keine Garantie für die Qualität generierter Stichproben bietet
Modalitätsübergreifende Methoden: Bestehende Arbeiten konzentrieren sich hauptsächlich auf die Ergänzung oder Wiederherstellung fehlender Modalitäten und fehlt ein explizites Erweiterungsframework zur Verbesserung der multimodalen Emotionserkennung

Forschungsmotivation

Dieses Papier geht davon aus, dass die Annahme einer deterministischen Abbildung von Emotionsetiketten zu generierten Stichproben durch bedingte generative Modelle nicht angemessen ist, und schlägt vor, gegenseitige Information-Regularisierung als Alternative zu verwenden, indem die Abhängigkeit zwischen generierten Stichproben und Klassenetiketten quantifiziert wird, um die Qualität der Datenerweiterung sicherzustellen.

Kernbeiträge

Präsentation eines Datenerweiterungsframeworks für generative Modelle, das für SER und multimodale SER anwendbar ist und modalitätsübergreifende Informationsübertragung mit gegenseitiger Information-Regularisierung kombiniert
Einführung einer SER-Datenerweiterungsmethode, die modalitätsübergreifende Übertragung mit gegenseitiger Information kombiniert und mit InfoGAN-Architektur implementiert wird
Feststellung, dass der gegenseitige Information-Regularisierer eine beobachtbare Größe bietet, um die Abhängigkeit generierter Daten von Emotionen und Textinformationen zu überprüfen
Erweiterung auf multimodale Erweiterung, durch Generierung aller Kombinationen von Audio- und Textmerkmalen wird die Datengröße um das Vierfache erhöht

Methodische Details

Aufgabendefinition

Eingabe: Audiosignal x_a und entsprechende Texttranskription x_t
Ausgabe: Emotionsklasse-Vorhersage ŷ
Ziel: Verbesserung der Emotionsklassifizierungsleistung durch Generierung erweiterter Daten

Modellarchitektur

Erste Phase: Baseline-Modellvorbereitung

Audio-Merkmalsextraktion:
```
h = fa(xa)
```
Verwendung vortrainierter Audio-Transformer (AST oder Wav2Vec2) zur Extraktion von Audio-Merkmalen
Text-Merkmalsextraktion:
```
t = ft(xt)
```
Verwendung vortrainierter Text-Transformer (BERT/RoBERTa) zur Extraktion von Text-Merkmalen
Modalitätsübergreifende Ausrichtung:
- Kontrastives Lernverlust: $L_{CL} = -\log\frac{\exp(sim(t_i, h_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, h_j)/\tau)}$
- InfoNCE-Verlust: $L_{MI} = -\log\frac{\exp(sim(t_i, \hat{h}_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{h}_j)/\tau)}$

Zweite Phase: InfoGAN-Training

Generator-Ziel:
```
min max V(D,G) - λI(c;G(z,c))
```
wobei c Emotionsetiketten und Text-Einbettungen enthält
Maximierung gegenseitiger Information:
- Emotions-gegenseitige Information: $L_{Iy} = -E\{\sum_c 1(y=c)\log(\hat{y}_g)\}$
- Text-gegenseitige Information: $L_{It} = -\log\frac{\exp(sim(t_i, \hat{t}^g_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{t}^g_j)/\tau)}$

Dritte Phase: Datenerweiterungs-Training

SER-Szenario: Verwendung von Original-Merkmalen h und generierten Merkmalen ĥ zum Training des Klassifizierers
Multimodale SER: Verwendung von vier Kombinationen (h,t), (h,t'), (ĥ,t), (ĥ,t') zum Training

Technische Innovationen

Gegenseitige Information-Qualitätsmetrik: Nutzung des gegenseitigen Information-Verlusts als beobachtbare Metrik für die Qualität generierter Stichproben
Modalitätsübergreifende Informationsübertragung: Lenkung der Audio-Merkmalsgenerierung durch Textinformationen zur Verbesserung der Generierungsqualität
Multimodale Erweiterung: Gleichzeitige Generierung von Audio- und Text-Merkmalen für echte multimodale Datenerweiterung
Merkmals-Generierung: Generierung im Merkmalsraum statt im ursprünglichen Signalraum zur Reduzierung der Komplexität

Experimentelle Einrichtung

Datensätze

IEMOCAP: 12 Stunden Aufnahmen, 5 Paare männlicher und weiblicher Schauspieler in Dialogen, vier Emotionsklassen (neutral, glücklich, traurig, wütend)
MSP-IMPROV: 9 Stunden Aufnahmen, 12 Schauspieler in Interaktion, vier grundlegende Emotionsklassen
MSP-Podcast: "In-the-wild"-Sprachdaten aus Podcasts, näher an realen Anwendungsszenarien

Bewertungsmetriken

Ungewichtete durchschnittliche Rückrufquote (UAR): Gerechtere Bewertungsmetrik für unausgeglichene Datensätze
Leave-one-speaker-out Kreuzvalidierung: Sicherstellung der Modellverallgemeinerungsleistung

Vergleichsmethoden

Einschließlich bestehender Datenerweiterungsmethoden von Sahu et al., Bao et al., Latif et al., Malik et al. und multimodaler Methoden wie MMIN, CIF-MMIN.

Implementierungsdetails

Audio-Modell: AST (SER), Wav2Vec2 (multimodale SER)
Text-Modell: BERT, RoBERTa, Llama 3.0
InfoGAN-Architektur: Einfache lineare Schichten für Generator und Diskriminator
Trainingstrategie: Verwendung von Mix-up-Strategie zur Stabilisierung des Generator-Trainings

Experimentelle Ergebnisse

Hauptergebnisse

SER-Experimente (IEMOCAP)

Methode	Ohne Erweiterung	Mit Erweiterung	Verbesserung
Sahu et al.	59,42%	60,29%	0,87%
Bao et al.	59,48±0,71%	60,37±0,70%	0,89%
Latif et al.	60,51±0,57%	61,05±0,68%	0,54%
Malik et al.	58,62±2,11%	61,22±1,85%	2,6%
Diese Methode	60,81±4,83%	63,40±2,52%	2,59%

Multimodale SER-Experimente

Auf dem IEMOCAP-Datensatz erreicht die Methode dieses Papiers 76,54% UAR bei der Audio+Text-Modalitätskombination und übertrifft bestehende Methoden wie CIF-MMIN (75,65%).

Ablationsstudien

Konfiguration	UAR
Vollständiges Modell	63,40±2,52%
Ohne modalitätsübergreifende Ausrichtung	62,31±3,65%
Ohne modalitätsübergreifende Ausrichtung und Text-Einbettung	61,07±2,45%
Ohne modalitätsübergreifende Ausrichtung und Maximierung gegenseitiger Information	61,70±2,58%

Ablationsstudien zeigen, dass jede Komponente wichtig zur endgültigen Leistung beiträgt.

Experimentelle Erkenntnisse

Effektivität der gegenseitigen Information-Regularisierung: Der gegenseitige Information-Verlust kann tatsächlich als Indikator für die Qualität generierter Stichproben dienen
Bedeutung modalitätsübergreifender Informationen: Textinformationen verbessern die Qualität der Audio-Merkmalsgenerierung erheblich
Behandlung von Klassenunausgeglichenheit: Auf dem MSP-Podcast-Datensatz lindert die Methode effektiv das Klassenunausgeglichenheitsproblem
Generierungsfähigkeit ohne modalitätsübergreifende Informationen: Das Framework kann neue Eingaben ohne andere Modalitätsinformationen generieren

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Generative Modelle mit gegenseitiger Information-Regularisierung können die SER-Leistung effektiv verbessern
Modalitätsübergreifende Informationsübertragung verbessert die Qualität generierter Stichproben erheblich
Das multimodale Datenerweiterungsframework erreicht optimale Leistung auf mehreren Benchmark-Datensätzen
Die Methode hat Potenzial zur Behandlung von Klassenunausgeglichenheitsproblemen

Einschränkungen

Rechenkomplexität: Erfordert Training mehrerer Modellphasen mit erheblichem Rechenaufwand
Merkmalraum-Einschränkungen: Generierung im Merkmalsraum statt im ursprünglichen Signalraum kann zu Informationsverlust führen
Datensatz-Abhängigkeit: Die Methodenleistung kann von spezifischen Datensatzeigenschaften abhängen
Hyperparameter-Empfindlichkeit: Hyperparameter wie das gegenseitige Information-Gewicht λ erfordern sorgfältige Abstimmung

Zukünftige Richtungen

Erforschung von End-to-End-Methoden zur Generierung von Rohsignalen
Untersuchung effizienterer Trainingsstrategien
Erweiterung auf mehr Modalitäten und Emotionsklassen
Theoretische Analyse der Konvergenzeigenschaften der gegenseitigen Information-Regularisierung

Tiefgreifende Bewertung

Stärken

Starke Methodennovation: Erstmalige Kombination von gegenseitiger Information-Regularisierung mit modalitätsübergreifender Informationsübertragung für SER-Datenerweiterung
Umfassende Experimente: Vollständige Bewertung auf mehreren Benchmark-Datensätzen, einschließlich Ablationsstudien
Solide theoretische Grundlagen: Die gegenseitige Information-Theorie bietet theoretische Garantien für die Qualität generierter Stichproben
Hoher praktischer Wert: Die Methode zeigt gute Skalierbarkeit in praktischen Anwendungen

Mängel

Architekturkomplexität: Der dreiphasige Trainingsablauf ist relativ komplex und könnte bei der praktischen Bereitstellung auf Herausforderungen stoßen
Recheneffizienz: Der Rechenaufwand ist im Vergleich zu einfachen Datenerweiterungsmethoden erheblich erhöht
Unzureichende Verallgemeinerungsanalyse: Mangelnde tiefgreifende Analyse der datensatzübergreifenden Verallgemeinerungsleistung
Begrenzte theoretische Analyse: Fehlende theoretische Garantien für die Konvergenzeigenschaften der gegenseitigen Information-Regularisierung

Auswirkungen

Akademischer Beitrag: Bietet neue Forschungsideen und ein Methodenframework für SER-Datenerweiterung
Praktischer Wert: Wichtige Anwendungswerte in Szenarien mit Datenmangel
Reproduzierbarkeit: Detaillierte experimentelle Einrichtung mit guter Reproduzierbarkeit
Inspirationskraft: Die Idee der gegenseitigen Information-Regularisierung kann auf andere generative Aufgaben erweitert werden

Anwendungsszenarien

Datenmangel-Szenarien: Besonders geeignet für Emotionserkennungsaufgaben mit begrenzten hochqualitativen annotierten Daten
Multimodale Anwendungen: Zeigt hervorragende Leistung bei Anwendungen, die gleichzeitig Audio- und Textinformationen verarbeiten müssen
Klassenunausgeglichenheitsprobleme: Hat lindernde Wirkung auf Datensätze mit ungleichmäßiger Emotionsklassenverteilung
Forschungsprototyp-Entwicklung: Bietet eine effektive Baseline-Methode für Datenerweiterung in der SER-Forschung

Literaturverzeichnis

Das Papier zitiert 48 relevante Literaturquellen, die wichtige Arbeiten in den Bereichen SER, generative Modelle und multimodales Lernen abdecken und eine solide theoretische Grundlage und Vergleichsbenchmarks für die Forschung bieten.