2025-11-13T03:49:10.242464

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Ahn, Rana, Sivadas et al.
Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.
academic

Verbesserung der Sprachemotion-Erkennung mit gegenseitiger Information regularisiertem generativem Modell

Grundinformationen

  • Papier-ID: 2510.10078
  • Titel: Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
  • Autoren: Chung-Soo Ahn, Rajib Rana, Sunil Sivadas, Carlos Busso, Jagath C. Rajapakse
  • Klassifizierung: cs.SD (Sound), cs.LG (Machine Learning)
  • Veröffentlichungsdatum: 2025 (Journal of LaTeX Class Files, Vol. 14, No. 8, August 2021 Format)
  • Papier-Link: https://arxiv.org/abs/2510.10078

Zusammenfassung

Obwohl Deep-Learning-Methoden Fortschritte in der Sprachemotion-Erkennung (SER) vorangetrieben haben, steht das Feld weiterhin vor der Herausforderung mangelnder hochqualitativer annotierter Trainingsdaten. Um dieses Problem zu lindern, haben Forscher Datenerweiterungsmethoden untersucht, bei denen generative Modelle kürzlich hervorragende Ergebnisse gezeigt haben. Dieses Papier präsentiert ein Datenerweiterungsframework, das auf modalitätsübergreifender Informationsübertragung und gegenseitiger Information-Regularisierung basiert. Die gegenseitige Information kann als Qualitätsindikator für generierte Daten dienen. Darüber hinaus ermöglicht die Eigenschaft der gegenseitigen Information, die Abhängigkeiten zwischen Modalitäten sicherzustellen, eine Erweiterung auf multimodale Eingaben. Tests auf drei Benchmark-Datensätzen (IEMOCAP, MSP-IMPROV und MSP-Podcast) zeigen, dass das Framework bestehende Arbeiten bei der Emotionsvorhersageleistung übertrifft und dass das Framework neue Eingabemerkmale ohne modalitätsübergreifende Informationen generieren kann.

Forschungshintergrund und Motivation

Kernproblem

Die Hauptherausforderung im Bereich der Sprachemotion-Erkennung ist die Knappheit hochqualitativer annotierter Daten. Im Vergleich zu großen Datensätzen in der Computervision (wie MNIST) sind SER-Datensätze relativ klein, was die Verallgemeinerungsfähigkeit von Deep-Learning-Modellen erheblich beeinträchtigt.

Bedeutung des Problems

Das Datenmangelproblem wirkt sich direkt auf die Leistung und Praktikabilität von SER-Modellen aus, besonders im Zeitalter des Deep Learning, das große Mengen an Trainingsdaten erfordert. Effektive Datenerweiterungsmethoden sind entscheidend für die Verbesserung der Modellleistung.

Einschränkungen bestehender Methoden

  1. Traditionelle Datenerweiterung: Einfache Signaltransformationen und Rauschzusätze sind nur gestörte Kopien der Originaldaten mit begrenztem Informationsgehalt
  2. Bedingte generative Modelle: Gehen von einer deterministischen Abbildung von Emotionsetiketten zu generierten Stichproben aus, eine unrealistische Annahme, die keine Garantie für die Qualität generierter Stichproben bietet
  3. Modalitätsübergreifende Methoden: Bestehende Arbeiten konzentrieren sich hauptsächlich auf die Ergänzung oder Wiederherstellung fehlender Modalitäten und fehlt ein explizites Erweiterungsframework zur Verbesserung der multimodalen Emotionserkennung

Forschungsmotivation

Dieses Papier geht davon aus, dass die Annahme einer deterministischen Abbildung von Emotionsetiketten zu generierten Stichproben durch bedingte generative Modelle nicht angemessen ist, und schlägt vor, gegenseitige Information-Regularisierung als Alternative zu verwenden, indem die Abhängigkeit zwischen generierten Stichproben und Klassenetiketten quantifiziert wird, um die Qualität der Datenerweiterung sicherzustellen.

Kernbeiträge

  1. Präsentation eines Datenerweiterungsframeworks für generative Modelle, das für SER und multimodale SER anwendbar ist und modalitätsübergreifende Informationsübertragung mit gegenseitiger Information-Regularisierung kombiniert
  2. Einführung einer SER-Datenerweiterungsmethode, die modalitätsübergreifende Übertragung mit gegenseitiger Information kombiniert und mit InfoGAN-Architektur implementiert wird
  3. Feststellung, dass der gegenseitige Information-Regularisierer eine beobachtbare Größe bietet, um die Abhängigkeit generierter Daten von Emotionen und Textinformationen zu überprüfen
  4. Erweiterung auf multimodale Erweiterung, durch Generierung aller Kombinationen von Audio- und Textmerkmalen wird die Datengröße um das Vierfache erhöht

Methodische Details

Aufgabendefinition

  • Eingabe: Audiosignal x_a und entsprechende Texttranskription x_t
  • Ausgabe: Emotionsklasse-Vorhersage ŷ
  • Ziel: Verbesserung der Emotionsklassifizierungsleistung durch Generierung erweiterter Daten

Modellarchitektur

Erste Phase: Baseline-Modellvorbereitung

  1. Audio-Merkmalsextraktion:
    h = fa(xa)
    

    Verwendung vortrainierter Audio-Transformer (AST oder Wav2Vec2) zur Extraktion von Audio-Merkmalen
  2. Text-Merkmalsextraktion:
    t = ft(xt)
    

    Verwendung vortrainierter Text-Transformer (BERT/RoBERTa) zur Extraktion von Text-Merkmalen
  3. Modalitätsübergreifende Ausrichtung:
    • Kontrastives Lernverlust: LCL=logexp(sim(ti,hi)/τ)j=1Bexp(sim(ti,hj)/τ)L_{CL} = -\log\frac{\exp(sim(t_i, h_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, h_j)/\tau)}
    • InfoNCE-Verlust: LMI=logexp(sim(ti,h^i)/τ)j=1Bexp(sim(ti,h^j)/τ)L_{MI} = -\log\frac{\exp(sim(t_i, \hat{h}_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{h}_j)/\tau)}

Zweite Phase: InfoGAN-Training

  1. Generator-Ziel:
    min max V(D,G) - λI(c;G(z,c))
    

    wobei c Emotionsetiketten und Text-Einbettungen enthält
  2. Maximierung gegenseitiger Information:
    • Emotions-gegenseitige Information: LIy=E{c1(y=c)log(y^g)}L_{Iy} = -E\{\sum_c 1(y=c)\log(\hat{y}_g)\}
    • Text-gegenseitige Information: LIt=logexp(sim(ti,t^ig)/τ)j=1Bexp(sim(ti,t^jg)/τ)L_{It} = -\log\frac{\exp(sim(t_i, \hat{t}^g_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{t}^g_j)/\tau)}

Dritte Phase: Datenerweiterungs-Training

  • SER-Szenario: Verwendung von Original-Merkmalen h und generierten Merkmalen ĥ zum Training des Klassifizierers
  • Multimodale SER: Verwendung von vier Kombinationen (h,t), (h,t'), (ĥ,t), (ĥ,t') zum Training

Technische Innovationen

  1. Gegenseitige Information-Qualitätsmetrik: Nutzung des gegenseitigen Information-Verlusts als beobachtbare Metrik für die Qualität generierter Stichproben
  2. Modalitätsübergreifende Informationsübertragung: Lenkung der Audio-Merkmalsgenerierung durch Textinformationen zur Verbesserung der Generierungsqualität
  3. Multimodale Erweiterung: Gleichzeitige Generierung von Audio- und Text-Merkmalen für echte multimodale Datenerweiterung
  4. Merkmals-Generierung: Generierung im Merkmalsraum statt im ursprünglichen Signalraum zur Reduzierung der Komplexität

Experimentelle Einrichtung

Datensätze

  1. IEMOCAP: 12 Stunden Aufnahmen, 5 Paare männlicher und weiblicher Schauspieler in Dialogen, vier Emotionsklassen (neutral, glücklich, traurig, wütend)
  2. MSP-IMPROV: 9 Stunden Aufnahmen, 12 Schauspieler in Interaktion, vier grundlegende Emotionsklassen
  3. MSP-Podcast: "In-the-wild"-Sprachdaten aus Podcasts, näher an realen Anwendungsszenarien

Bewertungsmetriken

  • Ungewichtete durchschnittliche Rückrufquote (UAR): Gerechtere Bewertungsmetrik für unausgeglichene Datensätze
  • Leave-one-speaker-out Kreuzvalidierung: Sicherstellung der Modellverallgemeinerungsleistung

Vergleichsmethoden

Einschließlich bestehender Datenerweiterungsmethoden von Sahu et al., Bao et al., Latif et al., Malik et al. und multimodaler Methoden wie MMIN, CIF-MMIN.

Implementierungsdetails

  • Audio-Modell: AST (SER), Wav2Vec2 (multimodale SER)
  • Text-Modell: BERT, RoBERTa, Llama 3.0
  • InfoGAN-Architektur: Einfache lineare Schichten für Generator und Diskriminator
  • Trainingstrategie: Verwendung von Mix-up-Strategie zur Stabilisierung des Generator-Trainings

Experimentelle Ergebnisse

Hauptergebnisse

SER-Experimente (IEMOCAP)

MethodeOhne ErweiterungMit ErweiterungVerbesserung
Sahu et al.59,42%60,29%0,87%
Bao et al.59,48±0,71%60,37±0,70%0,89%
Latif et al.60,51±0,57%61,05±0,68%0,54%
Malik et al.58,62±2,11%61,22±1,85%2,6%
Diese Methode60,81±4,83%63,40±2,52%2,59%

Multimodale SER-Experimente

Auf dem IEMOCAP-Datensatz erreicht die Methode dieses Papiers 76,54% UAR bei der Audio+Text-Modalitätskombination und übertrifft bestehende Methoden wie CIF-MMIN (75,65%).

Ablationsstudien

KonfigurationUAR
Vollständiges Modell63,40±2,52%
Ohne modalitätsübergreifende Ausrichtung62,31±3,65%
Ohne modalitätsübergreifende Ausrichtung und Text-Einbettung61,07±2,45%
Ohne modalitätsübergreifende Ausrichtung und Maximierung gegenseitiger Information61,70±2,58%

Ablationsstudien zeigen, dass jede Komponente wichtig zur endgültigen Leistung beiträgt.

Experimentelle Erkenntnisse

  1. Effektivität der gegenseitigen Information-Regularisierung: Der gegenseitige Information-Verlust kann tatsächlich als Indikator für die Qualität generierter Stichproben dienen
  2. Bedeutung modalitätsübergreifender Informationen: Textinformationen verbessern die Qualität der Audio-Merkmalsgenerierung erheblich
  3. Behandlung von Klassenunausgeglichenheit: Auf dem MSP-Podcast-Datensatz lindert die Methode effektiv das Klassenunausgeglichenheitsproblem
  4. Generierungsfähigkeit ohne modalitätsübergreifende Informationen: Das Framework kann neue Eingaben ohne andere Modalitätsinformationen generieren

Verwandte Arbeiten

Generative Datenerweiterung

  • Frühe Arbeiten mit Autoencoder-Framework (Latif et al.)
  • GAN- und Autoencoder-Kombinationsmethoden (Yi et al., Latif et al.)
  • Neuere Erweiterungen auf Diffusionsmodelle (Malik et al., Kim et al.)

Multimodales Deep Learning

  • Modalitätsübergreifende Aufmerksamkeitsmechanismen (Goncalves et al.)
  • Kontrastive Lernmethoden (Liu et al.)
  • Rekonstruktionsmethoden (Meng et al., Wang et al.)

Vorteile dieses Papiers

Im Vergleich zu bestehenden Arbeiten kombiniert dieses Papier erstmals modalitätsübergreifende Übertragung mit gegenseitiger Information-Regularisierung und erweitert dies auf echte multimodale Datenerweiterung.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Generative Modelle mit gegenseitiger Information-Regularisierung können die SER-Leistung effektiv verbessern
  2. Modalitätsübergreifende Informationsübertragung verbessert die Qualität generierter Stichproben erheblich
  3. Das multimodale Datenerweiterungsframework erreicht optimale Leistung auf mehreren Benchmark-Datensätzen
  4. Die Methode hat Potenzial zur Behandlung von Klassenunausgeglichenheitsproblemen

Einschränkungen

  1. Rechenkomplexität: Erfordert Training mehrerer Modellphasen mit erheblichem Rechenaufwand
  2. Merkmalraum-Einschränkungen: Generierung im Merkmalsraum statt im ursprünglichen Signalraum kann zu Informationsverlust führen
  3. Datensatz-Abhängigkeit: Die Methodenleistung kann von spezifischen Datensatzeigenschaften abhängen
  4. Hyperparameter-Empfindlichkeit: Hyperparameter wie das gegenseitige Information-Gewicht λ erfordern sorgfältige Abstimmung

Zukünftige Richtungen

  1. Erforschung von End-to-End-Methoden zur Generierung von Rohsignalen
  2. Untersuchung effizienterer Trainingsstrategien
  3. Erweiterung auf mehr Modalitäten und Emotionsklassen
  4. Theoretische Analyse der Konvergenzeigenschaften der gegenseitigen Information-Regularisierung

Tiefgreifende Bewertung

Stärken

  1. Starke Methodennovation: Erstmalige Kombination von gegenseitiger Information-Regularisierung mit modalitätsübergreifender Informationsübertragung für SER-Datenerweiterung
  2. Umfassende Experimente: Vollständige Bewertung auf mehreren Benchmark-Datensätzen, einschließlich Ablationsstudien
  3. Solide theoretische Grundlagen: Die gegenseitige Information-Theorie bietet theoretische Garantien für die Qualität generierter Stichproben
  4. Hoher praktischer Wert: Die Methode zeigt gute Skalierbarkeit in praktischen Anwendungen

Mängel

  1. Architekturkomplexität: Der dreiphasige Trainingsablauf ist relativ komplex und könnte bei der praktischen Bereitstellung auf Herausforderungen stoßen
  2. Recheneffizienz: Der Rechenaufwand ist im Vergleich zu einfachen Datenerweiterungsmethoden erheblich erhöht
  3. Unzureichende Verallgemeinerungsanalyse: Mangelnde tiefgreifende Analyse der datensatzübergreifenden Verallgemeinerungsleistung
  4. Begrenzte theoretische Analyse: Fehlende theoretische Garantien für die Konvergenzeigenschaften der gegenseitigen Information-Regularisierung

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Forschungsideen und ein Methodenframework für SER-Datenerweiterung
  2. Praktischer Wert: Wichtige Anwendungswerte in Szenarien mit Datenmangel
  3. Reproduzierbarkeit: Detaillierte experimentelle Einrichtung mit guter Reproduzierbarkeit
  4. Inspirationskraft: Die Idee der gegenseitigen Information-Regularisierung kann auf andere generative Aufgaben erweitert werden

Anwendungsszenarien

  1. Datenmangel-Szenarien: Besonders geeignet für Emotionserkennungsaufgaben mit begrenzten hochqualitativen annotierten Daten
  2. Multimodale Anwendungen: Zeigt hervorragende Leistung bei Anwendungen, die gleichzeitig Audio- und Textinformationen verarbeiten müssen
  3. Klassenunausgeglichenheitsprobleme: Hat lindernde Wirkung auf Datensätze mit ungleichmäßiger Emotionsklassenverteilung
  4. Forschungsprototyp-Entwicklung: Bietet eine effektive Baseline-Methode für Datenerweiterung in der SER-Forschung

Literaturverzeichnis

Das Papier zitiert 48 relevante Literaturquellen, die wichtige Arbeiten in den Bereichen SER, generative Modelle und multimodales Lernen abdecken und eine solide theoretische Grundlage und Vergleichsbenchmarks für die Forschung bieten.