2025-11-18T20:58:12.950706

learning discriminative features from spectrograms using center loss for speech emotion recognition

Dai, Wu, Li et al.
Identifying the emotional state from speech is essential for the natural interaction of the machine with the speaker. However, extracting effective features for emotion recognition is difficult, as emotions are ambiguous. We propose a novel approach to learn discriminative features from variable length spectrograms for emotion recognition by cooperating softmax cross-entropy loss and center loss together. The softmax cross-entropy loss enables features from different emotion categories separable, and center loss efficiently pulls the features belonging to the same emotion category to their center. By combining the two losses together, the discriminative power will be highly enhanced, which leads to network learning more effective features for emotion recognition. As demonstrated by the experimental results, after introducing center loss, both the unweighted accuracy and weighted accuracy are improved by over 3\% on Mel-spectrogram input, and more than 4\% on Short Time Fourier Transform spectrogram input.
academic

Lernen diskriminativer Merkmale aus Spektrogrammen mittels Center Loss für die Sprachemotion-Erkennung

Grundinformationen

  • Paper-ID: 2501.01103
  • Titel: Learning Discriminative Features from Spectrograms Using Center Loss for Speech Emotion Recognition
  • Autoren: Dongyang Dai, Zhiyong Wu, Runnan Li, Xixin Wu, Jia Jia, Helen Meng
  • Klassifizierung: eess.AS (Audio- und Sprachverarbeitung), cs.AI (Künstliche Intelligenz), cs.SD (Sound)
  • Veröffentlichungsdatum: 2. Januar 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2501.01103

Zusammenfassung

Dieses Paper adressiert das Problem der Mehrdeutigkeit von Emotionen bei der Sprachemotion-Erkennung, die zu Schwierigkeiten bei der Merkmalsextraktion führt. Es wird eine neue Methode vorgeschlagen, die Softmax-Kreuzentropie-Verlust und Center Loss kombiniert, um diskriminative Merkmale aus variabel langen Spektrogrammen zu lernen. Der Softmax-Kreuzentropie-Verlust ermöglicht die Trennung von Merkmalen verschiedener Emotionsklassen, während der Center Loss effektiv Merkmale derselben Emotionsklasse zu ihrem Zentrum zieht. Die experimentellen Ergebnisse zeigen, dass nach Einführung des Center Loss die ungewichtete Genauigkeit und gewichtete Genauigkeit bei Mel-Spektrogramm-Eingaben um mehr als 3% ansteigen und bei Kurzzeit-Fourier-Transformation (STFT)-Spektrogramm-Eingaben um mehr als 4% ansteigen.

Forschungshintergrund und Motivation

1. Problemdefinition

Die Sprachemotion-Erkennung (SER) ist eine Schlüsseltechnologie für natürliche Mensch-Maschine-Interaktion, die das Extrahieren von Merkmalen aus Sprachsignalen und deren Klassifizierung in entsprechende Emotionskategorien erfordert. Die natürliche Mehrdeutigkeit von Emotionen macht jedoch die Extraktion effektiver Merkmale schwierig.

2. Bedeutung des Problems

  • Die Sprachemotion-Erkennung ist entscheidend für die Realisierung natürlicher Mensch-Maschine-Interaktion
  • Verschiedene Emotionstypen können verwirrend sein und erhöhen die Schwierigkeit der Merkmalsextraktion
  • Traditionelle Methoden haben Einschränkungen bei der Behandlung von Emotionsmehrdeutigkeit

3. Einschränkungen bestehender Methoden

  • Traditionelle Methoden: Extrahieren Frame-Level-Merkmale aus überlappenden Frames und wenden dann statistische Funktionen an; die Ausdrucksfähigkeit der Merkmale ist begrenzt
  • Bestehende Deep-Learning-Methoden: Nutzen zwar neuronale Netze zur Extraktion hochstufiger Merkmale, sind aber bei der Behandlung von Emotionsmehrdeutigkeit noch unzureichend
  • Bestehende diskriminative Lernmethoden: Methoden wie Kosinus-Ähnlichkeits-Verlust und Triplet-Loss verwenden eine Zwei-Schritt-Strategie, die zu Leistungsabfällen führen kann und von der Auswahl von Stichprobenpaaren oder Triplets abhängt

4. Forschungsmotivation

Vorschlag einer End-to-End-Methode, die durch kombinierte überwachte Verlustfunktionen (Softmax-Kreuzentropie-Verlust + Center Loss) diskriminative Merkmale lernt und die Inkonsistenzprobleme der Zwei-Schritt-Strategie vermeidet.

Kernbeiträge

  1. Vorschlag einer neuartigen kombinierten Verlustfunktionsmethode: Kombination von Softmax-Kreuzentropie-Verlust mit Center Loss zum Lernen diskriminativer Merkmale aus variabel langen Spektrogrammen
  2. Realisierung von End-to-End-Sprachemotion-Erkennung: Vermeidung der Zwei-Schritt-Strategie bestehender Methoden ohne Notwendigkeit der Konstruktion von Stichprobenpaaren oder Triplets
  3. Erreichung signifikanter Leistungsverbesserungen auf dem IEMOCAP-Datensatz: Verbesserung um mehr als 3% bei Mel-Spektrogramm-Eingaben und mehr als 4% bei STFT-Spektrogramm-Eingaben
  4. Bereitstellung detaillierter Visualisierungsanalysen: Demonstration der Verbesserung der Merkmalsdiskriminativität durch Center Loss mittels PCA-Einbettung

Methodische Details

Aufgabendefinition

Eingabe: Variabel lange Spektrogramme (LT × LF, wobei LT die Zeitdimension und LF die Frequenzdimension ist) Ausgabe: Emotionsklassen-Labels (neutral, angry, happy, sad) Ziel: Lernen diskriminativer Merkmale mit kleiner Klassenvarianz innerhalb der Klasse und großer Varianz zwischen den Klassen

Modellarchitektur

Das Modell besteht aus folgenden Komponenten:

  1. CNN-Schichten: Extraktion räumlicher Informationen aus Spektrogrammen
    • Erste Schicht: 48 Faltungskerne 7×7, Schrittweite 2,2, ReLU-Aktivierung
    • Zweite Schicht: 64 Faltungskerne 3×3, Schrittweite 1,1, ReLU-Aktivierung
    • Dritte Schicht: 80 Faltungskerne 3×3, Schrittweite 1,1, ReLU-Aktivierung
    • Vierte Schicht: 96 Faltungskerne 3×3, Schrittweite 1,1, ReLU-Aktivierung
    • Nach jeder Schicht folgt eine Max-Pooling-Schicht (2×2, Schrittweite 2,2)
  2. Bidirektionale RNN-Schicht (Bi-RNN):
    • Verwendung von 128-dimensionalen GRU-Einheiten
    • Kompression variabel langer Sequenzen zu Vektoren fester Länge (256-dimensional)
    • Verkettung der letzten Ausgaben des vorwärts- und rückwärtsgerichteten RNN
  3. Vollständig verbundene Schichten:
    • FC1: Projektion der Bi-RNN-Ausgabe in den Zielmerkmalsraum (64-dimensional), PReLU-Aktivierung
    • FC2: Ausgabe posteriorer Wahrscheinlichkeiten zur Berechnung des Softmax-Kreuzentropie-Verlusts

Verlustfunktionsdesign

1. Softmax-Kreuzentropie-Verlust

L_s = -1/Σω_yi * Σ(i=1 to m) ω_yi * log(e^(W_yi^T * z_i + b_yi) / Σ(j=1 to n) e^(W_j^T * z_i + b_j))

wobei ω_j die Klassengewichte sind, die zur Behandlung von Klassenunausgeglichenheit verwendet werden.

2. Center Loss

L_c = 1/Σω_yi * Σ(i=1 to m) ω_yi * ||z_i - c_yi||²

wobei c_j das globale Zentrum der j-ten Klasse ist, das wie folgt aktualisiert wird:

c_j^(t+1) = (1-α)c_j^t + α*ċ_j^t  (wenn die j-te Klasse im Mini-Batch vorhanden ist)
c_j^(t+1) = c_j^t                  (wenn die j-te Klasse im Mini-Batch nicht vorhanden ist)

3. Kombinierter Verlust

L = L_s + λL_c

wobei λ ein Hyperparameter zur Ausbalancierung der beiden Verluste ist.

Technische Innovationspunkte

  1. End-to-End-Lernen: Vermeidung der Zwei-Schritt-Strategie traditioneller diskriminativer Lernmethoden
  2. Natürliche Integration: Center Loss kann natürlich in gängige SER-Modelle integriert werden
  3. Keine Stichprobenpaare erforderlich: Keine Notwendigkeit der Konstruktion von Stichprobenpaaren oder Triplets, Vereinfachung des Trainingsprozesses
  4. Behandlung von Klassenunausgeglichenheit: Effektive Behandlung von Datenunausgeglichenheit durch gewichtete Verlustfunktionen

Experimentelle Einrichtung

Datensatz

IEMOCAP-Datensatz:

  • Etwa 12 Stunden Audio- und Videodaten
  • Verwendung von 4 Emotionsklassen: neutral (30,9%), angry (19,9%), happy+excited (29,6%), sad (19,6%)
  • Insgesamt 5531 Äußerungen, happy und excited werden zusammengefasst
  • 5-fache Kreuzvalidierung mit Beibehaltung der Emotionsverteilung

Bewertungsmetriken

  • Ungewichtete Genauigkeit (UA): Durchschnitt der Recall-Raten aller Klassen
  • Gewichtete Genauigkeit (WA): Anzahl korrekt klassifizierter Stichproben dividiert durch Gesamtzahl der Stichproben

Vergleichsmethoden

  • Baseline-Methode: Nur Softmax-Kreuzentropie-Verlust (λ=0)
  • Vorgeschlagene Methode: Kombinierter Softmax-Kreuzentropie-Verlust und Center Loss

Implementierungsdetails

  • Optimierer: Adam, Lernrate 0,0003
  • Batch-Größe: 32
  • Merkmalsdimension: 64-dimensional (FC1-Ausgabe)
  • Spektrogramm-Parameter: Fensterversatz 10 ms, Fensterlänge 40 ms, Abtastrate 16 kHz, DFT-Länge 1024
  • Mel-Spektrogramm: 128 Mel-Bänder
  • Maximale Äußerungslänge: 14 Sekunden

Experimentelle Ergebnisse

Hauptergebnisse

Mel-Spektrogramm-Experimentiergebnisse:

  • Baseline (λ=0): UA=63,80%, WA=61,83%
  • Vorgeschlagene Methode (λ=0,3, α=0,5): UA=66,86%, WA=65,40%
  • Verbesserung: UA-Verbesserung 3,06%, WA-Verbesserung 3,57%

STFT-Spektrogramm-Experimentiergebnisse:

  • Baseline (λ=0): UA=60,98%, WA=58,93%
  • Vorgeschlagene Methode (λ=0,3, α=0,5): UA=65,13%, WA=62,96%
  • Verbesserung: UA-Verbesserung 4,15%, WA-Verbesserung 4,03%

Hyperparameter-Sensitivitätsanalyse

  • α-Parameter: UA und WA sind gegenüber α unempfindlich, die Leistung ist im Bereich 0,1-0,9 relativ stabil
  • λ-Parameter: Optimale Leistung bei λ=0,3, zu große oder zu kleine λ-Werte beeinflussen die Leistung

Visualisierungsanalyse

Die PCA-Dimensionalitätsreduktions-Visualisierung zeigt:

  • Nach Verwendung von Center Loss sind Merkmale derselben Klasse dichter zusammengefasst
  • Die Trennbarkeit zwischen verschiedenen Klassen wird verbessert
  • Trainings- und Testsätze zeigen ähnliche Verbesserungsmuster

Verwechslungsmatrix-Analyse

Nach Einführung des Center Loss steigt die Erkennungsgenauigkeit jeder Emotionsklasse unterschiedlich:

  • Neutral: 57,5%→63,7%
  • Angry: 69,1%→70,5%
  • Happy: 51,1%→55,6%
  • Sad: 77,6%→77,7%

Verwandte Arbeiten

Traditionelle Methoden

  • Statistische Methoden basierend auf handgefertigten Merkmalen
  • Frame-Level-Merkmalsextraktion und Anwendung statistischer Funktionen

Deep-Learning-Methoden

  • Kombination von DNN und Extreme Learning Machines
  • Bidirektionales LSTM für hochstufige Merkmalsdarstellung
  • End-to-End-Lernen aus Rohwellenformen
  • Kombiniertes CNN- und RNN-Lernen aus Spektrogrammen

Diskriminative Lernmethoden

  • Paarweise diskriminative Aufgaben: Verwendung von Kosinus-Ähnlichkeits-Verlust + binärer Kreuzentropie
  • Triplet-Framework: Verwendung von Triplet-Loss zum Lernen diskriminativer Merkmale
  • Vorteile dieser Methode gegenüber diesen Methoden: End-to-End-Lernen ohne Stichprobenpaare

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Center Loss kann die Klassenvarianz innerhalb der Klasse effektiv reduzieren und die Merkmalsdiskriminativität verbessern
  2. Die kombinierte Verlustfunktion erreicht signifikante Leistungsverbesserungen bei beiden Spektrogramm-Eingabetypen
  3. Diese Methode kann natürlich in bestehende SER-Modelle integriert werden, ohne dass ein zusätzlicher Klassifizierer erforderlich ist

Einschränkungen

  1. Hauptfokus auf die Reduzierung der Klassenvarianz innerhalb der Klasse, begrenzte Erforschung der Erhöhung der Klassenvarianz zwischen den Klassen
  2. Validierung nur auf dem IEMOCAP-Datensatz, die Generalisierbarkeit erfordert weitere Verifikation
  3. Bei stark unausgeglichenen Datensätzen müssen Gewichtungsstrategien möglicherweise weiter optimiert werden

Zukünftige Richtungen

Die Autoren schlagen vor, mehr Verlustfunktionsdesigns zu erkunden, insbesondere Methoden zur Erhöhung der Merkmalsvarianz zwischen Klassen, um die SER-Leistung weiter zu verbessern.

Tiefgreifende Bewertung

Stärken

  1. Starke Methodennovation: Erfolgreiche Übertragung des Center Loss aus der Gesichtserkennung auf die Sprachemotion-Erkennung
  2. Strenge Experimentalgestaltung: Einschließlich Hyperparameter-Sensitivitätsanalyse, Visualisierungsverifikation und detaillierter Ablationsstudien
  3. Starke Überzeugungskraft der Ergebnisse: Konsistente Leistungsverbesserungen bei zwei verschiedenen Spektrogramm-Eingabetypen
  4. Klare Schreibweise: Detaillierte Beschreibung technischer Details, genaue mathematische Ausdrücke

Mängel

  1. Einzelner Datensatz: Validierung nur auf dem IEMOCAP-Datensatz, fehlende Verifikation der Generalisierbarkeit über Datensätze hinweg
  2. Begrenzte Vergleichsmethoden: Hauptsächlich Vergleich mit der eigenen Baseline, fehlende detaillierte Vergleiche mit anderen State-of-the-Art-Methoden
  3. Unzureichende theoretische Analyse: Fehlende tiefgreifende theoretische Analyse, warum Center Loss bei SER-Aufgaben effektiv ist
  4. Fehlende Komplexitätsanalyse: Keine Diskussion der Auswirkungen der Einführung von Center Loss auf Trainings- und Inferenzeffizienz

Einflussfähigkeit

  1. Technischer Beitrag: Bietet eine einfache und effektive Merkmalslernmethode für die Sprachemotion-Erkennung
  2. Praktischer Wert: Methode ist leicht zu implementieren und zu integrieren mit guter Praktikabilität
  3. Reproduzierbarkeit: Ausreichend detaillierte technische Beschreibung ermöglicht einfache Reproduktion

Anwendungsszenarien

  1. Anwendbar auf verschiedene spektrogrammbasierte Sprachemotion-Erkennungsaufgaben
  2. Besonders geeignet für die Verarbeitung von Emotionsdatensätzen mit Klassenunausgeglichenheit
  3. Kann als Leistungsverbesserungsmodul für bestehende SER-Systeme dienen

Referenzen

Das Paper zitiert 19 verwandte Referenzen, die traditionelle Methoden der Sprachemotion-Erkennung, Deep-Learning-Methoden sowie diskriminatives Merkmalslernen abdecken und eine ausreichende theoretische Grundlage und technische Vergleiche für die Forschung bieten.


Gesamtbewertung: Dies ist ein technisch solides und experimentell umfassendes Paper, das Center Loss erfolgreich in die Sprachemotion-Erkennung einführt und signifikante Leistungsverbesserungen erreicht. Obwohl es noch Raum für Verbesserungen in theoretischer Analyse und datensatzübergreifender Validierung gibt, machen die einfache und effektive Methode sowie die konsistenten experimentellen Ergebnisse es zu einem Paper mit guter akademischer und praktischer Bedeutung.