learning discriminative features from spectrograms using center loss for speech emotion recognition
Dai, Wu, Li et al.
Identifying the emotional state from speech is essential for the natural interaction of the machine with the speaker. However, extracting effective features for emotion recognition is difficult, as emotions are ambiguous. We propose a novel approach to learn discriminative features from variable length spectrograms for emotion recognition by cooperating softmax cross-entropy loss and center loss together. The softmax cross-entropy loss enables features from different emotion categories separable, and center loss efficiently pulls the features belonging to the same emotion category to their center. By combining the two losses together, the discriminative power will be highly enhanced, which leads to network learning more effective features for emotion recognition. As demonstrated by the experimental results, after introducing center loss, both the unweighted accuracy and weighted accuracy are improved by over 3\% on Mel-spectrogram input, and more than 4\% on Short Time Fourier Transform spectrogram input.
academic
Lernen diskriminativer Merkmale aus Spektrogrammen mittels Center Loss für die Sprachemotion-Erkennung
Dieses Paper adressiert das Problem der Mehrdeutigkeit von Emotionen bei der Sprachemotion-Erkennung, die zu Schwierigkeiten bei der Merkmalsextraktion führt. Es wird eine neue Methode vorgeschlagen, die Softmax-Kreuzentropie-Verlust und Center Loss kombiniert, um diskriminative Merkmale aus variabel langen Spektrogrammen zu lernen. Der Softmax-Kreuzentropie-Verlust ermöglicht die Trennung von Merkmalen verschiedener Emotionsklassen, während der Center Loss effektiv Merkmale derselben Emotionsklasse zu ihrem Zentrum zieht. Die experimentellen Ergebnisse zeigen, dass nach Einführung des Center Loss die ungewichtete Genauigkeit und gewichtete Genauigkeit bei Mel-Spektrogramm-Eingaben um mehr als 3% ansteigen und bei Kurzzeit-Fourier-Transformation (STFT)-Spektrogramm-Eingaben um mehr als 4% ansteigen.
Die Sprachemotion-Erkennung (SER) ist eine Schlüsseltechnologie für natürliche Mensch-Maschine-Interaktion, die das Extrahieren von Merkmalen aus Sprachsignalen und deren Klassifizierung in entsprechende Emotionskategorien erfordert. Die natürliche Mehrdeutigkeit von Emotionen macht jedoch die Extraktion effektiver Merkmale schwierig.
Traditionelle Methoden: Extrahieren Frame-Level-Merkmale aus überlappenden Frames und wenden dann statistische Funktionen an; die Ausdrucksfähigkeit der Merkmale ist begrenzt
Bestehende Deep-Learning-Methoden: Nutzen zwar neuronale Netze zur Extraktion hochstufiger Merkmale, sind aber bei der Behandlung von Emotionsmehrdeutigkeit noch unzureichend
Bestehende diskriminative Lernmethoden: Methoden wie Kosinus-Ähnlichkeits-Verlust und Triplet-Loss verwenden eine Zwei-Schritt-Strategie, die zu Leistungsabfällen führen kann und von der Auswahl von Stichprobenpaaren oder Triplets abhängt
Vorschlag einer End-to-End-Methode, die durch kombinierte überwachte Verlustfunktionen (Softmax-Kreuzentropie-Verlust + Center Loss) diskriminative Merkmale lernt und die Inkonsistenzprobleme der Zwei-Schritt-Strategie vermeidet.
Vorschlag einer neuartigen kombinierten Verlustfunktionsmethode: Kombination von Softmax-Kreuzentropie-Verlust mit Center Loss zum Lernen diskriminativer Merkmale aus variabel langen Spektrogrammen
Realisierung von End-to-End-Sprachemotion-Erkennung: Vermeidung der Zwei-Schritt-Strategie bestehender Methoden ohne Notwendigkeit der Konstruktion von Stichprobenpaaren oder Triplets
Erreichung signifikanter Leistungsverbesserungen auf dem IEMOCAP-Datensatz: Verbesserung um mehr als 3% bei Mel-Spektrogramm-Eingaben und mehr als 4% bei STFT-Spektrogramm-Eingaben
Bereitstellung detaillierter Visualisierungsanalysen: Demonstration der Verbesserung der Merkmalsdiskriminativität durch Center Loss mittels PCA-Einbettung
Eingabe: Variabel lange Spektrogramme (LT × LF, wobei LT die Zeitdimension und LF die Frequenzdimension ist)
Ausgabe: Emotionsklassen-Labels (neutral, angry, happy, sad)
Ziel: Lernen diskriminativer Merkmale mit kleiner Klassenvarianz innerhalb der Klasse und großer Varianz zwischen den Klassen
L_c = 1/Σω_yi * Σ(i=1 to m) ω_yi * ||z_i - c_yi||²
wobei c_j das globale Zentrum der j-ten Klasse ist, das wie folgt aktualisiert wird:
c_j^(t+1) = (1-α)c_j^t + α*ċ_j^t (wenn die j-te Klasse im Mini-Batch vorhanden ist)
c_j^(t+1) = c_j^t (wenn die j-te Klasse im Mini-Batch nicht vorhanden ist)
Die Autoren schlagen vor, mehr Verlustfunktionsdesigns zu erkunden, insbesondere Methoden zur Erhöhung der Merkmalsvarianz zwischen Klassen, um die SER-Leistung weiter zu verbessern.
Das Paper zitiert 19 verwandte Referenzen, die traditionelle Methoden der Sprachemotion-Erkennung, Deep-Learning-Methoden sowie diskriminatives Merkmalslernen abdecken und eine ausreichende theoretische Grundlage und technische Vergleiche für die Forschung bieten.
Gesamtbewertung: Dies ist ein technisch solides und experimentell umfassendes Paper, das Center Loss erfolgreich in die Sprachemotion-Erkennung einführt und signifikante Leistungsverbesserungen erreicht. Obwohl es noch Raum für Verbesserungen in theoretischer Analyse und datensatzübergreifender Validierung gibt, machen die einfache und effektive Methode sowie die konsistenten experimentellen Ergebnisse es zu einem Paper mit guter akademischer und praktischer Bedeutung.