learning discriminative features from spectrograms using center loss for speech emotion recognition
Dai, Wu, Li et al.
Identifying the emotional state from speech is essential for the natural interaction of the machine with the speaker. However, extracting effective features for emotion recognition is difficult, as emotions are ambiguous. We propose a novel approach to learn discriminative features from variable length spectrograms for emotion recognition by cooperating softmax cross-entropy loss and center loss together. The softmax cross-entropy loss enables features from different emotion categories separable, and center loss efficiently pulls the features belonging to the same emotion category to their center. By combining the two losses together, the discriminative power will be highly enhanced, which leads to network learning more effective features for emotion recognition. As demonstrated by the experimental results, after introducing center loss, both the unweighted accuracy and weighted accuracy are improved by over 3\% on Mel-spectrogram input, and more than 4\% on Short Time Fourier Transform spectrogram input.
academic
Apprentissage de caractéristiques discriminantes à partir de spectrogrammes utilisant la perte de centre pour la reconnaissance des émotions vocales
Cet article aborde le problème de la difficulté d'extraction de caractéristiques causée par l'ambiguïté des émotions dans la reconnaissance des émotions vocales. Les auteurs proposent une nouvelle méthode combinant la perte d'entropie croisée softmax et la perte de centre (center loss) pour apprendre des caractéristiques discriminantes à partir de spectrogrammes de longueur variable. La perte d'entropie croisée softmax rend les caractéristiques de différentes classes d'émotions séparables, tandis que la perte de centre rapproche efficacement les caractéristiques de la même classe d'émotion vers leur centre. Les résultats expérimentaux montrent que l'introduction de la perte de centre améliore la précision non pondérée et la précision pondérée de plus de 3% sur les entrées de spectrogrammes Mel, et de plus de 4% sur les entrées de spectrogrammes de transformée de Fourier à court terme (STFT).
La reconnaissance des émotions vocales (SER) est une technologie clé pour l'interaction naturelle homme-machine, nécessitant l'extraction de caractéristiques à partir de formes d'onde vocales et leur classification dans les catégories d'émotions correspondantes. Cependant, l'ambiguïté naturelle des émotions rend difficile l'extraction de caractéristiques efficaces.
Méthodes traditionnelles: Extraction de caractéristiques au niveau des trames à partir de trames chevauchantes, puis application de fonctions statistiques, avec une capacité d'expression limitée
Méthodes d'apprentissage profond existantes: Bien qu'elles exploitent les réseaux de neurones pour extraire des caractéristiques de haut niveau, elles restent insuffisantes pour gérer l'ambiguïté des émotions
Méthodes d'apprentissage discriminant existantes: Les approches utilisant la perte de similarité cosinus et la perte de triplet adoptent une stratégie en deux étapes, ce qui peut entraîner une dégradation des performances et dépend de la stratégie de sélection des paires d'échantillons ou des triplets
Proposer une méthode bout en bout qui apprend des caractéristiques discriminantes par des fonctions de perte supervisées conjointes (perte d'entropie croisée softmax + perte de centre), évitant les problèmes d'incohérence des stratégies en deux étapes.
Proposition d'une nouvelle méthode de fonction de perte conjointe: Combinaison de la perte d'entropie croisée softmax et de la perte de centre pour apprendre des caractéristiques discriminantes à partir de spectrogrammes de longueur variable
Réalisation d'une reconnaissance des émotions vocales bout en bout: Évite les problèmes de stratégie en deux étapes des méthodes existantes, sans nécessité de construire des paires d'échantillons ou des triplets
Amélioration significative des performances sur l'ensemble de données IEMOCAP: Amélioration de plus de 3% pour les entrées de spectrogrammes Mel, et de plus de 4% pour les entrées de spectrogrammes STFT
Fourniture d'une analyse de visualisation détaillée: Démonstration de l'effet d'amélioration de la perte de centre sur la discriminabilité des caractéristiques par intégration PCA
Entrée: Spectrogramme de longueur variable (LT × LF, où LT est la dimension temporelle et LF est la dimension fréquentielle)
Sortie: Étiquette de classe d'émotion (neutre, en colère, heureux, triste)
Objectif: Apprendre des caractéristiques discriminantes avec une faible variance intra-classe et une grande variance inter-classe
L_c = 1/Σω_yi * Σ(i=1 to m) ω_yi * ||z_i - c_yi||²
où c_j est le centre global de la j-ème classe, mis à jour de la manière suivante:
c_j^(t+1) = (1-α)c_j^t + α*ċ_j^t (lorsque la j-ème classe est présente dans le mini-batch)
c_j^(t+1) = c_j^t (lorsque la j-ème classe est absente du mini-batch)
Les auteurs proposent d'explorer davantage de conceptions de fonctions de perte, en particulier les méthodes d'augmentation de la variance inter-classe des caractéristiques, pour améliorer davantage les performances de SER.
Forte innovativité de la méthode: Transfert réussi de la perte de centre du domaine de la reconnaissance faciale vers la reconnaissance des émotions vocales
Conception expérimentale rigoureuse: Incluant l'analyse de sensibilité des hyperparamètres, la vérification par visualisation et des expériences d'ablation détaillées
Résultats convaincants: Amélioration cohérente des performances sur deux types d'entrées de spectrogrammes différents
Rédaction claire: Description détaillée des détails techniques, expression précise des formules mathématiques
Ensemble de données unique: Validation uniquement sur l'ensemble de données IEMOCAP, manque de vérification de la généralisation inter-ensembles de données
Méthodes de comparaison limitées: Comparaison principalement avec la ligne de base propre, manque de comparaison détaillée avec d'autres méthodes SOTA
Analyse théorique insuffisante: Manque d'analyse théorique approfondie sur la raison pour laquelle la perte de centre est efficace dans les tâches SER
Analyse de complexité de calcul manquante: Discussion non abordée sur l'impact de l'introduction de la perte de centre sur l'efficacité de l'entraînement et de l'inférence
L'article cite 19 références connexes, couvrant les méthodes traditionnelles de reconnaissance des émotions vocales, les méthodes d'apprentissage profond et l'apprentissage de caractéristiques discriminantes, fournissant une base théorique et une comparaison technique suffisantes pour la recherche.
Évaluation globale: Cet article est techniquement solide et expérimentalement complet, intégrant avec succès la perte de centre dans le domaine de la reconnaissance des émotions vocales et obtenant une amélioration significative des performances. Bien qu'il y ait encore de la place pour l'amélioration dans l'analyse théorique et la vérification inter-ensembles de données, sa méthode simple et efficace et ses résultats expérimentaux cohérents lui confèrent une bonne valeur académique et pratique.