2025-11-18T20:58:12.950706

learning discriminative features from spectrograms using center loss for speech emotion recognition

Dai, Wu, Li et al.
Identifying the emotional state from speech is essential for the natural interaction of the machine with the speaker. However, extracting effective features for emotion recognition is difficult, as emotions are ambiguous. We propose a novel approach to learn discriminative features from variable length spectrograms for emotion recognition by cooperating softmax cross-entropy loss and center loss together. The softmax cross-entropy loss enables features from different emotion categories separable, and center loss efficiently pulls the features belonging to the same emotion category to their center. By combining the two losses together, the discriminative power will be highly enhanced, which leads to network learning more effective features for emotion recognition. As demonstrated by the experimental results, after introducing center loss, both the unweighted accuracy and weighted accuracy are improved by over 3\% on Mel-spectrogram input, and more than 4\% on Short Time Fourier Transform spectrogram input.
academic

Apprentissage de caractéristiques discriminantes à partir de spectrogrammes utilisant la perte de centre pour la reconnaissance des émotions vocales

Informations de base

  • ID de l'article: 2501.01103
  • Titre: Learning Discriminative Features from Spectrograms Using Center Loss for Speech Emotion Recognition
  • Auteurs: Dongyang Dai, Zhiyong Wu, Runnan Li, Xixin Wu, Jia Jia, Helen Meng
  • Classification: eess.AS (Traitement audio et vocal), cs.AI (Intelligence artificielle), cs.SD (Son)
  • Date de publication: 2 janvier 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2501.01103

Résumé

Cet article aborde le problème de la difficulté d'extraction de caractéristiques causée par l'ambiguïté des émotions dans la reconnaissance des émotions vocales. Les auteurs proposent une nouvelle méthode combinant la perte d'entropie croisée softmax et la perte de centre (center loss) pour apprendre des caractéristiques discriminantes à partir de spectrogrammes de longueur variable. La perte d'entropie croisée softmax rend les caractéristiques de différentes classes d'émotions séparables, tandis que la perte de centre rapproche efficacement les caractéristiques de la même classe d'émotion vers leur centre. Les résultats expérimentaux montrent que l'introduction de la perte de centre améliore la précision non pondérée et la précision pondérée de plus de 3% sur les entrées de spectrogrammes Mel, et de plus de 4% sur les entrées de spectrogrammes de transformée de Fourier à court terme (STFT).

Contexte et motivation de la recherche

1. Définition du problème

La reconnaissance des émotions vocales (SER) est une technologie clé pour l'interaction naturelle homme-machine, nécessitant l'extraction de caractéristiques à partir de formes d'onde vocales et leur classification dans les catégories d'émotions correspondantes. Cependant, l'ambiguïté naturelle des émotions rend difficile l'extraction de caractéristiques efficaces.

2. Importance du problème

  • La reconnaissance des émotions vocales est essentielle pour réaliser une interaction homme-machine naturelle
  • Différents types d'émotions peuvent être confus, augmentant la difficulté d'extraction de caractéristiques efficaces
  • Les méthodes traditionnelles présentent des limitations dans la gestion de l'ambiguïté des émotions

3. Limitations des méthodes existantes

  • Méthodes traditionnelles: Extraction de caractéristiques au niveau des trames à partir de trames chevauchantes, puis application de fonctions statistiques, avec une capacité d'expression limitée
  • Méthodes d'apprentissage profond existantes: Bien qu'elles exploitent les réseaux de neurones pour extraire des caractéristiques de haut niveau, elles restent insuffisantes pour gérer l'ambiguïté des émotions
  • Méthodes d'apprentissage discriminant existantes: Les approches utilisant la perte de similarité cosinus et la perte de triplet adoptent une stratégie en deux étapes, ce qui peut entraîner une dégradation des performances et dépend de la stratégie de sélection des paires d'échantillons ou des triplets

4. Motivation de la recherche

Proposer une méthode bout en bout qui apprend des caractéristiques discriminantes par des fonctions de perte supervisées conjointes (perte d'entropie croisée softmax + perte de centre), évitant les problèmes d'incohérence des stratégies en deux étapes.

Contributions principales

  1. Proposition d'une nouvelle méthode de fonction de perte conjointe: Combinaison de la perte d'entropie croisée softmax et de la perte de centre pour apprendre des caractéristiques discriminantes à partir de spectrogrammes de longueur variable
  2. Réalisation d'une reconnaissance des émotions vocales bout en bout: Évite les problèmes de stratégie en deux étapes des méthodes existantes, sans nécessité de construire des paires d'échantillons ou des triplets
  3. Amélioration significative des performances sur l'ensemble de données IEMOCAP: Amélioration de plus de 3% pour les entrées de spectrogrammes Mel, et de plus de 4% pour les entrées de spectrogrammes STFT
  4. Fourniture d'une analyse de visualisation détaillée: Démonstration de l'effet d'amélioration de la perte de centre sur la discriminabilité des caractéristiques par intégration PCA

Détails de la méthode

Définition de la tâche

Entrée: Spectrogramme de longueur variable (LT × LF, où LT est la dimension temporelle et LF est la dimension fréquentielle) Sortie: Étiquette de classe d'émotion (neutre, en colère, heureux, triste) Objectif: Apprendre des caractéristiques discriminantes avec une faible variance intra-classe et une grande variance inter-classe

Architecture du modèle

Le modèle comprend les composants suivants:

  1. Couches CNN: Extraction d'informations spatiales du spectrogramme
    • Première couche: 48 noyaux de convolution 7×7, pas 2,2, activation ReLU
    • Deuxième couche: 64 noyaux de convolution 3×3, pas 1,1, activation ReLU
    • Troisième couche: 80 noyaux de convolution 3×3, pas 1,1, activation ReLU
    • Quatrième couche: 96 noyaux de convolution 3×3, pas 1,1, activation ReLU
    • Chaque couche est suivie d'une couche de mise en commun maximale (2×2, pas 2,2)
  2. Couche RNN bidirectionnelle (Bi-RNN):
    • Utilisation d'unités GRU de 128 dimensions
    • Compression de séquences de longueur variable en vecteur de longueur fixe (256 dimensions)
    • Concaténation des dernières sorties des RNN avant et arrière
  3. Couches entièrement connectées:
    • FC1: Projection de la sortie Bi-RNN vers l'espace de caractéristiques cible (64 dimensions), activation PReLU
    • FC2: Sortie des probabilités postérieures, utilisée pour calculer la perte d'entropie croisée softmax

Conception de la fonction de perte

1. Perte d'entropie croisée softmax

L_s = -1/Σω_yi * Σ(i=1 to m) ω_yi * log(e^(W_yi^T * z_i + b_yi) / Σ(j=1 to n) e^(W_j^T * z_i + b_j))

où ω_j est le poids de la classe, utilisé pour traiter le problème du déséquilibre des classes.

2. Perte de centre

L_c = 1/Σω_yi * Σ(i=1 to m) ω_yi * ||z_i - c_yi||²

où c_j est le centre global de la j-ème classe, mis à jour de la manière suivante:

c_j^(t+1) = (1-α)c_j^t + α*ċ_j^t  (lorsque la j-ème classe est présente dans le mini-batch)
c_j^(t+1) = c_j^t                  (lorsque la j-ème classe est absente du mini-batch)

3. Perte conjointe

L = L_s + λL_c

où λ est l'hyperparamètre d'équilibre entre les deux pertes.

Points d'innovation technique

  1. Apprentissage bout en bout: Évite les problèmes de stratégie en deux étapes des méthodes d'apprentissage discriminant traditionnelles
  2. Intégration naturelle: La perte de centre peut être intégrée naturellement dans les modèles SER courants
  3. Pas d'appariement d'échantillons: Pas besoin de construire des paires d'échantillons ou des triplets, simplifiant le processus d'entraînement
  4. Gestion du déséquilibre des classes: Traitement efficace du déséquilibre des données par des fonctions de perte pondérées

Configuration expérimentale

Ensemble de données

Ensemble de données IEMOCAP:

  • Environ 12 heures de données audio-vidéo
  • Utilisation de 4 classes d'émotions: neutre (30,9%), en colère (19,9%), heureux+excité (29,6%), triste (19,6%)
  • Total de 5531 énoncés, heureux et excité fusionnés
  • Validation croisée 5 fois, maintenant la distribution des émotions

Métriques d'évaluation

  • Précision non pondérée (UA): Moyenne des taux de rappel de chaque classe
  • Précision pondérée (WA): Nombre d'échantillons correctement classifiés divisé par le nombre total d'échantillons

Méthodes de comparaison

  • Méthode de base: Utilisation uniquement de la perte d'entropie croisée softmax (λ=0)
  • Méthode proposée: Perte d'entropie croisée softmax conjointe et perte de centre

Détails de mise en œuvre

  • Optimiseur: Adam, taux d'apprentissage 0,0003
  • Taille du lot: 32
  • Dimension des caractéristiques: 64 dimensions (sortie FC1)
  • Paramètres du spectrogramme: Décalage de fenêtre 10 ms, longueur de fenêtre 40 ms, fréquence d'échantillonnage 16 kHz, longueur DFT 1024
  • Spectrogramme Mel: 128 bandes Mel
  • Longueur maximale d'énoncé: 14 secondes

Résultats expérimentaux

Résultats principaux

Résultats expérimentaux du spectrogramme Mel:

  • Ligne de base (λ=0): UA=63,80%, WA=61,83%
  • Méthode proposée (λ=0,3, α=0,5): UA=66,86%, WA=65,40%
  • Amélioration: UA amélioration de 3,06%, WA amélioration de 3,57%

Résultats expérimentaux du spectrogramme STFT:

  • Ligne de base (λ=0): UA=60,98%, WA=58,93%
  • Méthode proposée (λ=0,3, α=0,5): UA=65,13%, WA=62,96%
  • Amélioration: UA amélioration de 4,15%, WA amélioration de 4,03%

Analyse de sensibilité des hyperparamètres

  • Paramètre α: UA et WA sont peu sensibles à α, avec des performances relativement stables dans la plage 0,1-0,9
  • Paramètre λ: Performance optimale atteinte à λ=0,3, les performances se dégradent si λ est trop grand ou trop petit

Analyse de visualisation

La visualisation par réduction PCA montre:

  • Après utilisation de la perte de centre, les caractéristiques de la même classe sont plus étroitement regroupées
  • Le degré de séparation entre différentes classes est amélioré
  • L'ensemble d'entraînement et l'ensemble de test présentent des modèles d'amélioration similaires

Analyse de la matrice de confusion

Après introduction de la perte de centre, la précision de reconnaissance de chaque classe d'émotion s'améliore à différents degrés:

  • Neutre: 57,5%→63,7%
  • En colère: 69,1%→70,5%
  • Heureux: 51,1%→55,6%
  • Triste: 77,6%→77,7%

Travaux connexes

Méthodes traditionnelles

  • Méthodes statistiques basées sur des caractéristiques manuelles
  • Extraction de caractéristiques au niveau des trames et application de fonctions statistiques

Méthodes d'apprentissage profond

  • Combinaison de DNN et machine d'apprentissage extrême
  • LSTM bidirectionnel pour la représentation de caractéristiques de haut niveau
  • Apprentissage de forme d'onde brute bout en bout
  • Apprentissage de spectrogramme combinant CNN et RNN

Méthodes d'apprentissage discriminant

  • Tâches discriminantes par paires: Utilisation de perte de similarité cosinus + entropie croisée binaire
  • Cadre de triplet: Utilisation de perte de triplet pour apprendre des caractéristiques discriminantes
  • Avantages de la méthode proposée par rapport à ces méthodes: Apprentissage bout en bout, pas d'appariement d'échantillons

Conclusions et discussion

Conclusions principales

  1. La perte de centre peut réduire efficacement la variance intra-classe et améliorer la discriminabilité des caractéristiques
  2. La fonction de perte conjointe améliore significativement les performances sur les deux types d'entrées de spectrogrammes
  3. Cette méthode peut être intégrée naturellement dans les modèles SER existants sans nécessiter de classificateur supplémentaire

Limitations

  1. Accent principal sur la réduction de la variance intra-classe, exploration limitée de l'augmentation de la variance inter-classe
  2. Validation uniquement sur l'ensemble de données IEMOCAP, la généralisation nécessite une vérification supplémentaire
  3. Pour les ensembles de données extrêmement déséquilibrés, la stratégie pondérée peut nécessiter une optimisation supplémentaire

Directions futures

Les auteurs proposent d'explorer davantage de conceptions de fonctions de perte, en particulier les méthodes d'augmentation de la variance inter-classe des caractéristiques, pour améliorer davantage les performances de SER.

Évaluation approfondie

Avantages

  1. Forte innovativité de la méthode: Transfert réussi de la perte de centre du domaine de la reconnaissance faciale vers la reconnaissance des émotions vocales
  2. Conception expérimentale rigoureuse: Incluant l'analyse de sensibilité des hyperparamètres, la vérification par visualisation et des expériences d'ablation détaillées
  3. Résultats convaincants: Amélioration cohérente des performances sur deux types d'entrées de spectrogrammes différents
  4. Rédaction claire: Description détaillée des détails techniques, expression précise des formules mathématiques

Insuffisances

  1. Ensemble de données unique: Validation uniquement sur l'ensemble de données IEMOCAP, manque de vérification de la généralisation inter-ensembles de données
  2. Méthodes de comparaison limitées: Comparaison principalement avec la ligne de base propre, manque de comparaison détaillée avec d'autres méthodes SOTA
  3. Analyse théorique insuffisante: Manque d'analyse théorique approfondie sur la raison pour laquelle la perte de centre est efficace dans les tâches SER
  4. Analyse de complexité de calcul manquante: Discussion non abordée sur l'impact de l'introduction de la perte de centre sur l'efficacité de l'entraînement et de l'inférence

Impact

  1. Contribution technique: Fourniture d'une méthode d'apprentissage de caractéristiques simple et efficace pour la reconnaissance des émotions vocales
  2. Valeur pratique: Méthode facile à mettre en œuvre et à intégrer, avec une bonne praticité
  3. Reproductibilité: Description suffisante des détails techniques, facilitant la reproduction

Scénarios applicables

  1. Applicable à diverses tâches de reconnaissance des émotions vocales basées sur des spectrogrammes
  2. Particulièrement adapté au traitement des ensembles de données d'émotions avec déséquilibre des classes
  3. Peut servir de module d'amélioration des performances pour les systèmes SER existants

Références

L'article cite 19 références connexes, couvrant les méthodes traditionnelles de reconnaissance des émotions vocales, les méthodes d'apprentissage profond et l'apprentissage de caractéristiques discriminantes, fournissant une base théorique et une comparaison technique suffisantes pour la recherche.


Évaluation globale: Cet article est techniquement solide et expérimentalement complet, intégrant avec succès la perte de centre dans le domaine de la reconnaissance des émotions vocales et obtenant une amélioration significative des performances. Bien qu'il y ait encore de la place pour l'amélioration dans l'analyse théorique et la vérification inter-ensembles de données, sa méthode simple et efficace et ses résultats expérimentaux cohérents lui confèrent une bonne valeur académique et pratique.