2025-11-18T20:58:12.950706

learning discriminative features from spectrograms using center loss for speech emotion recognition

Dai, Wu, Li et al.

Identifying the emotional state from speech is essential for the natural interaction of the machine with the speaker. However, extracting effective features for emotion recognition is difficult, as emotions are ambiguous. We propose a novel approach to learn discriminative features from variable length spectrograms for emotion recognition by cooperating softmax cross-entropy loss and center loss together. The softmax cross-entropy loss enables features from different emotion categories separable, and center loss efficiently pulls the features belonging to the same emotion category to their center. By combining the two losses together, the discriminative power will be highly enhanced, which leads to network learning more effective features for emotion recognition. As demonstrated by the experimental results, after introducing center loss, both the unweighted accuracy and weighted accuracy are improved by over 3\% on Mel-spectrogram input, and more than 4\% on Short Time Fourier Transform spectrogram input.

academic

Apprentissage de caractéristiques discriminantes à partir de spectrogrammes utilisant la perte de centre pour la reconnaissance des émotions vocales

Informations de base

ID de l'article: 2501.01103
Titre: Learning Discriminative Features from Spectrograms Using Center Loss for Speech Emotion Recognition
Auteurs: Dongyang Dai, Zhiyong Wu, Runnan Li, Xixin Wu, Jia Jia, Helen Meng
Classification: eess.AS (Traitement audio et vocal), cs.AI (Intelligence artificielle), cs.SD (Son)
Date de publication: 2 janvier 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2501.01103

Résumé

Cet article aborde le problème de la difficulté d'extraction de caractéristiques causée par l'ambiguïté des émotions dans la reconnaissance des émotions vocales. Les auteurs proposent une nouvelle méthode combinant la perte d'entropie croisée softmax et la perte de centre (center loss) pour apprendre des caractéristiques discriminantes à partir de spectrogrammes de longueur variable. La perte d'entropie croisée softmax rend les caractéristiques de différentes classes d'émotions séparables, tandis que la perte de centre rapproche efficacement les caractéristiques de la même classe d'émotion vers leur centre. Les résultats expérimentaux montrent que l'introduction de la perte de centre améliore la précision non pondérée et la précision pondérée de plus de 3% sur les entrées de spectrogrammes Mel, et de plus de 4% sur les entrées de spectrogrammes de transformée de Fourier à court terme (STFT).

Contexte et motivation de la recherche

1. Définition du problème

La reconnaissance des émotions vocales (SER) est une technologie clé pour l'interaction naturelle homme-machine, nécessitant l'extraction de caractéristiques à partir de formes d'onde vocales et leur classification dans les catégories d'émotions correspondantes. Cependant, l'ambiguïté naturelle des émotions rend difficile l'extraction de caractéristiques efficaces.

2. Importance du problème

La reconnaissance des émotions vocales est essentielle pour réaliser une interaction homme-machine naturelle
Différents types d'émotions peuvent être confus, augmentant la difficulté d'extraction de caractéristiques efficaces
Les méthodes traditionnelles présentent des limitations dans la gestion de l'ambiguïté des émotions

3. Limitations des méthodes existantes

Méthodes traditionnelles: Extraction de caractéristiques au niveau des trames à partir de trames chevauchantes, puis application de fonctions statistiques, avec une capacité d'expression limitée
Méthodes d'apprentissage profond existantes: Bien qu'elles exploitent les réseaux de neurones pour extraire des caractéristiques de haut niveau, elles restent insuffisantes pour gérer l'ambiguïté des émotions
Méthodes d'apprentissage discriminant existantes: Les approches utilisant la perte de similarité cosinus et la perte de triplet adoptent une stratégie en deux étapes, ce qui peut entraîner une dégradation des performances et dépend de la stratégie de sélection des paires d'échantillons ou des triplets

4. Motivation de la recherche

Proposer une méthode bout en bout qui apprend des caractéristiques discriminantes par des fonctions de perte supervisées conjointes (perte d'entropie croisée softmax + perte de centre), évitant les problèmes d'incohérence des stratégies en deux étapes.

Contributions principales

Proposition d'une nouvelle méthode de fonction de perte conjointe: Combinaison de la perte d'entropie croisée softmax et de la perte de centre pour apprendre des caractéristiques discriminantes à partir de spectrogrammes de longueur variable
Réalisation d'une reconnaissance des émotions vocales bout en bout: Évite les problèmes de stratégie en deux étapes des méthodes existantes, sans nécessité de construire des paires d'échantillons ou des triplets
Amélioration significative des performances sur l'ensemble de données IEMOCAP: Amélioration de plus de 3% pour les entrées de spectrogrammes Mel, et de plus de 4% pour les entrées de spectrogrammes STFT
Fourniture d'une analyse de visualisation détaillée: Démonstration de l'effet d'amélioration de la perte de centre sur la discriminabilité des caractéristiques par intégration PCA

Détails de la méthode

Définition de la tâche

Entrée: Spectrogramme de longueur variable (LT × LF, où LT est la dimension temporelle et LF est la dimension fréquentielle) Sortie: Étiquette de classe d'émotion (neutre, en colère, heureux, triste) Objectif: Apprendre des caractéristiques discriminantes avec une faible variance intra-classe et une grande variance inter-classe

Architecture du modèle

Le modèle comprend les composants suivants:

Couches CNN: Extraction d'informations spatiales du spectrogramme
- Première couche: 48 noyaux de convolution 7×7, pas 2,2, activation ReLU
- Deuxième couche: 64 noyaux de convolution 3×3, pas 1,1, activation ReLU
- Troisième couche: 80 noyaux de convolution 3×3, pas 1,1, activation ReLU
- Quatrième couche: 96 noyaux de convolution 3×3, pas 1,1, activation ReLU
- Chaque couche est suivie d'une couche de mise en commun maximale (2×2, pas 2,2)
Couche RNN bidirectionnelle (Bi-RNN):
- Utilisation d'unités GRU de 128 dimensions
- Compression de séquences de longueur variable en vecteur de longueur fixe (256 dimensions)
- Concaténation des dernières sorties des RNN avant et arrière
Couches entièrement connectées:
- FC1: Projection de la sortie Bi-RNN vers l'espace de caractéristiques cible (64 dimensions), activation PReLU
- FC2: Sortie des probabilités postérieures, utilisée pour calculer la perte d'entropie croisée softmax

Conception de la fonction de perte

1. Perte d'entropie croisée softmax

L_s = -1/Σω_yi * Σ(i=1 to m) ω_yi * log(e^(W_yi^T * z_i + b_yi) / Σ(j=1 to n) e^(W_j^T * z_i + b_j))

où ω_j est le poids de la classe, utilisé pour traiter le problème du déséquilibre des classes.

2. Perte de centre

L_c = 1/Σω_yi * Σ(i=1 to m) ω_yi * ||z_i - c_yi||²

où c_j est le centre global de la j-ème classe, mis à jour de la manière suivante:

c_j^(t+1) = (1-α)c_j^t + α*ċ_j^t  (lorsque la j-ème classe est présente dans le mini-batch)
c_j^(t+1) = c_j^t                  (lorsque la j-ème classe est absente du mini-batch)

3. Perte conjointe

L = L_s + λL_c

où λ est l'hyperparamètre d'équilibre entre les deux pertes.

Points d'innovation technique

Apprentissage bout en bout: Évite les problèmes de stratégie en deux étapes des méthodes d'apprentissage discriminant traditionnelles
Intégration naturelle: La perte de centre peut être intégrée naturellement dans les modèles SER courants
Pas d'appariement d'échantillons: Pas besoin de construire des paires d'échantillons ou des triplets, simplifiant le processus d'entraînement
Gestion du déséquilibre des classes: Traitement efficace du déséquilibre des données par des fonctions de perte pondérées

Configuration expérimentale

Ensemble de données

Ensemble de données IEMOCAP:

Environ 12 heures de données audio-vidéo
Utilisation de 4 classes d'émotions: neutre (30,9%), en colère (19,9%), heureux+excité (29,6%), triste (19,6%)
Total de 5531 énoncés, heureux et excité fusionnés
Validation croisée 5 fois, maintenant la distribution des émotions

Métriques d'évaluation

Précision non pondérée (UA): Moyenne des taux de rappel de chaque classe
Précision pondérée (WA): Nombre d'échantillons correctement classifiés divisé par le nombre total d'échantillons

Méthodes de comparaison

Méthode de base: Utilisation uniquement de la perte d'entropie croisée softmax (λ=0)
Méthode proposée: Perte d'entropie croisée softmax conjointe et perte de centre

Détails de mise en œuvre

Optimiseur: Adam, taux d'apprentissage 0,0003
Taille du lot: 32
Dimension des caractéristiques: 64 dimensions (sortie FC1)
Paramètres du spectrogramme: Décalage de fenêtre 10 ms, longueur de fenêtre 40 ms, fréquence d'échantillonnage 16 kHz, longueur DFT 1024
Spectrogramme Mel: 128 bandes Mel
Longueur maximale d'énoncé: 14 secondes

Résultats expérimentaux

Résultats principaux

Résultats expérimentaux du spectrogramme Mel:

Ligne de base (λ=0): UA=63,80%, WA=61,83%
Méthode proposée (λ=0,3, α=0,5): UA=66,86%, WA=65,40%
Amélioration: UA amélioration de 3,06%, WA amélioration de 3,57%

Résultats expérimentaux du spectrogramme STFT:

Ligne de base (λ=0): UA=60,98%, WA=58,93%
Méthode proposée (λ=0,3, α=0,5): UA=65,13%, WA=62,96%
Amélioration: UA amélioration de 4,15%, WA amélioration de 4,03%

Analyse de sensibilité des hyperparamètres

Paramètre α: UA et WA sont peu sensibles à α, avec des performances relativement stables dans la plage 0,1-0,9
Paramètre λ: Performance optimale atteinte à λ=0,3, les performances se dégradent si λ est trop grand ou trop petit

Analyse de visualisation

La visualisation par réduction PCA montre:

Après utilisation de la perte de centre, les caractéristiques de la même classe sont plus étroitement regroupées
Le degré de séparation entre différentes classes est amélioré
L'ensemble d'entraînement et l'ensemble de test présentent des modèles d'amélioration similaires

Analyse de la matrice de confusion

Après introduction de la perte de centre, la précision de reconnaissance de chaque classe d'émotion s'améliore à différents degrés:

Neutre: 57,5%→63,7%
En colère: 69,1%→70,5%
Heureux: 51,1%→55,6%
Triste: 77,6%→77,7%

Travaux connexes

Méthodes traditionnelles

Méthodes statistiques basées sur des caractéristiques manuelles
Extraction de caractéristiques au niveau des trames et application de fonctions statistiques

Méthodes d'apprentissage profond

Combinaison de DNN et machine d'apprentissage extrême
LSTM bidirectionnel pour la représentation de caractéristiques de haut niveau
Apprentissage de forme d'onde brute bout en bout
Apprentissage de spectrogramme combinant CNN et RNN

Méthodes d'apprentissage discriminant

Tâches discriminantes par paires: Utilisation de perte de similarité cosinus + entropie croisée binaire
Cadre de triplet: Utilisation de perte de triplet pour apprendre des caractéristiques discriminantes
Avantages de la méthode proposée par rapport à ces méthodes: Apprentissage bout en bout, pas d'appariement d'échantillons

Conclusions et discussion

Conclusions principales

La perte de centre peut réduire efficacement la variance intra-classe et améliorer la discriminabilité des caractéristiques
La fonction de perte conjointe améliore significativement les performances sur les deux types d'entrées de spectrogrammes
Cette méthode peut être intégrée naturellement dans les modèles SER existants sans nécessiter de classificateur supplémentaire

Limitations

Accent principal sur la réduction de la variance intra-classe, exploration limitée de l'augmentation de la variance inter-classe
Validation uniquement sur l'ensemble de données IEMOCAP, la généralisation nécessite une vérification supplémentaire
Pour les ensembles de données extrêmement déséquilibrés, la stratégie pondérée peut nécessiter une optimisation supplémentaire

Directions futures

Les auteurs proposent d'explorer davantage de conceptions de fonctions de perte, en particulier les méthodes d'augmentation de la variance inter-classe des caractéristiques, pour améliorer davantage les performances de SER.

Évaluation approfondie

Avantages

Forte innovativité de la méthode: Transfert réussi de la perte de centre du domaine de la reconnaissance faciale vers la reconnaissance des émotions vocales
Conception expérimentale rigoureuse: Incluant l'analyse de sensibilité des hyperparamètres, la vérification par visualisation et des expériences d'ablation détaillées
Résultats convaincants: Amélioration cohérente des performances sur deux types d'entrées de spectrogrammes différents
Rédaction claire: Description détaillée des détails techniques, expression précise des formules mathématiques

Insuffisances

Ensemble de données unique: Validation uniquement sur l'ensemble de données IEMOCAP, manque de vérification de la généralisation inter-ensembles de données
Méthodes de comparaison limitées: Comparaison principalement avec la ligne de base propre, manque de comparaison détaillée avec d'autres méthodes SOTA
Analyse théorique insuffisante: Manque d'analyse théorique approfondie sur la raison pour laquelle la perte de centre est efficace dans les tâches SER
Analyse de complexité de calcul manquante: Discussion non abordée sur l'impact de l'introduction de la perte de centre sur l'efficacité de l'entraînement et de l'inférence

Impact

Contribution technique: Fourniture d'une méthode d'apprentissage de caractéristiques simple et efficace pour la reconnaissance des émotions vocales
Valeur pratique: Méthode facile à mettre en œuvre et à intégrer, avec une bonne praticité
Reproductibilité: Description suffisante des détails techniques, facilitant la reproduction

Scénarios applicables

Applicable à diverses tâches de reconnaissance des émotions vocales basées sur des spectrogrammes
Particulièrement adapté au traitement des ensembles de données d'émotions avec déséquilibre des classes
Peut servir de module d'amélioration des performances pour les systèmes SER existants

Références

L'article cite 19 références connexes, couvrant les méthodes traditionnelles de reconnaissance des émotions vocales, les méthodes d'apprentissage profond et l'apprentissage de caractéristiques discriminantes, fournissant une base théorique et une comparaison technique suffisantes pour la recherche.

Évaluation globale: Cet article est techniquement solide et expérimentalement complet, intégrant avec succès la perte de centre dans le domaine de la reconnaissance des émotions vocales et obtenant une amélioration significative des performances. Bien qu'il y ait encore de la place pour l'amélioration dans l'analyse théorique et la vérification inter-ensembles de données, sa méthode simple et efficace et ses résultats expérimentaux cohérents lui confèrent une bonne valeur académique et pratique.