2025-11-18T20:58:12.950706

learning discriminative features from spectrograms using center loss for speech emotion recognition

Dai, Wu, Li et al.
Identifying the emotional state from speech is essential for the natural interaction of the machine with the speaker. However, extracting effective features for emotion recognition is difficult, as emotions are ambiguous. We propose a novel approach to learn discriminative features from variable length spectrograms for emotion recognition by cooperating softmax cross-entropy loss and center loss together. The softmax cross-entropy loss enables features from different emotion categories separable, and center loss efficiently pulls the features belonging to the same emotion category to their center. By combining the two losses together, the discriminative power will be highly enhanced, which leads to network learning more effective features for emotion recognition. As demonstrated by the experimental results, after introducing center loss, both the unweighted accuracy and weighted accuracy are improved by over 3\% on Mel-spectrogram input, and more than 4\% on Short Time Fourier Transform spectrogram input.
academic

Apprendimento di Caratteristiche Discriminative da Spettrogrammi Utilizzando Center Loss per il Riconoscimento delle Emozioni nel Parlato

Informazioni Fondamentali

  • ID Articolo: 2501.01103
  • Titolo: Learning Discriminative Features from Spectrograms Using Center Loss for Speech Emotion Recognition
  • Autori: Dongyang Dai, Zhiyong Wu, Runnan Li, Xixin Wu, Jia Jia, Helen Meng
  • Classificazione: eess.AS (Elaborazione Audio e Parlato), cs.AI (Intelligenza Artificiale), cs.SD (Suono)
  • Data di Pubblicazione: 2 gennaio 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2501.01103

Riassunto

Questo articolo affronta il problema della difficoltà nell'estrazione di caratteristiche dovuta all'ambiguità delle emozioni nel riconoscimento delle emozioni nel parlato, proponendo un nuovo metodo che combina la perdita di entropia incrociata softmax e la perdita del centro (center loss) per apprendere caratteristiche discriminative da spettrogrammi di lunghezza variabile. La perdita di entropia incrociata softmax rende le caratteristiche di diverse classi emotive separabili, mentre la perdita del centro estrae efficacemente le caratteristiche della stessa classe emotiva verso il loro centro. I risultati sperimentali mostrano che dopo l'introduzione della perdita del centro, sia l'accuratezza non ponderata che quella ponderata su input di spettrogrammi Mel aumentano di oltre il 3%, mentre su input di spettrogrammi della Trasformata di Fourier a Breve Termine (STFT) aumentano di oltre il 4%.

Contesto di Ricerca e Motivazione

1. Definizione del Problema

Il riconoscimento delle emozioni nel parlato (SER) è una tecnologia chiave per l'interazione naturale uomo-macchina, che richiede l'estrazione di caratteristiche dalle forme d'onda vocali e la loro classificazione nelle corrispondenti categorie emotive. Tuttavia, l'ambiguità naturale delle emozioni rende difficile l'estrazione di caratteristiche efficaci.

2. Importanza del Problema

  • Il riconoscimento delle emozioni nel parlato è cruciale per realizzare un'interazione uomo-macchina naturale
  • Diversi tipi di emozioni possono essere confusi, aumentando la difficoltà nell'estrazione di caratteristiche efficaci
  • I metodi tradizionali hanno limitazioni nel trattare l'ambiguità delle emozioni

3. Limitazioni dei Metodi Esistenti

  • Metodi Tradizionali: Estraggono caratteristiche a livello di frame da frame sovrapposti, quindi applicano funzioni statistiche, con capacità di rappresentazione delle caratteristiche limitata
  • Metodi di Apprendimento Profondo Esistenti: Sebbene utilizzino reti neurali per estrarre caratteristiche di alto livello, presentano ancora insufficienze nel trattare l'ambiguità emotiva
  • Metodi di Apprendimento Discriminativo Esistenti: Metodi come la perdita di similarità del coseno e la perdita di triplet adottano strategie a due fasi, che possono portare a cali di prestazioni e dipendono da strategie di selezione di coppie di campioni o triplet

4. Motivazione della Ricerca

Proporre un metodo end-to-end che apprenda caratteristiche discriminative attraverso funzioni di perdita supervisionate congiunte (perdita di entropia incrociata softmax + perdita del centro), evitando i problemi di incoerenza delle strategie a due fasi.

Contributi Principali

  1. Proposta di un nuovo metodo di funzione di perdita congiunta: Combinazione della perdita di entropia incrociata softmax con la perdita del centro per apprendere caratteristiche discriminative da spettrogrammi di lunghezza variabile
  2. Realizzazione del riconoscimento delle emozioni nel parlato end-to-end: Evita i problemi delle strategie a due fasi dei metodi esistenti, senza necessità di costruire coppie di campioni o triplet
  3. Ottenimento di miglioramenti significativi delle prestazioni sul dataset IEMOCAP: Miglioramento superiore al 3% per input di spettrogrammi Mel, superiore al 4% per input di spettrogrammi STFT
  4. Fornitura di analisi di visualizzazione dettagliate: Dimostrazione dell'effetto di miglioramento della discriminabilità delle caratteristiche della perdita del centro attraverso incorporamento PCA

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Spettrogrammi di lunghezza variabile (LT × LF, dove LT è la dimensione temporale, LF è la dimensione di frequenza) Output: Etichette di categoria emotiva (neutro, arrabbiato, felice, triste) Obiettivo: Apprendere caratteristiche discriminative con piccola varianza intra-classe e grande varianza inter-classe

Architettura del Modello

Il modello contiene i seguenti componenti:

  1. Strati CNN: Estrazione di informazioni spaziali dallo spettrogramma
    • Primo strato: 48 kernel di convoluzione 7×7, stride 2,2, attivazione ReLU
    • Secondo strato: 64 kernel di convoluzione 3×3, stride 1,1, attivazione ReLU
    • Terzo strato: 80 kernel di convoluzione 3×3, stride 1,1, attivazione ReLU
    • Quarto strato: 96 kernel di convoluzione 3×3, stride 1,1, attivazione ReLU
    • Ogni strato è seguito da uno strato di max pooling (2×2, stride 2,2)
  2. Strato RNN Bidirezionale (Bi-RNN):
    • Utilizzo di unità GRU a 128 dimensioni
    • Compressione di sequenze di lunghezza variabile in vettori di lunghezza fissa (256 dimensioni)
    • Concatenazione degli ultimi output dell'RNN diretto e inverso
  3. Strato Completamente Connesso:
    • FC1: Proiezione dell'output Bi-RNN nello spazio delle caratteristiche target (64 dimensioni), con attivazione PReLU
    • FC2: Output delle probabilità posteriori, utilizzato per il calcolo della perdita di entropia incrociata softmax

Progettazione della Funzione di Perdita

1. Perdita di Entropia Incrociata Softmax

L_s = -1/Σω_yi * Σ(i=1 to m) ω_yi * log(e^(W_yi^T * z_i + b_yi) / Σ(j=1 to n) e^(W_j^T * z_i + b_j))

dove ω_j è il peso della classe, utilizzato per affrontare il problema dello squilibrio di classe.

2. Perdita del Centro

L_c = 1/Σω_yi * Σ(i=1 to m) ω_yi * ||z_i - c_yi||²

dove c_j è il centro globale della j-esima classe, aggiornato nel modo seguente:

c_j^(t+1) = (1-α)c_j^t + α*ċ_j^t  (quando la j-esima classe è presente nel mini-batch)
c_j^(t+1) = c_j^t                  (quando la j-esima classe non è presente nel mini-batch)

3. Perdita Congiunta

L = L_s + λL_c

dove λ è l'iperparametro che bilancia le due perdite.

Punti di Innovazione Tecnica

  1. Apprendimento End-to-End: Evita i problemi delle strategie a due fasi dei metodi tradizionali di apprendimento discriminativo
  2. Integrazione Naturale: La perdita del centro può essere naturalmente integrata nei modelli SER comuni
  3. Nessuna Necessità di Accoppiamento di Campioni: Non richiede la costruzione di coppie di campioni o triplet, semplificando il processo di addestramento
  4. Gestione dello Squilibrio di Classe: Affronta efficacemente il problema dello squilibrio dei dati attraverso funzioni di perdita ponderate

Configurazione Sperimentale

Dataset

Dataset IEMOCAP:

  • Circa 12 ore di dati audio-video
  • Utilizzo di 4 classi emotive: neutro (30,9%), arrabbiato (19,9%), felice+eccitato (29,6%), triste (19,6%)
  • Totale di 5531 enunciati, con felice ed eccitato combinati
  • Convalida incrociata a 5 fold, mantenendo la distribuzione emotiva

Metriche di Valutazione

  • Accuratezza Non Ponderata (UA): Media del tasso di richiamo di ogni classe
  • Accuratezza Ponderata (WA): Numero di campioni classificati correttamente diviso per il numero totale di campioni

Metodi di Confronto

  • Metodo di base: Utilizzo solo della perdita di entropia incrociata softmax (λ=0)
  • Metodo proposto: Perdita di entropia incrociata softmax congiunta e perdita del centro

Dettagli di Implementazione

  • Ottimizzatore: Adam, tasso di apprendimento 0,0003
  • Dimensione del Batch: 32
  • Dimensione delle Caratteristiche: 64 dimensioni (output FC1)
  • Parametri dello Spettrogramma: Spostamento della finestra 10 ms, lunghezza della finestra 40 ms, frequenza di campionamento 16 kHz, lunghezza DFT 1024
  • Spettrogramma Mel: 128 bande Mel
  • Lunghezza massima dell'enunciato: 14 secondi

Risultati Sperimentali

Risultati Principali

Risultati dell'Esperimento con Spettrogramma Mel:

  • Base (λ=0): UA=63,80%, WA=61,83%
  • Metodo Proposto (λ=0,3, α=0,5): UA=66,86%, WA=65,40%
  • Miglioramento: UA aumenta del 3,06%, WA aumenta del 3,57%

Risultati dell'Esperimento con Spettrogramma STFT:

  • Base (λ=0): UA=60,98%, WA=58,93%
  • Metodo Proposto (λ=0,3, α=0,5): UA=65,13%, WA=62,96%
  • Miglioramento: UA aumenta del 4,15%, WA aumenta del 4,03%

Analisi di Sensibilità degli Iperparametri

  • Parametro α: UA e WA sono relativamente insensibili ad α, con prestazioni relativamente stabili nell'intervallo 0,1-0,9
  • Parametro λ: Prestazioni ottimali raggiunte con λ=0,3, con λ troppo grande o troppo piccolo che influisce sulle prestazioni

Analisi di Visualizzazione

La visualizzazione tramite riduzione dimensionale PCA mostra:

  • Dopo l'utilizzo della perdita del centro, le caratteristiche della stessa classe si raggruppano più strettamente
  • Il grado di separazione tra diverse classi è migliorato
  • Sia il set di addestramento che il set di test mostrano modelli di miglioramento simili

Analisi della Matrice di Confusione

Dopo l'introduzione della perdita del centro, l'accuratezza del riconoscimento di ogni categoria emotiva migliora in vari gradi:

  • Neutro: 57,5%→63,7%
  • Arrabbiato: 69,1%→70,5%
  • Felice: 51,1%→55,6%
  • Triste: 77,6%→77,7%

Lavori Correlati

Metodi Tradizionali

  • Metodi statistici basati su caratteristiche artificiali
  • Estrazione di caratteristiche a livello di frame e applicazione di funzioni statistiche

Metodi di Apprendimento Profondo

  • Combinazione di DNN e macchina di apprendimento estremo
  • LSTM bidirezionale per la rappresentazione di caratteristiche di alto livello
  • Apprendimento end-to-end da forma d'onda grezza
  • Apprendimento di spettrogrammi combinando CNN e RNN

Metodi di Apprendimento Discriminativo

  • Compiti discriminativi a coppie: Utilizzo della perdita di similarità del coseno + entropia incrociata binaria
  • Framework di triplet: Utilizzo della perdita di triplet per apprendere caratteristiche discriminative
  • Vantaggi del metodo proposto rispetto a questi metodi: Apprendimento end-to-end, nessuna necessità di accoppiamento di campioni

Conclusioni e Discussione

Conclusioni Principali

  1. La perdita del centro può ridurre efficacemente la varianza intra-classe e migliorare la discriminabilità delle caratteristiche
  2. La funzione di perdita congiunta ottiene miglioramenti significativi delle prestazioni su entrambi i tipi di input di spettrogrammi
  3. Questo metodo può essere naturalmente integrato nei modelli SER esistenti, senza necessità di classificatori aggiuntivi

Limitazioni

  1. Si concentra principalmente sulla riduzione della varianza intra-classe, con esplorazione limitata dell'aumento della varianza inter-classe
  2. Verificato solo sul dataset IEMOCAP, la generalizzabilità richiede ulteriore verifica
  3. Per dataset estremamente sbilanciati, la strategia ponderata potrebbe richiedere ulteriore ottimizzazione

Direzioni Future

Gli autori propongono di esplorare ulteriori progettazioni di funzioni di perdita, in particolare metodi per aumentare la varianza inter-classe delle caratteristiche, al fine di migliorare ulteriormente le prestazioni di SER.

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione del Metodo: Trasferimento riuscito della perdita del centro dal riconoscimento facciale al campo del riconoscimento delle emozioni nel parlato
  2. Progettazione Sperimentale Rigorosa: Include analisi di sensibilità degli iperparametri, verifica di visualizzazione e esperimenti di ablazione dettagliati
  3. Forte Potere Persuasivo dei Risultati: Miglioramenti coerenti delle prestazioni su due diversi tipi di input di spettrogrammi
  4. Scrittura Chiara: Descrizione dettagliata dei dettagli tecnici, espressione accurata delle formule matematiche

Insufficienze

  1. Dataset Singolo: Verificato solo sul dataset IEMOCAP, mancanza di verifica della generalizzabilità tra dataset
  2. Metodi di Confronto Limitati: Principalmente confronto con la base propria, mancanza di confronto dettagliato con altri metodi SOTA
  3. Analisi Teorica Insufficiente: Mancanza di analisi teorica approfondita sul perché la perdita del centro sia efficace nel compito SER
  4. Mancanza di Analisi della Complessità Computazionale: Non discusso l'impatto dell'introduzione della perdita del centro sull'efficienza di addestramento e inferenza

Impatto

  1. Contributo Tecnico: Fornisce un metodo di apprendimento di caratteristiche semplice ed efficace per il riconoscimento delle emozioni nel parlato
  2. Valore Pratico: Il metodo è facile da implementare e integrare, con buona praticità
  3. Riproducibilità: Descrizione dettagliata dei dettagli tecnici, facilitando la riproduzione

Scenari Applicabili

  1. Applicabile a vari compiti di riconoscimento delle emozioni nel parlato basati su spettrogrammi
  2. Particolarmente adatto per affrontare dataset di emozioni con squilibrio di classe
  3. Può fungere da modulo di miglioramento delle prestazioni per sistemi SER esistenti

Riferimenti Bibliografici

L'articolo cita 19 articoli correlati, coprendo metodi tradizionali di riconoscimento delle emozioni nel parlato, metodi di apprendimento profondo e apprendimento di caratteristiche discriminative e altri campi chiave, fornendo una base teorica e un confronto tecnico sufficienti per la ricerca.


Valutazione Complessiva: Questo è un articolo tecnicamente solido e sperimentalmente completo che ha introdotto con successo la perdita del centro nel campo del riconoscimento delle emozioni nel parlato e ha ottenuto miglioramenti significativi delle prestazioni. Sebbene ci sia ancora spazio per miglioramenti nell'analisi teorica e nella verifica tra dataset, il suo metodo semplice ed efficace e i risultati sperimentali coerenti gli conferiscono un buon valore accademico e pratico.