2025-11-13T03:49:10.242464

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Ahn, Rana, Sivadas et al.
Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.
academic

Migliorare il Riconoscimento delle Emozioni nel Parlato con un Modello Generativo Regolarizzato da Informazione Mutua

Informazioni Fondamentali

  • ID Articolo: 2510.10078
  • Titolo: Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
  • Autori: Chung-Soo Ahn, Rajib Rana, Sunil Sivadas, Carlos Busso, Jagath C. Rajapakse
  • Classificazione: cs.SD (Audio), cs.LG (Apprendimento Automatico)
  • Data di Pubblicazione: 2025 (formato Journal of LaTeX Class Files, Vol. 14, No. 8, Agosto 2021)
  • Link Articolo: https://arxiv.org/abs/2510.10078

Riassunto

Sebbene i metodi di apprendimento profondo abbiano promosso i progressi nella ricerca sul riconoscimento delle emozioni nel parlato (SER), il campo continua ad affrontare il problema della scarsità di dati di addestramento annotati di alta qualità. Per mitigare questo problema, i ricercatori hanno sperimentato metodi di aumento dei dati, tra i quali i modelli generativi hanno recentemente mostrato risultati promettenti. Questo articolo propone un framework di aumento dei dati basato sulla trasmissione di informazioni cross-modale e sulla regolarizzazione dell'informazione mutua. L'informazione mutua può fungere da indicatore della qualità dei dati generati. Inoltre, grazie alla proprietà dell'informazione mutua di garantire la dipendenza tra modalità, il framework si estende agli input multimodali. I test su tre dataset di riferimento (IEMOCAP, MSP-IMPROV e MSP-Podcast) dimostrano che il framework supera i lavori esistenti nella performance di predizione delle emozioni e rivela che il framework è in grado di generare nuove caratteristiche di input senza informazioni cross-modali.

Contesto di Ricerca e Motivazione

Problema Centrale

La principale sfida nel campo del riconoscimento delle emozioni nel parlato è la scarsità di dati annotati di alta qualità. Rispetto ai dataset di larga scala nella visione artificiale (come MNIST), i dataset SER hanno dimensioni ridotte, il che compromette gravemente la capacità di generalizzazione dei modelli di apprendimento profondo.

Importanza del Problema

Il problema della scarsità di dati influisce direttamente sulla performance e sulla praticità dei modelli SER, in particolare nell'era dell'apprendimento profondo che richiede grandi quantità di dati di addestramento. Metodi efficaci di aumento dei dati sono cruciali per migliorare la performance del modello.

Limitazioni dei Metodi Esistenti

  1. Aumento dei dati tradizionale: Le semplici trasformazioni di segnale e l'aggiunta di rumore sono solo copie perturbate dei dati originali, con contenuto informativo limitato
  2. Modelli generativi condizionati: Presuppongono una mappatura deterministica dalle etichette di emozione ai campioni generati, un'assunzione irrealistica che non garantisce la qualità dei campioni generati
  3. Approcci cross-modali: I lavori esistenti si concentrano principalmente su integrare o recuperare modalità mancanti, mancando di un framework di aumento esplicito per migliorare il riconoscimento multimodale delle emozioni

Motivazione della Ricerca

Questo articolo presuppone che l'assunzione di mappatura deterministica dei modelli generativi condizionati sia irragionevole e propone l'uso della regolarizzazione dell'informazione mutua come alternativa, quantificando la dipendenza tra i campioni generati e le etichette di classe per garantire la qualità dell'aumento dei dati.

Contributi Principali

  1. Propone un framework di aumento dei dati con modello generativo applicabile a SER e SER multimodale, combinando trasmissione di informazioni cross-modali e regolarizzazione dell'informazione mutua
  2. Introduce un metodo di aumento dei dati SER che combina trasmissione cross-modale e informazione mutua, implementato utilizzando l'architettura InfoGAN
  3. Scopre che il regolarizzatore dell'informazione mutua può fornire una quantità osservabile per verificare la dipendenza dei dati generati dalle emozioni e dalle informazioni testuali
  4. Estende all'aumento multimodale, realizzando una crescita quadrupla della scala dei dati generando tutte le combinazioni di caratteristiche audio e testuali

Dettagli del Metodo

Definizione del Compito

  • Input: Segnale audio x_a e trascrizione testuale corrispondente x_t
  • Output: Predizione della categoria emotiva ŷ
  • Obiettivo: Migliorare la performance di classificazione delle emozioni attraverso la generazione di dati di aumento

Architettura del Modello

Prima Fase: Preparazione del Modello di Base

  1. Estrazione delle Caratteristiche Audio:
    h = fa(xa)
    

    Utilizza trasformatori audio pre-addestrati (AST o Wav2Vec2) per estrarre caratteristiche audio
  2. Estrazione delle Caratteristiche Testuali:
    t = ft(xt)
    

    Utilizza trasformatori testuali pre-addestrati (BERT/RoBERTa) per estrarre caratteristiche testuali
  3. Allineamento Cross-Modale:
    • Perdita di apprendimento contrastivo: LCL=logexp(sim(ti,hi)/τ)j=1Bexp(sim(ti,hj)/τ)L_{CL} = -\log\frac{\exp(sim(t_i, h_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, h_j)/\tau)}
    • Perdita InfoNCE: LMI=logexp(sim(ti,h^i)/τ)j=1Bexp(sim(ti,h^j)/τ)L_{MI} = -\log\frac{\exp(sim(t_i, \hat{h}_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{h}_j)/\tau)}

Seconda Fase: Addestramento InfoGAN

  1. Obiettivo del Generatore:
    min max V(D,G) - λI(c;G(z,c))
    

    dove c contiene l'etichetta di emozione e l'embedding testuale
  2. Massimizzazione dell'Informazione Mutua:
    • Informazione mutua delle emozioni: LIy=E{c1(y=c)log(y^g)}L_{Iy} = -E\{\sum_c 1(y=c)\log(\hat{y}_g)\}
    • Informazione mutua testuale: LIt=logexp(sim(ti,t^ig)/τ)j=1Bexp(sim(ti,t^jg)/τ)L_{It} = -\log\frac{\exp(sim(t_i, \hat{t}^g_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{t}^g_j)/\tau)}

Terza Fase: Addestramento con Aumento dei Dati

  • Scenario SER: Addestra il classificatore utilizzando caratteristiche originali h e caratteristiche generate ĥ
  • SER Multimodale: Addestra utilizzando quattro combinazioni (h,t), (h,t'), (ĥ,t), (ĥ,t')

Punti di Innovazione Tecnica

  1. Indicatore di Qualità dell'Informazione Mutua: Utilizza la perdita di informazione mutua come indicatore osservabile della qualità dei campioni generati
  2. Trasmissione di Informazioni Cross-Modali: Guida la generazione di caratteristiche audio attraverso informazioni testuali, migliorando la qualità della generazione
  3. Estensione Multimodale: Genera simultaneamente caratteristiche audio e testuali, realizzando un vero aumento dei dati multimodale
  4. Generazione a Livello di Caratteristiche: Esegue la generazione nello spazio delle caratteristiche piuttosto che nello spazio dei segnali grezzi, riducendo la complessità

Configurazione Sperimentale

Dataset

  1. IEMOCAP: 12 ore di registrazioni, 5 coppie di attori uomini e donne in conversazione, quattro categorie emotive (neutro, felice, triste, arrabbiato)
  2. MSP-IMPROV: 9 ore di registrazioni, 12 attori in interazione, quattro emozioni di base
  3. MSP-Podcast: Dati vocali "in natura" provenienti da podcast, più vicini a scenari di applicazione reale

Metriche di Valutazione

  • Tasso di Richiamo Medio Non Ponderato (UAR): Metrica di valutazione più equa per dataset sbilanciati
  • Convalida Incrociata Leave-One-Speaker-Out: Garantisce la performance di generalizzazione del modello

Metodi di Confronto

Include metodi di aumento dei dati esistenti come Sahu et al., Bao et al., Latif et al., Malik et al., nonché metodi multimodali come MMIN e CIF-MMIN.

Dettagli di Implementazione

  • Modello audio: AST (SER), Wav2Vec2 (SER multimodale)
  • Modello testuale: BERT, RoBERTa, Llama 3.0
  • Architettura InfoGAN: Implementata con semplici strati lineari per generatore e discriminatore
  • Strategia di addestramento: Utilizza strategia mix-up per stabilizzare l'addestramento del generatore

Risultati Sperimentali

Risultati Principali

Esperimenti SER (IEMOCAP)

MetodoSenza AumentoCon AumentoMiglioramento
Sahu et al.59.42%60.29%0.87%
Bao et al.59.48±0.71%60.37±0.70%0.89%
Latif et al.60.51±0.57%61.05±0.68%0.54%
Malik et al.58.62±2.11%61.22±1.85%2.6%
Metodo Proposto60.81±4.83%63.40±2.52%2.59%

Esperimenti SER Multimodale

Sul dataset IEMOCAP, il metodo proposto raggiunge un UAR del 76.54% sulla combinazione di modalità audio + testo, superando metodi esistenti come CIF-MMIN (75.65%).

Esperimenti di Ablazione

ConfigurazioneUAR
Modello Completo63.40±2.52%
Senza Allineamento Cross-Modale62.31±3.65%
Senza Allineamento Cross-Modale e Embedding Testuale61.07±2.45%
Senza Allineamento Cross-Modale e Massimizzazione dell'Informazione Mutua61.70±2.58%

Gli esperimenti di ablazione dimostrano che ogni componente contribuisce significativamente alla performance finale.

Scoperte Sperimentali

  1. Efficacia della Regolarizzazione dell'Informazione Mutua: La perdita di informazione mutua può effettivamente fungere da indicatore della qualità dei campioni generati
  2. Importanza delle Informazioni Cross-Modali: Le informazioni testuali migliorano significativamente la qualità della generazione di caratteristiche audio
  3. Gestione dello Squilibrio di Classe: Sul dataset MSP-Podcast, il metodo mitiga efficacemente il problema dello squilibrio di classe
  4. Capacità di Generazione Senza Informazioni Cross-Modali: Scopre che il framework è in grado di generare nuovi input senza informazioni da altre modalità

Lavori Correlati

Aumento dei Dati Generativo

  • Lavori iniziali che utilizzano framework di autoencoder (Latif et al.)
  • Metodi che combinano GAN e autoencoder (Yi et al., Latif et al.)
  • Estensioni recenti a modelli di diffusione (Malik et al., Kim et al.)

Apprendimento Profondo Multimodale

  • Meccanismi di attenzione cross-modale (Goncalves et al.)
  • Metodi di apprendimento contrastivo (Liu et al.)
  • Metodi di ricostruzione (Meng et al., Wang et al.)

Vantaggi di Questo Articolo

Rispetto ai lavori esistenti, questo articolo combina per la prima volta la trasmissione cross-modale con la regolarizzazione dell'informazione mutua, estendendosi a un vero aumento dei dati multimodale.

Conclusioni e Discussione

Conclusioni Principali

  1. I modelli generativi regolarizzati dall'informazione mutua possono migliorare efficacemente la performance SER
  2. La trasmissione di informazioni cross-modali migliora significativamente la qualità dei campioni generati
  3. Il framework di aumento dei dati multimodale raggiunge performance ottimale su più dataset di riferimento
  4. Il metodo ha potenziale nel gestire il problema dello squilibrio di classe

Limitazioni

  1. Complessità Computazionale: Richiede l'addestramento di più fasi di modello, con overhead computazionale considerevole
  2. Limitazioni dello Spazio delle Caratteristiche: La generazione nello spazio delle caratteristiche piuttosto che nello spazio dei segnali grezzi potrebbe perdere alcune informazioni
  3. Dipendenza dal Dataset: La performance del metodo potrebbe dipendere da caratteristiche specifiche del dataset
  4. Sensibilità agli Iperparametri: Iperparametri come il peso dell'informazione mutua λ richiedono un'attenta regolazione

Direzioni Future

  1. Esplorare metodi di generazione di segnali grezzi end-to-end
  2. Ricercare strategie di addestramento più efficienti
  3. Estendere a più modalità e categorie emotive
  4. Analizzare teoricamente le proprietà di convergenza della regolarizzazione dell'informazione mutua

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione Metodologica: Primo a combinare regolarizzazione dell'informazione mutua con trasmissione di informazioni cross-modali per l'aumento dei dati SER
  2. Sperimentazione Completa: Valutazione comprensiva su più dataset di riferimento, inclusi esperimenti di ablazione
  3. Fondamento Teorico Solido: La teoria dell'informazione mutua fornisce garanzie teoriche per la qualità dei campioni generati
  4. Alto Valore Pratico: Il metodo ha buona scalabilità nelle applicazioni pratiche

Carenze

  1. Complessità dell'Architettura: Il processo di addestramento in tre fasi è relativamente complesso, potendo presentare sfide nel deployment pratico
  2. Efficienza Computazionale: L'overhead computazionale è significativamente maggiore rispetto ai metodi di aumento dei dati semplici
  3. Analisi della Generalizzazione Insufficiente: Manca un'analisi approfondita della performance di generalizzazione cross-dataset
  4. Analisi Teorica Limitata: Mancano garanzie teoriche sulle proprietà di convergenza della regolarizzazione dell'informazione mutua

Impatto

  1. Contributo Accademico: Fornisce nuovi approcci e framework metodologici per la ricerca sull'aumento dei dati SER
  2. Valore Pratico: Ha importante valore applicativo in scenari di scarsità di dati per compiti di riconoscimento delle emozioni
  3. Riproducibilità: La configurazione sperimentale è dettagliata e ha buona riproducibilità
  4. Ispirazione: L'idea della regolarizzazione dell'informazione mutua può estendersi ad altri compiti generativi

Scenari Applicabili

  1. Scenari di Scarsità di Dati: Particolarmente adatto a compiti di riconoscimento delle emozioni con dati annotati di alta qualità limitati
  2. Applicazioni Multimodali: Mostra performance eccellente quando è necessario elaborare simultaneamente informazioni audio e testuali
  3. Problemi di Squilibrio di Classe: Ha effetto mitigante su dataset con distribuzione di categorie emotive non uniforme
  4. Sviluppo di Prototipi di Ricerca: Fornisce un metodo di base efficace di aumento dei dati per la ricerca SER

Bibliografia

L'articolo cita 48 riferimenti correlati, coprendo importanti lavori in più campi inclusi SER, modelli generativi e apprendimento multimodale, fornendo una solida base teorica e benchmark di confronto per la ricerca.