2025-11-13T03:49:10.242464

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Ahn, Rana, Sivadas et al.

Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.

academic

Migliorare il Riconoscimento delle Emozioni nel Parlato con un Modello Generativo Regolarizzato da Informazione Mutua

Informazioni Fondamentali

ID Articolo: 2510.10078
Titolo: Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
Autori: Chung-Soo Ahn, Rajib Rana, Sunil Sivadas, Carlos Busso, Jagath C. Rajapakse
Classificazione: cs.SD (Audio), cs.LG (Apprendimento Automatico)
Data di Pubblicazione: 2025 (formato Journal of LaTeX Class Files, Vol. 14, No. 8, Agosto 2021)
Link Articolo: https://arxiv.org/abs/2510.10078

Riassunto

Sebbene i metodi di apprendimento profondo abbiano promosso i progressi nella ricerca sul riconoscimento delle emozioni nel parlato (SER), il campo continua ad affrontare il problema della scarsità di dati di addestramento annotati di alta qualità. Per mitigare questo problema, i ricercatori hanno sperimentato metodi di aumento dei dati, tra i quali i modelli generativi hanno recentemente mostrato risultati promettenti. Questo articolo propone un framework di aumento dei dati basato sulla trasmissione di informazioni cross-modale e sulla regolarizzazione dell'informazione mutua. L'informazione mutua può fungere da indicatore della qualità dei dati generati. Inoltre, grazie alla proprietà dell'informazione mutua di garantire la dipendenza tra modalità, il framework si estende agli input multimodali. I test su tre dataset di riferimento (IEMOCAP, MSP-IMPROV e MSP-Podcast) dimostrano che il framework supera i lavori esistenti nella performance di predizione delle emozioni e rivela che il framework è in grado di generare nuove caratteristiche di input senza informazioni cross-modali.

Contesto di Ricerca e Motivazione

Problema Centrale

La principale sfida nel campo del riconoscimento delle emozioni nel parlato è la scarsità di dati annotati di alta qualità. Rispetto ai dataset di larga scala nella visione artificiale (come MNIST), i dataset SER hanno dimensioni ridotte, il che compromette gravemente la capacità di generalizzazione dei modelli di apprendimento profondo.

Importanza del Problema

Il problema della scarsità di dati influisce direttamente sulla performance e sulla praticità dei modelli SER, in particolare nell'era dell'apprendimento profondo che richiede grandi quantità di dati di addestramento. Metodi efficaci di aumento dei dati sono cruciali per migliorare la performance del modello.

Limitazioni dei Metodi Esistenti

Aumento dei dati tradizionale: Le semplici trasformazioni di segnale e l'aggiunta di rumore sono solo copie perturbate dei dati originali, con contenuto informativo limitato
Modelli generativi condizionati: Presuppongono una mappatura deterministica dalle etichette di emozione ai campioni generati, un'assunzione irrealistica che non garantisce la qualità dei campioni generati
Approcci cross-modali: I lavori esistenti si concentrano principalmente su integrare o recuperare modalità mancanti, mancando di un framework di aumento esplicito per migliorare il riconoscimento multimodale delle emozioni

Motivazione della Ricerca

Questo articolo presuppone che l'assunzione di mappatura deterministica dei modelli generativi condizionati sia irragionevole e propone l'uso della regolarizzazione dell'informazione mutua come alternativa, quantificando la dipendenza tra i campioni generati e le etichette di classe per garantire la qualità dell'aumento dei dati.

Contributi Principali

Propone un framework di aumento dei dati con modello generativo applicabile a SER e SER multimodale, combinando trasmissione di informazioni cross-modali e regolarizzazione dell'informazione mutua
Introduce un metodo di aumento dei dati SER che combina trasmissione cross-modale e informazione mutua, implementato utilizzando l'architettura InfoGAN
Scopre che il regolarizzatore dell'informazione mutua può fornire una quantità osservabile per verificare la dipendenza dei dati generati dalle emozioni e dalle informazioni testuali
Estende all'aumento multimodale, realizzando una crescita quadrupla della scala dei dati generando tutte le combinazioni di caratteristiche audio e testuali

Dettagli del Metodo

Definizione del Compito

Input: Segnale audio x_a e trascrizione testuale corrispondente x_t
Output: Predizione della categoria emotiva ŷ
Obiettivo: Migliorare la performance di classificazione delle emozioni attraverso la generazione di dati di aumento

Architettura del Modello

Prima Fase: Preparazione del Modello di Base

Estrazione delle Caratteristiche Audio:
```
h = fa(xa)
```
Utilizza trasformatori audio pre-addestrati (AST o Wav2Vec2) per estrarre caratteristiche audio
Estrazione delle Caratteristiche Testuali:
```
t = ft(xt)
```
Utilizza trasformatori testuali pre-addestrati (BERT/RoBERTa) per estrarre caratteristiche testuali
Allineamento Cross-Modale:
- Perdita di apprendimento contrastivo: $L_{CL} = -\log\frac{\exp(sim(t_i, h_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, h_j)/\tau)}$
- Perdita InfoNCE: $L_{MI} = -\log\frac{\exp(sim(t_i, \hat{h}_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{h}_j)/\tau)}$

Seconda Fase: Addestramento InfoGAN

Obiettivo del Generatore:
```
min max V(D,G) - λI(c;G(z,c))
```
dove c contiene l'etichetta di emozione e l'embedding testuale
Massimizzazione dell'Informazione Mutua:
- Informazione mutua delle emozioni: $L_{Iy} = -E\{\sum_c 1(y=c)\log(\hat{y}_g)\}$
- Informazione mutua testuale: $L_{It} = -\log\frac{\exp(sim(t_i, \hat{t}^g_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{t}^g_j)/\tau)}$

Terza Fase: Addestramento con Aumento dei Dati

Scenario SER: Addestra il classificatore utilizzando caratteristiche originali h e caratteristiche generate ĥ
SER Multimodale: Addestra utilizzando quattro combinazioni (h,t), (h,t'), (ĥ,t), (ĥ,t')

Punti di Innovazione Tecnica

Indicatore di Qualità dell'Informazione Mutua: Utilizza la perdita di informazione mutua come indicatore osservabile della qualità dei campioni generati
Trasmissione di Informazioni Cross-Modali: Guida la generazione di caratteristiche audio attraverso informazioni testuali, migliorando la qualità della generazione
Estensione Multimodale: Genera simultaneamente caratteristiche audio e testuali, realizzando un vero aumento dei dati multimodale
Generazione a Livello di Caratteristiche: Esegue la generazione nello spazio delle caratteristiche piuttosto che nello spazio dei segnali grezzi, riducendo la complessità

Configurazione Sperimentale

Dataset

IEMOCAP: 12 ore di registrazioni, 5 coppie di attori uomini e donne in conversazione, quattro categorie emotive (neutro, felice, triste, arrabbiato)
MSP-IMPROV: 9 ore di registrazioni, 12 attori in interazione, quattro emozioni di base
MSP-Podcast: Dati vocali "in natura" provenienti da podcast, più vicini a scenari di applicazione reale

Metriche di Valutazione

Tasso di Richiamo Medio Non Ponderato (UAR): Metrica di valutazione più equa per dataset sbilanciati
Convalida Incrociata Leave-One-Speaker-Out: Garantisce la performance di generalizzazione del modello

Metodi di Confronto

Include metodi di aumento dei dati esistenti come Sahu et al., Bao et al., Latif et al., Malik et al., nonché metodi multimodali come MMIN e CIF-MMIN.

Dettagli di Implementazione

Modello audio: AST (SER), Wav2Vec2 (SER multimodale)
Modello testuale: BERT, RoBERTa, Llama 3.0
Architettura InfoGAN: Implementata con semplici strati lineari per generatore e discriminatore
Strategia di addestramento: Utilizza strategia mix-up per stabilizzare l'addestramento del generatore

Risultati Sperimentali

Risultati Principali

Esperimenti SER (IEMOCAP)

Metodo	Senza Aumento	Con Aumento	Miglioramento
Sahu et al.	59.42%	60.29%	0.87%
Bao et al.	59.48±0.71%	60.37±0.70%	0.89%
Latif et al.	60.51±0.57%	61.05±0.68%	0.54%
Malik et al.	58.62±2.11%	61.22±1.85%	2.6%
Metodo Proposto	60.81±4.83%	63.40±2.52%	2.59%

Esperimenti SER Multimodale

Sul dataset IEMOCAP, il metodo proposto raggiunge un UAR del 76.54% sulla combinazione di modalità audio + testo, superando metodi esistenti come CIF-MMIN (75.65%).

Esperimenti di Ablazione

Configurazione	UAR
Modello Completo	63.40±2.52%
Senza Allineamento Cross-Modale	62.31±3.65%
Senza Allineamento Cross-Modale e Embedding Testuale	61.07±2.45%
Senza Allineamento Cross-Modale e Massimizzazione dell'Informazione Mutua	61.70±2.58%

Gli esperimenti di ablazione dimostrano che ogni componente contribuisce significativamente alla performance finale.

Scoperte Sperimentali

Efficacia della Regolarizzazione dell'Informazione Mutua: La perdita di informazione mutua può effettivamente fungere da indicatore della qualità dei campioni generati
Importanza delle Informazioni Cross-Modali: Le informazioni testuali migliorano significativamente la qualità della generazione di caratteristiche audio
Gestione dello Squilibrio di Classe: Sul dataset MSP-Podcast, il metodo mitiga efficacemente il problema dello squilibrio di classe
Capacità di Generazione Senza Informazioni Cross-Modali: Scopre che il framework è in grado di generare nuovi input senza informazioni da altre modalità

Lavori Correlati

Aumento dei Dati Generativo

Lavori iniziali che utilizzano framework di autoencoder (Latif et al.)
Metodi che combinano GAN e autoencoder (Yi et al., Latif et al.)
Estensioni recenti a modelli di diffusione (Malik et al., Kim et al.)

Apprendimento Profondo Multimodale

Meccanismi di attenzione cross-modale (Goncalves et al.)
Metodi di apprendimento contrastivo (Liu et al.)
Metodi di ricostruzione (Meng et al., Wang et al.)

Vantaggi di Questo Articolo

Rispetto ai lavori esistenti, questo articolo combina per la prima volta la trasmissione cross-modale con la regolarizzazione dell'informazione mutua, estendendosi a un vero aumento dei dati multimodale.

Conclusioni e Discussione

Conclusioni Principali

I modelli generativi regolarizzati dall'informazione mutua possono migliorare efficacemente la performance SER
La trasmissione di informazioni cross-modali migliora significativamente la qualità dei campioni generati
Il framework di aumento dei dati multimodale raggiunge performance ottimale su più dataset di riferimento
Il metodo ha potenziale nel gestire il problema dello squilibrio di classe

Limitazioni

Complessità Computazionale: Richiede l'addestramento di più fasi di modello, con overhead computazionale considerevole
Limitazioni dello Spazio delle Caratteristiche: La generazione nello spazio delle caratteristiche piuttosto che nello spazio dei segnali grezzi potrebbe perdere alcune informazioni
Dipendenza dal Dataset: La performance del metodo potrebbe dipendere da caratteristiche specifiche del dataset
Sensibilità agli Iperparametri: Iperparametri come il peso dell'informazione mutua λ richiedono un'attenta regolazione

Direzioni Future

Esplorare metodi di generazione di segnali grezzi end-to-end
Ricercare strategie di addestramento più efficienti
Estendere a più modalità e categorie emotive
Analizzare teoricamente le proprietà di convergenza della regolarizzazione dell'informazione mutua

Valutazione Approfondita

Punti di Forza

Forte Innovazione Metodologica: Primo a combinare regolarizzazione dell'informazione mutua con trasmissione di informazioni cross-modali per l'aumento dei dati SER
Sperimentazione Completa: Valutazione comprensiva su più dataset di riferimento, inclusi esperimenti di ablazione
Fondamento Teorico Solido: La teoria dell'informazione mutua fornisce garanzie teoriche per la qualità dei campioni generati
Alto Valore Pratico: Il metodo ha buona scalabilità nelle applicazioni pratiche

Carenze

Complessità dell'Architettura: Il processo di addestramento in tre fasi è relativamente complesso, potendo presentare sfide nel deployment pratico
Efficienza Computazionale: L'overhead computazionale è significativamente maggiore rispetto ai metodi di aumento dei dati semplici
Analisi della Generalizzazione Insufficiente: Manca un'analisi approfondita della performance di generalizzazione cross-dataset
Analisi Teorica Limitata: Mancano garanzie teoriche sulle proprietà di convergenza della regolarizzazione dell'informazione mutua

Impatto

Contributo Accademico: Fornisce nuovi approcci e framework metodologici per la ricerca sull'aumento dei dati SER
Valore Pratico: Ha importante valore applicativo in scenari di scarsità di dati per compiti di riconoscimento delle emozioni
Riproducibilità: La configurazione sperimentale è dettagliata e ha buona riproducibilità
Ispirazione: L'idea della regolarizzazione dell'informazione mutua può estendersi ad altri compiti generativi

Scenari Applicabili

Scenari di Scarsità di Dati: Particolarmente adatto a compiti di riconoscimento delle emozioni con dati annotati di alta qualità limitati
Applicazioni Multimodali: Mostra performance eccellente quando è necessario elaborare simultaneamente informazioni audio e testuali
Problemi di Squilibrio di Classe: Ha effetto mitigante su dataset con distribuzione di categorie emotive non uniforme
Sviluppo di Prototipi di Ricerca: Fornisce un metodo di base efficace di aumento dei dati per la ricerca SER

Bibliografia

L'articolo cita 48 riferimenti correlati, coprendo importanti lavori in più campi inclusi SER, modelli generativi e apprendimento multimodale, fornendo una solida base teorica e benchmark di confronto per la ricerca.