Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
Ahn, Rana, Sivadas et al.
Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.
academic
Migliorare il Riconoscimento delle Emozioni nel Parlato con un Modello Generativo Regolarizzato da Informazione Mutua
Sebbene i metodi di apprendimento profondo abbiano promosso i progressi nella ricerca sul riconoscimento delle emozioni nel parlato (SER), il campo continua ad affrontare il problema della scarsità di dati di addestramento annotati di alta qualità. Per mitigare questo problema, i ricercatori hanno sperimentato metodi di aumento dei dati, tra i quali i modelli generativi hanno recentemente mostrato risultati promettenti. Questo articolo propone un framework di aumento dei dati basato sulla trasmissione di informazioni cross-modale e sulla regolarizzazione dell'informazione mutua. L'informazione mutua può fungere da indicatore della qualità dei dati generati. Inoltre, grazie alla proprietà dell'informazione mutua di garantire la dipendenza tra modalità, il framework si estende agli input multimodali. I test su tre dataset di riferimento (IEMOCAP, MSP-IMPROV e MSP-Podcast) dimostrano che il framework supera i lavori esistenti nella performance di predizione delle emozioni e rivela che il framework è in grado di generare nuove caratteristiche di input senza informazioni cross-modali.
La principale sfida nel campo del riconoscimento delle emozioni nel parlato è la scarsità di dati annotati di alta qualità. Rispetto ai dataset di larga scala nella visione artificiale (come MNIST), i dataset SER hanno dimensioni ridotte, il che compromette gravemente la capacità di generalizzazione dei modelli di apprendimento profondo.
Il problema della scarsità di dati influisce direttamente sulla performance e sulla praticità dei modelli SER, in particolare nell'era dell'apprendimento profondo che richiede grandi quantità di dati di addestramento. Metodi efficaci di aumento dei dati sono cruciali per migliorare la performance del modello.
Aumento dei dati tradizionale: Le semplici trasformazioni di segnale e l'aggiunta di rumore sono solo copie perturbate dei dati originali, con contenuto informativo limitato
Modelli generativi condizionati: Presuppongono una mappatura deterministica dalle etichette di emozione ai campioni generati, un'assunzione irrealistica che non garantisce la qualità dei campioni generati
Approcci cross-modali: I lavori esistenti si concentrano principalmente su integrare o recuperare modalità mancanti, mancando di un framework di aumento esplicito per migliorare il riconoscimento multimodale delle emozioni
Questo articolo presuppone che l'assunzione di mappatura deterministica dei modelli generativi condizionati sia irragionevole e propone l'uso della regolarizzazione dell'informazione mutua come alternativa, quantificando la dipendenza tra i campioni generati e le etichette di classe per garantire la qualità dell'aumento dei dati.
Propone un framework di aumento dei dati con modello generativo applicabile a SER e SER multimodale, combinando trasmissione di informazioni cross-modali e regolarizzazione dell'informazione mutua
Introduce un metodo di aumento dei dati SER che combina trasmissione cross-modale e informazione mutua, implementato utilizzando l'architettura InfoGAN
Scopre che il regolarizzatore dell'informazione mutua può fornire una quantità osservabile per verificare la dipendenza dei dati generati dalle emozioni e dalle informazioni testuali
Estende all'aumento multimodale, realizzando una crescita quadrupla della scala dei dati generando tutte le combinazioni di caratteristiche audio e testuali
Indicatore di Qualità dell'Informazione Mutua: Utilizza la perdita di informazione mutua come indicatore osservabile della qualità dei campioni generati
Trasmissione di Informazioni Cross-Modali: Guida la generazione di caratteristiche audio attraverso informazioni testuali, migliorando la qualità della generazione
Estensione Multimodale: Genera simultaneamente caratteristiche audio e testuali, realizzando un vero aumento dei dati multimodale
Generazione a Livello di Caratteristiche: Esegue la generazione nello spazio delle caratteristiche piuttosto che nello spazio dei segnali grezzi, riducendo la complessità
Sul dataset IEMOCAP, il metodo proposto raggiunge un UAR del 76.54% sulla combinazione di modalità audio + testo, superando metodi esistenti come CIF-MMIN (75.65%).
Efficacia della Regolarizzazione dell'Informazione Mutua: La perdita di informazione mutua può effettivamente fungere da indicatore della qualità dei campioni generati
Importanza delle Informazioni Cross-Modali: Le informazioni testuali migliorano significativamente la qualità della generazione di caratteristiche audio
Gestione dello Squilibrio di Classe: Sul dataset MSP-Podcast, il metodo mitiga efficacemente il problema dello squilibrio di classe
Capacità di Generazione Senza Informazioni Cross-Modali: Scopre che il framework è in grado di generare nuovi input senza informazioni da altre modalità
Rispetto ai lavori esistenti, questo articolo combina per la prima volta la trasmissione cross-modale con la regolarizzazione dell'informazione mutua, estendendosi a un vero aumento dei dati multimodale.
Complessità Computazionale: Richiede l'addestramento di più fasi di modello, con overhead computazionale considerevole
Limitazioni dello Spazio delle Caratteristiche: La generazione nello spazio delle caratteristiche piuttosto che nello spazio dei segnali grezzi potrebbe perdere alcune informazioni
Dipendenza dal Dataset: La performance del metodo potrebbe dipendere da caratteristiche specifiche del dataset
Sensibilità agli Iperparametri: Iperparametri come il peso dell'informazione mutua λ richiedono un'attenta regolazione
Forte Innovazione Metodologica: Primo a combinare regolarizzazione dell'informazione mutua con trasmissione di informazioni cross-modali per l'aumento dei dati SER
Sperimentazione Completa: Valutazione comprensiva su più dataset di riferimento, inclusi esperimenti di ablazione
Fondamento Teorico Solido: La teoria dell'informazione mutua fornisce garanzie teoriche per la qualità dei campioni generati
Alto Valore Pratico: Il metodo ha buona scalabilità nelle applicazioni pratiche
L'articolo cita 48 riferimenti correlati, coprendo importanti lavori in più campi inclusi SER, modelli generativi e apprendimento multimodale, fornendo una solida base teorica e benchmark di confronto per la ricerca.