Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
Ahn, Rana, Sivadas et al.
Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.
academic
Verbesserung der Sprachemotion-Erkennung mit gegenseitiger Information regularisiertem generativem Modell
Obwohl Deep-Learning-Methoden Fortschritte in der Sprachemotion-Erkennung (SER) vorangetrieben haben, steht das Feld weiterhin vor der Herausforderung mangelnder hochqualitativer annotierter Trainingsdaten. Um dieses Problem zu lindern, haben Forscher Datenerweiterungsmethoden untersucht, bei denen generative Modelle kürzlich hervorragende Ergebnisse gezeigt haben. Dieses Papier präsentiert ein Datenerweiterungsframework, das auf modalitätsübergreifender Informationsübertragung und gegenseitiger Information-Regularisierung basiert. Die gegenseitige Information kann als Qualitätsindikator für generierte Daten dienen. Darüber hinaus ermöglicht die Eigenschaft der gegenseitigen Information, die Abhängigkeiten zwischen Modalitäten sicherzustellen, eine Erweiterung auf multimodale Eingaben. Tests auf drei Benchmark-Datensätzen (IEMOCAP, MSP-IMPROV und MSP-Podcast) zeigen, dass das Framework bestehende Arbeiten bei der Emotionsvorhersageleistung übertrifft und dass das Framework neue Eingabemerkmale ohne modalitätsübergreifende Informationen generieren kann.
Die Hauptherausforderung im Bereich der Sprachemotion-Erkennung ist die Knappheit hochqualitativer annotierter Daten. Im Vergleich zu großen Datensätzen in der Computervision (wie MNIST) sind SER-Datensätze relativ klein, was die Verallgemeinerungsfähigkeit von Deep-Learning-Modellen erheblich beeinträchtigt.
Das Datenmangelproblem wirkt sich direkt auf die Leistung und Praktikabilität von SER-Modellen aus, besonders im Zeitalter des Deep Learning, das große Mengen an Trainingsdaten erfordert. Effektive Datenerweiterungsmethoden sind entscheidend für die Verbesserung der Modellleistung.
Traditionelle Datenerweiterung: Einfache Signaltransformationen und Rauschzusätze sind nur gestörte Kopien der Originaldaten mit begrenztem Informationsgehalt
Bedingte generative Modelle: Gehen von einer deterministischen Abbildung von Emotionsetiketten zu generierten Stichproben aus, eine unrealistische Annahme, die keine Garantie für die Qualität generierter Stichproben bietet
Modalitätsübergreifende Methoden: Bestehende Arbeiten konzentrieren sich hauptsächlich auf die Ergänzung oder Wiederherstellung fehlender Modalitäten und fehlt ein explizites Erweiterungsframework zur Verbesserung der multimodalen Emotionserkennung
Dieses Papier geht davon aus, dass die Annahme einer deterministischen Abbildung von Emotionsetiketten zu generierten Stichproben durch bedingte generative Modelle nicht angemessen ist, und schlägt vor, gegenseitige Information-Regularisierung als Alternative zu verwenden, indem die Abhängigkeit zwischen generierten Stichproben und Klassenetiketten quantifiziert wird, um die Qualität der Datenerweiterung sicherzustellen.
Präsentation eines Datenerweiterungsframeworks für generative Modelle, das für SER und multimodale SER anwendbar ist und modalitätsübergreifende Informationsübertragung mit gegenseitiger Information-Regularisierung kombiniert
Einführung einer SER-Datenerweiterungsmethode, die modalitätsübergreifende Übertragung mit gegenseitiger Information kombiniert und mit InfoGAN-Architektur implementiert wird
Feststellung, dass der gegenseitige Information-Regularisierer eine beobachtbare Größe bietet, um die Abhängigkeit generierter Daten von Emotionen und Textinformationen zu überprüfen
Erweiterung auf multimodale Erweiterung, durch Generierung aller Kombinationen von Audio- und Textmerkmalen wird die Datengröße um das Vierfache erhöht
Gegenseitige Information-Qualitätsmetrik: Nutzung des gegenseitigen Information-Verlusts als beobachtbare Metrik für die Qualität generierter Stichproben
Modalitätsübergreifende Informationsübertragung: Lenkung der Audio-Merkmalsgenerierung durch Textinformationen zur Verbesserung der Generierungsqualität
Multimodale Erweiterung: Gleichzeitige Generierung von Audio- und Text-Merkmalen für echte multimodale Datenerweiterung
Merkmals-Generierung: Generierung im Merkmalsraum statt im ursprünglichen Signalraum zur Reduzierung der Komplexität
Einschließlich bestehender Datenerweiterungsmethoden von Sahu et al., Bao et al., Latif et al., Malik et al. und multimodaler Methoden wie MMIN, CIF-MMIN.
Auf dem IEMOCAP-Datensatz erreicht die Methode dieses Papiers 76,54% UAR bei der Audio+Text-Modalitätskombination und übertrifft bestehende Methoden wie CIF-MMIN (75,65%).
Effektivität der gegenseitigen Information-Regularisierung: Der gegenseitige Information-Verlust kann tatsächlich als Indikator für die Qualität generierter Stichproben dienen
Bedeutung modalitätsübergreifender Informationen: Textinformationen verbessern die Qualität der Audio-Merkmalsgenerierung erheblich
Behandlung von Klassenunausgeglichenheit: Auf dem MSP-Podcast-Datensatz lindert die Methode effektiv das Klassenunausgeglichenheitsproblem
Generierungsfähigkeit ohne modalitätsübergreifende Informationen: Das Framework kann neue Eingaben ohne andere Modalitätsinformationen generieren
Im Vergleich zu bestehenden Arbeiten kombiniert dieses Papier erstmals modalitätsübergreifende Übertragung mit gegenseitiger Information-Regularisierung und erweitert dies auf echte multimodale Datenerweiterung.
Starke Methodennovation: Erstmalige Kombination von gegenseitiger Information-Regularisierung mit modalitätsübergreifender Informationsübertragung für SER-Datenerweiterung
Umfassende Experimente: Vollständige Bewertung auf mehreren Benchmark-Datensätzen, einschließlich Ablationsstudien
Solide theoretische Grundlagen: Die gegenseitige Information-Theorie bietet theoretische Garantien für die Qualität generierter Stichproben
Hoher praktischer Wert: Die Methode zeigt gute Skalierbarkeit in praktischen Anwendungen
Das Papier zitiert 48 relevante Literaturquellen, die wichtige Arbeiten in den Bereichen SER, generative Modelle und multimodales Lernen abdecken und eine solide theoretische Grundlage und Vergleichsbenchmarks für die Forschung bieten.