This paper presents our contributions to the Speech Emotion Recognition in Naturalistic Conditions (SERNC) Challenge, where we address categorical emotion recognition and emotional attribute prediction. To handle the complexities of natural speech, including intra- and inter-subject variability, we propose Multi-level Acoustic-Textual Emotion Representation (MATER), a novel hierarchical framework that integrates acoustic and textual features at the word, utterance, and embedding levels. By fusing low-level lexical and acoustic cues with high-level contextualized representations, MATER effectively captures both fine-grained prosodic variations and semantic nuances. Additionally, we introduce an uncertainty-aware ensemble strategy to mitigate annotator inconsistencies, improving robustness in ambiguous emotional expressions. MATER ranks fourth in both tasks with a Macro-F1 of 41.01% and an average CCC of 0.5928, securing second place in valence prediction with an impressive CCC of 0.6941.
MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition
- Papier-ID: 2506.19887
- Titel: MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition
- Autoren: Hyo Jin Jon, Longbin Jin, Hyuntaek Jung, Hyunseo Kim, Donghun Min, Eun Yi Kim
- Klassifizierung: eess.AS cs.AI cs.SD
- Veröffentlichungszeitpunkt/Konferenz: Interspeech 2025
- Papierlink: https://arxiv.org/abs/2506.19887
Dieses Papier präsentiert MATER (Multi-level Acoustic-Textual Emotion Representation), ein mehrstufiges hierarchisches Framework zur Sprachemotion-Erkennung unter natürlichen Bedingungen. Die Methode integriert akustische und textuelle Merkmale auf drei Ebenen – Wort-, Satz- und Embedding-Ebene – und erfasst dadurch effektiv feinkörnige prosodische Variationen und semantische Nuancen durch die Fusion von niederstufigen lexikalischen und akustischen Hinweisen mit hochstufigen kontextualisierten Repräsentationen. Darüber hinaus wird eine unsicherheitsgesteuerte Ensemble-Strategie eingeführt, um die Inkonsistenz von Annotatoren zu mildern und die Robustheit bei mehrdeutigen Emotionsausdrücken zu verbessern. MATER rangiert in beiden Aufgaben auf Platz vier mit einem Macro-F1 von 41,01% und einem durchschnittlichen CCC von 0,5928, erreicht den zweiten Platz bei der Emotionswert-Vorhersage mit einem CCC von 0,6941.
- Komplexität der Sprachemotion-Erkennung unter natürlichen Bedingungen: Die meisten vorhandenen SER-Datensätze können echte emotionale Ausdrücke nicht vollständig erfassen und bestehen typischerweise aus gespielten oder induzierten Aufnahmen, denen es an Verallgemeinerungsfähigkeit mangelt.
- Intra- und Intersprecher-Variabilität: Natürliche Sprache weist erhebliche individuelle Unterschiede und Komplexität in der Emotionsausdrucksweise auf.
- Problem der Annotator-Inkonsistenz: Überlappende, mehrdeutige und hochgradig variable Emotionsausdrücke führen zu unzureichendem Annotator-Konsens und führen Konfidenzunterschiede und Klassenbias ein.
Emotion ist grundlegend für menschliche Erfahrung und beeinflusst Entscheidungsfindung, Kommunikation und psychische Gesundheit. Sprache als häufigste Kommunikationsform trägt reichhaltige emotionale Hinweise, einschließlich Sprecheridentität, Emotionalzustand und sprachliche Betonung.
- Die meisten Datensätze haben eine begrenzte Anzahl von Teilnehmern, was die Verallgemeinerungsfähigkeit auf vielfältige reale Szenarien verringert
- Mangelnde effektive Integration mehrstufiger Merkmale
- Unzureichende Behandlung von Bias-Problemen durch Annotator-Inkonsistenz
- Vorschlag des MATER-Frameworks: Ein neuartiges hierarchisches Framework, das akustische und textuelle Merkmale auf drei Ebenen – Wort-, Satz- und Embedding-Ebene – integriert
- Mehrstufige Merkmalsfusion: Systematische Modellierung von Emotionen von niederstufigen syntaktischen und prosodischen Hinweisen bis zu hochstufigen kontextualisierten Repräsentationen
- Unsicherheitsgesteuerte Ensemble-Strategie: Verbesserung der Robustheit durch Auswahl von Emotionsvorhersagen mit minimaler Unsicherheit zur Milderung von Annotationsbias
- Hervorragende Leistung in der SERNC-Challenge: Platz vier in beiden Aufgaben, zweiter Platz bei der Emotionswert-Vorhersage
Die Forschung konzentriert sich auf zwei Aufgaben:
- Aufgabe 1: Kategorische Emotionserkennung: Klassifizierung von Sprachfragmenten in 8 Emotionskategorien (Wut, Verachtung, Ekel, Angst, Freude, Neutral, Trauer, Überraschung)
- Aufgabe 2: Emotionsattribut-Vorhersage: 7-Punkte-Likert-Skalen-Bewertung auf drei Emotionsdimensionen (Erregung, Dominanz, Emotionswert)
MATER extrahiert akustische und textuelle Merkmale auf drei verschiedenen Ebenen:
Wort-Ebene (Word-level):
- Syntaktische Merkmale: Verwendung des BERTweet-Parsers zur Extraktion von Sprachmuster, einschließlich grammatikalischer Personinformation von Pronomen, bildend einen 20-dimensionalen syntaktischen Merkmalsvektor
- Prosodische Merkmale: Verwendung der openSMILE-Bibliothek zur Extraktion eines 22-dimensionalen Merkmalsvektors, einschließlich Lautheit, Jitter, Shimmer, α-Verhältnis und Statistiken stimmhafter/stimmloser Segmente
- Bildung einer syntaktisch bewussten prosodischen Repräsentation durch Verkettung
Satz-Ebene (Utterance-level):
- Emotionale Merkmale: Abgeleitet aus dem SEANCE-Merkmalssatz, erzeugend eine 517-dimensionale Repräsentation, erfassend die emotionale Tendenz des gesamten Transkripts
- Rhythmische Merkmale: Analyse der Flüssigkeit, Intensität und Nuancen der Sprache, einschließlich Lautheit, Jitter, Shimmer, Harmonics-to-Noise Ratio (HNR), Pausen und stimmhaft/stimmlos Statistiken, bildend einen 34-dimensionalen Merkmalsvektor
Embedding-Ebene (Embedding-level):
- Audio-Encoder: WavLM und HuBERT erfassen reichhaltige phonemische und prosodische Informationen
- Text-Encoder: BERT und T5 bieten semantische Informationsrepräsentation
- Post-Pretraining auf dem MSP-Podcast-Korpus zur Verbesserung der Domänenadaption
- Wort-Ebene: Verarbeitung durch zweischichtige LSTM, wobei der endgültige verborgene Zustand als Wort-Ebenen-Embedding dient
- Satz-Ebene: Zunächst durch Piecewise Linear Embedding (PLE)-Schicht, dann durch lineare Schicht zur Erzeugung einer Repräsentation mit fester Dimension
- Embedding-Ebene: Verwendung der Perceiver-Architektur zur Fusion bei mehreren Embedding-Quellen; andernfalls direkte Verwendung gepoolter Merkmale
- Finale Fusion: Verkettete mehrstufige Embeddings werden in eine lineare Schicht zur Vorhersage eingegeben
- Mehrstufige Merkmalmodellierung: Systematische Erfassung vollständiger Emotionsinformationen von feinkörnigen syntaktischen prosodischen Hinweisen bis zu hochstufigen semantischen Repräsentationen
- Syntaktisch bewusste prosodische Repräsentation: Modellierung der Wechselwirkung zwischen Sprachstruktur und Intonation, die eine Schlüsselrolle in der Emotionsausdrucksweise spielt
- Domänenadaptationsstrategie: Post-Pretraining vortrainierter Encoder auf dem Zieldatensatz
- Unsicherheitsgesteuerte Ensemble-Methode: Schätzung kognitiver Unsicherheit durch Sortierung von Vorhersagewahrscheinlichkeiten, Priorisierung hochkonfidenter Vorhersagen
Verwendung des MSP-Podcast-Korpus:
- Trainingssatz: 84.260 Proben von 2.112 Sprechern
- Entwicklungssatz: 31.961 Proben von 714 Sprechern
- Testsatz: 3.200 ausgewogene Proben über 8 Emotionskategorien
- Verwendung von Whisper-large-v3 zur Erzeugung von Transkripten und erzwungener Ausrichtung
- Aufgabe 1: Macro-F1 und Genauigkeit
- Aufgabe 2: Konkordanz-Korrelationskoeffizient (CCC)
- WavLM-Baseline-Methode
- Ablationsstudien verschiedener Merkmalskombinationen
- Vergleich verschiedener Ensemble-Strategien
- Projektion von Wort- und Satz-Ebenen-Merkmalen auf 128-dimensionale Vektoren
- Perceiver erzeugt 768-dimensionale Ausgabe mit 64×768 latenter Array
- Aufgabenspezifische Verlustfunktionen: Aufgabe 1 verwendet gewichtete Kreuzentropie, Aufgabe 2 verwendet CCC-Verlust
- Training über 50 Epochen, Lernrate 1×10^-5 bis 5×10^-7, Batch-Größe 128-2048
Aufgabe 1 (Kategorische Emotionserkennung):
- Endergebnis: Macro-F1 = 41,01%, Genauigkeit = 40,97%
- Signifikante Verbesserung gegenüber WavLM-Baseline (32,93% Macro-F1)
- Platz vier in der SERNC-Challenge
Aufgabe 2 (Emotionsattribut-Vorhersage):
- Durchschnittlicher CCC = 0,5928
- Emotionswert-Vorhersage CCC = 0,6941 (zweiter Platz)
- Erregung CCC = 0,6119
- Dominanz CCC = 0,4775
- Merkmalsebenenbeitrag: Wort-Ebenen-Merkmale tragen mehr bei als Satz-Ebenen-Merkmale, was darauf hindeutet, dass syntaktisch bewusste Prosodie informativer für kategorische Emotionserkennung ist
- Soft-Label-Effekt: Wirksam in feingekoppelten Modellen, aber mit begrenztem Grenznutzen in MATER
- Ensemble-Strategievergleich: Unsicherheitsgesteuerte Ensemble übertrifft Durchschnitts- und Mehrheitsabstimmungsstrategien
Post-Challenge-Analyse:
- Akustische Merkmale übertreffen textuelle Merkmale in beiden Aufgaben
- Unterschiedliche Aufgaben erfordern unterschiedliche optimale Encoder, was die Notwendigkeit aufgabenspezifischer Encoder-Auswahl unterstreicht
- Multimodale Fusion in MATER verbessert die Leistung auf Wort- und Satz-Ebene
- Emotionswert hängt stärker von Text ab, während Erregung und Dominanz stärker von akustischen Hinweisen abhängen
- Traditionelle SER-Methoden: Hauptsächlich Verwendung von gespielten oder induzierten Datensätzen
- Natürliche Sprach-SER: Entstehung von Datensätzen wie MSP-Podcast
- Multimodale Emotionserkennung: Fusion akustischer und textueller Merkmale
- Unsicherheitsbehandlung: Methoden zur Behandlung von Annotator-Inkonsistenz
- Systematische mehrstufige Merkmalmodellierung
- Neuartige unsicherheitsgesteuerte Ensemble-Strategie
- Validierung auf großflächigen natürlichen Sprachdatensätzen
MATER verbessert effektiv die Leistung der Sprachemotion-Erkennung unter natürlichen Bedingungen durch mehrstufige Merkmalsfusion und unsicherheitsgesteuerte Ensemble-Methoden, besonders hervorragend bei der Emotionswert-Vorhersage.
- Erregung- und Dominanz-Vorhersage: Bleiben herausfordernd, möglicherweise weil textorientierte Fusionsstrategien akustische Variationen nicht ausreichend nutzen
- Rechenkomplexität: Mehrstufige Merkmalextraktion und Perceiver-Architektur erhöhen den Rechenaufwand
- Domänenadaption: Hauptsächlich auf Podcast-Daten validiert, Verallgemeinerungsfähigkeit auf andere Domänen bleibt zu überprüfen
- Emotionsspezifische Merkmalsauswahl: Adaptive Merkmalgewichtung für verschiedene Emotionsdimensionen
- Dynamische Fusionsstrategie: Dynamische Fusion zur Ausgewogenheit der Audio-Text-Integration
- Erweiterung auf vielfältige Datensätze: Validierung der MATER-Leistung auf verschiedenen SER-Datensätzen
- Methodische Innovativität: Mehrstufige Merkmalmodellierung und unsicherheitsgesteuerte Ensemble-Methode zeigen Neuheit
- Systematisches Design: Vollständiges Merkmalsebendesign von Wort- bis Embedding-Ebene ist angemessen
- Experimentelle Vollständigkeit: Detaillierte Ablationsstudien und Nachanalysen bieten tiefe Einblicke
- Praktischer Anwendungswert: Validierung durch hervorragende Leistung in großflächigen Challenges
- Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum mehrstufige Fusion wirksam ist
- Fehlende Effizienzanalyse: Keine detaillierte Analyse der Rechenkomplexität und Inferenzzeit
- Begrenzte Domänenübergreifung: Nur auf Podcast-Daten validiert, fehlende domänenübergreifende Experimente
- Mangelnde Interpretierbarkeit: Obwohl der Titel Interpretierbarkeit erwähnt, fehlt entsprechende Analyse im Papier
- Akademischer Beitrag: Bietet neue Framework-Perspektiven für natürliche Sprachemotion-Erkennung
- Praktischer Wert: Hervorragende Leistung in praktischen Challenges beweist Praktikabilität der Methode
- Reproduzierbarkeit: Detaillierte Implementierungsdetails fördern Reproduzierbarkeit
- Systeme zur natürlichen Sprachemotion-Erkennung
- Multimodale Emotionsanalyse-Anwendungen
- Emotionsberechnungsaufgaben, die Umgang mit Annotationsunsicherheit erfordern
- Natürliche Sprachszenarien wie Podcasts und Dialogsysteme
Das Papier zitiert 68 verwandte Literaturquellen, die wichtige Arbeiten in den Bereichen Emotionsberechnung, Sprachverarbeitung und tiefes Lernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.