This paper presents our contributions to the Speech Emotion Recognition in Naturalistic Conditions (SERNC) Challenge, where we address categorical emotion recognition and emotional attribute prediction. To handle the complexities of natural speech, including intra- and inter-subject variability, we propose Multi-level Acoustic-Textual Emotion Representation (MATER), a novel hierarchical framework that integrates acoustic and textual features at the word, utterance, and embedding levels. By fusing low-level lexical and acoustic cues with high-level contextualized representations, MATER effectively captures both fine-grained prosodic variations and semantic nuances. Additionally, we introduce an uncertainty-aware ensemble strategy to mitigate annotator inconsistencies, improving robustness in ambiguous emotional expressions. MATER ranks fourth in both tasks with a Macro-F1 of 41.01% and an average CCC of 0.5928, securing second place in valence prediction with an impressive CCC of 0.6941.
- ID Articolo: 2506.19887
- Titolo: MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition
- Autori: Hyo Jin Jon, Longbin Jin, Hyuntaek Jung, Hyunseo Kim, Donghun Min, Eun Yi Kim
- Classificazione: eess.AS cs.AI cs.SD
- Data di Pubblicazione/Conferenza: Interspeech 2025
- Link Articolo: https://arxiv.org/abs/2506.19887
Questo articolo propone MATER (Multi-level Acoustic-Textual Emotion Representation), un framework gerarchico multi-livello per il riconoscimento delle emozioni nel parlato in condizioni naturali. Il metodo integra caratteristiche acustiche e testuali a tre livelli: a livello di parola, di frase e di embedding, catturando efficacemente variazioni prosodiche a grana fine e sfumature semantiche attraverso la fusione di indizi lessicali e acustici di basso livello con rappresentazioni contestualizzate di alto livello. Inoltre, introduce una strategia di ensemble consapevole dell'incertezza per mitigare il problema dell'incoerenza tra annotatori, migliorando la robustezza nelle espressioni emotive ambigue. MATER si classifica al quarto posto in entrambi i compiti, raggiungendo un Macro-F1 del 41,01% e un CCC medio di 0,5928, ottenendo il secondo posto nella previsione del valore emotivo con un CCC di 0,6941.
- Complessità del riconoscimento delle emozioni nel parlato naturale: La maggior parte dei dataset SER esistenti non cattura completamente le espressioni emotive del mondo reale, consistendo tipicamente di registrazioni recitate o indotte, con scarsa capacità di generalizzazione.
- Variabilità intra-parlante e inter-parlante: Il parlato naturale presenta significative differenze individuali e complessità nell'espressione emotiva.
- Problema dell'incoerenza nell'annotazione: Le espressioni emotive sovrapposte, ambigue e altamente variabili portano a insufficiente consenso tra annotatori, introducendo variabilità di confidenza e bias di categoria.
L'emozione è fondamentale nell'esperienza umana, influenzando il processo decisionale, la comunicazione e la salute psicologica. Il parlato, come forma di comunicazione più comune, trasporta ricchi indizi emotivi, inclusi identità del parlante, stato emotivo e accento linguistico.
- La maggior parte dei dataset ha un numero limitato di partecipanti, riducendo la capacità di generalizzazione a scenari reali diversificati
- Manca un'integrazione efficace di caratteristiche multi-livello
- Non affronta adeguatamente il problema del bias causato dall'incoerenza nell'annotazione
- Propone il framework MATER: Un nuovo framework gerarchico che integra caratteristiche acustiche e testuali a tre livelli: parola, frase e embedding
- Fusione di caratteristiche multi-livello: Modella sistematicamente le emozioni dai segnali sintattico-prosodici di basso livello alle rappresentazioni contestualizzate di alto livello
- Strategia di ensemble consapevole dell'incertezza: Migliora la robustezza selezionando previsioni emotive con incertezza minima, mitigando il bias nell'annotazione
- Prestazioni eccellenti nella sfida SERNC: Quarto posto in entrambi i compiti, secondo posto nella previsione del valore emotivo
La ricerca affronta due compiti:
- Compito 1: Riconoscimento categorico delle emozioni: Classificazione di segmenti di parlato in 8 categorie emotive (rabbia, disprezzo, disgusto, paura, gioia, neutrale, tristezza, sorpresa)
- Compito 2: Previsione degli attributi emotivi: Valutazione su scala Likert a 7 punti su tre dimensioni emotive (arousal, dominanza, valenza emotiva)
MATER estrae caratteristiche acustiche e testuali a tre livelli distinti:
Caratteristiche a Livello di Parola (Word-level):
- Caratteristiche sintattiche: Utilizza il parser sintattico BERTweet per estrarre pattern linguistici, incluse informazioni sulla persona grammaticale dei pronomi, formando un vettore di caratteristiche sintattiche di 20 dimensioni
- Caratteristiche prosodiche: Utilizza la libreria openSMILE per estrarre un vettore di caratteristiche di 22 dimensioni, contenente loudness, jitter, shimmer, rapporto α e statistiche di segmenti sonori/sordi
- Forma rappresentazioni prosodiche consapevoli della sintassi attraverso concatenazione
Caratteristiche a Livello di Frase (Utterance-level):
- Caratteristiche emotive: Derivate dal set di caratteristiche SEANCE, producendo una rappresentazione di 517 dimensioni che cattura la tendenza emotiva dell'intera trascrizione
- Caratteristiche ritmiche: Analizzano fluidità, intensità e sfumature del parlato, inclusi loudness, jitter, shimmer, rapporto armonico-rumore (HNR), pause e statistiche di segmenti sonori/sordi, formando un vettore di caratteristiche di 34 dimensioni
Caratteristiche a Livello di Embedding (Embedding-level):
- Codificatore audio: WavLM e HuBERT catturano informazioni fonemiche e prosodiche ricche
- Codificatore testuale: BERT e T5 forniscono rappresentazioni di informazioni semantiche
- Post-pretraining sul corpus MSP-Podcast per migliorare l'adattamento al dominio
- Livello di parola: Elaborazione attraverso LSTM a due strati, con lo stato nascosto finale come embedding a livello di parola
- Livello di frase: Prima attraverso uno strato di embedding lineare parziale (PLE), quindi attraverso uno strato lineare per produrre rappresentazioni di dimensione fissa
- Livello di embedding: Quando si utilizzano più fonti di embedding, si utilizza l'architettura Perceiver per la fusione; altrimenti si utilizzano direttamente le caratteristiche pooled
- Fusione finale: Gli embedding multi-livello concatenati vengono inseriti in uno strato lineare per la previsione
- Modellazione multi-livello delle caratteristiche: Cattura sistematicamente informazioni emotive complete dai segnali sintattici-prosodici a grana fine alle rappresentazioni semantiche di alto livello
- Rappresentazione prosodica consapevole della sintassi: Modella l'interazione tra struttura linguistica e intonazione, che gioca un ruolo cruciale nell'espressione emotiva
- Strategia di adattamento al dominio: Post-pretraining dei codificatori pre-addestrati sul dataset target
- Ensemble consapevole dell'incertezza: Stima l'incertezza cognitiva ordinando le probabilità di previsione, dando priorità alle previsioni ad alta confidenza
Utilizza il corpus MSP-Podcast:
- Set di addestramento: 84.260 campioni da 2.112 parlanti
- Set di sviluppo: 31.961 campioni da 714 parlanti
- Set di test: 3.200 campioni bilanciati, coprendo 8 categorie emotive
- Trascrizioni generate utilizzando Whisper-large-v3 e allineamento forzato
- Compito 1: Macro-F1 e accuratezza
- Compito 2: Coefficiente di correlazione di concordanza (CCC)
- Metodo baseline WavLM
- Esperimenti di ablazione con varie combinazioni di caratteristiche
- Confronto di diverse strategie di ensemble
- Proiezione di caratteristiche a livello di parola e frase a vettori di 128 dimensioni
- Perceiver produce output di 768 dimensioni, utilizzando un array latente di 64×768
- Funzioni di perdita specifiche per compito: entropia incrociata ponderata per il Compito 1, perdita CCC per il Compito 2
- Addestramento per 50 epoch, tasso di apprendimento da 1×10^-5 a 5×10^-7, dimensione batch 128-2048
Compito 1 (Riconoscimento categorico delle emozioni):
- Risultati di sottomissione finale: Macro-F1 = 41,01%, Accuratezza = 40,97%
- Miglioramento significativo rispetto al baseline WavLM (32,93% Macro-F1)
- Quarto posto nella sfida SERNC
Compito 2 (Previsione degli attributi emotivi):
- CCC medio = 0,5928
- CCC previsione valenza emotiva = 0,6941 (secondo posto)
- CCC arousal = 0,6119
- CCC dominanza = 0,4775
- Contributo dei livelli di caratteristiche: Le caratteristiche a livello di parola contribuiscono più di quelle a livello di frase, indicando che la prosodica consapevole della sintassi è più informativa per il riconoscimento categorico delle emozioni
- Effetto delle etichette soft: Efficace nei modelli di fine-tuning, ma con guadagni marginali limitati in MATER
- Confronto delle strategie di ensemble: L'ensemble consapevole dell'incertezza supera la media e il voto di maggioranza
Analisi post-sfida:
- Le caratteristiche acustiche superano quelle testuali in entrambi i compiti
- Diversi codificatori ottimali per diversi compiti, enfatizzando la necessità della selezione di codificatori specifici per compito
- La fusione multimodale in MATER migliora le prestazioni a livello di parola e frase
- La valenza emotiva dipende più dal testo, mentre arousal e dominanza dipendono più dai segnali acustici
- Metodi SER tradizionali: Principalmente utilizzano dataset recitati o indotti
- SER nel parlato naturale: Emergenza di dataset come MSP-Podcast
- Riconoscimento multimodale delle emozioni: Fusione di caratteristiche acustiche e testuali
- Gestione dell'incertezza: Metodi per affrontare l'incoerenza nell'annotazione
- Modellazione sistematica multi-livello delle caratteristiche
- Nuova strategia di ensemble consapevole dell'incertezza
- Validazione su dataset di parlato naturale su larga scala
MATER migliora efficacemente le prestazioni del riconoscimento delle emozioni nel parlato in condizioni naturali attraverso la fusione multi-livello delle caratteristiche e l'ensemble consapevole dell'incertezza, con prestazioni particolarmente eccellenti nella previsione della valenza emotiva.
- Previsione di arousal e dominanza: Rimangono sfidanti, possibilmente perché la strategia di fusione orientata al testo non sfrutta adeguatamente le variazioni acustiche
- Complessità computazionale: L'estrazione di caratteristiche multi-livello e l'architettura Perceiver aumentano il carico computazionale
- Adattamento al dominio: Principalmente validato su dati podcast, la capacità di generalizzazione ad altri domini rimane da verificare
- Selezione di caratteristiche specifiche per emozione: Pesi di caratteristiche adattivi per diverse dimensioni emotive
- Strategia di fusione dinamica: Fusione dinamica che bilancia l'integrazione audio-testo
- Estensione a dataset diversificati: Validazione delle prestazioni di MATER su diversi dataset SER
- Innovazione metodologica: La modellazione multi-livello delle caratteristiche e l'ensemble consapevole dell'incertezza sono innovativi
- Progettazione sistematica: Il design completo dei livelli di caratteristiche da parola a embedding è ben strutturato
- Completezza sperimentale: Esperimenti di ablazione dettagliati e analisi post-sfida forniscono approfondimenti significativi
- Valore applicativo pratico: Le prestazioni eccellenti nella sfida su larga scala dimostrano l'efficacia pratica del metodo
- Analisi teorica insufficiente: Manca una spiegazione teorica del perché la fusione multi-livello sia efficace
- Analisi dell'efficienza computazionale: Mancano analisi dettagliate della complessità computazionale e del tempo di inferenza
- Generalizzazione cross-dominio: Validato solo su dati podcast, mancano esperimenti cross-dominio
- Interpretabilità: Sebbene il titolo menzioni interpretabilità, l'articolo manca di analisi correlate
- Contributo accademico: Fornisce nuove prospettive di framework per il riconoscimento delle emozioni nel parlato naturale
- Valore pratico: Le prestazioni eccellenti nella sfida pratica dimostrano l'applicabilità del metodo
- Riproducibilità: I dettagli di implementazione dettagliati facilitano la riproduzione
- Sistemi di riconoscimento delle emozioni nel parlato naturale
- Applicazioni di analisi emotiva multimodale
- Compiti di calcolo emotivo che richiedono la gestione dell'incertezza nell'annotazione
- Scenari di parlato naturale come podcast e sistemi di dialogo
L'articolo cita 68 riferimenti correlati, coprendo importanti lavori nei campi del calcolo emotivo, dell'elaborazione del parlato e dell'apprendimento profondo, fornendo una solida base teorica per la ricerca.