2025-11-13T00:52:10.146166

MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition

Jon, Jin, Jung et al.

This paper presents our contributions to the Speech Emotion Recognition in Naturalistic Conditions (SERNC) Challenge, where we address categorical emotion recognition and emotional attribute prediction. To handle the complexities of natural speech, including intra- and inter-subject variability, we propose Multi-level Acoustic-Textual Emotion Representation (MATER), a novel hierarchical framework that integrates acoustic and textual features at the word, utterance, and embedding levels. By fusing low-level lexical and acoustic cues with high-level contextualized representations, MATER effectively captures both fine-grained prosodic variations and semantic nuances. Additionally, we introduce an uncertainty-aware ensemble strategy to mitigate annotator inconsistencies, improving robustness in ambiguous emotional expressions. MATER ranks fourth in both tasks with a Macro-F1 of 41.01% and an average CCC of 0.5928, securing second place in valence prediction with an impressive CCC of 0.6941.

academic

MATER: Representación Multi-nivel de Emoción Acústica y Textual para el Reconocimiento Interpretable de Emociones en el Habla

Información Básica

ID del Artículo: 2506.19887
Título: MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition
Autores: Hyo Jin Jon, Longbin Jin, Hyuntaek Jung, Hyunseo Kim, Donghun Min, Eun Yi Kim
Clasificación: eess.AS cs.AI cs.SD
Fecha de Publicación/Conferencia: Interspeech 2025
Enlace del Artículo: https://arxiv.org/abs/2506.19887

Resumen

Este artículo propone MATER (Representación Multi-nivel de Emoción Acústica-Textual), un marco jerárquico multinivel para el reconocimiento de emociones en el habla en condiciones naturales. El método integra características acústicas y textuales en tres niveles: nivel de palabra, nivel de enunciado y nivel de incrustación, capturando efectivamente variaciones prosódicas de grano fino y matices semánticos mediante la fusión de señales léxicas y acústicas de bajo nivel con representaciones contextualizadas de alto nivel. Además, se introduce una estrategia de conjunto consciente de la incertidumbre para mitigar el problema de inconsistencia de anotadores y mejorar la robustez en expresiones emocionales ambiguas. MATER se clasificó en cuarto lugar en ambas tareas, con un Macro-F1 de 41.01% y un CCC promedio de 0.5928, obteniendo el segundo lugar en predicción de valencia emocional con un CCC de 0.6941.

Antecedentes de Investigación y Motivación

Definición del Problema

Complejidad del reconocimiento de emociones en habla natural: La mayoría de los conjuntos de datos SER existentes no capturan completamente las expresiones emocionales del mundo real, consistiendo típicamente en grabaciones actuadas o inducidas, careciendo de capacidad de generalización.
Variabilidad intra-hablante e inter-hablante: El habla natural presenta diferencias individuales significativas y complejidad en la expresión emocional.
Problema de inconsistencia de anotadores: Las expresiones emocionales superpuestas, ambiguas y altamente variables resultan en consenso insuficiente entre anotadores, introduciendo variabilidad de confianza y sesgo de categoría.

Importancia de la Investigación

La emoción es fundamental en la experiencia humana, influyendo en la toma de decisiones, la comunicación y la salud mental. El habla, como forma de comunicación más común, transporta señales emocionales ricas, incluyendo identidad del hablante, estado emocional y énfasis lingüístico.

Limitaciones de Métodos Existentes

La mayoría de los conjuntos de datos tienen un número limitado de participantes, reduciendo la capacidad de generalización a escenarios reales diversificados
Falta de integración efectiva de características multinivel
Incapacidad para manejar efectivamente los sesgos introducidos por inconsistencia de anotadores

Contribuciones Principales

Propuesta del marco MATER: Un marco jerárquico novedoso que integra características acústicas y textuales en tres niveles: palabra, enunciado e incrustación
Fusión de características multinivel: Modelado sistemático desde señales sintácticas y prosódicas de bajo nivel hasta representaciones contextualizadas de alto nivel
Estrategia de conjunto consciente de la incertidumbre: Mejora de la robustez mediante selección de predicciones emocionales con incertidumbre mínima, mitigando sesgos de anotación
Desempeño excepcional en el desafío SERNC: Clasificación en cuarto lugar en ambas tareas, segundo lugar en predicción de valencia emocional

Explicación Detallada del Método

Definición de Tareas

La investigación aborda dos tareas:

Tarea 1: Reconocimiento de Emociones Categóricas: Clasificación de fragmentos de habla en 8 categorías emocionales (ira, desprecio, disgusto, miedo, alegría, neutral, tristeza, sorpresa)
Tarea 2: Predicción de Atributos Emocionales: Puntuación en escala Likert de 7 puntos en tres dimensiones emocionales (activación, dominancia, valencia)

Arquitectura del Modelo

Extracción de Características

MATER extrae características acústicas y textuales en tres niveles diferentes:

Características a Nivel de Palabra (Word-level):

Características sintácticas: Utiliza el analizador sintáctico BERTweet para extraer patrones lingüísticos, incluyendo información de persona gramatical de pronombres, formando un vector de características sintácticas de 20 dimensiones
Características prosódicas: Utiliza la biblioteca openSMILE para extraer un vector de características de 22 dimensiones, incluyendo sonoridad, vibrato, temblor, relación α y estadísticas de segmentos sonoros/sordos
Formación de representación prosódica consciente de sintaxis mediante concatenación

Características a Nivel de Enunciado (Utterance-level):

Características emocionales: Derivadas del conjunto de características SEANCE, produciendo una representación de 517 dimensiones que captura la tendencia emocional de toda la transcripción
Características rítmicas: Análisis de fluidez, intensidad y matices del habla, incluyendo sonoridad, vibrato, temblor, relación armónico-ruido (HNR), pausas y estadísticas de segmentos sonoros/sordos, formando un vector de características de 34 dimensiones

Características a Nivel de Incrustación (Embedding-level):

Codificador de audio: WavLM y HuBERT capturan información fonémica y prosódica rica
Codificador de texto: BERT y T5 proporcionan representación de información semántica
Post-entrenamiento en el corpus MSP-Podcast para mejorar adaptación de dominio

Agregación de Características

Nivel de palabra: Procesamiento mediante LSTM de dos capas, con el estado oculto final como incrustación a nivel de palabra
Nivel de enunciado: Primero a través de capa de incrustación lineal segmentada (PLE), luego a través de capa lineal para producir representación de dimensión fija
Nivel de incrustación: Cuando se utilizan múltiples fuentes de incrustación, se emplea arquitectura Perceiver para fusión; de lo contrario, se utilizan directamente características agrupadas
Fusión final: Las incrustaciones multinivel concatenadas se introducen en una capa lineal para predicción

Puntos de Innovación Técnica

Modelado de características multinivel: Captura sistemática de información emocional completa desde señales sintácticas prosódicas de grano fino hasta representaciones semánticas de alto nivel
Representación prosódica consciente de sintaxis: Modelado de la interacción entre estructura lingüística e inflexión, que juega un papel clave en la expresión emocional
Estrategia de adaptación de dominio: Post-entrenamiento de codificadores pre-entrenados en el conjunto de datos objetivo
Conjunto consciente de la incertidumbre: Estimación de incertidumbre cognitiva mediante clasificación de probabilidades de predicción, priorizando predicciones de alta confianza

Configuración Experimental

Conjunto de Datos

Utiliza el corpus MSP-Podcast:

Conjunto de entrenamiento: 84,260 muestras de 2,112 hablantes
Conjunto de desarrollo: 31,961 muestras de 714 hablantes
Conjunto de prueba: 3,200 muestras equilibradas cubriendo 8 categorías emocionales
Transcripciones generadas mediante Whisper-large-v3 y alineación forzada

Métricas de Evaluación

Tarea 1: Macro-F1 y precisión
Tarea 2: Coeficiente de correlación de concordancia (CCC)

Métodos de Comparación

Método de línea base WavLM
Experimentos de ablación con varias combinaciones de características
Comparación de diferentes estrategias de conjunto

Detalles de Implementación

Proyección de características a nivel de palabra y enunciado a vectores de 128 dimensiones
Perceiver produce salida de 768 dimensiones, utilizando matriz latente de 64×768
Funciones de pérdida específicas de tarea: entropía cruzada ponderada para Tarea 1, pérdida CCC para Tarea 2
Entrenamiento durante 50 épocas, tasa de aprendizaje de 1×10^-5 a 5×10^-7, tamaño de lote 128-2048

Resultados Experimentales

Resultados Principales

Tarea 1 (Reconocimiento de Emociones Categóricas):

Resultado de envío final: Macro-F1 = 41.01%, Precisión = 40.97%
Mejora significativa en comparación con línea base WavLM (32.93% Macro-F1)
Clasificación en cuarto lugar en el desafío SERNC

Tarea 2 (Predicción de Atributos Emocionales):

CCC promedio = 0.5928
CCC de predicción de valencia = 0.6941 (segundo lugar)
CCC de activación = 0.6119
CCC de dominancia = 0.4775

Experimentos de Ablación

Contribución de niveles de características: Las características a nivel de palabra contribuyen más que las características a nivel de enunciado, indicando que la prosodia consciente de sintaxis es más informativa para el reconocimiento de emociones categóricas
Efecto de etiquetas suaves: Efectivo en modelos de ajuste fino, pero con ganancias marginales limitadas en MATER
Comparación de estrategias de conjunto: El conjunto consciente de la incertidumbre supera al promediado y votación por mayoría

Hallazgos Experimentales

Análisis Post-Desafío:

Las características acústicas superan a las características textuales en ambas tareas
Los codificadores óptimos difieren entre tareas, enfatizando la necesidad de selección de codificador específica de tarea
La fusión multimodal en MATER mejora el desempeño en niveles de palabra y enunciado
La valencia emocional depende más del texto, mientras que la activación y dominancia dependen más de señales acústicas

Trabajo Relacionado

Direcciones de Investigación Principales

Métodos SER tradicionales: Principalmente utilizan conjuntos de datos actuados o inducidos
SER en habla natural: Surgimiento de conjuntos de datos como MSP-Podcast
Reconocimiento de emociones multimodal: Fusión de características acústicas y textuales
Manejo de incertidumbre: Métodos para abordar inconsistencia de anotadores

Ventajas de Este Artículo

Modelado sistemático de características multinivel
Estrategia novedosa de conjunto consciente de la incertidumbre
Validación en conjunto de datos de habla natural a gran escala

Conclusiones y Discusión

Conclusiones Principales

MATER mejora efectivamente el desempeño del reconocimiento de emociones en el habla en condiciones naturales mediante fusión de características multinivel e integración consciente de la incertidumbre, destacando particularmente en predicción de valencia emocional.

Limitaciones

Predicción de activación y dominancia: Aún presenta desafíos, posiblemente debido a que la estrategia de fusión orientada al texto no aprovecha suficientemente las variaciones acústicas
Complejidad computacional: La extracción de características multinivel y la arquitectura Perceiver aumentan la carga computacional
Adaptación de dominio: Validación principalmente en datos de podcast, con capacidad de generalización a otros dominios pendiente de verificación

Direcciones Futuras

Selección de características específica de emoción: Adopción de pesos de características adaptativos para diferentes dimensiones emocionales
Estrategia de fusión dinámica: Fusión dinámica que equilibre la integración audio-texto
Extensión a conjuntos de datos diversificados: Validación del desempeño de MATER en diferentes conjuntos de datos SER

Evaluación Profunda

Fortalezas

Innovación metodológica: El modelado de características multinivel y la integración consciente de la incertidumbre poseen novedad
Diseño sistemático: El diseño completo de niveles de características desde palabra hasta incrustación es razonable
Suficiencia experimental: Experimentos de ablación detallados y análisis posteriores proporcionan perspectivas profundas
Valor de aplicación práctica: El desempeño excepcional en desafíos a gran escala valida la efectividad del método

Insuficiencias

Análisis teórico limitado: Falta de explicación teórica sobre por qué la fusión multinivel es efectiva
Análisis de eficiencia computacional: No se proporciona análisis detallado de complejidad computacional y tiempo de inferencia
Generalización entre dominios: Validación solo en datos de podcast, careciendo de experimentos entre dominios
Interpretabilidad: Aunque el título menciona interpretabilidad, el artículo carece de análisis relacionado

Impacto

Contribución académica: Proporciona nuevo marco conceptual para reconocimiento de emociones en habla natural
Valor práctico: El desempeño excepcional en desafíos reales demuestra practicidad del método
Reproducibilidad: Proporciona detalles de implementación detallados, facilitando reproducción

Escenarios Aplicables

Sistemas de reconocimiento de emociones en habla natural
Aplicaciones de análisis de emociones multimodal
Tareas de computación emocional que requieren manejo de incertidumbre de anotación
Escenarios de habla natural como podcasts y sistemas de diálogo

Referencias

El artículo cita 68 referencias relacionadas, cubriendo trabajos importantes en computación emocional, procesamiento de habla, aprendizaje profundo y campos relacionados, proporcionando una base teórica sólida para la investigación.