This paper presents our contributions to the Speech Emotion Recognition in Naturalistic Conditions (SERNC) Challenge, where we address categorical emotion recognition and emotional attribute prediction. To handle the complexities of natural speech, including intra- and inter-subject variability, we propose Multi-level Acoustic-Textual Emotion Representation (MATER), a novel hierarchical framework that integrates acoustic and textual features at the word, utterance, and embedding levels. By fusing low-level lexical and acoustic cues with high-level contextualized representations, MATER effectively captures both fine-grained prosodic variations and semantic nuances. Additionally, we introduce an uncertainty-aware ensemble strategy to mitigate annotator inconsistencies, improving robustness in ambiguous emotional expressions. MATER ranks fourth in both tasks with a Macro-F1 of 41.01% and an average CCC of 0.5928, securing second place in valence prediction with an impressive CCC of 0.6941.
- ID del Artículo: 2506.19887
- Título: MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition
- Autores: Hyo Jin Jon, Longbin Jin, Hyuntaek Jung, Hyunseo Kim, Donghun Min, Eun Yi Kim
- Clasificación: eess.AS cs.AI cs.SD
- Fecha de Publicación/Conferencia: Interspeech 2025
- Enlace del Artículo: https://arxiv.org/abs/2506.19887
Este artículo propone MATER (Representación Multi-nivel de Emoción Acústica-Textual), un marco jerárquico multinivel para el reconocimiento de emociones en el habla en condiciones naturales. El método integra características acústicas y textuales en tres niveles: nivel de palabra, nivel de enunciado y nivel de incrustación, capturando efectivamente variaciones prosódicas de grano fino y matices semánticos mediante la fusión de señales léxicas y acústicas de bajo nivel con representaciones contextualizadas de alto nivel. Además, se introduce una estrategia de conjunto consciente de la incertidumbre para mitigar el problema de inconsistencia de anotadores y mejorar la robustez en expresiones emocionales ambiguas. MATER se clasificó en cuarto lugar en ambas tareas, con un Macro-F1 de 41.01% y un CCC promedio de 0.5928, obteniendo el segundo lugar en predicción de valencia emocional con un CCC de 0.6941.
- Complejidad del reconocimiento de emociones en habla natural: La mayoría de los conjuntos de datos SER existentes no capturan completamente las expresiones emocionales del mundo real, consistiendo típicamente en grabaciones actuadas o inducidas, careciendo de capacidad de generalización.
- Variabilidad intra-hablante e inter-hablante: El habla natural presenta diferencias individuales significativas y complejidad en la expresión emocional.
- Problema de inconsistencia de anotadores: Las expresiones emocionales superpuestas, ambiguas y altamente variables resultan en consenso insuficiente entre anotadores, introduciendo variabilidad de confianza y sesgo de categoría.
La emoción es fundamental en la experiencia humana, influyendo en la toma de decisiones, la comunicación y la salud mental. El habla, como forma de comunicación más común, transporta señales emocionales ricas, incluyendo identidad del hablante, estado emocional y énfasis lingüístico.
- La mayoría de los conjuntos de datos tienen un número limitado de participantes, reduciendo la capacidad de generalización a escenarios reales diversificados
- Falta de integración efectiva de características multinivel
- Incapacidad para manejar efectivamente los sesgos introducidos por inconsistencia de anotadores
- Propuesta del marco MATER: Un marco jerárquico novedoso que integra características acústicas y textuales en tres niveles: palabra, enunciado e incrustación
- Fusión de características multinivel: Modelado sistemático desde señales sintácticas y prosódicas de bajo nivel hasta representaciones contextualizadas de alto nivel
- Estrategia de conjunto consciente de la incertidumbre: Mejora de la robustez mediante selección de predicciones emocionales con incertidumbre mínima, mitigando sesgos de anotación
- Desempeño excepcional en el desafío SERNC: Clasificación en cuarto lugar en ambas tareas, segundo lugar en predicción de valencia emocional
La investigación aborda dos tareas:
- Tarea 1: Reconocimiento de Emociones Categóricas: Clasificación de fragmentos de habla en 8 categorías emocionales (ira, desprecio, disgusto, miedo, alegría, neutral, tristeza, sorpresa)
- Tarea 2: Predicción de Atributos Emocionales: Puntuación en escala Likert de 7 puntos en tres dimensiones emocionales (activación, dominancia, valencia)
MATER extrae características acústicas y textuales en tres niveles diferentes:
Características a Nivel de Palabra (Word-level):
- Características sintácticas: Utiliza el analizador sintáctico BERTweet para extraer patrones lingüísticos, incluyendo información de persona gramatical de pronombres, formando un vector de características sintácticas de 20 dimensiones
- Características prosódicas: Utiliza la biblioteca openSMILE para extraer un vector de características de 22 dimensiones, incluyendo sonoridad, vibrato, temblor, relación α y estadísticas de segmentos sonoros/sordos
- Formación de representación prosódica consciente de sintaxis mediante concatenación
Características a Nivel de Enunciado (Utterance-level):
- Características emocionales: Derivadas del conjunto de características SEANCE, produciendo una representación de 517 dimensiones que captura la tendencia emocional de toda la transcripción
- Características rítmicas: Análisis de fluidez, intensidad y matices del habla, incluyendo sonoridad, vibrato, temblor, relación armónico-ruido (HNR), pausas y estadísticas de segmentos sonoros/sordos, formando un vector de características de 34 dimensiones
Características a Nivel de Incrustación (Embedding-level):
- Codificador de audio: WavLM y HuBERT capturan información fonémica y prosódica rica
- Codificador de texto: BERT y T5 proporcionan representación de información semántica
- Post-entrenamiento en el corpus MSP-Podcast para mejorar adaptación de dominio
- Nivel de palabra: Procesamiento mediante LSTM de dos capas, con el estado oculto final como incrustación a nivel de palabra
- Nivel de enunciado: Primero a través de capa de incrustación lineal segmentada (PLE), luego a través de capa lineal para producir representación de dimensión fija
- Nivel de incrustación: Cuando se utilizan múltiples fuentes de incrustación, se emplea arquitectura Perceiver para fusión; de lo contrario, se utilizan directamente características agrupadas
- Fusión final: Las incrustaciones multinivel concatenadas se introducen en una capa lineal para predicción
- Modelado de características multinivel: Captura sistemática de información emocional completa desde señales sintácticas prosódicas de grano fino hasta representaciones semánticas de alto nivel
- Representación prosódica consciente de sintaxis: Modelado de la interacción entre estructura lingüística e inflexión, que juega un papel clave en la expresión emocional
- Estrategia de adaptación de dominio: Post-entrenamiento de codificadores pre-entrenados en el conjunto de datos objetivo
- Conjunto consciente de la incertidumbre: Estimación de incertidumbre cognitiva mediante clasificación de probabilidades de predicción, priorizando predicciones de alta confianza
Utiliza el corpus MSP-Podcast:
- Conjunto de entrenamiento: 84,260 muestras de 2,112 hablantes
- Conjunto de desarrollo: 31,961 muestras de 714 hablantes
- Conjunto de prueba: 3,200 muestras equilibradas cubriendo 8 categorías emocionales
- Transcripciones generadas mediante Whisper-large-v3 y alineación forzada
- Tarea 1: Macro-F1 y precisión
- Tarea 2: Coeficiente de correlación de concordancia (CCC)
- Método de línea base WavLM
- Experimentos de ablación con varias combinaciones de características
- Comparación de diferentes estrategias de conjunto
- Proyección de características a nivel de palabra y enunciado a vectores de 128 dimensiones
- Perceiver produce salida de 768 dimensiones, utilizando matriz latente de 64×768
- Funciones de pérdida específicas de tarea: entropía cruzada ponderada para Tarea 1, pérdida CCC para Tarea 2
- Entrenamiento durante 50 épocas, tasa de aprendizaje de 1×10^-5 a 5×10^-7, tamaño de lote 128-2048
Tarea 1 (Reconocimiento de Emociones Categóricas):
- Resultado de envío final: Macro-F1 = 41.01%, Precisión = 40.97%
- Mejora significativa en comparación con línea base WavLM (32.93% Macro-F1)
- Clasificación en cuarto lugar en el desafío SERNC
Tarea 2 (Predicción de Atributos Emocionales):
- CCC promedio = 0.5928
- CCC de predicción de valencia = 0.6941 (segundo lugar)
- CCC de activación = 0.6119
- CCC de dominancia = 0.4775
- Contribución de niveles de características: Las características a nivel de palabra contribuyen más que las características a nivel de enunciado, indicando que la prosodia consciente de sintaxis es más informativa para el reconocimiento de emociones categóricas
- Efecto de etiquetas suaves: Efectivo en modelos de ajuste fino, pero con ganancias marginales limitadas en MATER
- Comparación de estrategias de conjunto: El conjunto consciente de la incertidumbre supera al promediado y votación por mayoría
Análisis Post-Desafío:
- Las características acústicas superan a las características textuales en ambas tareas
- Los codificadores óptimos difieren entre tareas, enfatizando la necesidad de selección de codificador específica de tarea
- La fusión multimodal en MATER mejora el desempeño en niveles de palabra y enunciado
- La valencia emocional depende más del texto, mientras que la activación y dominancia dependen más de señales acústicas
- Métodos SER tradicionales: Principalmente utilizan conjuntos de datos actuados o inducidos
- SER en habla natural: Surgimiento de conjuntos de datos como MSP-Podcast
- Reconocimiento de emociones multimodal: Fusión de características acústicas y textuales
- Manejo de incertidumbre: Métodos para abordar inconsistencia de anotadores
- Modelado sistemático de características multinivel
- Estrategia novedosa de conjunto consciente de la incertidumbre
- Validación en conjunto de datos de habla natural a gran escala
MATER mejora efectivamente el desempeño del reconocimiento de emociones en el habla en condiciones naturales mediante fusión de características multinivel e integración consciente de la incertidumbre, destacando particularmente en predicción de valencia emocional.
- Predicción de activación y dominancia: Aún presenta desafíos, posiblemente debido a que la estrategia de fusión orientada al texto no aprovecha suficientemente las variaciones acústicas
- Complejidad computacional: La extracción de características multinivel y la arquitectura Perceiver aumentan la carga computacional
- Adaptación de dominio: Validación principalmente en datos de podcast, con capacidad de generalización a otros dominios pendiente de verificación
- Selección de características específica de emoción: Adopción de pesos de características adaptativos para diferentes dimensiones emocionales
- Estrategia de fusión dinámica: Fusión dinámica que equilibre la integración audio-texto
- Extensión a conjuntos de datos diversificados: Validación del desempeño de MATER en diferentes conjuntos de datos SER
- Innovación metodológica: El modelado de características multinivel y la integración consciente de la incertidumbre poseen novedad
- Diseño sistemático: El diseño completo de niveles de características desde palabra hasta incrustación es razonable
- Suficiencia experimental: Experimentos de ablación detallados y análisis posteriores proporcionan perspectivas profundas
- Valor de aplicación práctica: El desempeño excepcional en desafíos a gran escala valida la efectividad del método
- Análisis teórico limitado: Falta de explicación teórica sobre por qué la fusión multinivel es efectiva
- Análisis de eficiencia computacional: No se proporciona análisis detallado de complejidad computacional y tiempo de inferencia
- Generalización entre dominios: Validación solo en datos de podcast, careciendo de experimentos entre dominios
- Interpretabilidad: Aunque el título menciona interpretabilidad, el artículo carece de análisis relacionado
- Contribución académica: Proporciona nuevo marco conceptual para reconocimiento de emociones en habla natural
- Valor práctico: El desempeño excepcional en desafíos reales demuestra practicidad del método
- Reproducibilidad: Proporciona detalles de implementación detallados, facilitando reproducción
- Sistemas de reconocimiento de emociones en habla natural
- Aplicaciones de análisis de emociones multimodal
- Tareas de computación emocional que requieren manejo de incertidumbre de anotación
- Escenarios de habla natural como podcasts y sistemas de diálogo
El artículo cita 68 referencias relacionadas, cubriendo trabajos importantes en computación emocional, procesamiento de habla, aprendizaje profundo y campos relacionados, proporcionando una base teórica sólida para la investigación.