2025-11-13T03:49:10.242464

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Ahn, Rana, Sivadas et al.

Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.

academic

Mejora del Reconocimiento de Emociones en Voz con Modelo Generativo Regularizado por Información Mutua

Información Básica

ID del Artículo: 2510.10078
Título: Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
Autores: Chung-Soo Ahn, Rajib Rana, Sunil Sivadas, Carlos Busso, Jagath C. Rajapakse
Clasificación: cs.SD (Sonido), cs.LG (Aprendizaje Automático)
Fecha de Publicación: 2025 (Formato Journal of LaTeX Class Files, Vol. 14, No. 8, Agosto 2021)
Enlace del Artículo: https://arxiv.org/abs/2510.10078

Resumen

Aunque los métodos de aprendizaje profundo han impulsado el progreso en la investigación del reconocimiento de emociones en voz (SER), el campo sigue enfrentando la escasez de datos de entrenamiento anotados de alta calidad. Para mitigar este problema, los investigadores han explorado métodos de aumento de datos, en los que los modelos generativos han mostrado un desempeño reciente sobresaliente. Este artículo propone un marco de aumento de datos basado en la transferencia de información entre modalidades y la regularización por información mutua. La medida de información mutua puede servir como indicador de la calidad de los datos generados. Además, aprovechando la propiedad de la información mutua de garantizar la dependencia entre modalidades, el marco se extiende a entradas multimodales. Las pruebas en tres conjuntos de datos de referencia (IEMOCAP, MSP-IMPROV y MSP-Podcast) demuestran que el marco supera los trabajos existentes en el desempeño de predicción de emociones, y se descubre que el marco puede generar nuevas características de entrada sin información entre modalidades.

Antecedentes de Investigación y Motivación

Problema Central

El principal desafío en el campo del reconocimiento de emociones en voz es la escasez de datos anotados de alta calidad. En comparación con los conjuntos de datos a gran escala en visión por computadora (como MNIST), los conjuntos de datos de SER son relativamente pequeños, lo que afecta gravemente la capacidad de generalización de los modelos de aprendizaje profundo.

Importancia del Problema

La escasez de datos afecta directamente el desempeño y la practicidad de los modelos de SER, especialmente en la era del aprendizaje profundo que requiere grandes cantidades de datos de entrenamiento. Los métodos efectivos de aumento de datos son cruciales para mejorar el desempeño del modelo.

Limitaciones de Métodos Existentes

Aumento de datos tradicional: Las transformaciones de señal simples y la adición de ruido son solo copias perturbadas de datos originales con contenido informativo limitado
Modelos generativos condicionales: Asumen un mapeo determinista de etiquetas de emoción a muestras generadas, una suposición poco realista que no garantiza la calidad de las muestras generadas
Enfoques entre modalidades: Los trabajos existentes se centran principalmente en complementar o recuperar modalidades faltantes, careciendo de un marco de aumento explícito para mejorar el reconocimiento de emociones multimodal

Motivación de la Investigación

Este artículo cuestiona la suposición de mapeo determinista de los modelos generativos condicionales y propone utilizar la regularización por información mutua como alternativa, cuantificando la dependencia entre muestras generadas y etiquetas de clase para garantizar la calidad del aumento de datos.

Contribuciones Principales

Propone un marco de aumento de datos con modelos generativos aplicable a SER y SER multimodal, combinando transferencia de información entre modalidades y regularización por información mutua
Introduce un método de aumento de datos de SER que combina transferencia entre modalidades e información mutua, implementado mediante arquitectura InfoGAN
Descubre que el regularizador de información mutua puede proporcionar una medida observable para verificar la dependencia de datos generados con respecto a emociones e información textual
Extiende al aumento multimodal, generando todas las combinaciones de características de audio y texto para lograr un crecimiento de cuatro veces en la escala de datos

Explicación Detallada del Método

Definición de Tarea

Entrada: Señal de audio x_a y transcripción de texto correspondiente x_t
Salida: Predicción de clase de emoción ŷ
Objetivo: Mejorar el desempeño de clasificación de emociones mediante generación de datos aumentados

Arquitectura del Modelo

Etapa Uno: Preparación del Modelo Base

Extracción de características de audio:
```
h = fa(xa)
```
Utiliza transformador de audio preentrenado (AST o Wav2Vec2) para extraer características de audio
Extracción de características de texto:
```
t = ft(xt)
```
Utiliza transformador de texto preentrenado (BERT/RoBERTa) para extraer características de texto
Alineación entre modalidades:
- Pérdida de aprendizaje contrastivo: $L_{CL} = -\log\frac{\exp(sim(t_i, h_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, h_j)/\tau)}$
- Pérdida InfoNCE: $L_{MI} = -\log\frac{\exp(sim(t_i, \hat{h}_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{h}_j)/\tau)}$

Etapa Dos: Entrenamiento de InfoGAN

Objetivo del generador:
```
min max V(D,G) - λI(c;G(z,c))
```
donde c contiene la etiqueta de emoción y la incrustación de texto
Maximización de información mutua:
- Información mutua de emoción: $L_{Iy} = -E\{\sum_c 1(y=c)\log(\hat{y}_g)\}$
- Información mutua de texto: $L_{It} = -\log\frac{\exp(sim(t_i, \hat{t}^g_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{t}^g_j)/\tau)}$

Etapa Tres: Entrenamiento de Aumento de Datos

Escenario SER: Entrena clasificador usando características originales h y características generadas ĥ
SER Multimodal: Entrena usando cuatro combinaciones: (h,t), (h,t'), (ĥ,t), (ĥ,t')

Puntos de Innovación Técnica

Métrica de calidad de información mutua: Utiliza pérdida de información mutua como indicador observable de calidad de muestras generadas
Transferencia de información entre modalidades: Guía la generación de características de audio mediante información de texto para mejorar la calidad de generación
Extensión multimodal: Genera simultáneamente características de audio y texto, logrando verdadero aumento de datos multimodal
Generación a nivel de características: Realiza generación en espacio de características en lugar de espacio de señal cruda, reduciendo complejidad

Configuración Experimental

Conjuntos de Datos

IEMOCAP: 12 horas de grabación, 5 pares de actores hombre-mujer en diálogos, cuatro clases de emoción (neutral, feliz, triste, enojado)
MSP-IMPROV: 9 horas de grabación, 12 actores en interacción, cuatro emociones básicas
MSP-Podcast: Datos de voz "en el mundo salvaje" de podcasts, más cercano a escenarios de aplicación real

Métricas de Evaluación

Tasa de Recuperación Promedio No Ponderada (UAR): Métrica de evaluación más justa para conjuntos de datos desbalanceados
Validación cruzada Leave-one-speaker-out: Asegura el desempeño de generalización del modelo

Métodos de Comparación

Incluye métodos de aumento de datos existentes como Sahu et al., Bao et al., Latif et al., Malik et al., así como métodos multimodales como MMIN y CIF-MMIN.

Detalles de Implementación

Modelo de audio: AST (SER), Wav2Vec2 (SER multimodal)
Modelo de texto: BERT, RoBERTa, Llama 3.0
Arquitectura InfoGAN: Generador y discriminador implementados con capas lineales simples
Estrategia de entrenamiento: Utiliza estrategia mix-up para estabilizar el entrenamiento del generador

Resultados Experimentales

Resultados Principales

Experimentos de SER (IEMOCAP)

Método	Sin Aumento	Con Aumento	Mejora
Sahu et al.	59.42%	60.29%	0.87%
Bao et al.	59.48±0.71%	60.37±0.70%	0.89%
Latif et al.	60.51±0.57%	61.05±0.68%	0.54%
Malik et al.	58.62±2.11%	61.22±1.85%	2.6%
Método Propuesto	60.81±4.83%	63.40±2.52%	2.59%

Experimentos de SER Multimodal

En el conjunto de datos IEMOCAP, el método propuesto alcanza 76.54% de UAR en la combinación de modalidades audio+texto, superando métodos existentes como CIF-MMIN (75.65%).

Experimentos de Ablación

Configuración	UAR
Modelo completo	63.40±2.52%
Sin alineación entre modalidades	62.31±3.65%
Sin alineación entre modalidades e incrustación de texto	61.07±2.45%
Sin alineación entre modalidades y maximización de información mutua	61.70±2.58%

Los experimentos de ablación demuestran que cada componente contribuye significativamente al desempeño final.

Hallazgos Experimentales

Efectividad de la regularización por información mutua: La pérdida de información mutua efectivamente sirve como indicador de calidad de muestras generadas
Importancia de la información entre modalidades: La información de texto mejora significativamente la calidad de generación de características de audio
Manejo del desbalance de clases: El método mitiga efectivamente el problema de desbalance de clases en el conjunto de datos MSP-Podcast
Capacidad de generación sin información entre modalidades: Se descubre que el marco puede generar nuevas entradas sin información de otras modalidades

Trabajo Relacionado

Aumento de Datos Generativo

Trabajos tempranos utilizan marcos de autocodificador (Latif et al.)
Métodos que combinan GAN y autocodificador (Yi et al., Latif et al.)
Extensiones recientes a modelos de difusión (Malik et al., Kim et al.)

Aprendizaje Profundo Multimodal

Mecanismos de atención entre modalidades (Goncalves et al.)
Métodos de aprendizaje contrastivo (Liu et al.)
Métodos de reconstrucción (Meng et al., Wang et al.)

Ventajas de Este Trabajo

En comparación con trabajos existentes, este artículo es el primero en combinar transferencia entre modalidades con regularización por información mutua, extendiéndose a verdadero aumento de datos multimodal.

Conclusiones y Discusión

Conclusiones Principales

Los modelos generativos con regularización por información mutua pueden mejorar efectivamente el desempeño de SER
La transferencia de información entre modalidades mejora significativamente la calidad de muestras generadas
El marco de aumento de datos multimodal logra desempeño óptimo en múltiples conjuntos de datos de referencia
El método tiene potencial para abordar problemas de desbalance de clases

Limitaciones

Complejidad computacional: Requiere entrenar múltiples etapas de modelo con sobrecarga computacional considerable
Limitaciones del espacio de características: La generación en espacio de características en lugar de espacio de señal cruda puede perder cierta información
Dependencia del conjunto de datos: El desempeño del método puede depender de características específicas del conjunto de datos
Sensibilidad de hiperparámetros: Hiperparámetros como el peso de información mutua λ requieren ajuste cuidadoso

Direcciones Futuras

Explorar métodos de generación de señal cruda de extremo a extremo
Investigar estrategias de entrenamiento más eficientes
Extender a más modalidades y categorías de emociones
Análisis teórico de propiedades de convergencia de la regularización por información mutua

Evaluación Profunda

Fortalezas

Fuerte innovación metodológica: Primera combinación de regularización por información mutua con transferencia de información entre modalidades para aumento de datos de SER
Experimentación exhaustiva: Evaluación integral en múltiples conjuntos de datos de referencia, incluyendo experimentos de ablación
Base teórica sólida: La teoría de información mutua proporciona garantía teórica para la calidad de muestras generadas
Alto valor práctico: El método tiene buena escalabilidad en aplicaciones prácticas

Insuficiencias

Complejidad de arquitectura: El flujo de entrenamiento de tres etapas es relativamente complejo, lo que puede presentar desafíos en implementación práctica
Eficiencia computacional: La sobrecarga computacional es significativamente mayor en comparación con métodos simples de aumento de datos
Análisis de generalización insuficiente: Falta análisis profundo del desempeño de generalización entre conjuntos de datos
Análisis teórico limitado: Carece de garantías teóricas sobre propiedades de convergencia de la regularización por información mutua

Impacto

Contribución académica: Proporciona nuevas perspectivas y marco metodológico para investigación en aumento de datos de SER
Valor práctico: Tiene valor de aplicación importante en escenarios con datos escasos
Reproducibilidad: La configuración experimental es detallada con buena reproducibilidad
Inspiración: La idea de regularización por información mutua es extensible a otras tareas generativas

Escenarios Aplicables

Escenarios de datos escasos: Particularmente aplicable a tareas de reconocimiento de emociones donde datos anotados de alta calidad son limitados
Aplicaciones multimodales: Desempeño sobresaliente en aplicaciones que requieren procesar simultáneamente información de audio y texto
Problema de desbalance de clases: Tiene efecto mitigador en conjuntos de datos con distribución desigual de clases de emoción
Desarrollo de prototipos de investigación: Proporciona método base efectivo de aumento de datos para investigación de SER

Referencias

El artículo cita 48 referencias relacionadas, cubriendo múltiples dominios incluyendo SER, modelos generativos y aprendizaje multimodal, proporcionando base teórica sólida y puntos de referencia de comparación para la investigación.