2025-11-13T03:49:10.242464

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Ahn, Rana, Sivadas et al.
Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.
academic

Mejora del Reconocimiento de Emociones en Voz con Modelo Generativo Regularizado por Información Mutua

Información Básica

  • ID del Artículo: 2510.10078
  • Título: Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
  • Autores: Chung-Soo Ahn, Rajib Rana, Sunil Sivadas, Carlos Busso, Jagath C. Rajapakse
  • Clasificación: cs.SD (Sonido), cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 2025 (Formato Journal of LaTeX Class Files, Vol. 14, No. 8, Agosto 2021)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10078

Resumen

Aunque los métodos de aprendizaje profundo han impulsado el progreso en la investigación del reconocimiento de emociones en voz (SER), el campo sigue enfrentando la escasez de datos de entrenamiento anotados de alta calidad. Para mitigar este problema, los investigadores han explorado métodos de aumento de datos, en los que los modelos generativos han mostrado un desempeño reciente sobresaliente. Este artículo propone un marco de aumento de datos basado en la transferencia de información entre modalidades y la regularización por información mutua. La medida de información mutua puede servir como indicador de la calidad de los datos generados. Además, aprovechando la propiedad de la información mutua de garantizar la dependencia entre modalidades, el marco se extiende a entradas multimodales. Las pruebas en tres conjuntos de datos de referencia (IEMOCAP, MSP-IMPROV y MSP-Podcast) demuestran que el marco supera los trabajos existentes en el desempeño de predicción de emociones, y se descubre que el marco puede generar nuevas características de entrada sin información entre modalidades.

Antecedentes de Investigación y Motivación

Problema Central

El principal desafío en el campo del reconocimiento de emociones en voz es la escasez de datos anotados de alta calidad. En comparación con los conjuntos de datos a gran escala en visión por computadora (como MNIST), los conjuntos de datos de SER son relativamente pequeños, lo que afecta gravemente la capacidad de generalización de los modelos de aprendizaje profundo.

Importancia del Problema

La escasez de datos afecta directamente el desempeño y la practicidad de los modelos de SER, especialmente en la era del aprendizaje profundo que requiere grandes cantidades de datos de entrenamiento. Los métodos efectivos de aumento de datos son cruciales para mejorar el desempeño del modelo.

Limitaciones de Métodos Existentes

  1. Aumento de datos tradicional: Las transformaciones de señal simples y la adición de ruido son solo copias perturbadas de datos originales con contenido informativo limitado
  2. Modelos generativos condicionales: Asumen un mapeo determinista de etiquetas de emoción a muestras generadas, una suposición poco realista que no garantiza la calidad de las muestras generadas
  3. Enfoques entre modalidades: Los trabajos existentes se centran principalmente en complementar o recuperar modalidades faltantes, careciendo de un marco de aumento explícito para mejorar el reconocimiento de emociones multimodal

Motivación de la Investigación

Este artículo cuestiona la suposición de mapeo determinista de los modelos generativos condicionales y propone utilizar la regularización por información mutua como alternativa, cuantificando la dependencia entre muestras generadas y etiquetas de clase para garantizar la calidad del aumento de datos.

Contribuciones Principales

  1. Propone un marco de aumento de datos con modelos generativos aplicable a SER y SER multimodal, combinando transferencia de información entre modalidades y regularización por información mutua
  2. Introduce un método de aumento de datos de SER que combina transferencia entre modalidades e información mutua, implementado mediante arquitectura InfoGAN
  3. Descubre que el regularizador de información mutua puede proporcionar una medida observable para verificar la dependencia de datos generados con respecto a emociones e información textual
  4. Extiende al aumento multimodal, generando todas las combinaciones de características de audio y texto para lograr un crecimiento de cuatro veces en la escala de datos

Explicación Detallada del Método

Definición de Tarea

  • Entrada: Señal de audio x_a y transcripción de texto correspondiente x_t
  • Salida: Predicción de clase de emoción ŷ
  • Objetivo: Mejorar el desempeño de clasificación de emociones mediante generación de datos aumentados

Arquitectura del Modelo

Etapa Uno: Preparación del Modelo Base

  1. Extracción de características de audio:
    h = fa(xa)
    

    Utiliza transformador de audio preentrenado (AST o Wav2Vec2) para extraer características de audio
  2. Extracción de características de texto:
    t = ft(xt)
    

    Utiliza transformador de texto preentrenado (BERT/RoBERTa) para extraer características de texto
  3. Alineación entre modalidades:
    • Pérdida de aprendizaje contrastivo: LCL=logexp(sim(ti,hi)/τ)j=1Bexp(sim(ti,hj)/τ)L_{CL} = -\log\frac{\exp(sim(t_i, h_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, h_j)/\tau)}
    • Pérdida InfoNCE: LMI=logexp(sim(ti,h^i)/τ)j=1Bexp(sim(ti,h^j)/τ)L_{MI} = -\log\frac{\exp(sim(t_i, \hat{h}_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{h}_j)/\tau)}

Etapa Dos: Entrenamiento de InfoGAN

  1. Objetivo del generador:
    min max V(D,G) - λI(c;G(z,c))
    

    donde c contiene la etiqueta de emoción y la incrustación de texto
  2. Maximización de información mutua:
    • Información mutua de emoción: LIy=E{c1(y=c)log(y^g)}L_{Iy} = -E\{\sum_c 1(y=c)\log(\hat{y}_g)\}
    • Información mutua de texto: LIt=logexp(sim(ti,t^ig)/τ)j=1Bexp(sim(ti,t^jg)/τ)L_{It} = -\log\frac{\exp(sim(t_i, \hat{t}^g_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{t}^g_j)/\tau)}

Etapa Tres: Entrenamiento de Aumento de Datos

  • Escenario SER: Entrena clasificador usando características originales h y características generadas ĥ
  • SER Multimodal: Entrena usando cuatro combinaciones: (h,t), (h,t'), (ĥ,t), (ĥ,t')

Puntos de Innovación Técnica

  1. Métrica de calidad de información mutua: Utiliza pérdida de información mutua como indicador observable de calidad de muestras generadas
  2. Transferencia de información entre modalidades: Guía la generación de características de audio mediante información de texto para mejorar la calidad de generación
  3. Extensión multimodal: Genera simultáneamente características de audio y texto, logrando verdadero aumento de datos multimodal
  4. Generación a nivel de características: Realiza generación en espacio de características en lugar de espacio de señal cruda, reduciendo complejidad

Configuración Experimental

Conjuntos de Datos

  1. IEMOCAP: 12 horas de grabación, 5 pares de actores hombre-mujer en diálogos, cuatro clases de emoción (neutral, feliz, triste, enojado)
  2. MSP-IMPROV: 9 horas de grabación, 12 actores en interacción, cuatro emociones básicas
  3. MSP-Podcast: Datos de voz "en el mundo salvaje" de podcasts, más cercano a escenarios de aplicación real

Métricas de Evaluación

  • Tasa de Recuperación Promedio No Ponderada (UAR): Métrica de evaluación más justa para conjuntos de datos desbalanceados
  • Validación cruzada Leave-one-speaker-out: Asegura el desempeño de generalización del modelo

Métodos de Comparación

Incluye métodos de aumento de datos existentes como Sahu et al., Bao et al., Latif et al., Malik et al., así como métodos multimodales como MMIN y CIF-MMIN.

Detalles de Implementación

  • Modelo de audio: AST (SER), Wav2Vec2 (SER multimodal)
  • Modelo de texto: BERT, RoBERTa, Llama 3.0
  • Arquitectura InfoGAN: Generador y discriminador implementados con capas lineales simples
  • Estrategia de entrenamiento: Utiliza estrategia mix-up para estabilizar el entrenamiento del generador

Resultados Experimentales

Resultados Principales

Experimentos de SER (IEMOCAP)

MétodoSin AumentoCon AumentoMejora
Sahu et al.59.42%60.29%0.87%
Bao et al.59.48±0.71%60.37±0.70%0.89%
Latif et al.60.51±0.57%61.05±0.68%0.54%
Malik et al.58.62±2.11%61.22±1.85%2.6%
Método Propuesto60.81±4.83%63.40±2.52%2.59%

Experimentos de SER Multimodal

En el conjunto de datos IEMOCAP, el método propuesto alcanza 76.54% de UAR en la combinación de modalidades audio+texto, superando métodos existentes como CIF-MMIN (75.65%).

Experimentos de Ablación

ConfiguraciónUAR
Modelo completo63.40±2.52%
Sin alineación entre modalidades62.31±3.65%
Sin alineación entre modalidades e incrustación de texto61.07±2.45%
Sin alineación entre modalidades y maximización de información mutua61.70±2.58%

Los experimentos de ablación demuestran que cada componente contribuye significativamente al desempeño final.

Hallazgos Experimentales

  1. Efectividad de la regularización por información mutua: La pérdida de información mutua efectivamente sirve como indicador de calidad de muestras generadas
  2. Importancia de la información entre modalidades: La información de texto mejora significativamente la calidad de generación de características de audio
  3. Manejo del desbalance de clases: El método mitiga efectivamente el problema de desbalance de clases en el conjunto de datos MSP-Podcast
  4. Capacidad de generación sin información entre modalidades: Se descubre que el marco puede generar nuevas entradas sin información de otras modalidades

Trabajo Relacionado

Aumento de Datos Generativo

  • Trabajos tempranos utilizan marcos de autocodificador (Latif et al.)
  • Métodos que combinan GAN y autocodificador (Yi et al., Latif et al.)
  • Extensiones recientes a modelos de difusión (Malik et al., Kim et al.)

Aprendizaje Profundo Multimodal

  • Mecanismos de atención entre modalidades (Goncalves et al.)
  • Métodos de aprendizaje contrastivo (Liu et al.)
  • Métodos de reconstrucción (Meng et al., Wang et al.)

Ventajas de Este Trabajo

En comparación con trabajos existentes, este artículo es el primero en combinar transferencia entre modalidades con regularización por información mutua, extendiéndose a verdadero aumento de datos multimodal.

Conclusiones y Discusión

Conclusiones Principales

  1. Los modelos generativos con regularización por información mutua pueden mejorar efectivamente el desempeño de SER
  2. La transferencia de información entre modalidades mejora significativamente la calidad de muestras generadas
  3. El marco de aumento de datos multimodal logra desempeño óptimo en múltiples conjuntos de datos de referencia
  4. El método tiene potencial para abordar problemas de desbalance de clases

Limitaciones

  1. Complejidad computacional: Requiere entrenar múltiples etapas de modelo con sobrecarga computacional considerable
  2. Limitaciones del espacio de características: La generación en espacio de características en lugar de espacio de señal cruda puede perder cierta información
  3. Dependencia del conjunto de datos: El desempeño del método puede depender de características específicas del conjunto de datos
  4. Sensibilidad de hiperparámetros: Hiperparámetros como el peso de información mutua λ requieren ajuste cuidadoso

Direcciones Futuras

  1. Explorar métodos de generación de señal cruda de extremo a extremo
  2. Investigar estrategias de entrenamiento más eficientes
  3. Extender a más modalidades y categorías de emociones
  4. Análisis teórico de propiedades de convergencia de la regularización por información mutua

Evaluación Profunda

Fortalezas

  1. Fuerte innovación metodológica: Primera combinación de regularización por información mutua con transferencia de información entre modalidades para aumento de datos de SER
  2. Experimentación exhaustiva: Evaluación integral en múltiples conjuntos de datos de referencia, incluyendo experimentos de ablación
  3. Base teórica sólida: La teoría de información mutua proporciona garantía teórica para la calidad de muestras generadas
  4. Alto valor práctico: El método tiene buena escalabilidad en aplicaciones prácticas

Insuficiencias

  1. Complejidad de arquitectura: El flujo de entrenamiento de tres etapas es relativamente complejo, lo que puede presentar desafíos en implementación práctica
  2. Eficiencia computacional: La sobrecarga computacional es significativamente mayor en comparación con métodos simples de aumento de datos
  3. Análisis de generalización insuficiente: Falta análisis profundo del desempeño de generalización entre conjuntos de datos
  4. Análisis teórico limitado: Carece de garantías teóricas sobre propiedades de convergencia de la regularización por información mutua

Impacto

  1. Contribución académica: Proporciona nuevas perspectivas y marco metodológico para investigación en aumento de datos de SER
  2. Valor práctico: Tiene valor de aplicación importante en escenarios con datos escasos
  3. Reproducibilidad: La configuración experimental es detallada con buena reproducibilidad
  4. Inspiración: La idea de regularización por información mutua es extensible a otras tareas generativas

Escenarios Aplicables

  1. Escenarios de datos escasos: Particularmente aplicable a tareas de reconocimiento de emociones donde datos anotados de alta calidad son limitados
  2. Aplicaciones multimodales: Desempeño sobresaliente en aplicaciones que requieren procesar simultáneamente información de audio y texto
  3. Problema de desbalance de clases: Tiene efecto mitigador en conjuntos de datos con distribución desigual de clases de emoción
  4. Desarrollo de prototipos de investigación: Proporciona método base efectivo de aumento de datos para investigación de SER

Referencias

El artículo cita 48 referencias relacionadas, cubriendo múltiples dominios incluyendo SER, modelos generativos y aprendizaje multimodal, proporcionando base teórica sólida y puntos de referencia de comparación para la investigación.