Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
Ahn, Rana, Sivadas et al.
Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.
academic
Mejora del Reconocimiento de Emociones en Voz con Modelo Generativo Regularizado por Información Mutua
Aunque los métodos de aprendizaje profundo han impulsado el progreso en la investigación del reconocimiento de emociones en voz (SER), el campo sigue enfrentando la escasez de datos de entrenamiento anotados de alta calidad. Para mitigar este problema, los investigadores han explorado métodos de aumento de datos, en los que los modelos generativos han mostrado un desempeño reciente sobresaliente. Este artículo propone un marco de aumento de datos basado en la transferencia de información entre modalidades y la regularización por información mutua. La medida de información mutua puede servir como indicador de la calidad de los datos generados. Además, aprovechando la propiedad de la información mutua de garantizar la dependencia entre modalidades, el marco se extiende a entradas multimodales. Las pruebas en tres conjuntos de datos de referencia (IEMOCAP, MSP-IMPROV y MSP-Podcast) demuestran que el marco supera los trabajos existentes en el desempeño de predicción de emociones, y se descubre que el marco puede generar nuevas características de entrada sin información entre modalidades.
El principal desafío en el campo del reconocimiento de emociones en voz es la escasez de datos anotados de alta calidad. En comparación con los conjuntos de datos a gran escala en visión por computadora (como MNIST), los conjuntos de datos de SER son relativamente pequeños, lo que afecta gravemente la capacidad de generalización de los modelos de aprendizaje profundo.
La escasez de datos afecta directamente el desempeño y la practicidad de los modelos de SER, especialmente en la era del aprendizaje profundo que requiere grandes cantidades de datos de entrenamiento. Los métodos efectivos de aumento de datos son cruciales para mejorar el desempeño del modelo.
Aumento de datos tradicional: Las transformaciones de señal simples y la adición de ruido son solo copias perturbadas de datos originales con contenido informativo limitado
Modelos generativos condicionales: Asumen un mapeo determinista de etiquetas de emoción a muestras generadas, una suposición poco realista que no garantiza la calidad de las muestras generadas
Enfoques entre modalidades: Los trabajos existentes se centran principalmente en complementar o recuperar modalidades faltantes, careciendo de un marco de aumento explícito para mejorar el reconocimiento de emociones multimodal
Este artículo cuestiona la suposición de mapeo determinista de los modelos generativos condicionales y propone utilizar la regularización por información mutua como alternativa, cuantificando la dependencia entre muestras generadas y etiquetas de clase para garantizar la calidad del aumento de datos.
Propone un marco de aumento de datos con modelos generativos aplicable a SER y SER multimodal, combinando transferencia de información entre modalidades y regularización por información mutua
Introduce un método de aumento de datos de SER que combina transferencia entre modalidades e información mutua, implementado mediante arquitectura InfoGAN
Descubre que el regularizador de información mutua puede proporcionar una medida observable para verificar la dependencia de datos generados con respecto a emociones e información textual
Extiende al aumento multimodal, generando todas las combinaciones de características de audio y texto para lograr un crecimiento de cuatro veces en la escala de datos
Métrica de calidad de información mutua: Utiliza pérdida de información mutua como indicador observable de calidad de muestras generadas
Transferencia de información entre modalidades: Guía la generación de características de audio mediante información de texto para mejorar la calidad de generación
Extensión multimodal: Genera simultáneamente características de audio y texto, logrando verdadero aumento de datos multimodal
Generación a nivel de características: Realiza generación en espacio de características en lugar de espacio de señal cruda, reduciendo complejidad
Incluye métodos de aumento de datos existentes como Sahu et al., Bao et al., Latif et al., Malik et al., así como métodos multimodales como MMIN y CIF-MMIN.
En el conjunto de datos IEMOCAP, el método propuesto alcanza 76.54% de UAR en la combinación de modalidades audio+texto, superando métodos existentes como CIF-MMIN (75.65%).
Efectividad de la regularización por información mutua: La pérdida de información mutua efectivamente sirve como indicador de calidad de muestras generadas
Importancia de la información entre modalidades: La información de texto mejora significativamente la calidad de generación de características de audio
Manejo del desbalance de clases: El método mitiga efectivamente el problema de desbalance de clases en el conjunto de datos MSP-Podcast
Capacidad de generación sin información entre modalidades: Se descubre que el marco puede generar nuevas entradas sin información de otras modalidades
En comparación con trabajos existentes, este artículo es el primero en combinar transferencia entre modalidades con regularización por información mutua, extendiéndose a verdadero aumento de datos multimodal.
Complejidad computacional: Requiere entrenar múltiples etapas de modelo con sobrecarga computacional considerable
Limitaciones del espacio de características: La generación en espacio de características en lugar de espacio de señal cruda puede perder cierta información
Dependencia del conjunto de datos: El desempeño del método puede depender de características específicas del conjunto de datos
Sensibilidad de hiperparámetros: Hiperparámetros como el peso de información mutua λ requieren ajuste cuidadoso
Fuerte innovación metodológica: Primera combinación de regularización por información mutua con transferencia de información entre modalidades para aumento de datos de SER
Experimentación exhaustiva: Evaluación integral en múltiples conjuntos de datos de referencia, incluyendo experimentos de ablación
Base teórica sólida: La teoría de información mutua proporciona garantía teórica para la calidad de muestras generadas
Alto valor práctico: El método tiene buena escalabilidad en aplicaciones prácticas
Complejidad de arquitectura: El flujo de entrenamiento de tres etapas es relativamente complejo, lo que puede presentar desafíos en implementación práctica
Eficiencia computacional: La sobrecarga computacional es significativamente mayor en comparación con métodos simples de aumento de datos
Análisis de generalización insuficiente: Falta análisis profundo del desempeño de generalización entre conjuntos de datos
Análisis teórico limitado: Carece de garantías teóricas sobre propiedades de convergencia de la regularización por información mutua
El artículo cita 48 referencias relacionadas, cubriendo múltiples dominios incluyendo SER, modelos generativos y aprendizaje multimodal, proporcionando base teórica sólida y puntos de referencia de comparación para la investigación.