2025-11-18T20:58:12.950706

learning discriminative features from spectrograms using center loss for speech emotion recognition

Dai, Wu, Li et al.

Identifying the emotional state from speech is essential for the natural interaction of the machine with the speaker. However, extracting effective features for emotion recognition is difficult, as emotions are ambiguous. We propose a novel approach to learn discriminative features from variable length spectrograms for emotion recognition by cooperating softmax cross-entropy loss and center loss together. The softmax cross-entropy loss enables features from different emotion categories separable, and center loss efficiently pulls the features belonging to the same emotion category to their center. By combining the two losses together, the discriminative power will be highly enhanced, which leads to network learning more effective features for emotion recognition. As demonstrated by the experimental results, after introducing center loss, both the unweighted accuracy and weighted accuracy are improved by over 3\% on Mel-spectrogram input, and more than 4\% on Short Time Fourier Transform spectrogram input.

academic

Aprendizaje de características discriminativas a partir de espectrogramas utilizando pérdida de centro para el reconocimiento de emociones en el habla

Información Básica

ID del Artículo: 2501.01103
Título: Learning Discriminative Features from Spectrograms Using Center Loss for Speech Emotion Recognition
Autores: Dongyang Dai, Zhiyong Wu, Runnan Li, Xixin Wu, Jia Jia, Helen Meng
Clasificación: eess.AS (Procesamiento de Audio y Habla), cs.AI (Inteligencia Artificial), cs.SD (Sonido)
Fecha de Publicación: 2 de enero de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2501.01103

Resumen

Este artículo aborda el problema de la dificultad en la extracción de características causada por la ambigüedad emocional en el reconocimiento de emociones en el habla, proponiendo un nuevo método que combina la pérdida de entropía cruzada softmax y la pérdida de centro (center loss) para aprender características discriminativas a partir de espectrogramas de longitud variable. La pérdida de entropía cruzada softmax hace que las características de diferentes clases emocionales sean separables, mientras que la pérdida de centro tira efectivamente de las características de la misma clase emocional hacia su centro. Los resultados experimentales demuestran que después de introducir la pérdida de centro, la precisión sin ponderación y la precisión ponderada en la entrada de espectrograma Mel mejoran más del 3%, y en la entrada de espectrograma de transformada de Fourier de corta duración (STFT) mejoran más del 4%.

Antecedentes de Investigación y Motivación

1. Definición del Problema

El reconocimiento de emociones en el habla (SER) es una tecnología clave para la interacción natural entre humanos y máquinas, que requiere extraer características de formas de onda de voz y clasificarlas en categorías emocionales correspondientes. Sin embargo, la ambigüedad natural de las emociones hace que la extracción de características efectivas sea difícil.

2. Importancia del Problema

El reconocimiento de emociones en el habla es crucial para lograr una interacción natural entre humanos y máquinas
Diferentes tipos de emociones pueden ser confusas, aumentando la dificultad de extraer características efectivas
Los métodos tradicionales tienen limitaciones en el manejo de la ambigüedad emocional

3. Limitaciones de Métodos Existentes

Métodos tradicionales: Extraen características a nivel de fotograma de fotogramas superpuestos y luego aplican funciones estadísticas, con capacidad de representación de características limitada
Métodos de aprendizaje profundo existentes: Aunque utilizan redes neuronales para extraer características de alto nivel, aún tienen deficiencias en el manejo de la ambigüedad emocional
Métodos de aprendizaje discriminativo existentes: Métodos como pérdida de similitud de coseno y pérdida de tripletes adoptan estrategias de dos pasos, que pueden causar degradación del rendimiento y dependen de estrategias de selección de pares de muestras o tripletes

4. Motivación de la Investigación

Proponer un método de extremo a extremo que aprenda características discriminativas mediante funciones de pérdida supervisadas conjuntas (pérdida de entropía cruzada softmax + pérdida de centro), evitando los problemas de inconsistencia de estrategias de dos pasos.

Contribuciones Principales

Se propone un nuevo método de función de pérdida conjunta: Combina la pérdida de entropía cruzada softmax con la pérdida de centro para aprender características discriminativas a partir de espectrogramas de longitud variable
Se implementa el reconocimiento de emociones en el habla de extremo a extremo: Evita los problemas de estrategias de dos pasos de métodos existentes, sin necesidad de construir pares de muestras o tripletes
Se logra una mejora significativa del rendimiento en el conjunto de datos IEMOCAP: Mejora de más del 3% en entrada de espectrograma Mel, mejora de más del 4% en entrada de espectrograma STFT
Se proporciona análisis de visualización detallado: Mediante incrustación PCA se demuestra el efecto de mejora de la pérdida de centro en la discriminabilidad de características

Explicación Detallada del Método

Definición de la Tarea

Entrada: Espectrograma de longitud variable (LT × LF, donde LT es la dimensión temporal y LF es la dimensión de frecuencia) Salida: Etiqueta de categoría emocional (neutral, angry, happy, sad) Objetivo: Aprender características discriminativas con varianza pequeña dentro de la clase y varianza grande entre clases

Arquitectura del Modelo

El modelo contiene los siguientes componentes:

Capas CNN: Extrae información espacial del espectrograma
- Primera capa: 48 núcleos de convolución 7×7, paso 2,2, activación ReLU
- Segunda capa: 64 núcleos de convolución 3×3, paso 1,1, activación ReLU
- Tercera capa: 80 núcleos de convolución 3×3, paso 1,1, activación ReLU
- Cuarta capa: 96 núcleos de convolución 3×3, paso 1,1, activación ReLU
- Cada capa seguida de capa de agrupación máxima (2×2, paso 2,2)
Capas RNN bidireccionales (Bi-RNN):
- Utiliza unidades GRU de 128 dimensiones
- Comprime secuencias de longitud variable en vector de longitud fija (256 dimensiones)
- Concatena las salidas finales de RNN hacia adelante y hacia atrás
Capas completamente conectadas:
- FC1: Proyecta la salida Bi-RNN al espacio de características objetivo (64 dimensiones), utilizando activación PReLU
- FC2: Salida de probabilidades posteriores, utilizada para calcular la pérdida de entropía cruzada softmax

Diseño de la Función de Pérdida

1. Pérdida de Entropía Cruzada Softmax

L_s = -1/Σω_yi * Σ(i=1 a m) ω_yi * log(e^(W_yi^T * z_i + b_yi) / Σ(j=1 a n) e^(W_j^T * z_i + b_j))

donde ω_j es el peso de la clase, utilizado para manejar el problema de desequilibrio de clases.

2. Pérdida de Centro

L_c = 1/Σω_yi * Σ(i=1 a m) ω_yi * ||z_i - c_yi||²

donde c_j es el centro global de la j-ésima clase, actualizado de la siguiente manera:

c_j^(t+1) = (1-α)c_j^t + α*ċ_j^t  (cuando hay muestras de la clase j en el mini-lote)
c_j^(t+1) = c_j^t                  (cuando no hay muestras de la clase j en el mini-lote)

3. Pérdida Conjunta

L = L_s + λL_c

donde λ es el hiperparámetro que equilibra las dos pérdidas.

Puntos de Innovación Técnica

Aprendizaje de extremo a extremo: Evita los problemas de estrategias de dos pasos de métodos de aprendizaje discriminativo tradicionales
Integración natural: La pérdida de centro se puede integrar naturalmente en modelos SER comunes
Sin necesidad de emparejamiento de muestras: No requiere construir pares de muestras o tripletes, simplificando el proceso de entrenamiento
Manejo del equilibrio de clases: Maneja efectivamente el problema de desequilibrio de datos mediante funciones de pérdida ponderadas

Configuración Experimental

Conjunto de Datos

Conjunto de datos IEMOCAP:

Aproximadamente 12 horas de datos audiovisuales
Utiliza 4 emociones: neutral (30,9%), angry (19,9%), happy+excited (29,6%), sad (19,6%)
Total de 5531 enunciados, happy y excited se fusionan
Validación cruzada de 5 pliegues, manteniendo la distribución emocional

Métricas de Evaluación

Precisión sin ponderación (UA): Promedio de la tasa de recuperación de cada clase
Precisión ponderada (WA): Número de muestras clasificadas correctamente dividido por el número total de muestras

Métodos de Comparación

Método de línea base: Solo utiliza pérdida de entropía cruzada softmax (λ=0)
Método propuesto: Pérdida de entropía cruzada softmax conjunta y pérdida de centro

Detalles de Implementación

Optimizador: Adam, tasa de aprendizaje 0.0003
Tamaño de lote: 32
Dimensión de características: 64 dimensiones (salida FC1)
Parámetros del espectrograma: Desplazamiento de ventana 10ms, longitud de ventana 40ms, frecuencia de muestreo 16kHz, longitud DFT 1024
Espectrograma Mel: 128 bandas Mel
Longitud máxima de enunciado: 14 segundos

Resultados Experimentales

Resultados Principales

Resultados del Experimento con Espectrograma Mel:

Línea base (λ=0): UA=63,80%, WA=61,83%
Método propuesto (λ=0,3, α=0,5): UA=66,86%, WA=65,40%
Mejora: UA mejora 3,06%, WA mejora 3,57%

Resultados del Experimento con Espectrograma STFT:

Línea base (λ=0): UA=60,98%, WA=58,93%
Método propuesto (λ=0,3, α=0,5): UA=65,13%, WA=62,96%
Mejora: UA mejora 4,15%, WA mejora 4,03%

Análisis de Sensibilidad de Hiperparámetros

Parámetro α: UA y WA son relativamente insensibles a α, con rendimiento relativamente estable en el rango 0,1-0,9
Parámetro λ: Se logra el rendimiento óptimo cuando λ=0,3, λ demasiado grande o pequeño afecta el rendimiento

Análisis de Visualización

La visualización mediante reducción de dimensionalidad PCA muestra:

Después de usar la pérdida de centro, las características de la misma clase se agrupan más estrechamente
El grado de separación entre diferentes clases mejora
Tanto el conjunto de entrenamiento como el de prueba muestran patrones de mejora similares

Análisis de Matriz de Confusión

Después de introducir la pérdida de centro, la precisión de reconocimiento de cada categoría emocional mejora en diferentes grados:

Neutral: 57,5%→63,7%
Angry: 69,1%→70,5%
Happy: 51,1%→55,6%
Sad: 77,6%→77,7%

Trabajo Relacionado

Métodos Tradicionales

Métodos estadísticos basados en características manuales
Extracción de características a nivel de fotograma y aplicación de funciones estadísticas

Métodos de Aprendizaje Profundo

Combinación de DNN y máquina de aprendizaje extremo
LSTM bidireccional para representación de características de alto nivel
Aprendizaje de forma de onda cruda de extremo a extremo
Aprendizaje de espectrograma combinando CNN y RNN

Métodos de Aprendizaje Discriminativo

Tareas discriminativas por pares: Utiliza pérdida de similitud de coseno + entropía cruzada binaria
Marco de tripletes: Utiliza pérdida de tripletes para aprender características discriminativas
Ventajas del método de este artículo en comparación con estos métodos: Aprendizaje de extremo a extremo, sin necesidad de emparejamiento de muestras

Conclusiones y Discusión

Conclusiones Principales

La pérdida de centro puede reducir efectivamente la varianza dentro de la clase y mejorar la discriminabilidad de características
La función de pérdida conjunta logra mejoras significativas del rendimiento en ambas entradas de espectrograma
Este método se puede integrar naturalmente en modelos SER existentes sin requerir clasificadores adicionales

Limitaciones

Se enfoca principalmente en reducir la varianza dentro de la clase, con exploración limitada sobre el aumento de la varianza entre clases
Solo se verifica en el conjunto de datos IEMOCAP, la generalización necesita verificación adicional
Para conjuntos de datos extremadamente desequilibrados, la estrategia ponderada puede necesitar optimización adicional

Direcciones Futuras

Los autores proponen explorar más diseños de funciones de pérdida, particularmente métodos para aumentar la varianza entre clases de características, para mejorar aún más el rendimiento de SER.

Evaluación Profunda

Fortalezas

Fuerte innovación del método: Migración exitosa de la pérdida de centro del reconocimiento facial al campo del reconocimiento de emociones en el habla
Diseño experimental riguroso: Incluye análisis de sensibilidad de hiperparámetros, verificación de visualización y experimentos de ablación detallados
Resultados convincentes: Logra mejoras consistentes del rendimiento en dos tipos diferentes de entrada de espectrograma
Escritura clara: Descripción detallada de detalles técnicos, expresión matemática precisa

Deficiencias

Conjunto de datos único: Solo se verifica en el conjunto de datos IEMOCAP, falta verificación de generalización entre conjuntos de datos
Métodos de comparación limitados: Principalmente comparación con la línea base propia, falta comparación detallada con otros métodos SOTA
Análisis teórico insuficiente: Falta análisis teórico profundo sobre por qué la pérdida de centro es efectiva en tareas SER
Falta análisis de complejidad computacional: No se discute el impacto de introducir la pérdida de centro en la eficiencia de entrenamiento e inferencia

Impacto

Contribución técnica: Proporciona un método simple y efectivo de aprendizaje de características para el reconocimiento de emociones en el habla
Valor práctico: El método es fácil de implementar e integrar, con buena practicidad
Reproducibilidad: Descripción suficiente de detalles técnicos, facilitando la reproducción

Escenarios Aplicables

Aplicable a varias tareas de reconocimiento de emociones en el habla basadas en espectrogramas
Particularmente adecuado para manejar conjuntos de datos emocionales con clases desequilibradas
Puede servir como módulo de mejora del rendimiento para sistemas SER existentes

Referencias

El artículo cita 19 referencias relacionadas, cubriendo métodos tradicionales de reconocimiento de emociones en el habla, métodos de aprendizaje profundo y aprendizaje de características discriminativas y otros campos clave, proporcionando una base teórica suficiente y comparación técnica para la investigación.

Evaluación General: Este es un artículo técnicamente sólido y experimentalmente completo que introduce exitosamente la pérdida de centro en el campo del reconocimiento de emociones en el habla y logra mejoras significativas del rendimiento. Aunque hay espacio para mejora en análisis teórico y verificación entre conjuntos de datos, su método simple y efectivo y resultados experimentales consistentes le otorgan buen valor académico y práctico.