learning discriminative features from spectrograms using center loss for speech emotion recognition
Dai, Wu, Li et al.
Identifying the emotional state from speech is essential for the natural interaction of the machine with the speaker. However, extracting effective features for emotion recognition is difficult, as emotions are ambiguous. We propose a novel approach to learn discriminative features from variable length spectrograms for emotion recognition by cooperating softmax cross-entropy loss and center loss together. The softmax cross-entropy loss enables features from different emotion categories separable, and center loss efficiently pulls the features belonging to the same emotion category to their center. By combining the two losses together, the discriminative power will be highly enhanced, which leads to network learning more effective features for emotion recognition. As demonstrated by the experimental results, after introducing center loss, both the unweighted accuracy and weighted accuracy are improved by over 3\% on Mel-spectrogram input, and more than 4\% on Short Time Fourier Transform spectrogram input.
academic
Aprendizaje de características discriminativas a partir de espectrogramas utilizando pérdida de centro para el reconocimiento de emociones en el habla
Este artículo aborda el problema de la dificultad en la extracción de características causada por la ambigüedad emocional en el reconocimiento de emociones en el habla, proponiendo un nuevo método que combina la pérdida de entropía cruzada softmax y la pérdida de centro (center loss) para aprender características discriminativas a partir de espectrogramas de longitud variable. La pérdida de entropía cruzada softmax hace que las características de diferentes clases emocionales sean separables, mientras que la pérdida de centro tira efectivamente de las características de la misma clase emocional hacia su centro. Los resultados experimentales demuestran que después de introducir la pérdida de centro, la precisión sin ponderación y la precisión ponderada en la entrada de espectrograma Mel mejoran más del 3%, y en la entrada de espectrograma de transformada de Fourier de corta duración (STFT) mejoran más del 4%.
El reconocimiento de emociones en el habla (SER) es una tecnología clave para la interacción natural entre humanos y máquinas, que requiere extraer características de formas de onda de voz y clasificarlas en categorías emocionales correspondientes. Sin embargo, la ambigüedad natural de las emociones hace que la extracción de características efectivas sea difícil.
Métodos tradicionales: Extraen características a nivel de fotograma de fotogramas superpuestos y luego aplican funciones estadísticas, con capacidad de representación de características limitada
Métodos de aprendizaje profundo existentes: Aunque utilizan redes neuronales para extraer características de alto nivel, aún tienen deficiencias en el manejo de la ambigüedad emocional
Métodos de aprendizaje discriminativo existentes: Métodos como pérdida de similitud de coseno y pérdida de tripletes adoptan estrategias de dos pasos, que pueden causar degradación del rendimiento y dependen de estrategias de selección de pares de muestras o tripletes
Proponer un método de extremo a extremo que aprenda características discriminativas mediante funciones de pérdida supervisadas conjuntas (pérdida de entropía cruzada softmax + pérdida de centro), evitando los problemas de inconsistencia de estrategias de dos pasos.
Se propone un nuevo método de función de pérdida conjunta: Combina la pérdida de entropía cruzada softmax con la pérdida de centro para aprender características discriminativas a partir de espectrogramas de longitud variable
Se implementa el reconocimiento de emociones en el habla de extremo a extremo: Evita los problemas de estrategias de dos pasos de métodos existentes, sin necesidad de construir pares de muestras o tripletes
Se logra una mejora significativa del rendimiento en el conjunto de datos IEMOCAP: Mejora de más del 3% en entrada de espectrograma Mel, mejora de más del 4% en entrada de espectrograma STFT
Se proporciona análisis de visualización detallado: Mediante incrustación PCA se demuestra el efecto de mejora de la pérdida de centro en la discriminabilidad de características
Entrada: Espectrograma de longitud variable (LT × LF, donde LT es la dimensión temporal y LF es la dimensión de frecuencia)
Salida: Etiqueta de categoría emocional (neutral, angry, happy, sad)
Objetivo: Aprender características discriminativas con varianza pequeña dentro de la clase y varianza grande entre clases
donde c_j es el centro global de la j-ésima clase, actualizado de la siguiente manera:
c_j^(t+1) = (1-α)c_j^t + α*ċ_j^t (cuando hay muestras de la clase j en el mini-lote)
c_j^(t+1) = c_j^t (cuando no hay muestras de la clase j en el mini-lote)
Los autores proponen explorar más diseños de funciones de pérdida, particularmente métodos para aumentar la varianza entre clases de características, para mejorar aún más el rendimiento de SER.
Conjunto de datos único: Solo se verifica en el conjunto de datos IEMOCAP, falta verificación de generalización entre conjuntos de datos
Métodos de comparación limitados: Principalmente comparación con la línea base propia, falta comparación detallada con otros métodos SOTA
Análisis teórico insuficiente: Falta análisis teórico profundo sobre por qué la pérdida de centro es efectiva en tareas SER
Falta análisis de complejidad computacional: No se discute el impacto de introducir la pérdida de centro en la eficiencia de entrenamiento e inferencia
El artículo cita 19 referencias relacionadas, cubriendo métodos tradicionales de reconocimiento de emociones en el habla, métodos de aprendizaje profundo y aprendizaje de características discriminativas y otros campos clave, proporcionando una base teórica suficiente y comparación técnica para la investigación.
Evaluación General: Este es un artículo técnicamente sólido y experimentalmente completo que introduce exitosamente la pérdida de centro en el campo del reconocimiento de emociones en el habla y logra mejoras significativas del rendimiento. Aunque hay espacio para mejora en análisis teórico y verificación entre conjuntos de datos, su método simple y efectivo y resultados experimentales consistentes le otorgan buen valor académico y práctico.