learning discriminative features from spectrograms using center loss for speech emotion recognition
Dai, Wu, Li et al.
Identifying the emotional state from speech is essential for the natural interaction of the machine with the speaker. However, extracting effective features for emotion recognition is difficult, as emotions are ambiguous. We propose a novel approach to learn discriminative features from variable length spectrograms for emotion recognition by cooperating softmax cross-entropy loss and center loss together. The softmax cross-entropy loss enables features from different emotion categories separable, and center loss efficiently pulls the features belonging to the same emotion category to their center. By combining the two losses together, the discriminative power will be highly enhanced, which leads to network learning more effective features for emotion recognition. As demonstrated by the experimental results, after introducing center loss, both the unweighted accuracy and weighted accuracy are improved by over 3\% on Mel-spectrogram input, and more than 4\% on Short Time Fourier Transform spectrogram input.
본 논문은 음성 감정 인식에서 감정의 모호성으로 인한 특징 추출의 어려움을 해결하기 위해, softmax 교차 엔트로피 손실과 중심 손실(center loss)을 결합하여 가변 길이 스펙트로그램에서 판별적 특징을 학습하는 새로운 방법을 제안합니다. Softmax 교차 엔트로피 손실은 서로 다른 감정 클래스의 특징을 분리 가능하게 만들고, 중심 손실은 동일 감정 클래스의 특징을 효과적으로 중심으로 끌어당깁니다. 실험 결과는 중심 손실 도입 후 Mel 스펙트로그램 입력에서 가중치 없는 정확도와 가중 정확도가 3% 이상 향상되었고, 단시간 푸리에 변환(STFT) 스펙트로그램 입력에서는 4% 이상 향상되었음을 보여줍니다.
논문은 19개의 관련 문헌을 인용하며, 음성 감정 인식의 전통적 방법, 심층학습 방법 및 판별적 특징 학습 등 핵심 분야를 포함하여 연구에 충분한 이론적 기초와 기술적 비교를 제공합니다.
종합 평가: 이것은 기술이 견고하고 실험이 충분한 논문으로, 중심 손실을 음성 감정 인식 분야에 성공적으로 도입하여 현저한 성능 향상을 달성했습니다. 이론적 분석과 크로스 데이터셋 검증 측면에서 개선의 여지가 있지만, 간단하고 효과적인 방법과 일관된 실험 결과로 인해 우수한 학술적 가치와 실용적 가치를 가집니다.