learning discriminative features from spectrograms using center loss for speech emotion recognition
Dai, Wu, Li et al.
Identifying the emotional state from speech is essential for the natural interaction of the machine with the speaker. However, extracting effective features for emotion recognition is difficult, as emotions are ambiguous. We propose a novel approach to learn discriminative features from variable length spectrograms for emotion recognition by cooperating softmax cross-entropy loss and center loss together. The softmax cross-entropy loss enables features from different emotion categories separable, and center loss efficiently pulls the features belonging to the same emotion category to their center. By combining the two losses together, the discriminative power will be highly enhanced, which leads to network learning more effective features for emotion recognition. As demonstrated by the experimental results, after introducing center loss, both the unweighted accuracy and weighted accuracy are improved by over 3\% on Mel-spectrogram input, and more than 4\% on Short Time Fourier Transform spectrogram input.
academic
تعلم الميزات التمييزية من الأطياف الصوتية باستخدام خسارة المركز للتعرف على العاطفة في الكلام
تقترح هذه الورقة طريقة جديدة لمعالجة مشكلة الغموض في العواطف الذي يؤدي إلى صعوبة استخراج الميزات في التعرف على العاطفة في الكلام. تجمع الطريقة بين خسارة softmax للإنتروبيا المتقاطعة وخسارة المركز (center loss) لتعلم ميزات تمييزية من أطياف صوتية متغيرة الطول. تعمل خسارة softmax للإنتروبيا المتقاطعة على فصل ميزات فئات العاطفة المختلفة، بينما تسحب خسارة المركز ميزات فئة العاطفة الواحدة نحو مركزها بفعالية. تُظهر النتائج التجريبية أنه مع إدخال خسارة المركز، تتحسن دقة الاسترجاع غير المرجحة والدقة المرجحة بأكثر من 3% على مدخلات طيف Mel، وبأكثر من 4% على مدخلات طيف تحويل فورييه قصير الأمد (STFT).
التعرف على العاطفة في الكلام (SER) هو تقنية أساسية للتفاعل الطبيعي بين الإنسان والآلة، وتتطلب استخراج ميزات من موجات الكلام وتصنيفها إلى فئات عاطفية مناسبة. ومع ذلك، فإن الغموض الطبيعي للعواطف يجعل استخراج ميزات فعالة أمراً صعباً.
الطرق التقليدية: استخراج ميزات على مستوى الإطار من إطارات متداخلة، ثم تطبيق دوال إحصائية، مع قدرة تعبيرية محدودة للميزات
طرق التعلم العميق الموجودة: بينما تستفيد من الشبكات العصبية لاستخراج ميزات عالية المستوى، إلا أنها لا تزال قاصرة في التعامل مع غموض العواطف
طرق التعلم التمييزي الموجودة: مثل طرق خسارة التشابه الكوسيني وخسارة الثلاثيات، تستخدم استراتيجية من خطوتين، مما قد يؤدي إلى انخفاض الأداء، وتعتمد على استراتيجيات اختيار أزواج العينات أو الثلاثيات
اقتراح طريقة شاملة من النهاية إلى النهاية، من خلال دوال خسارة إشرافية مشتركة (خسارة softmax للإنتروبيا المتقاطعة + خسارة المركز) لتعلم ميزات تمييزية، مع تجنب مشاكل عدم الاتساق في استراتيجيات الخطوتين.
اقتراح طريقة دالة خسارة مشتركة جديدة: دمج خسارة softmax للإنتروبيا المتقاطعة مع خسارة المركز لتعلم ميزات تمييزية من أطياف صوتية متغيرة الطول
تحقيق التعرف على العاطفة في الكلام من النهاية إلى النهاية: تجنب مشاكل استراتيجية الخطوتين في الطرق الموجودة، بدون الحاجة إلى بناء أزواج عينات أو ثلاثيات
تحقيق تحسن أداء ملحوظ على مجموعة بيانات IEMOCAP: تحسن بأكثر من 3% لمدخلات طيف Mel، وتحسن بأكثر من 4% لمدخلات طيف STFT
توفير تحليل تصور مفصل: عرض تأثير خسارة المركز على تحسين التمييز بين الميزات من خلال تضمين PCA
المدخل: أطياف صوتية متغيرة الطول (LT × LF، حيث LT هو البعد الزمني و LF هو البعد الترددي)
المخرج: تسميات فئات العاطفة (محايد، غاضب، سعيد، حزين)
الهدف: تعلم ميزات تمييزية بتباين صغير داخل الفئة وتباين كبير بين الفئات
تستشهد الورقة بـ 19 مرجعاً ذا صلة، تغطي الطرق التقليدية والحديثة للتعرف على العاطفة في الكلام وطرق التعلم العميق وتعلم الميزات التمييزية والمجالات الرئيسية الأخرى، مما يوفر أساساً نظرياً كافياً ومقارنة تقنية للبحث.
التقييم الإجمالي: هذه ورقة تتمتع بأساس تقني متين وتجارب شاملة، وقد نجحت في إدخال خسارة المركز إلى مجال التعرف على العاطفة في الكلام وحققت تحسناً ملحوظاً في الأداء. بينما لا تزال هناك مجالات للتحسن في التحليل النظري والتحقق عبر مجموعات البيانات، فإن طريقتها البسيطة والفعالة ونتائجها التجريبية المتسقة تمنحها قيمة أكاديمية وعملية جيدة.