2025-11-18T20:58:12.950706

learning discriminative features from spectrograms using center loss for speech emotion recognition

Dai, Wu, Li et al.

Identifying the emotional state from speech is essential for the natural interaction of the machine with the speaker. However, extracting effective features for emotion recognition is difficult, as emotions are ambiguous. We propose a novel approach to learn discriminative features from variable length spectrograms for emotion recognition by cooperating softmax cross-entropy loss and center loss together. The softmax cross-entropy loss enables features from different emotion categories separable, and center loss efficiently pulls the features belonging to the same emotion category to their center. By combining the two losses together, the discriminative power will be highly enhanced, which leads to network learning more effective features for emotion recognition. As demonstrated by the experimental results, after introducing center loss, both the unweighted accuracy and weighted accuracy are improved by over 3\% on Mel-spectrogram input, and more than 4\% on Short Time Fourier Transform spectrogram input.

academic

تعلم الميزات التمييزية من الأطياف الصوتية باستخدام خسارة المركز للتعرف على العاطفة في الكلام

المعلومات الأساسية

معرّف الورقة: 2501.01103
العنوان: Learning Discriminative Features from Spectrograms Using Center Loss for Speech Emotion Recognition
المؤلفون: Dongyang Dai, Zhiyong Wu, Runnan Li, Xixin Wu, Jia Jia, Helen Meng
التصنيف: eess.AS (معالجة الصوت والكلام)، cs.AI (الذكاء الاصطناعي)، cs.SD (الصوت)
تاريخ النشر: 2 يناير 2025 (نسخة أولية من arXiv)
رابط الورقة: https://arxiv.org/abs/2501.01103

الملخص

تقترح هذه الورقة طريقة جديدة لمعالجة مشكلة الغموض في العواطف الذي يؤدي إلى صعوبة استخراج الميزات في التعرف على العاطفة في الكلام. تجمع الطريقة بين خسارة softmax للإنتروبيا المتقاطعة وخسارة المركز (center loss) لتعلم ميزات تمييزية من أطياف صوتية متغيرة الطول. تعمل خسارة softmax للإنتروبيا المتقاطعة على فصل ميزات فئات العاطفة المختلفة، بينما تسحب خسارة المركز ميزات فئة العاطفة الواحدة نحو مركزها بفعالية. تُظهر النتائج التجريبية أنه مع إدخال خسارة المركز، تتحسن دقة الاسترجاع غير المرجحة والدقة المرجحة بأكثر من 3% على مدخلات طيف Mel، وبأكثر من 4% على مدخلات طيف تحويل فورييه قصير الأمد (STFT).

خلفية البحث والدافع

1. تعريف المشكلة

التعرف على العاطفة في الكلام (SER) هو تقنية أساسية للتفاعل الطبيعي بين الإنسان والآلة، وتتطلب استخراج ميزات من موجات الكلام وتصنيفها إلى فئات عاطفية مناسبة. ومع ذلك، فإن الغموض الطبيعي للعواطف يجعل استخراج ميزات فعالة أمراً صعباً.

2. أهمية المشكلة

التعرف على العاطفة في الكلام حاسم لتحقيق تفاعل طبيعي بين الإنسان والآلة
قد تكون أنواع مختلفة من العواطف محيّرة، مما يزيد من صعوبة استخراج ميزات فعالة
الطرق التقليدية لها قيود في التعامل مع غموض العواطف

3. قيود الطرق الموجودة

الطرق التقليدية: استخراج ميزات على مستوى الإطار من إطارات متداخلة، ثم تطبيق دوال إحصائية، مع قدرة تعبيرية محدودة للميزات
طرق التعلم العميق الموجودة: بينما تستفيد من الشبكات العصبية لاستخراج ميزات عالية المستوى، إلا أنها لا تزال قاصرة في التعامل مع غموض العواطف
طرق التعلم التمييزي الموجودة: مثل طرق خسارة التشابه الكوسيني وخسارة الثلاثيات، تستخدم استراتيجية من خطوتين، مما قد يؤدي إلى انخفاض الأداء، وتعتمد على استراتيجيات اختيار أزواج العينات أو الثلاثيات

4. دافع البحث

اقتراح طريقة شاملة من النهاية إلى النهاية، من خلال دوال خسارة إشرافية مشتركة (خسارة softmax للإنتروبيا المتقاطعة + خسارة المركز) لتعلم ميزات تمييزية، مع تجنب مشاكل عدم الاتساق في استراتيجيات الخطوتين.

المساهمات الأساسية

اقتراح طريقة دالة خسارة مشتركة جديدة: دمج خسارة softmax للإنتروبيا المتقاطعة مع خسارة المركز لتعلم ميزات تمييزية من أطياف صوتية متغيرة الطول
تحقيق التعرف على العاطفة في الكلام من النهاية إلى النهاية: تجنب مشاكل استراتيجية الخطوتين في الطرق الموجودة، بدون الحاجة إلى بناء أزواج عينات أو ثلاثيات
تحقيق تحسن أداء ملحوظ على مجموعة بيانات IEMOCAP: تحسن بأكثر من 3% لمدخلات طيف Mel، وتحسن بأكثر من 4% لمدخلات طيف STFT
توفير تحليل تصور مفصل: عرض تأثير خسارة المركز على تحسين التمييز بين الميزات من خلال تضمين PCA

شرح الطريقة

تعريف المهمة

المدخل: أطياف صوتية متغيرة الطول (LT × LF، حيث LT هو البعد الزمني و LF هو البعد الترددي) المخرج: تسميات فئات العاطفة (محايد، غاضب، سعيد، حزين) الهدف: تعلم ميزات تمييزية بتباين صغير داخل الفئة وتباين كبير بين الفئات

معمارية النموذج

يتضمن النموذج المكونات التالية:

طبقات CNN: استخراج المعلومات المكانية من الطيف الصوتي
- الطبقة الأولى: 48 نواة التفاف 7×7، خطوة 2,2، تفعيل ReLU
- الطبقة الثانية: 64 نواة التفاف 3×3، خطوة 1,1، تفعيل ReLU
- الطبقة الثالثة: 80 نواة التفاف 3×3، خطوة 1,1، تفعيل ReLU
- الطبقة الرابعة: 96 نواة التفاف 3×3، خطوة 1,1، تفعيل ReLU
- تتبع كل طبقة بطبقة تجميع أقصى (2×2، خطوة 2,2)
طبقة شبكة عصبية متكررة ثنائية الاتجاه (Bi-RNN):
- استخدام وحدات GRU بحجم 128 بُعد
- ضغط التسلسلات متغيرة الطول إلى متجه بطول ثابت (256 بُعد)
- ربط آخر مخرجات RNN الأمامية والخلفية
طبقات متصلة بالكامل:
- FC1: إسقاط مخرج Bi-RNN إلى فضاء الميزات المستهدف (64 بُعد)، مع تفعيل PReLU
- FC2: إخراج الاحتمالات اللاحقة، المستخدمة لحساب خسارة softmax للإنتروبيا المتقاطعة

تصميم دالة الخسارة

1. خسارة Softmax للإنتروبيا المتقاطعة

L_s = -1/Σω_yi * Σ(i=1 to m) ω_yi * log(e^(W_yi^T * z_i + b_yi) / Σ(j=1 to n) e^(W_j^T * z_i + b_j))

حيث ω_j هي أوزان الفئة، المستخدمة للتعامل مع مشكلة عدم التوازن بين الفئات.

2. خسارة المركز

L_c = 1/Σω_yi * Σ(i=1 to m) ω_yi * ||z_i - c_yi||²

حيث c_j هو المركز العام للفئة j، ويتم تحديثه بالطريقة التالية:

c_j^(t+1) = (1-α)c_j^t + α*ċ_j^t  (عندما تكون الفئة j موجودة في mini-batch)
c_j^(t+1) = c_j^t                  (عندما تكون الفئة j غير موجودة في mini-batch)

3. الخسارة المشتركة

L = L_s + λL_c

حيث λ هو معامل فائق لموازنة الخسارتين.

نقاط الابتكار التقني

التعلم من النهاية إلى النهاية: تجنب مشاكل استراتيجية الخطوتين في طرق التعلم التمييزي التقليدية
التكامل الطبيعي: يمكن دمج خسارة المركز بشكل طبيعي في نماذج SER الشائعة
بدون الحاجة إلى إقران العينات: لا حاجة لبناء أزواج عينات أو ثلاثيات، مما يبسط عملية التدريب
معالجة عدم التوازن بين الفئات: التعامل الفعال مع عدم توازن البيانات من خلال دوال خسارة مرجحة

إعداد التجارب

مجموعة البيانات

مجموعة بيانات IEMOCAP:

حوالي 12 ساعة من بيانات الصوت والفيديو
استخدام 4 فئات عاطفية: محايد (30.9%)، غاضب (19.9%)، سعيد+متحمس (29.6%)، حزين (19.6%)
إجمالي 5531 عبارة، مع دمج فئات سعيد ومتحمس
التحقق المتقاطع بـ 5 طيات، مع الحفاظ على توزيع العاطفة

مقاييس التقييم

دقة الاسترجاع غير المرجحة (UA): متوسط معدل الاستدعاء لكل فئة
الدقة المرجحة (WA): عدد العينات المصنفة بشكل صحيح مقسوماً على إجمالي عدد العينات

طرق المقارنة

طريقة الأساس: استخدام خسارة softmax للإنتروبيا المتقاطعة فقط (λ=0)
الطريقة المقترحة: خسارة softmax للإنتروبيا المتقاطعة وخسارة المركز المشتركة

تفاصيل التنفيذ

محسّن: Adam، معدل التعلم 0.0003
حجم الدفعة: 32
بُعد الميزة: 64 بُعد (مخرج FC1)
معاملات الطيف الصوتي: إزاحة النافذة 10 مللي ثانية، طول النافذة 40 مللي ثانية، معدل العينة 16 كيلو هرتز، طول DFT 1024
طيف Mel: 128 نطاق Mel
أقصى طول عبارة: 14 ثانية

نتائج التجارب

النتائج الرئيسية

نتائج تجارب طيف Mel:

الأساس (λ=0): UA=63.80%، WA=61.83%
الطريقة المقترحة (λ=0.3, α=0.5): UA=66.86%، WA=65.40%
التحسن: تحسن UA بـ 3.06%، تحسن WA بـ 3.57%

نتائج تجارب طيف STFT:

الأساس (λ=0): UA=60.98%، WA=58.93%
الطريقة المقترحة (λ=0.3, α=0.5): UA=65.13%، WA=62.96%
التحسن: تحسن UA بـ 4.15%، تحسن WA بـ 4.03%

تحليل حساسية المعاملات الفائقة

معامل α: UA و WA غير حساسين لـ α، مع أداء نسبية مستقرة في النطاق 0.1-0.9
معامل λ: تحقيق أفضل أداء عند λ=0.3، مع تأثر الأداء سلباً عند قيم λ الكبيرة جداً أو الصغيرة جداً

تحليل التصور

يُظهر التصور بعد تقليل الأبعاد باستخدام PCA:

بعد استخدام خسارة المركز، تتجمع الميزات من نفس الفئة بشكل أكثر إحكاماً
تحسن درجة الفصل بين الفئات المختلفة
تُظهر مجموعات التدريب والاختبار أنماط تحسن متشابهة

تحليل مصفوفة الالتباس

مع إدخال خسارة المركز، تحسنت دقة التعرف على كل فئة عاطفية بدرجات مختلفة:

محايد: 57.5%→63.7%
غاضب: 69.1%→70.5%
سعيد: 51.1%→55.6%
حزين: 77.6%→77.7%

الأعمال ذات الصلة

الطرق التقليدية

طرق إحصائية قائمة على الميزات اليدوية
استخراج ميزات على مستوى الإطار وتطبيق دوال إحصائية

طرق التعلم العميق

دمج DNN والآلات الحدية للتعلم
LSTM ثنائي الاتجاه لتمثيل الميزات عالية المستوى
التعلم من موجات خام من النهاية إلى النهاية
تعلم الطيف الصوتي من خلال دمج CNN و RNN

طرق التعلم التمييزي

مهام التمييز الزوجي: استخدام خسارة التشابه الكوسيني والإنتروبيا المتقاطعة الثنائية
إطار العمل الثلاثي: استخدام خسارة الثلاثيات لتعلم ميزات تمييزية
مزايا طريقة هذه الورقة مقارنة بهذه الطرق: التعلم من النهاية إلى النهاية، بدون الحاجة إلى إقران العينات

الخلاصة والنقاش

الاستنتاجات الرئيسية

يمكن لخسارة المركز أن تقلل بفعالية من التباين داخل الفئة وتحسن التمييز بين الميزات
دالة الخسارة المشتركة تحقق تحسناً ملحوظاً في الأداء على مدخلات الطيف الصوتي من نوعين
يمكن دمج هذه الطريقة بشكل طبيعي في نماذج SER الموجودة، بدون الحاجة إلى مصنفات إضافية

القيود

التركيز الأساسي على تقليل التباين داخل الفئة، مع استكشاف محدود لزيادة التباين بين الفئات
التحقق فقط على مجموعة بيانات IEMOCAP، مع الحاجة إلى التحقق من القدرة على التعميم عبر مجموعات البيانات
بالنسبة لمجموعات البيانات غير المتوازنة بشكل كبير، قد تحتاج استراتيجية الترجيح إلى تحسين إضافي

الاتجاهات المستقبلية

يقترح المؤلفون استكشاف المزيد من تصاميم دوال الخسارة، خاصة الطرق التي تزيد من التباين بين فئات الميزات، لتحسين أداء SER بشكل أكبر.

التقييم المتعمق

المزايا

قوة الابتكار في الطريقة: نقل ناجح لخسارة المركز من مجال التعرف على الوجه إلى مجال التعرف على العاطفة في الكلام
صرامة تصميم التجارب: تتضمن تحليل حساسية المعاملات الفائقة والتحقق من التصور والتجارب الاستئصالية المفصلة
قوة إقناع النتائج: تحقيق تحسن متسق في الأداء على مدخلات طيف صوتي من نوعين مختلفين
وضوح الكتابة: وصف تفصيلي للتفاصيل التقنية، مع تعبير دقيق للصيغ الرياضية

أوجه القصور

مجموعة بيانات واحدة: التحقق فقط على مجموعة بيانات IEMOCAP، مع نقص في التحقق من القدرة على التعميم عبر مجموعات البيانات
طرق مقارنة محدودة: المقارنة الأساسية مع الخط الأساسي الخاص بهم، مع نقص في المقارنة المفصلة مع طرق الحالة الراهنة الأخرى
نقص التحليل النظري: نقص التحليل النظري العميق لسبب فعالية خسارة المركز في مهام SER
غياب تحليل التعقيد الحسابي: عدم مناقشة تأثير إدخال خسارة المركز على كفاءة التدريب والاستدلال

التأثير

المساهمة التقنية: توفير طريقة بسيطة وفعالة لتعلم الميزات للتعرف على العاطفة في الكلام
القيمة العملية: الطريقة سهلة التنفيذ والتكامل، مع قابلية عملية جيدة
إمكانية إعادة الإنتاج: وصف كافٍ للتفاصيل التقنية، مما يسهل إعادة الإنتاج

السيناريوهات المناسبة

مناسبة لمختلف مهام التعرف على العاطفة في الكلام القائمة على الطيف الصوتي
مناسبة بشكل خاص للتعامل مع مجموعات بيانات العاطفة غير المتوازنة
يمكن أن تكون بمثابة وحدة تحسين الأداء لأنظمة SER الموجودة

المراجع

تستشهد الورقة بـ 19 مرجعاً ذا صلة، تغطي الطرق التقليدية والحديثة للتعرف على العاطفة في الكلام وطرق التعلم العميق وتعلم الميزات التمييزية والمجالات الرئيسية الأخرى، مما يوفر أساساً نظرياً كافياً ومقارنة تقنية للبحث.

التقييم الإجمالي: هذه ورقة تتمتع بأساس تقني متين وتجارب شاملة، وقد نجحت في إدخال خسارة المركز إلى مجال التعرف على العاطفة في الكلام وحققت تحسناً ملحوظاً في الأداء. بينما لا تزال هناك مجالات للتحسن في التحليل النظري والتحقق عبر مجموعات البيانات، فإن طريقتها البسيطة والفعالة ونتائجها التجريبية المتسقة تمنحها قيمة أكاديمية وعملية جيدة.