2025-11-23T04:34:16.871813

Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition

Upadhyay, Chien, Lee
Speech emotion recognition (SER) is a vital component in various everyday applications. Cross-corpus SER models are increasingly recognized for their ability to generalize performance. However, concerns arise regarding fairness across demographics in diverse corpora. Existing fairness research often focuses solely on corpus-specific fairness, neglecting its generalizability in cross-corpus scenarios. Our study focuses on this underexplored area, examining the gender fairness generalizability in cross-corpus SER scenarios. We emphasize that the performance of cross-corpus SER models and their fairness are two distinct considerations. Moreover, we propose the approach of a combined fairness adaptation mechanism to enhance gender fairness in the SER transfer learning tasks by addressing both source and target genders. Our findings bring one of the first insights into the generalizability of gender fairness in cross-corpus SER systems.
academic

هل لا تزال عادلة؟ التحقيق من العدالة بين الجنسين في التعرف على العاطفة في الكلام عبر المدونات

المعلومات الأساسية

  • معرّف الورقة: 2501.00995
  • العنوان: Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition
  • المؤلفون: Shreya G. Upadhyay, Woan-Shiuan Chien, Chi-Chun Lee (جامعة تسينغ هوا الوطنية، تايوان)
  • التصنيف: cs.LG (التعلم الآلي)
  • تاريخ النشر: 2 يناير 2025 (نسخة أولية على arXiv)
  • رابط الورقة: https://arxiv.org/abs/2501.00995

الملخص

يعتبر التعرف على العاطفة في الكلام (SER) مكوناً حاسماً في العديد من التطبيقات اليومية. تحظى نماذج التعرف على العاطفة عبر المدونات بالاعتراف المتزايد بسبب أدائها في التعميم. ومع ذلك، أثارت قضايا العدالة المتعلقة بالخصائص الديموغرافية عبر المدونات المختلفة اهتماماً متزايداً. غالباً ما تركز الدراسات الحالية حول العدالة على العدالة في مدونة واحدة فقط، متجاهلة قدرتها على التعميم في السيناريوهات عبر المدونات. يركز هذا البحث على هذا المجال الذي لم يتم استكشافه بشكل كافٍ، ويفحص قدرة تعميم العدالة بين الجنسين في سيناريوهات التعرف على العاطفة عبر المدونات. نؤكد على أن الأداء والعدالة في نماذج التعرف على العاطفة عبر المدونات يمثلان اعتباراً مختلفاً. علاوة على ذلك، نقترح آلية تكيف عدالة مركبة لتعزيز العدالة بين الجنسين في مهام نقل التعلم للتعرف على العاطفة، من خلال معالجة قضايا الجنس في المجال المصدر والمجال الهدف في نفس الوقت. تقدم نتائجنا أحد الأفكار الأولى حول تعميم العدالة بين الجنسين في أنظمة التعرف على العاطفة عبر المدونات.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية التي يعالجها هذا البحث هي: مشكلة تعميم العدالة بين الجنسين في نماذج التعرف على العاطفة في الكلام عبر المدونات. بشكل محدد:

  1. هل تحافظ نماذج التعرف على العاطفة التي تظهر عدالة بين الجنسين على مدونة المصدر على هذه العدالة على مدونة الهدف؟
  2. هل يمكن للتقنيات الحالية للعدالة أن تتعمم بفعالية في إعدادات عبر المدونات؟

تحليل الأهمية

  1. احتياجات التطبيق العملي: تُستخدم أنظمة التعرف على العاطفة على نطاق واسع في التفاعل بين الإنسان والآلة وتطبيقات الإدراك العاطفي، حيث تكون العدالة حاسمة
  2. واقع النشر عبر المجالات: في التطبيقات العملية، غالباً ما يتعين نشر النماذج في بيئات مختلفة عن بيانات التدريب
  3. الاختلافات الثقافية واللغوية: يتمتع التعبير العاطفي بخصوصية ثقافية ولغوية، مما يجعل تحديات العدالة في السيناريوهات عبر المدونات أكثر تعقيداً

قيود الأساليب الموجودة

  1. قيود المدونة الواحدة: يركز البحث الحالي حول العدالة بشكل أساسي على سيناريوهات مجموعة بيانات واحدة
  2. غياب القدرة على التعميم: نقص الدراسات حول قدرة العدالة على التعميم في السيناريوهات عبر المجالات
  3. قابلية تطبيق الطريقة: تم تصميم تقنيات العدالة الحالية بشكل أساسي للمجال المصدر، دون الأخذ في الاعتبار احتياجات العدالة في المجال الهدف

المساهمات الأساسية

  1. أول دراسة منهجية: إجراء تحقيق متعمق أول حول مشكلة تعميم العدالة بين الجنسين في التعرف على العاطفة عبر المدونات
  2. نتائج مهمة: الكشف عن ظاهرة الفصل بين الأداء والعدالة في السيناريوهات عبر المجالات - قد يتعمم النموذج بشكل جيد في الأداء لكن يفشل في تعميم العدالة
  3. طريقة جديدة: اقتراح آلية تكيف عدالة مركبة (CFA) تحسّن العدالة بين الجنسين في المجال المصدر والهدف في نفس الوقت
  4. التحقق التجريبي: التحقق من فعالية الطريقة على مدونتي كلام طبيعي كبيرتين

شرح الطريقة

تعريف المهمة

  • الإدخال: ميزات إشارة الكلام (ميزات wav2vec2.0)
  • الإخراج: التنبؤ بفئة العاطفة (تصنيف ثنائي للحالات المحايدة والسعيدة والغاضبة والحزينة)
  • القيود: الحفاظ على العدالة بين الجنسين في المجال المصدر والهدف في نفس الوقت

معمارية النموذج

التصميم الشامل

تتضمن طريقة CFA المقترحة وحدتين أساسيتين:

  1. كتلة التصنيف العاطفي (EC): معمارية التعرف على العاطفة الأساسية، باستخدام Transformer والطبقات المتصلة بالكامل للتصنيف العاطفي
  2. كتلة تكيف العدالة المركبة (CFA): تتضمن شبكة معارضة لتصنيف الجنس، مع تحقيق الحياد بين الجنسين من خلال طبقة التدرج العكسي

مكونات التقنية الرئيسية

1. آلية التدريب المعارض

  • استخدام طبقة التدرج العكسي لجعل تمثيل الميزات غير حساس لمعلومات الجنس
  • هدف وحدة EC: إنتاج ميزات عاطفية محايدة بين الجنسين
  • هدف وحدة GC: التنبؤ الدقيق بالجنس (للتدريب المعارض)

2. خسارة التشابه بين الجنسين إدخال خسارة تباينية لتشجيع عينات من نفس الجنس على الاقتراب في فضاء الميزات:

LGSim(x1,x2,y)=(1y)12D2+y12max(0,mD)2L_{GSim}(x_1, x_2, y) = (1-y)\frac{1}{2}D^2 + y\frac{1}{2}\max(0, m-D)^2

حيث D هي المسافة الإقليدية بين تضمينات العينات، و m هي معامل الحد (المعيّن على 1).

3. دالة الخسارة الكليةLtotal=LEC+αLGSimβLGCL_{total} = L_{EC} + α \cdot L_{GSim} - β \cdot L_{GC}

حيث يتم تعيين α و β على 0.5، والإشارة السالبة تشير إلى التدريب المعارض.

نقاط الابتكار التقني

  1. تصميم العدالة عبر المجالات: أول اقتراح يأخذ في الاعتبار العدالة في المجال المصدر والهدف في نفس الوقت
  2. محاذاة ميزات الجنس: تحقيق محاذاة ميزات الجنس عبر المدونات من خلال خسارة تباينية
  3. استراتيجية التحسين المشترك: استخدام دفعات مختلطة من المجال المصدر والهدف للتدريب المعارض المحايد بين الجنسين أثناء عملية التدريب

إعداد التجربة

مجموعات البيانات

MSP-Podcast (MSP-P)

  • 166 ساعة من كلام اللغة الإنجليزية الأمريكية العاطفي
  • 49,018 عينة (24,466 ذكر، 24,552 أنثى)
  • بمثابة مدونة المصدر

BIIC-Podcast (BIIC-P)

  • 157 ساعة من كلام اللغة الماندرين التايوانية العاطفي
  • 18,706 عينة (9,654 ذكر، 9,326 أنثى)
  • بمثابة مدونة الهدف

مؤشرات التقييم

مؤشرات الأداء:

  • UAR (معدل الاستدعاء غير المرجح): معدل الاستدعاء المتوسط غير المرجح

مؤشرات العدالة:

  • المساواة الإحصائية (ΔSP): ضمان حصول المجموعات المختلفة على نسبة متساوية من النتائج الإيجابية
  • تكافؤ الفرص (ΔEO): يتطلب أن يكون للنموذج معدلات موجبة حقيقية وموجبة خاطئة متساوية للمجموعات المختلفة
  • يتراوح كلا المؤشرين بين -1,1، وكلما اقتربا من 0 كانت العدالة أفضل

طرق المقارنة

طرق نقل التعلم:

  • Few-shot (FS): الاستفادة من معرفة مدونة المصدر للتكيف مع المجال الهدف
  • GAN-based (GAN): استخدام التدريب المعارض
  • Phonetically-anchored (PA): التعلم في فضاء الكلام المشترك

طرق العدالة:

  • Fairway: طريقة عدالة خاصة بالمجال المصدر
  • Reweigh: تقنية عدالة بإعادة الترجيح

تفاصيل التنفيذ

  • المحسّن: Adam، معدل التعلم 0.0001، عامل الاضمحلال 0.001
  • التدريب: حد أقصى 50 حقبة، حجم الدفعة 64، آلية الإيقاف المبكر
  • دالة الخسارة: خسارة الإنتروبيا الثنائية المتقاطعة
  • تكرار التجارب: تكرار كل تجربة 10 مرات وأخذ المتوسط

نتائج التجربة

النتائج الرئيسية

فشل تعميم العدالة عبر المدونات: كشفت التجارب أنه حتى النماذج التي تظهر عدالة جيدة على مدونة المصدر (MSP-P) تحتفظ بانحياز جنسي كبير على مدونة الهدف (BIIC-P). على سبيل المثال، في تصنيف العاطفة الغاضبة:

  • نموذج PA على BIIC-P: معدل استدعاء الذكور 58.01%، معدل استدعاء الإناث 71.79%
  • قيمة ΔSP ارتفعت من 0.380 على MSP-P إلى 0.534 على BIIC-P

قيود طرق العدالة الموجودة: على الرغم من أن PA-FairW و PA-ReW يحسنان العدالة على مدونة المصدر، إلا أن التحسن على مدونة الهدف محدود:

  • PA-ReW على فئة الغضب في MSP-P: ΔSP=0.159، ΔEO=0.168
  • لكن على BIIC-P: ΔSP=0.321، ΔEO=0.416 (لا يوجد تحسن تقريباً)

تأثير طريقة CFA

تحسن كبير في العدالة: حققت PA-CFA تحسناً ملحوظاً في عدالة المجال الهدف مقارنة بـ PA-ReW:

  • فئة الغضب: انخفاض ΔSP من 0.363 إلى 0.260
  • فئة المحايد: انخفاض ΔSP من 0.391 إلى 0.205
  • فئة السعيد: انخفاض ΔSP من 0.412 إلى 0.223

التحقق من الدلالة الإحصائية: من خلال الاختبارات الإحصائية (علامات النجم في الجدول II)، حققت طريقة CFA مستويات دلالة إحصائية في معظم الحالات (p<0.05 أو p<0.1).

تجارب الاستئصال

دور خسارة التشابه بين الجنسين: المقارنة بين PA-Adv (بدون خسارة التشابه بين الجنسين) و PA-CFA:

  • PA-Adv على فئة الغضب في BIIC-P: ΔSP=0.322
  • PA-CFA: ΔSP=0.260 يتحقق من الدور المهم لـ L_GSim في تحسين العدالة عبر المجالات.

التحليل البصري

تحليل فضاء الميزات t-SNE:

  • PA-ReW: تظهر ميزات الذكور والإناث فصلاً واضحاً في التجميع
  • PA-CFA: توزيع مختلط للميزات بين الذكور والإناث، مما يشير إلى حياد جنسي أفضل

تحليل دقة كشف الجنس:

  • PA-ReW: اختلاف كبير في دقة كشف الجنس بين MSP-P و BIIC-P
  • PA-CFA: دقة كشف الجنس متشابهة على كلا المدونتين (مثل الغضب: MSP-P 36%، BIIC-P 35%)

الأعمال ذات الصلة

أبحاث عدالة التعرف على العاطفة

يركز البحث الموجود بشكل أساسي على العدالة في سيناريوهات مدونة واحدة، باستخدام شبكات معارضة وتقنيات إعادة الترجيح وغيرها لتحييد تأثير الخصائص الحساسة مثل الجنس والعمر.

التعرف على العاطفة عبر المدونات

يتم معالجة عدم تطابق الميزات والتسميات بين المجالات بشكل أساسي من خلال نقل التعلم والتعلم شبه الموجه وغيرها، لكن نادراً ما يتم النظر في تعميم العدالة.

موضع مساهمة هذه الورقة

توسع هذه الورقة أبحاث العدالة لأول مرة إلى السيناريوهات عبر المدونات، مما يملأ فجوة بحثية في هذا المجال.

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

  1. فصل الأداء والعدالة: تعميم الأداء والعدالة في نماذج التعرف على العاطفة عبر المدونات يمثلان مشكلتين مستقلتين
  2. عدم كفاية الطرق الموجودة: لا يمكن لتقنيات العدالة الخاصة بالمجال المصدر أن تتعمم بفعالية على المجال الهدف
  3. فعالية CFA: يمكن لطريقة تكيف العدالة المركبة المقترحة أن تحسن بشكل كبير العدالة بين الجنسين عبر المجالات

القيود

  1. المقايضة في الأداء: تحسن طريقة CFA العدالة على حساب التضحية بالأداء الكلي قليلاً
  2. قيود المدونة: تم إجراء التجارب فقط على مدونتين محددتين، وتحتاج قدرة التعميم إلى التحقق الإضافي
  3. نطاق الخصائص: يركز بشكل أساسي على العدالة بين الجنسين، دون تناول الخصائص الحساسة الأخرى (مثل العمر والعرق)

الاتجاهات المستقبلية

  1. تحليل على مستوى الميزات: تحديد مصادر مشاكل العدالة عبر المدونات من خلال التحليل على مستوى الميزات
  2. العدالة متعددة الخصائص: التوسع إلى التحسين المشترك للعدالة لخصائص حساسة متعددة
  3. الإطار النظري: بناء إطار تحليل نظري لمشاكل العدالة عبر المجالات

التقييم المتعمق

المزايا

  1. أهمية المشكلة: أول دراسة منهجية لمشكلة تعميم العدالة في التعرف على العاطفة عبر المدونات، ذات أهمية عملية كبيرة
  2. ابتكار الطريقة: تتمتع طريقة CFA المقترحة بتصميم معقول، وتحقق تحسين العدالة عبر المجالات من خلال التدريب المعارض والتعلم التبايني
  3. تجارب شاملة: تصميم تجريبي شامل يتضمن طرق أساسية متعددة وتجارب استئصال وتحليل بصري
  4. نتائج ذات قيمة: الكشف عن ظاهرة الفصل بين تعميم الأداء وتعميم العدالة، مما يوفر رؤى مهمة للمجال

أوجه القصور

  1. الأساس النظري: نقص التحليل النظري لمشاكل العدالة عبر المجالات، يعتمد بشكل أساسي على الملاحظات التجريبية
  2. قيود البيانات: التحقق فقط على مدونتين، وكلاهما بيانات بودكاست، مع تنوع محدود
  3. التقييم الفردي: يركز بشكل أساسي على العدالة بين الجنسين، مع اعتبار غير كافٍ للخصائص الحساسة الأخرى
  4. التطبيق العملي: تتطلب الطريقة تسميات الجنس في المجال الهدف للتدريب، مما قد يكون محدوداً في التطبيقات الحقيقية

التأثير

  1. القيمة الأكاديمية: فتح اتجاه بحثي جديد في دراسة العدالة في التعرف على العاطفة عبر المدونات، من المتوقع أن يثير المزيد من الأبحاث ذات الصلة
  2. القيمة العملية: توفير حل تقني لضمان العدالة في النشر عبر المجالات لأنظمة التعرف على العاطفة
  3. قابلية الاستنساخ: إعداد تجريبي مفصل، مع توفر جيد للكود والبيانات

السيناريوهات القابلة للتطبيق

  1. أنظمة التعرف على العاطفة عبر اللغات: مناسبة بشكل خاص لأنظمة التعرف على العاطفة التي تحتاج إلى النشر في بيئات لغوية مختلفة
  2. التطبيقات متعددة المجالات: مناسبة للتطبيقات التي تحتاج إلى الحفاظ على العدالة عبر مجالات بيانات متعددة
  3. السيناريوهات الحساسة للعدالة: مثل التقييمات الصحية والتعليمية وغيرها من مجالات التطبيق التي تتطلب مستويات عالية من العدالة

المراجع

تستشهد الورقة بـ 21 مرجعاً ذا صلة، تغطي مجالات متعددة ذات صلة مثل التعرف على العاطفة والعدالة ونقل التعلم، مما يوفر أساساً نظرياً متيناً للبحث.


التقييم الشامل: هذه ورقة بحثية ذات أهمية رائدة في مجال أبحاث العدالة في التعرف على العاطفة، وهي أول دراسة منهجية لمشكلة تعميم العدالة في السيناريوهات عبر المدونات، وتقترح طريقة CFA التي تتمتع بابتكار تقني معين، مع التحقق التجريبي الشامل. على الرغم من وجود بعض القيود، فإنها توفر أساساً مهماً وتوجيهاً للتطور في هذا المجال.