Speech emotion recognition (SER) is a vital component in various everyday applications. Cross-corpus SER models are increasingly recognized for their ability to generalize performance. However, concerns arise regarding fairness across demographics in diverse corpora. Existing fairness research often focuses solely on corpus-specific fairness, neglecting its generalizability in cross-corpus scenarios. Our study focuses on this underexplored area, examining the gender fairness generalizability in cross-corpus SER scenarios. We emphasize that the performance of cross-corpus SER models and their fairness are two distinct considerations. Moreover, we propose the approach of a combined fairness adaptation mechanism to enhance gender fairness in the SER transfer learning tasks by addressing both source and target genders. Our findings bring one of the first insights into the generalizability of gender fairness in cross-corpus SER systems.
- पेपर आईडी: 2501.00995
- शीर्षक: Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition
- लेखक: Shreya G. Upadhyay, Woan-Shiuan Chien, Chi-Chun Lee (National Tsing Hua University, Taiwan)
- वर्गीकरण: cs.LG (मशीन लर्निंग)
- प्रकाशन तिथि: 2 जनवरी 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2501.00995
स्पीच इमोशन रिकग्निशन (SER) विभिन्न दैनिक अनुप्रयोगों में एक महत्वपूर्ण घटक है। क्रॉस-कॉर्पस SER मॉडल अपने सामान्यीकरण प्रदर्शन के कारण तेजी से मान्यता प्राप्त कर रहे हैं। हालांकि, विभिन्न कॉर्पस में जनसांख्यिकीय विशेषताओं के संबंध में न्यायसंगतता के मुद्दों ने ध्यान आकर्षित किया है। मौजूदा न्यायसंगतता अनुसंधान अक्सर केवल विशिष्ट कॉर्पस की न्यायसंगतता पर ध्यान केंद्रित करता है, क्रॉस-कॉर्पस परिदृश्यों में इसके सामान्यीकरण को नजरअंदाज करता है। यह अनुसंधान इस अपर्याप्त रूप से अन्वेषित क्षेत्र पर ध्यान केंद्रित करता है, क्रॉस-कॉर्पस SER परिदृश्यों में लिंग न्यायसंगतता के सामान्यीकरण की क्षमता की जांच करता है। हम क्रॉस-कॉर्पस SER मॉडल के प्रदर्शन और न्यायसंगतता को दो अलग-अलग विचार कारकों के रूप में हाइलाइट करते हैं। इसके अतिरिक्त, हम SER स्थानांतरण शिक्षण कार्यों में लिंग न्यायसंगतता को बढ़ाने के लिए एक संयुक्त न्यायसंगतता अनुकूलन तंत्र प्रस्तावित करते हैं, जो स्रोत डोमेन और लक्ष्य डोमेन दोनों की लिंग समस्याओं को एक साथ संबोधित करता है। हमारे निष्कर्ष क्रॉस-कॉर्पस SER सिस्टम में लिंग न्यायसंगतता के सामान्यीकरण के बारे में पहली अंतर्दृष्टि प्रदान करते हैं।
यह अनुसंधान जो मुख्य समस्या को संबोधित करता है वह है: क्रॉस-कॉर्पस स्पीच इमोशन रिकग्निशन मॉडल की लिंग न्यायसंगतता सामान्यीकरण समस्या। विशेष रूप से:
- क्या स्रोत कॉर्पस पर लिंग न्यायसंगतता प्रदर्शित करने वाले SER मॉडल लक्ष्य कॉर्पस पर भी न्यायसंगतता बनाए रख सकते हैं?
- क्या मौजूदा न्यायसंगतता तकनीकें क्रॉस-कॉर्पस सेटिंग में प्रभावी रूप से सामान्यीकृत हो सकती हैं?
- व्यावहारिक अनुप्रयोग आवश्यकता: SER सिस्टम मानव-कंप्यूटर इंटरैक्शन, भावनात्मक जागरूकता अनुप्रयोगों आदि में व्यापक रूप से लागू होते हैं, जहां न्यायसंगतता महत्वपूर्ण है
- क्रॉस-डोमेन तैनाती वास्तविकता: व्यावहारिक अनुप्रयोगों में, मॉडल को अक्सर प्रशिक्षण डेटा से भिन्न वातावरण में तैनात करने की आवश्यकता होती है
- सांस्कृतिक भाषा अंतर: भावनात्मक अभिव्यक्ति सांस्कृतिक और भाषाई रूप से विशिष्ट है, क्रॉस-कॉर्पस परिदृश्यों में न्यायसंगतता की चुनौतियां अधिक जटिल हैं
- एकल कॉर्पस सीमा: मौजूदा न्यायसंगतता अनुसंधान मुख्य रूप से एकल डेटासेट परिदृश्यों पर केंद्रित है
- सामान्यीकरण की कमी: क्रॉस-डोमेन परिदृश्यों में न्यायसंगतता की सामान्यीकरण क्षमता पर अनुसंधान की कमी है
- विधि प्रयोज्यता: मौजूदा न्यायसंगतता तकनीकें मुख्य रूप से स्रोत डोमेन के लिए डिज़ाइन की गई हैं, लक्ष्य डोमेन की न्यायसंगतता आवश्यकताओं पर विचार नहीं करती हैं
- पहला व्यवस्थित अनुसंधान: क्रॉस-कॉर्पस SER में लिंग न्यायसंगतता सामान्यीकरण समस्या की पहली गहन जांच
- महत्वपूर्ण निष्कर्ष: क्रॉस-डोमेन परिदृश्यों में प्रदर्शन और न्यायसंगतता के पृथक्करण की घटना को उजागर करता है—मॉडल प्रदर्शन में अच्छी तरह से सामान्यीकृत हो सकता है लेकिन न्यायसंगतता सामान्यीकरण विफल हो सकता है
- नवीन विधि: संयुक्त न्यायसंगतता अनुकूलन (CFA) तंत्र प्रस्तावित करता है जो स्रोत डोमेन और लक्ष्य डोमेन दोनों की लिंग न्यायसंगतता को अनुकूलित करता है
- प्रायोगिक सत्यापन: दो बड़े प्राकृतिक स्पीच कॉर्पस पर विधि की प्रभावशीलता को सत्यापित करता है
- इनपुट: स्पीच सिग्नल विशेषताएं (wav2vec2.0 विशेषताएं)
- आउटपुट: भावनात्मक श्रेणी भविष्यवाणी (तटस्थ, खुश, क्रोधित, उदास की द्विआधारी वर्गीकरण)
- बाधा: स्रोत डोमेन और लक्ष्य डोमेन दोनों पर लिंग न्यायसंगतता बनाए रखना
प्रस्तावित CFA विधि में दो मुख्य मॉड्यूल हैं:
- भावनात्मक वर्गीकरण (EC) ब्लॉक: मूल SER आर्किटेक्चर, भावनात्मक वर्गीकरण के लिए Transformer और पूर्ण कनेक्टेड परत का उपयोग करता है
- संयुक्त न्यायसंगतता अनुकूलन (CFA) ब्लॉक: लिंग वर्गीकरण के लिए प्रतिकूल नेटवर्क शामिल है, विपरीत ढाल परत के माध्यम से लिंग तटस्थता प्राप्त करता है
1. प्रतिकूल प्रशिक्षण तंत्र
- विपरीत ढाल परत का उपयोग करके विशेषता प्रतिनिधित्व को लिंग जानकारी के प्रति असंवेदनशील बनाता है
- EC मॉड्यूल लक्ष्य: लिंग-तटस्थ भावनात्मक विशेषताएं उत्पन्न करना
- GC मॉड्यूल लक्ष्य: लिंग की सटीक भविष्यवाणी करना (प्रतिकूल प्रशिक्षण के लिए)
2. लिंग समानता हानि
समान लिंग के नमूनों को विशेषता स्थान में करीब लाने के लिए विपरीत हानि का परिचय देता है:
LGSim(x1,x2,y)=(1−y)21D2+y21max(0,m−D)2
जहां D नमूने एम्बेडिंग के बीच यूक्लिडियन दूरी है, m सीमा पैरामीटर है (1 पर सेट)।
3. कुल हानि फ़ंक्शनLtotal=LEC+α⋅LGSim−β⋅LGC
जहां α और β दोनों 0.5 पर सेट हैं, नकारात्मक चिन्ह प्रतिकूल प्रशिक्षण को दर्शाता है।
- क्रॉस-डोमेन न्यायसंगतता डिजाइन: पहली बार स्रोत डोमेन और लक्ष्य डोमेन दोनों की न्यायसंगतता पर विचार करने वाली विधि प्रस्तावित करता है
- लिंग विशेषता संरेखण: विपरीत हानि के माध्यम से क्रॉस-कॉर्पस लिंग विशेषता संरेखण प्राप्त करता है
- संयुक्त अनुकूलन रणनीति: प्रशिक्षण प्रक्रिया में स्रोत डोमेन और लक्ष्य डोमेन के मिश्रित बैच का उपयोग करके लिंग-तटस्थ प्रतिकूल प्रशिक्षण
MSP-Podcast (MSP-P)
- 166 घंटे अमेरिकी अंग्रेजी भावनात्मक स्पीच
- 49,018 नमूने (24,466 पुरुष, 24,552 महिला)
- स्रोत कॉर्पस के रूप में
BIIC-Podcast (BIIC-P)
- 157 घंटे ताइवान मंदारिन भावनात्मक स्पीच
- 18,706 नमूने (9,654 पुरुष, 9,326 महिला)
- लक्ष्य कॉर्पस के रूप में
प्रदर्शन मेट्रिक्स:
- UAR (अनवेटेड एवरेज रिकॉल): अनवेटेड औसत रिकॉल दर
न्यायसंगतता मेट्रिक्स:
- सांख्यिकीय समानता (ΔSP): विभिन्न समूहों को सकारात्मक परिणामों का समान अनुपात प्राप्त करना सुनिश्चित करता है
- अवसर समानता (ΔEO): मॉडल को विभिन्न समूहों के लिए समान सत्य सकारात्मक दर और झूठी सकारात्मक दर की आवश्यकता है
- दोनों मेट्रिक्स की श्रेणी -1,1 है, 0 के करीब जितना अधिक न्यायसंगतता बेहतर है
स्थानांतरण शिक्षण विधियां:
- Few-shot (FS): स्रोत कॉर्पस ज्ञान का उपयोग लक्ष्य डोमेन अनुकूलन के लिए
- GAN-based (GAN): प्रतिकूल प्रशिक्षण को अपनाता है
- Phonetically-anchored (PA): साझा स्पीच स्थान में सीखता है
न्यायसंगतता विधियां:
- Fairway: स्रोत डोमेन-विशिष्ट न्यायसंगतता विधि
- Reweigh: पुनः-भारित न्यायसंगतता तकनीक
- अनुकूलक: Adam, सीखने की दर 0.0001, क्षय कारक 0.001
- प्रशिक्षण: अधिकतम 50 एपोक, बैच आकार 64, प्रारंभिक रोक तंत्र
- हानि फ़ंक्शन: द्विआधारी क्रॉस-एंट्रॉपी हानि
- प्रयोग दोहराव: प्रत्येक प्रयोग 10 बार दोहराया गया, औसत लिया गया
क्रॉस-कॉर्पस न्यायसंगतता सामान्यीकरण विफलता:
प्रयोग से पता चलता है कि भले ही स्रोत डोमेन (MSP-P) पर अच्छी न्यायसंगतता प्रदर्शित करने वाले मॉडल, लक्ष्य डोमेन (BIIC-P) पर अभी भी महत्वपूर्ण लिंग पूर्वाग्रह मौजूद हैं। उदाहरण के लिए, क्रोध भावनात्मक वर्गीकरण में:
- PA मॉडल BIIC-P पर: पुरुष UAR 58.01%, महिला UAR 71.79%
- ΔSP मान MSP-P के 0.380 से BIIC-P के 0.534 तक बढ़ता है
मौजूदा न्यायसंगतता विधियों की सीमाएं:
PA-FairW और PA-ReW हालांकि स्रोत डोमेन न्यायसंगतता में सुधार करते हैं, लक्ष्य डोमेन पर सुधार सीमित है:
- PA-ReW MSP-P क्रोध श्रेणी में: ΔSP=0.159, ΔEO=0.168
- लेकिन BIIC-P पर: ΔSP=0.321, ΔEO=0.416 (लगभग कोई सुधार नहीं)
महत्वपूर्ण न्यायसंगतता सुधार:
PA-CFA PA-ReW की तुलना में लक्ष्य डोमेन न्यायसंगतता में महत्वपूर्ण सुधार प्राप्त करता है:
- क्रोध श्रेणी: ΔSP 0.363 से 0.260 तक घटता है
- तटस्थ श्रेणी: ΔSP 0.391 से 0.205 तक घटता है
- खुश श्रेणी: ΔSP 0.412 से 0.223 तक घटता है
सांख्यिकीय महत्व सत्यापन:
सांख्यिकीय परीक्षण (तालिका II में तारांकन चिन्ह) के माध्यम से, CFA विधि अधिकांश मामलों में महत्व स्तर (p<0.05 या p<0.1) तक पहुंचती है।
लिंग समानता हानि की भूमिका:
PA-Adv (बिना लिंग समानता हानि) और PA-CFA की तुलना:
- PA-Adv BIIC-P क्रोध श्रेणी में: ΔSP=0.322
- PA-CFA: ΔSP=0.260
क्रॉस-डोमेन न्यायसंगतता में सुधार में L_GSim की महत्वपूर्ण भूमिका को सत्यापित करता है।
t-SNE विशेषता स्थान विश्लेषण:
- PA-ReW: पुरुष और महिला विशेषताएं स्पष्ट क्लस्टरिंग पृथक्करण प्रदर्शित करती हैं
- PA-CFA: पुरुष और महिला विशेषताएं मिश्रित वितरण, बेहतर लिंग तटस्थता दर्शाता है
लिंग पहचान सटीकता विश्लेषण:
- PA-ReW: MSP-P और BIIC-P पर लिंग पहचान सटीकता में बड़ा अंतर
- PA-CFA: दोनों कॉर्पस पर लिंग पहचान सटीकता समान (जैसे क्रोध: MSP-P 36%, BIIC-P 35%)
मौजूदा अनुसंधान मुख्य रूप से एकल कॉर्पस परिदृश्य की न्यायसंगतता पर केंद्रित है, लिंग, आयु आदि संवेदनशील विशेषताओं के प्रभाव को तटस्थ करने के लिए प्रतिकूल नेटवर्क, पुनः-भारण आदि तकनीकों का उपयोग करता है।
मुख्य रूप से डोमेन के बीच विशेषता, लेबल बेमेल समस्याओं को हल करने के लिए स्थानांतरण शिक्षा, अर्ध-निरीक्षित शिक्षा आदि तकनीकों के माध्यम से, लेकिन न्यायसंगतता सामान्यीकरण पर कम विचार करता है।
यह पेपर पहली बार न्यायसंगतता अनुसंधान को क्रॉस-कॉर्पस परिदृश्य तक विस्तारित करता है, इस क्षेत्र में अनुसंधान के अंतराल को भरता है।
- प्रदर्शन और न्यायसंगतता पृथक्करण: क्रॉस-कॉर्पस SER मॉडल का प्रदर्शन सामान्यीकरण और न्यायसंगतता सामान्यीकरण दो स्वतंत्र समस्याएं हैं
- मौजूदा विधियां अपर्याप्त: स्रोत डोमेन-विशिष्ट न्यायसंगतता तकनीकें लक्ष्य डोमेन तक प्रभावी रूप से सामान्यीकृत नहीं हो सकती हैं
- CFA प्रभावशीलता: प्रस्तावित संयुक्त न्यायसंगतता अनुकूलन विधि क्रॉस-डोमेन लिंग न्यायसंगतता में महत्वपूर्ण सुधार कर सकती है
- प्रदर्शन व्यापार-बंद: CFA विधि न्यायसंगतता में सुधार करते समय समग्र प्रदर्शन में थोड़ी कमी करती है
- कॉर्पस सीमा: प्रयोग केवल दो विशिष्ट कॉर्पस पर किए गए हैं, सामान्यीकरण को आगे सत्यापन की आवश्यकता है
- विशेषता श्रेणी: मुख्य रूप से लिंग न्यायसंगतता पर केंद्रित है, अन्य संवेदनशील विशेषताएं (जैसे आयु, जाति) शामिल नहीं हैं
- विशेषता स्तर विश्लेषण: विशेषता स्तर विश्लेषण के माध्यम से क्रॉस-कॉर्पस न्यायसंगतता समस्याओं के विशिष्ट स्रोतों की पहचान करना
- बहु-विशेषता न्यायसंगतता: कई संवेदनशील विशेषताओं की संयुक्त न्यायसंगतता अनुकूलन तक विस्तार करना
- सैद्धांतिक ढांचा: क्रॉस-डोमेन न्यायसंगतता के लिए सैद्धांतिक विश्लेषण ढांचा स्थापित करना
- समस्या महत्व: पहली बार क्रॉस-कॉर्पस SER में न्यायसंगतता सामान्यीकरण समस्या का व्यवस्थित रूप से अध्ययन किया गया है, जिसका महत्वपूर्ण व्यावहारिक महत्व है
- विधि नवाचार: प्रस्तावित CFA विधि उचित रूप से डिज़ाइन की गई है, प्रतिकूल प्रशिक्षण और विपरीत शिक्षा के माध्यम से क्रॉस-डोमेन न्यायसंगतता अनुकूलन प्राप्त करती है
- पर्याप्त प्रयोग: प्रयोग डिजाइन व्यापक है, कई आधारभूत विधियां, विलोपन प्रयोग और दृश्य विश्लेषण शामिल हैं
- मूल्यवान निष्कर्ष: प्रदर्शन सामान्यीकरण और न्यायसंगतता सामान्यीकरण के पृथक्करण की घटना को उजागर करता है, क्षेत्र के लिए महत्वपूर्ण अंतर्दृष्टि प्रदान करता है
- सैद्धांतिक आधार: क्रॉस-डोमेन न्यायसंगतता समस्याओं के सैद्धांतिक विश्लेषण की कमी है, मुख्य रूप से अनुभवजन्य अवलोकन पर आधारित है
- डेटा सीमा: केवल दो कॉर्पस पर सत्यापित है, और दोनों पॉडकास्ट डेटा हैं, विविधता सीमित है
- मूल्यांकन एकल: मुख्य रूप से लिंग न्यायसंगतता पर केंद्रित है, अन्य संवेदनशील विशेषताओं पर विचार अपर्याप्त है
- व्यावहारिकता: विधि को प्रशिक्षण के लिए लक्ष्य डोमेन के लिंग लेबल की आवश्यकता है, वास्तविक अनुप्रयोगों में सीमित हो सकता है
- शैक्षणिक मूल्य: क्रॉस-कॉर्पस SER न्यायसंगतता अनुसंधान के नए दिशा को खोलता है, अधिक संबंधित अनुसंधान को प्रेरित करने की अपेक्षा है
- व्यावहारिक मूल्य: SER सिस्टम के क्रॉस-डोमेन तैनाती के लिए न्यायसंगतता सुरक्षा के लिए तकनीकी समाधान प्रदान करता है
- पुनरुत्पादनीयता: प्रयोग सेटअप विस्तृत है, कोड और डेटा उपलब्धता अच्छी है
- क्रॉस-भाषा SER सिस्टम: विशेष रूप से विभिन्न भाषा वातावरण में तैनात करने की आवश्यकता वाली भावनात्मक पहचान प्रणालियों के लिए उपयुक्त है
- बहु-डोमेन अनुप्रयोग: कई डेटा डोमेन में न्यायसंगतता बनाए रखने की आवश्यकता वाले SER अनुप्रयोगों के लिए उपयुक्त है
- न्यायसंगतता-संवेदनशील परिदृश्य: जैसे चिकित्सा स्वास्थ्य, शिक्षा मूल्यांकन आदि जहां न्यायसंगतता की आवश्यकता अधिक है
पेपर ने 21 संबंधित संदर्भों का हवाला दिया है, जो SER, न्यायसंगतता, स्थानांतरण शिक्षा आदि कई संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।
समग्र मूल्यांकन: यह SER न्यायसंगतता अनुसंधान क्षेत्र में अग्रणी महत्व का एक पेपर है, जो पहली बार क्रॉस-कॉर्पस परिदृश्य में न्यायसंगतता सामान्यीकरण समस्या का व्यवस्थित रूप से अध्ययन किया गया है, प्रस्तावित CFA विधि तकनीकी रूप से कुछ नवाचार है, प्रायोगिक सत्यापन काफी व्यापक है। हालांकि कुछ सीमाएं हैं, लेकिन इस क्षेत्र के विकास के लिए महत्वपूर्ण आधार और दिशा निर्देश प्रदान करता है।