2025-11-13T03:49:10.242464

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Ahn, Rana, Sivadas et al.

Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.

academic

पारस्परिक सूचना नियमितकृत जनरेटिव मॉडल के साथभाषण भावना पहचान में सुधार

मूल जानकारी

पेपर ID: 2510.10078
शीर्षक: Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
लेखक: Chung-Soo Ahn, Rajib Rana, Sunil Sivadas, Carlos Busso, Jagath C. Rajapakse
वर्गीकरण: cs.SD (ध्वनि), cs.LG (मशीन लर्निंग)
प्रकाशन समय: 2025 (Journal of LaTeX Class Files, Vol. 14, No. 8, August 2021 प्रारूप)
पेपर लिंक: https://arxiv.org/abs/2510.10078

सारांश

यद्यपि गहन शिक्षण विधियों ने भाषण भावना पहचान (SER) अनुसंधान में प्रगति की है, फिर भी यह क्षेत्र उच्च गुणवत्ता वाले एनोटेटेड प्रशिक्षण डेटा की कमी का सामना कर रहा है। इस समस्या को कम करने के लिए, शोधकर्ताओं ने डेटा वृद्धि विधियों का प्रयास किया है, जिनमें जनरेटिव मॉडल हाल ही में उत्कृष्ट प्रदर्शन कर रहे हैं। यह पेपर क्रॉस-मोडल सूचना हस्तांतरण और पारस्परिक सूचना नियमितकरण पर आधारित एक डेटा वृद्धि ढांचा प्रस्तावित करता है। पारस्परिक सूचना माप उत्पन्न डेटा गुणवत्ता के संकेतक के रूप में कार्य कर सकता है। इसके अतिरिक्त, पारस्परिक सूचना के मोडल के बीच निर्भरता सुनिश्चित करने के गुण के लाभ से, यह ढांचा बहु-मोडल इनपुट तक विस्तारित होता है। तीन बेंचमार्क डेटासेट (IEMOCAP, MSP-IMPROV और MSP-Podcast) पर परीक्षण से पता चलता है कि यह ढांचा भावना पूर्वानुमान प्रदर्शन में मौजूदा कार्य को पार करता है, और यह पाया गया है कि यह ढांचा क्रॉस-मोडल सूचना के बिना नई इनपुट विशेषताएं उत्पन्न कर सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्या

भाषण भावना पहचान क्षेत्र का मुख्य चुनौती उच्च गुणवत्ता वाले एनोटेटेड डेटा की कमी है। कंप्यूटर विजन क्षेत्र के बड़े पैमाने पर डेटासेट (जैसे MNIST) की तुलना में, SER डेटासेट का आकार छोटा है, जो गहन शिक्षण मॉडल की सामान्यीकरण क्षमता को गंभीर रूप से प्रभावित करता है।

समस्या की महत्ता

डेटा की कमी की समस्या सीधे SER मॉडल के प्रदर्शन और व्यावहारिकता को प्रभावित करती है, विशेष रूप से बड़ी मात्रा में प्रशिक्षण डेटा की आवश्यकता वाले गहन शिक्षण युग में। प्रभावी डेटा वृद्धि विधि मॉडल प्रदर्शन को बढ़ाने के लिए महत्वपूर्ण है।

मौजूदा विधियों की सीमाएं

पारंपरिक डेटा वृद्धि: सरल संकेत परिवर्तन और शोर जोड़ना केवल मूल डेटा की व्यथित प्रतियां हैं, सूचना सामग्री सीमित है
सशर्त जनरेटिव मॉडल: भावना लेबल से उत्पन्न नमूने तक नियतात्मक मानचित्रण मानते हैं, यह धारणा अवास्तविक है, उत्पन्न नमूने की गुणवत्ता सुनिश्चित नहीं कर सकते
क्रॉस-मोडल विधियां: मौजूदा कार्य मुख्य रूप से लापता मोडल को पूरक या पुनः प्राप्त करने पर ध्यान केंद्रित करता है, बहु-मोडल भावना पहचान में स्पष्ट सुधार के लिए वृद्धि ढांचे की कमी है

अनुसंधान प्रेरणा

यह पेपर मानता है कि सशर्त जनरेटिव मॉडल भावना लेबल से उत्पन्न नमूने तक नियतात्मक मानचित्रण की धारणा अनुचित है, और पारस्परिक सूचना नियमितकरण को विकल्प के रूप में उपयोग करने का प्रस्ताव देता है, उत्पन्न नमूने और वर्ग लेबल के बीच निर्भरता को मापकर डेटा वृद्धि गुणवत्ता सुनिश्चित करता है।

मुख्य योगदान

SER और बहु-मोडल SER के लिए लागू जनरेटिव मॉडल डेटा वृद्धि ढांचा प्रस्तावित किया, क्रॉस-मोडल सूचना हस्तांतरण और पारस्परिक सूचना नियमितकरण को जोड़ते हुए
क्रॉस-मोडल हस्तांतरण और पारस्परिक सूचना को जोड़ने वाली SER डेटा वृद्धि विधि पेश की, InfoGAN आर्किटेक्चर का उपयोग करके कार्यान्वित
पारस्परिक सूचना नियमितकरण प्रदान कर सकता है कि पर्यवेक्षण योग्य मात्रा उत्पन्न डेटा और भावना और पाठ सूचना के बीच निर्भरता को सत्यापित करने के लिए
बहु-मोडल वृद्धि तक विस्तारित, ऑडियो और पाठ विशेषताओं के सभी संयोजन उत्पन्न करके डेटा स्केल चार गुना वृद्धि प्राप्त करता है

विधि विवरण

कार्य परिभाषा

इनपुट: ऑडियो संकेत xa और संबंधित पाठ प्रतिलेखन xt
आउटपुट: भावना वर्ग पूर्वानुमान ŷ
लक्ष्य: उत्पन्न वृद्धि डेटा के माध्यम से भावना वर्गीकरण प्रदर्शन में सुधार

मॉडल आर्किटेक्चर

प्रथम चरण: बेसलाइन मॉडल तैयारी

ऑडियो विशेषता निष्कर्षण:
```
h = fa(xa)
```
पूर्व-प्रशिक्षित ऑडियो ट्रांसफॉर्मर (AST या Wav2Vec2) का उपयोग करके ऑडियो विशेषताएं निकालें
पाठ विशेषता निष्कर्षण:
```
t = ft(xt)
```
पूर्व-प्रशिक्षित पाठ ट्रांसफॉर्मर (BERT/RoBERTa) का उपयोग करके पाठ विशेषताएं निकालें
क्रॉस-मोडल संरेखण:
- विपरीत शिक्षण हानि: $L_{CL} = -\log\frac{\exp(sim(t_i, h_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, h_j)/\tau)}$
- InfoNCE हानि: $L_{MI} = -\log\frac{\exp(sim(t_i, \hat{h}_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{h}_j)/\tau)}$

द्वितीय चरण: InfoGAN प्रशिक्षण

जनरेटर उद्देश्य:
```
min max V(D,G) - λI(c;G(z,c))
```
जहां c भावना लेबल और पाठ एम्बेडिंग शामिल है
पारस्परिक सूचना अधिकतमकरण:
- भावना पारस्परिक सूचना: $L_{Iy} = -E\{\sum_c 1(y=c)\log(\hat{y}_g)\}$
- पाठ पारस्परिक सूचना: $L_{It} = -\log\frac{\exp(sim(t_i, \hat{t}^g_i)/\tau)}{\sum_{j=1}^B \exp(sim(t_i, \hat{t}^g_j)/\tau)}$

तृतीय चरण: डेटा वृद्धि प्रशिक्षण

SER परिदृश्य: मूल विशेषता h और उत्पन्न विशेषता ĥ का उपयोग करके वर्गीकरण प्रशिक्षित करें
बहु-मोडल SER: (h,t), (h,t'), (ĥ,t), (ĥ,t') चार संयोजनों का उपयोग करके प्रशिक्षित करें

तकनीकी नवाचार बिंदु

पारस्परिक सूचना गुणवत्ता संकेतक: उत्पन्न नमूने की गुणवत्ता के पर्यवेक्षण योग्य संकेतक के रूप में पारस्परिक सूचना हानि का उपयोग करें
क्रॉस-मोडल सूचना हस्तांतरण: ऑडियो विशेषता उत्पादन को निर्देशित करने के लिए पाठ सूचना का उपयोग करें, उत्पन्न गुणवत्ता में सुधार करें
बहु-मोडल विस्तार: ऑडियो और पाठ विशेषताएं एक साथ उत्पन्न करें, वास्तविक बहु-मोडल डेटा वृद्धि प्राप्त करें
विशेषता-स्तर उत्पादन: मूल संकेत स्थान के बजाय विशेषता स्थान में उत्पादन करें, जटिलता कम करें

प्रयोगात्मक सेटअप

डेटासेट

IEMOCAP: 12 घंटे की रिकॉर्डिंग, 5 जोड़ी पुरुष-महिला अभिनेता संवाद, चार वर्ग भावनाएं (तटस्थ, खुश, उदास, क्रोधित)
MSP-IMPROV: 9 घंटे की रिकॉर्डिंग, 12 अभिनेता इंटरैक्टिव, चार मूल भावनाएं
MSP-Podcast: पॉडकास्ट से "वाइल्ड" भाषण डेटा, वास्तविक अनुप्रयोग परिदृश्य के करीब

मूल्यांकन मेट्रिक्स

अनवेटेड औसत रिकॉल (UAR): असंतुलित डेटासेट के लिए अधिक निष्पक्ष मूल्यांकन मेट्रिक
Leave-one-speaker-out क्रॉस-सत्यापन: मॉडल सामान्यीकरण प्रदर्शन सुनिश्चित करें

तुलना विधियां

Sahu et al., Bao et al., Latif et al., Malik et al. आदि मौजूदा डेटा वृद्धि विधियां, साथ ही MMIN, CIF-MMIN आदि बहु-मोडल विधियां शामिल हैं।

कार्यान्वयन विवरण

ऑडियो मॉडल: AST (SER), Wav2Vec2 (बहु-मोडल SER)
पाठ मॉडल: BERT, RoBERTa, Llama 3.0
InfoGAN आर्किटेक्चर: सरल रैखिक परत जनरेटर और विभेदक कार्यान्वयन
प्रशिक्षण रणनीति: जनरेटर प्रशिक्षण को स्थिर करने के लिए mix-up रणनीति अपनाएं

प्रयोगात्मक परिणाम

मुख्य परिणाम

SER प्रयोग (IEMOCAP)

विधि	बिना वृद्धि	वृद्धि के साथ	सुधार
Sahu et al.	59.42%	60.29%	0.87%
Bao et al.	59.48±0.71%	60.37±0.70%	0.89%
Latif et al.	60.51±0.57%	61.05±0.68%	0.54%
Malik et al.	58.62±2.11%	61.22±1.85%	2.6%
यह विधि	60.81±4.83%	63.40±2.52%	2.59%

बहु-मोडल SER प्रयोग

IEMOCAP डेटासेट पर, यह विधि ऑडियो + पाठ मोडल संयोजन पर 76.54% UAR प्राप्त करती है, जो CIF-MMIN (75.65%) आदि मौजूदा विधियों को पार करती है।

विलोपन प्रयोग

कॉन्फ़िगरेशन	UAR
पूर्ण मॉडल	63.40±2.52%
क्रॉस-मोडल संरेखण के बिना	62.31±3.65%
क्रॉस-मोडल संरेखण और पाठ एम्बेडिंग के बिना	61.07±2.45%
क्रॉस-मोडल संरेखण और पारस्परिक सूचना अधिकतमकरण के बिना	61.70±2.58%

विलोपन प्रयोग दर्शाता है कि प्रत्येक घटक अंतिम प्रदर्शन में महत्वपूर्ण योगदान देता है।

प्रयोगात्मक निष्कर्ष

पारस्परिक सूचना नियमितकरण प्रभावशीलता: पारस्परिक सूचना हानि वास्तव में उत्पन्न नमूने की गुणवत्ता के संकेतक के रूप में कार्य कर सकती है
क्रॉस-मोडल सूचना का महत्व: पाठ सूचना ऑडियो विशेषता उत्पादन गुणवत्ता में महत्वपूर्ण सुधार करती है
वर्ग असंतुलन हैंडलिंग: MSP-Podcast डेटासेट पर, यह विधि वर्ग असंतुलन समस्या को प्रभावी ढंग से कम करती है
क्रॉस-मोडल सूचना के बिना उत्पादन क्षमता: यह पाया गया है कि यह ढांचा अन्य मोडल सूचना के बिना नई इनपुट उत्पन्न कर सकता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

पारस्परिक सूचना नियमितकृत जनरेटिव मॉडल SER प्रदर्शन में प्रभावी सुधार कर सकता है
क्रॉस-मोडल सूचना हस्तांतरण उत्पन्न नमूने की गुणवत्ता में महत्वपूर्ण सुधार करता है
बहु-मोडल डेटा वृद्धि ढांचा कई बेंचमार्क डेटासेट पर सर्वोत्तम प्रदर्शन प्राप्त करता है
यह विधि वर्ग असंतुलन समस्या को संभालने की क्षमता रखती है

सीमाएं

कम्प्यूटेशनल जटिलता: कई मॉडल चरणों को प्रशिक्षित करने की आवश्यकता है, कम्प्यूटेशनल ओवरहेड बड़ा है
विशेषता स्थान सीमा: विशेषता स्थान में उत्पादन करें न कि मूल संकेत स्थान में, कुछ सूचना खो सकती है
डेटासेट निर्भरता: विधि प्रदर्शन विशिष्ट डेटासेट विशेषताओं पर निर्भर हो सकता है
हाइपरपैरामीटर संवेदनशीलता: पारस्परिक सूचना वजन λ आदि हाइपरपैरामीटर को सावधानीपूर्वक समायोजित करने की आवश्यकता है

भविष्य की दिशा

अंत-से-अंत मूल संकेत उत्पादन विधि का अन्वेषण करें
अधिक कुशल प्रशिक्षण रणनीति का अनुसंधान करें
अधिक मोडल और भावना वर्गों तक विस्तार करें
पारस्परिक सूचना नियमितकरण के अभिसरण गुणों का सैद्धांतिक विश्लेषण

गहन मूल्यांकन

लाभ

विधि नवाचार मजबूत: पहली बार पारस्परिक सूचना नियमितकरण को क्रॉस-मोडल सूचना हस्तांतरण के साथ SER डेटा वृद्धि के लिए जोड़ता है
प्रयोग पर्याप्त: कई बेंचमार्क डेटासेट पर व्यापक मूल्यांकन, विलोपन प्रयोग सहित
सैद्धांतिक आधार ठोस: पारस्परिक सूचना सिद्धांत उत्पन्न नमूने की गुणवत्ता के लिए सैद्धांतिक गारंटी प्रदान करता है
व्यावहारिक मूल्य उच्च: विधि वास्तविक अनुप्रयोग में अच्छी स्केलेबिलिटी है

कमियां

आर्किटेक्चर जटिलता: तीन-चरण प्रशिक्षण प्रक्रिया अपेक्षाकृत जटिल है, वास्तविक परिनियोजन को चुनौतियों का सामना करना पड़ सकता है
कम्प्यूटेशनल दक्षता: सरल डेटा वृद्धि विधि की तुलना में, कम्प्यूटेशनल ओवरहेड महत्वपूर्ण रूप से बढ़ता है
सामान्यीकरण विश्लेषण अपर्याप्त: क्रॉस-डेटासेट सामान्यीकरण प्रदर्शन का गहन विश्लेषण अभाव है
सैद्धांतिक विश्लेषण सीमित: पारस्परिक सूचना नियमितकरण अभिसरण गुणों के लिए सैद्धांतिक गारंटी अभाव है

प्रभाव

शैक्षणिक योगदान: SER डेटा वृद्धि के लिए नई अनुसंधान सोच और विधि ढांचा प्रदान करता है
व्यावहारिक मूल्य: डेटा कमी परिदृश्य में महत्वपूर्ण अनुप्रयोग मूल्य है
पुनरुत्पादनीयता: प्रयोगात्मक सेटअप विस्तृत है, अच्छी पुनरुत्पादनीयता है
प्रेरणा: पारस्परिक सूचना नियमितकरण विचार अन्य जनरेटिव कार्यों तक विस्तारित हो सकता है

लागू परिदृश्य

डेटा कमी परिदृश्य: विशेष रूप से उच्च गुणवत्ता वाले एनोटेटेड डेटा सीमित भावना पहचान कार्यों के लिए उपयुक्त
बहु-मोडल अनुप्रयोग: ऑडियो और पाठ सूचना को एक साथ संभालने की आवश्यकता वाले अनुप्रयोगों में उत्कृष्ट प्रदर्शन
वर्ग असंतुलन समस्या: भावना वर्ग वितरण असंतुलित डेटासेट के लिए कमजोरी प्रभाव है
अनुसंधान प्रोटोटाइप विकास: SER अनुसंधान के लिए प्रभावी डेटा वृद्धि बेसलाइन विधि प्रदान करता है

संदर्भ

पेपर 48 संबंधित संदर्भों का हवाला देता है, जो SER, जनरेटिव मॉडल, बहु-मोडल शिक्षण आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, अनुसंधान के लिए ठोस सैद्धांतिक आधार और तुलना बेंचमार्क प्रदान करता है।