2025-11-18T20:58:12.950706

learning discriminative features from spectrograms using center loss for speech emotion recognition

Dai, Wu, Li et al.

Identifying the emotional state from speech is essential for the natural interaction of the machine with the speaker. However, extracting effective features for emotion recognition is difficult, as emotions are ambiguous. We propose a novel approach to learn discriminative features from variable length spectrograms for emotion recognition by cooperating softmax cross-entropy loss and center loss together. The softmax cross-entropy loss enables features from different emotion categories separable, and center loss efficiently pulls the features belonging to the same emotion category to their center. By combining the two losses together, the discriminative power will be highly enhanced, which leads to network learning more effective features for emotion recognition. As demonstrated by the experimental results, after introducing center loss, both the unweighted accuracy and weighted accuracy are improved by over 3\% on Mel-spectrogram input, and more than 4\% on Short Time Fourier Transform spectrogram input.

academic

स्पेक्ट्रोग्राम से सेंटर लॉस का उपयोग करके भाषण भावना पहचान के लिए विभेदकारी विशेषताओं का अधिगम

बुनियादी जानकारी

पेपर ID: 2501.01103
शीर्षक: Learning Discriminative Features from Spectrograms Using Center Loss for Speech Emotion Recognition
लेखक: Dongyang Dai, Zhiyong Wu, Runnan Li, Xixin Wu, Jia Jia, Helen Meng
वर्गीकरण: eess.AS (ऑडियो और भाषण प्रसंस्करण), cs.AI (कृत्रिम बुद्धिमत्ता), cs.SD (ध्वनि)
प्रकाशन तिथि: 2 जनवरी 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2501.01103

सारांश

यह पेपर भाषण भावना पहचान (SER) में भावनाओं की अस्पष्टता के कारण विशेषता निष्कर्षण की कठिनाई को संबोधित करता है। लेखकों ने softmax क्रॉस-एंट्रॉपी हानि और सेंटर लॉस को जोड़कर एक नई विधि प्रस्तावित की है, जो परिवर्तनशील लंबाई के स्पेक्ट्रोग्राम से विभेदकारी विशेषताएं सीखती है। Softmax क्रॉस-एंट्रॉपी हानि विभिन्न भावना वर्गों की विशेषताओं को अलग करती है, जबकि सेंटर लॉस समान भावना वर्ग की विशेषताओं को उनके केंद्र की ओर प्रभावी ढंग से खींचता है। प्रायोगिक परिणाम दर्शाते हैं कि सेंटर लॉस के परिचय के बाद, Mel स्पेक्ट्रोग्राम इनपुट पर अनभारित और भारित सटीकता दोनों में 3% से अधिक की वृद्धि होती है, जबकि STFT स्पेक्ट्रोग्राम इनपुट पर 4% से अधिक की वृद्धि होती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. समस्या परिभाषा

भाषण भावना पहचान (SER) प्राकृतिक मानव-कंप्यूटर इंटरैक्शन के लिए एक महत्वपूर्ण तकनीक है, जिसमें भाषण तरंग से विशेषताएं निकालनी और उन्हें संबंधित भावना वर्गों में वर्गीकृत करना आवश्यक है। हालांकि, भावना की प्राकृतिक अस्पष्टता प्रभावी विशेषताएं निकालना कठिन बनाती है।

2. समस्या की महत्ता

भाषण भावना पहचान प्राकृतिक मानव-कंप्यूटर इंटरैक्शन के लिए महत्वपूर्ण है
विभिन्न प्रकार की भावनाएं भ्रामक हो सकती हैं, जो प्रभावी विशेषताएं निकालने की कठिनाई को बढ़ाती हैं
पारंपरिक विधियों में भावना की अस्पष्टता को संभालने में सीमाएं हैं

3. मौजूदा विधियों की सीमाएं

पारंपरिक विधियां: अतिव्यापी फ्रेम से फ्रेम-स्तरीय विशेषताएं निकालती हैं, फिर सांख्यिकीय कार्य लागू करती हैं; विशेषता अभिव्यक्ति क्षमता सीमित है
मौजूदा गहन शिक्षण विधियां: तंत्रिका नेटवर्क का उपयोग करके उच्च-स्तरीय विशेषताएं निकालती हैं, लेकिन भावना की अस्पष्टता को संभालने में अभी भी कमी है
मौजूदा विभेदकारी शिक्षण विधियां: जैसे कोसाइन समानता हानि और ट्रिपलेट हानि विधियां दो-चरणीय रणनीति अपनाती हैं, जिससे प्रदर्शन में कमी आ सकती है और नमूना जोड़ी या ट्रिपलेट चयन रणनीति पर निर्भरता होती है

4. अनुसंधान प्रेरणा

एक अंत-से-अंत विधि प्रस्तावित करना, जो संयुक्त पर्यवेक्षित हानि कार्य (softmax क्रॉस-एंट्रॉपी हानि + सेंटर लॉस) के माध्यम से विभेदकारी विशेषताएं सीखता है, दो-चरणीय रणनीति की असंगति समस्या से बचने के लिए।

मुख्य योगदान

एक नई संयुक्त हानि कार्य विधि प्रस्तावित की: softmax क्रॉस-एंट्रॉपी हानि को सेंटर लॉस के साथ जोड़ा, परिवर्तनशील लंबाई के स्पेक्ट्रोग्राम से विभेदकारी विशेषताएं सीखने के लिए
अंत-से-अंत भाषण भावना पहचान लागू की: मौजूदा विधियों की दो-चरणीय रणनीति समस्या से बचा, नमूना जोड़ी या ट्रिपलेट बनाने की आवश्यकता नहीं
IEMOCAP डेटासेट पर महत्वपूर्ण प्रदर्शन सुधार प्राप्त किया: Mel स्पेक्ट्रोग्राम इनपुट पर 3% से अधिक सुधार, STFT स्पेक्ट्रोग्राम इनपुट पर 4% से अधिक सुधार
विस्तृत दृश्य विश्लेषण प्रदान किया: PCA एम्बेडिंग के माध्यम से सेंटर लॉस के विभेदकारी विशेषताओं पर वृद्धि प्रभाव को प्रदर्शित किया

विधि विवरण

कार्य परिभाषा

इनपुट: परिवर्तनशील लंबाई का स्पेक्ट्रोग्राम (LT × LF, जहां LT समय आयाम है, LF आवृत्ति आयाम है) आउटपुट: भावना वर्ग लेबल (neutral, angry, happy, sad) उद्देश्य: छोटे वर्ग-अंतर्गत विचरण और बड़े वर्ग-अंतर विचरण के साथ विभेदकारी विशेषताएं सीखना

मॉडल आर्किटेक्चर

मॉडल में निम्नलिखित घटक हैं:

CNN परत: स्पेक्ट्रोग्राम की स्थानिक जानकारी निकालता है
- पहली परत: 48 × 7×7 कनवल्शन कर्नल, स्ट्राइड 2,2, ReLU सक्रियण
- दूसरी परत: 64 × 3×3 कनवल्शन कर्नल, स्ट्राइड 1,1, ReLU सक्रियण
- तीसरी परत: 80 × 3×3 कनवल्शन कर्नल, स्ट्राइड 1,1, ReLU सक्रियण
- चौथी परत: 96 × 3×3 कनवल्शन कर्नल, स्ट्राइड 1,1, ReLU सक्रियण
- प्रत्येक परत के बाद अधिकतम पूलिंग परत (2×2, स्ट्राइड 2,2)
द्विदिशात्मक RNN परत (Bi-RNN):
- 128-आयामी GRU इकाइयों का उपयोग करता है
- परिवर्तनशील लंबाई अनुक्रम को निश्चित लंबाई वेक्टर (256-आयामी) में संपीड़ित करता है
- आगे और पिछड़े RNN के अंतिम आउटपुट को जोड़ता है
पूरी तरह से जुड़ी परत:
- FC1: Bi-RNN आउटपुट को लक्ष्य विशेषता स्थान (64-आयामी) में प्रोजेक्ट करता है, PReLU सक्रियण का उपयोग करता है
- FC2: पश्च संभाव्यता आउटपुट करता है, softmax क्रॉस-एंट्रॉपी हानि की गणना के लिए

हानि कार्य डिजाइन

1. Softmax क्रॉस-एंट्रॉपी हानि

L_s = -1/Σω_yi * Σ(i=1 to m) ω_yi * log(e^(W_yi^T * z_i + b_yi) / Σ(j=1 to n) e^(W_j^T * z_i + b_j))

जहां ω_j वर्ग भार है, वर्ग असंतुलन समस्या को संभालने के लिए उपयोग किया जाता है।

2. सेंटर लॉस

L_c = 1/Σω_yi * Σ(i=1 to m) ω_yi * ||z_i - c_yi||²

जहां c_j j-वें वर्ग का वैश्विक केंद्र है, निम्नलिखित तरीके से अपडेट किया जाता है:

c_j^(t+1) = (1-α)c_j^t + α*ċ_j^t  (जब mini-batch में j-वें वर्ग का नमूना हो)
c_j^(t+1) = c_j^t                  (जब mini-batch में j-वें वर्ग का नमूना न हो)

3. संयुक्त हानि

L = L_s + λL_c

जहां λ दोनों हानियों को संतुलित करने के लिए हाइपरपैरामीटर है।

तकनीकी नवाचार बिंदु

अंत-से-अंत शिक्षण: पारंपरिक विभेदकारी शिक्षण विधियों की दो-चरणीय रणनीति समस्या से बचा जाता है
प्राकृतिक एकीकरण: सेंटर लॉस को आम SER मॉडल में प्राकृतिक रूप से एकीकृत किया जा सकता है
नमूना जोड़ी की आवश्यकता नहीं: नमूना जोड़ी या ट्रिपलेट बनाने की आवश्यकता नहीं है, प्रशिक्षण प्रक्रिया को सरल बनाता है
वर्ग संतुलन प्रबंधन: भारित हानि कार्य के माध्यम से डेटा असंतुलन समस्या को प्रभावी ढंग से संभालता है

प्रायोगिक सेटअप

डेटासेट

IEMOCAP डेटासेट:

लगभग 12 घंटे की ऑडियो-विजुअल डेटा
4-वर्गीय भावनाएं: neutral(30.9%), angry(19.9%), happy+excited(29.6%), sad(19.6%)
कुल 5531 उच्चारण, happy और excited को मिलाया गया
5-गुना क्रॉस-वेलिडेशन, भावना वितरण को बनाए रखते हुए

मूल्यांकन मेट्रिक्स

अनभारित सटीकता (UA): प्रत्येक वर्ग की पुनः प्राप्ति दर का औसत
भारित सटीकता (WA): सही वर्गीकृत नमूनों की संख्या को कुल नमूनों की संख्या से विभाजित

तुलना विधियां

आधारभूत विधि: केवल softmax क्रॉस-एंट्रॉपी हानि का उपयोग (λ=0)
प्रस्तावित विधि: softmax क्रॉस-एंट्रॉपी हानि और सेंटर लॉस का संयोजन

कार्यान्वयन विवरण

अनुकूलक: Adam, सीखने की दर 0.0003
बैच आकार: 32
विशेषता आयाम: 64-आयामी (FC1 आउटपुट)
स्पेक्ट्रोग्राम पैरामीटर: विंडो शिफ्ट 10ms, विंडो लंबाई 40ms, नमूना दर 16kHz, DFT लंबाई 1024
Mel स्पेक्ट्रोग्राम: 128 Mel बैंड
अधिकतम उच्चारण लंबाई: 14 सेकंड

प्रायोगिक परिणाम

मुख्य परिणाम

Mel स्पेक्ट्रोग्राम प्रायोगिक परिणाम:

आधारभूत (λ=0): UA=63.80%, WA=61.83%
प्रस्तावित विधि (λ=0.3, α=0.5): UA=66.86%, WA=65.40%
सुधार: UA में 3.06% वृद्धि, WA में 3.57% वृद्धि

STFT स्पेक्ट्रोग्राम प्रायोगिक परिणाम:

आधारभूत (λ=0): UA=60.98%, WA=58.93%
प्रस्तावित विधि (λ=0.3, α=0.5): UA=65.13%, WA=62.96%
सुधार: UA में 4.15% वृद्धि, WA में 4.03% वृद्धि

हाइपरपैरामीटर संवेदनशीलता विश्लेषण

α पैरामीटर: UA और WA α के प्रति असंवेदनशील हैं, 0.1-0.9 श्रेणी में प्रदर्शन अपेक्षाकृत स्थिर है
λ पैरामीटर: λ=0.3 पर सर्वोत्तम प्रदर्शन प्राप्त होता है, λ बहुत बड़ा या बहुत छोटा होने पर प्रदर्शन प्रभावित होता है

दृश्य विश्लेषण

PCA आयाम में कमी के माध्यम से दृश्य दिखाता है:

सेंटर लॉस का उपयोग करने के बाद, समान वर्ग की विशेषताएं अधिक कसकर एकत्रित होती हैं
विभिन्न वर्गों के बीच अलगाव की डिग्री में सुधार होता है
प्रशिक्षण सेट और परीक्षण सेट दोनों समान सुधार पैटर्न दिखाते हैं

भ्रम मैट्रिक्स विश्लेषण

सेंटर लॉस के परिचय के बाद, प्रत्येक भावना वर्ग की पहचान सटीकता में विभिन्न डिग्री में सुधार होता है:

Neutral: 57.5%→63.7%
Angry: 69.1%→70.5%
Happy: 51.1%→55.6%
Sad: 77.6%→77.7%

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सेंटर लॉस वर्ग-अंतर्गत विचरण को प्रभावी ढंग से कम कर सकता है, विशेषता विभेदकारिता में सुधार करता है
संयुक्त हानि कार्य दोनों प्रकार के स्पेक्ट्रोग्राम इनपुट पर महत्वपूर्ण प्रदर्शन सुधार प्राप्त करता है
यह विधि मौजूदा SER मॉडल में प्राकृतिक रूप से एकीकृत की जा सकती है, अतिरिक्त वर्गीकारक की आवश्यकता नहीं

सीमाएं

मुख्य रूप से वर्ग-अंतर्गत विचरण को कम करने पर ध्यान केंद्रित करता है, वर्ग-अंतर विचरण बढ़ाने की खोज सीमित है
केवल IEMOCAP डेटासेट पर सत्यापित, सामान्यीकरण क्षमता को आगे सत्यापन की आवश्यकता है
अत्यधिक असंतुलित डेटासेट के लिए, भारित रणनीति को आगे अनुकूलन की आवश्यकता हो सकती है

भविष्य की दिशा

लेखकों ने अधिक हानि कार्य डिजाइन की खोज करने का प्रस्ताव दिया है, विशेष रूप से विशेषता वर्ग-अंतर विचरण बढ़ाने के तरीके, SER प्रदर्शन को आगे सुधारने के लिए।

गहन मूल्यांकन

लाभ

विधि नवाचार मजबूत: चेहरे की पहचान में सेंटर लॉस को भाषण भावना पहचान क्षेत्र में सफलतापूर्वक स्थानांतरित किया
प्रायोगिक डिजाइन कठोर: हाइपरपैरामीटर संवेदनशीलता विश्लेषण, दृश्य सत्यापन और विस्तृत विलोपन प्रयोग शामिल
परिणाम विश्वास शक्तिशाली: दोनों प्रकार के स्पेक्ट्रोग्राम इनपुट पर सुसंगत प्रदर्शन सुधार
लेखन स्पष्ट: तकनीकी विवरण विस्तृत रूप से वर्णित, गणितीय सूत्र सटीक रूप से व्यक्त

कमियां

डेटासेट एकल: केवल IEMOCAP डेटासेट पर सत्यापित, क्रॉस-डेटासेट सामान्यीकरण सत्यापन की कमी
तुलना विधियां सीमित: मुख्य रूप से स्वयं आधारभूत के साथ तुलना, अन्य SOTA विधियों के साथ विस्तृत तुलना की कमी
सैद्धांतिक विश्लेषण अपर्याप्त: सेंटर लॉस SER कार्य में प्रभावी क्यों है इसका गहन सैद्धांतिक विश्लेषण की कमी
कम्प्यूटेशनल जटिलता विश्लेषण अनुपस्थित: सेंटर लॉस के परिचय का प्रशिक्षण और अनुमान दक्षता पर प्रभाव पर चर्चा नहीं

प्रभाव

तकनीकी योगदान: भाषण भावना पहचान के लिए एक सरल और प्रभावी विशेषता शिक्षण विधि प्रदान करता है
व्यावहारिक मूल्य: विधि लागू करने और एकीकृत करने में आसान है, अच्छी व्यावहारिकता है
पुनरुत्पादनीयता: तकनीकी विवरण पर्याप्त रूप से वर्णित, पुनरुत्पादन में सुविधा

लागू परिदृश्य

विभिन्न स्पेक्ट्रोग्राम-आधारित भाषण भावना पहचान कार्यों के लिए उपयुक्त
विशेष रूप से वर्ग-असंतुलित भावना डेटासेट को संभालने के लिए उपयुक्त
मौजूदा SER सिस्टम के प्रदर्शन सुधार मॉड्यूल के रूप में कार्य कर सकता है

संदर्भ

पेपर 19 संबंधित संदर्भों का हवाला देता है, जो भाषण भावना पहचान की पारंपरिक विधियों, गहन शिक्षण विधियों और विभेदकारी विशेषता शिक्षण जैसे मुख्य क्षेत्रों को शामिल करता है, अनुसंधान के लिए पर्याप्त सैद्धांतिक आधार और तकनीकी तुलना प्रदान करता है।

समग्र मूल्यांकन: यह एक तकनीकी रूप से ठोस और प्रायोगिक रूप से व्यापक पेपर है, जो सेंटर लॉस को भाषण भावना पहचान क्षेत्र में सफलतापूर्वक पेश करता है और महत्वपूर्ण प्रदर्शन सुधार प्राप्त करता है। हालांकि सैद्धांतिक विश्लेषण और क्रॉस-डेटासेट सत्यापन में सुधार की गुंजाइश है, इसकी सरल और प्रभावी विधि और सुसंगत प्रायोगिक परिणाम इसे अच्छी शैक्षणिक और व्यावहारिक मूल्य प्रदान करते हैं।