This paper presents our contributions to the Speech Emotion Recognition in Naturalistic Conditions (SERNC) Challenge, where we address categorical emotion recognition and emotional attribute prediction. To handle the complexities of natural speech, including intra- and inter-subject variability, we propose Multi-level Acoustic-Textual Emotion Representation (MATER), a novel hierarchical framework that integrates acoustic and textual features at the word, utterance, and embedding levels. By fusing low-level lexical and acoustic cues with high-level contextualized representations, MATER effectively captures both fine-grained prosodic variations and semantic nuances. Additionally, we introduce an uncertainty-aware ensemble strategy to mitigate annotator inconsistencies, improving robustness in ambiguous emotional expressions. MATER ranks fourth in both tasks with a Macro-F1 of 41.01% and an average CCC of 0.5928, securing second place in valence prediction with an impressive CCC of 0.6941.
- पेपर ID: 2506.19887
- शीर्षक: MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition
- लेखक: Hyo Jin Jon, Longbin Jin, Hyuntaek Jung, Hyunseo Kim, Donghun Min, Eun Yi Kim
- वर्गीकरण: eess.AS cs.AI cs.SD
- प्रकाशन समय/सम्मेलन: Interspeech 2025
- पेपर लिंक: https://arxiv.org/abs/2506.19887
यह पेपर MATER (Multi-level Acoustic-Textual Emotion Representation) प्रस्तावित करता है, जो प्राकृतिक परिस्थितियों में वाक् भावनात्मक पहचान के लिए एक बहु-स्तरीय पदानुक्रमित ढांचा है। यह विधि शब्द-स्तर, वाक्य-स्तर और एम्बेडिंग-स्तर पर ध्वनिक और पाठ्य विशेषताओं को एकीकृत करती है, निम्न-स्तरीय शब्दावली और ध्वनिक संकेतों को उच्च-स्तरीय संदर्भित प्रतिनिधित्व के साथ मिलाकर सूक्ष्म-दानेदार प्रोसोडिक परिवर्तन और शब्दार्थ सूक्ष्मताओं को प्रभावी ढंग से कैप्चर करती है। इसके अलावा, अनिश्चितता-जागरूक समूह रणनीति को शामिल किया गया है जो एनोटेटर असंगति समस्या को कम करता है और अस्पष्ट भावनात्मक अभिव्यक्तियों में मजबूतता में सुधार करता है। MATER दोनों कार्यों में चौथे स्थान पर है, Macro-F1 41.01% तक पहुंचता है, औसत CCC 0.5928 है, और भावनात्मक मूल्य पूर्वानुमान में दूसरे स्थान पर है, CCC 0.6941 तक पहुंचता है।
- प्राकृतिक वाक् भावनात्मक पहचान की जटिलता: अधिकांश मौजूदा SER डेटासेट वास्तविक दुनिया की भावनात्मक अभिव्यक्तियों को पूरी तरह से कैप्चर नहीं कर सकते, आमतौर पर अभिनीत या प्रेरित रिकॉर्डिंग से बने होते हैं, सामान्यीकरण क्षमता की कमी होती है।
- वक्ता-आंतरिक और वक्ता-अंतर परिवर्तनशीलता: प्राकृतिक वाक् में महत्वपूर्ण व्यक्तिगत अंतर और भावनात्मक अभिव्यक्ति की जटिलता मौजूद है।
- एनोटेशन असंगति समस्या: अतिव्यापी, अस्पष्ट और अत्यधिक परिवर्तनशील भावनात्मक अभिव्यक्तियां एनोटेटर सहमति की कमी का कारण बनती हैं, आत्मविश्वास अंतर और वर्ग पूर्वाग्रह का परिचय देती हैं।
भावना मानव अनुभव का आधार है, जो निर्णय लेने, संचार और मानसिक स्वास्थ्य को प्रभावित करती है। वाक् सबसे सामान्य संचार रूप है, जो वक्ता पहचान, भावनात्मक स्थिति और भाषाई जोर सहित समृद्ध भावनात्मक संकेत ले जाता है।
- अधिकांश डेटासेट में सीमित संख्या में प्रतिभागी होते हैं, जो विविध वास्तविक परिदृश्यों के लिए सामान्यीकरण क्षमता को कम करते हैं
- बहु-स्तरीय विशेषताओं के प्रभावी एकीकरण की कमी
- एनोटेशन असंगति से उत्पन्न पूर्वाग्रहों को प्रभावी ढंग से संभालने में विफलता
- MATER ढांचा प्रस्तावित करना: एक नवीन पदानुक्रमित ढांचा जो शब्द-स्तर, वाक्य-स्तर और एम्बेडिंग-स्तर पर ध्वनिक और पाठ्य विशेषताओं को एकीकृत करता है
- बहु-स्तरीय विशेषता संलयन: निम्न-स्तरीय वाक्यात्मक और प्रोसोडिक संकेतों से उच्च-स्तरीय संदर्भित प्रतिनिधित्व तक भावनात्मकता को व्यवस्थित रूप से मॉडल करना
- अनिश्चितता-जागरूक समूह रणनीति: न्यूनतम अनिश्चितता वाली भावनात्मक भविष्यवाणियों का चयन करके मजबूतता में सुधार करना, एनोटेशन पूर्वाग्रह को कम करना
- SERNC चुनौती में उत्कृष्ट परिणाम प्राप्त करना: दोनों कार्यों में चौथे स्थान पर, भावनात्मक मूल्य पूर्वानुमान में दूसरे स्थान पर
अनुसंधान दो कार्यों पर केंद्रित है:
- कार्य 1: श्रेणीबद्ध भावनात्मक पहचान: वाक् अंशों को 8 भावनात्मक श्रेणियों में वर्गीकृत करना (क्रोध, तिरस्कार, घृणा, भय, खुशी, तटस्थ, उदासी, आश्चर्य)
- कार्य 2: भावनात्मक विशेषता पूर्वानुमान: तीन भावनात्मक आयामों पर 7-बिंदु लिकर्ट स्केल रेटिंग (जागरूकता, प्रभुत्व, भावनात्मक मूल्य)
MATER तीन विभिन्न स्तरों पर ध्वनिक और पाठ्य विशेषताओं को निकालता है:
शब्द-स्तरीय विशेषताएं (Word-level):
- वाक्यात्मक विशेषताएं: BERTweet वाक्यात्मक पार्सर का उपयोग करके भाषाई पैटर्न निकाले जाते हैं, जिसमें सर्वनामों की वाक्यात्मक व्यक्ति जानकारी शामिल है, 20-आयामी वाक्यात्मक विशेषता वेक्टर बनाते हैं
- प्रोसोडिक विशेषताएं: openSMILE लाइब्रेरी का उपयोग करके 22-आयामी विशेषता वेक्टर निकाले जाते हैं, जिसमें जोर, कंपन, सूक्ष्म कंपन, α अनुपात और सुस्पष्ट/अस्पष्ट खंड आंकड़े शामिल हैं
- वाक्यात्मक-जागरूक प्रोसोडिक प्रतिनिधित्व बनाने के लिए संयोजन के माध्यम से
वाक्य-स्तरीय विशेषताएं (Utterance-level):
- भावनात्मक विशेषताएं: SEANCE विशेषता सेट से व्युत्पन्न, 517-आयामी प्रतिनिधित्व उत्पन्न करते हैं, संपूर्ण प्रतिलेख की भावनात्मक प्रवृत्ति को कैप्चर करते हैं
- लयबद्ध विशेषताएं: भाषण की प्रवाहिता, तीव्रता और सूक्ष्मताओं का विश्लेषण, जिसमें जोर, कंपन, सूक्ष्म कंपन, हार्मोनिक शोर अनुपात (HNR), विराम और सुस्पष्ट/अस्पष्ट आंकड़े शामिल हैं, 34-आयामी विशेषता वेक्टर बनाते हैं
एम्बेडिंग-स्तरीय विशेषताएं (Embedding-level):
- ऑडियो एनकोडर: WavLM और HuBERT समृद्ध फोनेमिक और प्रोसोडिक जानकारी कैप्चर करते हैं
- पाठ एनकोडर: BERT और T5 शब्दार्थ जानकारी प्रतिनिधित्व प्रदान करते हैं
- डोमेन अनुकूलन को बढ़ाने के लिए MSP-Podcast कॉर्पस पर पोस्ट-प्रीट्रेनिंग
- शब्द-स्तर: दो-परत LSTM के माध्यम से संसाधित, अंतिम छिपी स्थिति शब्द-स्तरीय एम्बेडिंग के रूप में कार्य करती है
- वाक्य-स्तर: पहले खंडित रैखिक एम्बेडिंग (PLE) परत के माध्यम से, फिर निश्चित आयाम प्रतिनिधित्व उत्पन्न करने के लिए रैखिक परत के माध्यम से
- एम्बेडिंग-स्तर: कई एम्बेडिंग स्रोतों का उपयोग करते समय, Perceiver आर्किटेक्चर का उपयोग करके संलयन; अन्यथा सीधे पूलिंग विशेषताओं का उपयोग करें
- अंतिम संलयन: संयोजित बहु-स्तरीय एम्बेडिंग पूर्वानुमान के लिए रैखिक परत में इनपुट किए जाते हैं
- बहु-स्तरीय विशेषता मॉडलिंग: सूक्ष्म-दानेदार वाक्यात्मक प्रोसोडिक संकेतों से उच्च-स्तरीय शब्दार्थ प्रतिनिधित्व तक संपूर्ण भावनात्मक जानकारी को व्यवस्थित रूप से कैप्चर करना
- वाक्यात्मक-जागरूक प्रोसोडिक प्रतिनिधित्व: भाषाई संरचना और टोन के पारस्परिक क्रिया को मॉडल करना, जो भावनात्मक अभिव्यक्ति में महत्वपूर्ण भूमिका निभाता है
- डोमेन अनुकूलन रणनीति: लक्ष्य डेटासेट पर प्रीट्रेन्ड एनकोडर की पोस्ट-प्रीट्रेनिंग
- अनिश्चितता-जागरूक समूह: पूर्वानुमान संभाव्यता को क्रमबद्ध करके संज्ञानात्मक अनिश्चितता का अनुमान लगाना, उच्च आत्मविश्वास पूर्वानुमानों को प्राथमिकता देना
MSP-Podcast कॉर्पस का उपयोग:
- प्रशिक्षण सेट: 84,260 नमूने, 2,112 वक्ताओं से
- विकास सेट: 31,961 नमूने, 714 वक्ताओं से
- परीक्षण सेट: 3,200 संतुलित नमूने, 8 भावनात्मक श्रेणियों को कवर करते हुए
- Whisper-large-v3 का उपयोग करके प्रतिलेख और बल-संरेखण उत्पन्न करना
- कार्य 1: Macro-F1 और सटीकता
- कार्य 2: सामंजस्य सहसंबंध गुणांक (CCC)
- WavLM आधारभूत विधि
- विभिन्न विशेषता संयोजनों के विलोपन प्रयोग
- विभिन्न समूह रणनीतियों की तुलना
- शब्द-स्तर और वाक्य-स्तरीय विशेषताओं को 128-आयामी वेक्टर में प्रक्षेपित करना
- Perceiver 768-आयामी आउटपुट उत्पन्न करता है, 64×768 अव्यक्त सरणी का उपयोग करते हुए
- कार्य-विशिष्ट हानि कार्य: कार्य 1 के लिए भारित क्रॉस-एंट्रॉपी, कार्य 2 के लिए CCC हानि
- 50 युग के लिए प्रशिक्षण, 1×10^-5 से 5×10^-7 तक सीखने की दर, बैच आकार 128-2048
कार्य 1 (श्रेणीबद्ध भावनात्मक पहचान):
- अंतिम प्रस्तुति परिणाम: Macro-F1 = 41.01%, सटीकता = 40.97%
- WavLM आधारभूत (32.93% Macro-F1) की तुलना में महत्वपूर्ण सुधार
- SERNC चुनौती में चौथे स्थान पर
कार्य 2 (भावनात्मक विशेषता पूर्वानुमान):
- औसत CCC = 0.5928
- भावनात्मक मूल्य पूर्वानुमान CCC = 0.6941 (दूसरा स्थान)
- जागरूकता CCC = 0.6119
- प्रभुत्व CCC = 0.4775
- विशेषता स्तर योगदान: शब्द-स्तरीय विशेषताएं वाक्य-स्तरीय विशेषताओं की तुलना में अधिक योगदान देती हैं, जो दर्शाता है कि वाक्यात्मक-जागरूक प्रोसोडिक श्रेणीबद्ध भावनात्मक पहचान के लिए अधिक सूचनात्मक है
- नरम लेबल प्रभाव: सूक्ष्म-ट्यून मॉडल में प्रभावी, लेकिन MATER में सीमांत लाभ
- समूह रणनीति तुलना: अनिश्चितता-जागरूक समूह औसत और बहुमत मतदान रणनीतियों से बेहतर है
चुनौती-पश्चात विश्लेषण:
- ध्वनिक विशेषताएं दोनों कार्यों में पाठ्य विशेषताओं से बेहतर हैं
- विभिन्न कार्यों के लिए इष्टतम एनकोडर भिन्न होते हैं, कार्य-विशिष्ट एनकोडर चयन की आवश्यकता पर जोर देते हैं
- MATER में बहु-मोडल संलयन शब्द-स्तर और वाक्य-स्तर पर प्रदर्शन को बढ़ाता है
- भावनात्मक मूल्य अधिक पाठ पर निर्भर है, जबकि जागरूकता और प्रभुत्व अधिक ध्वनिक संकेतों पर निर्भर हैं
- पारंपरिक SER विधियां: मुख्य रूप से अभिनीत या प्रेरित डेटासेट का उपयोग करती हैं
- प्राकृतिक वाक् SER: MSP-Podcast जैसे डेटासेट का उदय
- बहु-मोडल भावनात्मक पहचान: ध्वनिक और पाठ्य विशेषताओं का संलयन
- अनिश्चितता हैंडलिंग: एनोटेशन असंगति को संभालने की विधियां
- व्यवस्थित बहु-स्तरीय विशेषता मॉडलिंग
- नवीन अनिश्चितता-जागरूक समूह रणनीति
- बड़े पैमाने पर प्राकृतिक वाक् डेटासेट पर सत्यापन
MATER बहु-स्तरीय विशेषता संलयन और अनिश्चितता-जागरूक समूह के माध्यम से प्राकृतिक परिस्थितियों में वाक् भावनात्मक पहचान के प्रदर्शन को प्रभावी ढंग से बढ़ाता है, विशेष रूप से भावनात्मक मूल्य पूर्वानुमान में उत्कृष्ट प्रदर्शन करता है।
- जागरूकता और प्रभुत्व पूर्वानुमान: अभी भी चुनौतियां मौजूद हैं, संभवतः पाठ-उन्मुख संलयन रणनीति ध्वनिक परिवर्तनों का पूरी तरह से उपयोग नहीं कर पाती है
- कम्प्यूटेशनल जटिलता: बहु-स्तरीय विशेषता निष्कर्षण और Perceiver आर्किटेक्चर कम्प्यूटेशनल ओवरहेड बढ़ाते हैं
- डोमेन अनुकूलन: मुख्य रूप से पॉडकास्ट डेटा पर सत्यापित, अन्य डोमेन में सामान्यीकरण क्षमता की जांच की जानी बाकी है
- भावनात्मक-विशिष्ट विशेषता चयन: विभिन्न भावनात्मक आयामों के लिए अनुकूली विशेषता भार
- गतिशील संलयन रणनीति: ऑडियो-पाठ एकीकरण को संतुलित करने के लिए गतिशील संलयन
- विविध डेटासेट में विस्तार: विभिन्न SER डेटासेट पर MATER के प्रदर्शन को सत्यापित करना
- विधि नवाचार: बहु-स्तरीय विशेषता मॉडलिंग और अनिश्चितता-जागरूक समूह नवीन हैं
- व्यवस्थित डिजाइन: शब्द-स्तर से एम्बेडिंग-स्तर तक संपूर्ण विशेषता पदानुक्रम डिजाइन तार्किक है
- प्रयोग पर्याप्तता: विस्तृत विलोपन प्रयोग और पश्चात विश्लेषण गहन अंतर्दृष्टि प्रदान करते हैं
- व्यावहारिक अनुप्रयोग मूल्य: बड़े पैमाने पर चुनौती में विधि की प्रभावशीलता सत्यापित की गई है
- सैद्धांतिक विश्लेषण अपर्याप्त: बहु-स्तरीय संलयन प्रभावी क्यों है इसके लिए सैद्धांतिक व्याख्या की कमी
- कम्प्यूटेशनल दक्षता विश्लेषण: विस्तृत कम्प्यूटेशनल जटिलता और अनुमान समय विश्लेषण प्रदान नहीं किया गया
- क्रॉस-डोमेन सामान्यीकरण: केवल पॉडकास्ट डेटा पर सत्यापित, क्रॉस-डोमेन प्रयोग की कमी
- व्याख्यायोग्यता: हालांकि शीर्षक व्याख्यायोग्यता का उल्लेख करता है, पेपर में संबंधित विश्लेषण की कमी है
- शैक्षणिक योगदान: प्राकृतिक वाक् भावनात्मक पहचान के लिए नई ढांचा सोच प्रदान करता है
- व्यावहारिक मूल्य: वास्तविक चुनौती में उत्कृष्ट प्रदर्शन विधि की व्यावहारिकता साबित करता है
- पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण पुनरुत्पादन में सहायता करते हैं
- प्राकृतिक वाक् भावनात्मक पहचान प्रणाली
- बहु-मोडल भावनात्मक विश्लेषण अनुप्रयोग
- एनोटेशन अनिश्चितता को संभालने की आवश्यकता वाले भावनात्मक कम्प्यूटिंग कार्य
- पॉडकास्ट, संवाद प्रणाली आदि प्राकृतिक वाक् परिदृश्य
पेपर ने 68 संबंधित संदर्भों का हवाला दिया है, जो भावनात्मक कम्प्यूटिंग, वाक् प्रसंस्करण, गहन शिक्षा आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।