2025-11-23T03:58:16.399198

Optimizing Speech-Input Length for Speaker-Independent Depression Classification

Rutowski, Harati, Lu et al.

Machine learning models for speech-based depression classification offer promise for health care applications. Despite growing work on depression classification, little is understood about how the length of speech-input impacts model performance. We analyze results for speaker-independent depression classification using a corpus of over 1400 hours of speech from a human-machine health screening application. We examine performance as a function of response input length for two NLP systems that differ in overall performance. Results for both systems show that performance depends on natural length, elapsed length, and ordering of the response within a session. Systems share a minimum length threshold, but differ in a response saturation threshold, with the latter higher for the better system. At saturation it is better to pose a new question to the speaker, than to continue the current response. These and additional reported results suggest how applications can be better designed to both elicit and process optimal input lengths for depression classification.

academic

वक्ता-स्वतंत्र अवसाद वर्गीकरण के लिए भाषण-इनपुट लंबाई का अनुकूलन

बुनियादी जानकारी

पेपर ID: 2501.00608
शीर्षक: वक्ता-स्वतंत्र अवसाद वर्गीकरण के लिए भाषण-इनपुट लंबाई का अनुकूलन
लेखक: टोमाज़ रुटोव्स्की, अमीर हरती, यांग लू, एलिजाबेथ श्रीबर्ग (एलिप्सिस हेल्थ, इंक.)
वर्गीकरण: cs.CL eess.AS
मुख्य शब्द: अवसाद, भाषण, पैरालिंग्विस्टिक्स, भावनात्मक कंप्यूटिंग, NLP, स्वास्थ्य अनुप्रयोग, गहन शिक्षण

सारांश

यह पेपर भाषण इनपुट लंबाई के मशीन लर्निंग-आधारित अवसाद वर्गीकरण के प्रदर्शन पर प्रभाव का अध्ययन करता है। अनुसंधान 1400 घंटे से अधिक भाषण डेटा के साथ एक बड़े कॉर्पस का उपयोग करता है, विभिन्न प्रतिक्रिया इनपुट लंबाई के तहत दो अलग-अलग प्रदर्शन करने वाली NLP प्रणालियों का विश्लेषण करता है। परिणाम दर्शाते हैं कि प्रणाली प्रदर्शन प्राकृतिक लंबाई, बीते समय और सत्र में प्रतिक्रिया के क्रम पर निर्भर करता है। दोनों प्रणालियां न्यूनतम लंबाई सीमा साझा करती हैं, लेकिन प्रतिक्रिया संतृप्ति सीमा में अंतर होता है, बेहतर प्रदर्शन करने वाली प्रणाली में उच्च संतृप्ति सीमा होती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

अवसाद एक व्यापक विकलांगता वाली बीमारी है और विश्वव्यापी एक प्रमुख सार्वजनिक स्वास्थ्य समस्या है। मोबाइल AI तकनीक अवसाद की जांच को विस्तारित करने में महत्वपूर्ण भूमिका निभाती है, विशेष रूप से चिकित्सा प्रदाताओं के सहायक उपकरण के रूप में। भाषण तकनीक इसकी प्राकृतिकता, दूरस्थ उपयोग की क्षमता, विशेष प्रशिक्षण की आवश्यकता न होने और वक्ता की स्थिति की जानकारी ले जाने की विशेषताओं के कारण आशाजनक है।

अनुसंधान प्रेरणा

व्यावहारिक आवश्यकता: हालांकि भाषण-आधारित अवसाद वर्गीकरण अनुसंधान बढ़ रहा है, लेकिन भाषण इनपुट लंबाई मॉडल प्रदर्शन को कैसे प्रभावित करती है, इसकी समझ कम है
व्यावहारिक विचार: लंबे इनपुट रोगी के समय की लागत और प्रणाली बुनियादी ढांचे की लागत बढ़ाते हैं
अनुकूलन आवश्यकता: प्रदर्शन और दक्षता के बीच सर्वोत्तम संतुलन खोजने की आवश्यकता है

मौजूदा विधियों की सीमाएं

अधिकांश भाषण तकनीक कार्यों में "अधिक भाषण बेहतर है" की प्रथम-क्रम धारणा में गहन सत्यापन की कमी है
इनपुट लंबाई और वर्गीकरण प्रदर्शन के बीच संबंध का व्यवस्थित अध्ययन नहीं है
व्यावहारिक अनुप्रयोगों में समय और लागत की बाधाओं पर पर्याप्त विचार नहीं किया गया है

मुख्य योगदान

बड़े पैमाने पर डेटा विश्लेषण: 1400 घंटे से अधिक भाषण डेटा के कॉर्पस का उपयोग करके व्यवस्थित विश्लेषण
बहु-स्तरीय लंबाई प्रभाव अनुसंधान: व्यक्तिगत प्रतिक्रिया और बहु-प्रतिक्रिया सत्र स्तर पर लंबाई प्रभाव का विश्लेषण
प्रणाली-अंतर तुलना: दो अलग-अलग प्रदर्शन करने वाली NLP प्रणालियों की तुलना, लंबाई सीमा की सामान्यता को सत्यापित करता है
व्यावहारिक मार्गदर्शन सिद्धांत: अवसाद वर्गीकरण अनुप्रयोगों के डिजाइन और अनुकूलन के लिए विशिष्ट सिफारिशें
अप्रत्याशित खोज: सत्र में वक्ता के भाषण लंबाई में वृद्धि के पैटर्न को उजागर करता है

विधि विवरण

कार्य परिभाषा

इनपुट: अमेरिकी अंग्रेजी स्वतःस्फूर्त भाषण, विभिन्न विषय प्रश्नों के उपयोगकर्ता के मुक्त उत्तर
आउटपुट: द्विआधारी वर्गीकरण कार्य (अवसाद/गैर-अवसाद), PHQ-8 स्कोर के आधार पर (≥10 अवसाद)
बाधा: वक्ता-स्वतंत्र वर्गीकरण कार्य

डेटासेट निर्माण

पैमाना: 1400 घंटे भाषण, 9600 स्वतंत्र उपयोगकर्ता
संरचना: प्रत्येक सत्र में 4-6 प्रश्न प्रतिक्रिया (औसत 4.52), प्रत्येक प्रतिक्रिया औसत 125 शब्द
लेबलिंग: PHQ-8 पैमाने का उपयोग (आत्महत्या प्रवृत्ति प्रश्न हटाए गए PHQ-9)
विभाजन: प्रशिक्षण और परीक्षण सेट में कोई अतिव्यापी वक्ता नहीं

मॉडल आर्किटेक्चर

प्रणाली 1 (कमजोर प्रणाली)

विधि: SVM + शब्द एम्बेडिंग
विशेषताएं: Word2Vec शब्द वेक्टर, औसत पूलिंग का उपयोग करके
डेटा: छोटा प्रशिक्षण सेट (650 घंटे, 6600 उपयोगकर्ता)
शब्दावली: 7000 टोकन

प्रणाली 2 (मजबूत प्रणाली)

विधि: ULMFiT-आधारित गहन शिक्षण मॉडल
आर्किटेक्चर: RNN-LSTM भाषा मॉडल, बड़े पैमाने पर सार्वजनिक कॉर्पस (जैसे विकिपीडिया) पर पूर्व-प्रशिक्षित फिर सूक्ष्म-समायोजित
डेटा: पूर्ण प्रशिक्षण सेट (1400 घंटे, 9600 उपयोगकर्ता)
शब्दावली: 30000 टोकन

तकनीकी नवाचार बिंदु

संचयी गेटेड लंबाई मेट्रिक: लंबाई मूल्यांकन की एक नई विधि परिभाषित करता है, किसी भी बिंदु पर "अब तक" मौजूद जानकारी की मात्रा दिखाता है
बहु-आयामी लंबाई विश्लेषण: एक साथ प्राकृतिक लंबाई, बीते समय और सत्र के भीतर क्रम पर विचार करता है
प्रणाली-अंतर सीमा तुलना: विभिन्न प्रदर्शन प्रणालियों की तुलना के माध्यम से निष्कर्षों की सामान्यता को सत्यापित करता है

प्रयोग सेटअप

डेटासेट विवरण

डेटासेट	कुल प्रतिक्रिया	प्रशिक्षण(-dep)	प्रशिक्षण(+dep)	परीक्षण(-dep)	परीक्षण(+dep)
छोटा(650h)	32,078	12,966	4,602	11,366	3,144
बड़ा(1400h)	64,518	35,715	14,293	11,366	3,144

मूल्यांकन मेट्रिक्स

प्राथमिक मेट्रिक: AUC (वक्र के नीचे का क्षेत्र), द्विआधारी कार्य और तिरछी वर्ग वितरण के लिए उपयुक्त
सहायक मेट्रिक्स: विशिष्टता और संवेदनशीलता, चिकित्सा क्षेत्र मूल्यांकन के लिए

भाषण प्रसंस्करण

प्रतिलेखन: Google Async ASR
भाषण दर अनुमान: वैश्विक औसत भाषण दर 2.39 शब्द/सेकंड (143.4 शब्द/मिनट)

प्रयोग परिणाम

भाषण दर विश्लेषण निष्कर्ष

अवसाद-संबंधित भाषण दर में कमी: अवसाद समूह की भाषण दर गैर-अवसाद समूह से लगभग 5 शब्द/मिनट कम है, साहित्य के अनुरूप
लंबाई-संबंधित भाषण दर में कमी: लंबी प्रतिक्रियाओं की भाषण दर आम तौर पर धीमी होती है, अंतर लगभग 3-4 शब्द/मिनट
प्रभाव छोटा: कुल अंतर बड़ा नहीं है, वैश्विक भाषण दर अनुमान का उपयोग कर सकते हैं

एकत्रित लंबाई प्रभाव

मुख्य निष्कर्ष

न्यूनतम लंबाई सीमा: दोनों प्रणालियां 30-50 शब्दों के नीचे तीव्र प्रदर्शन गिरावट दिखाती हैं
प्रतिक्रिया संतृप्ति बिंदु: एकल प्रतिक्रिया लगभग 250 शब्दों पर AUC संतृप्त होती है
सत्र संतृप्ति बिंदु: सत्र स्तर पर लगभग 1000 शब्दों पर संतृप्त होता है

प्रणाली प्रदर्शन तुलना

प्रणाली 2 हमेशा प्रणाली 1 से बेहतर है
सत्र स्तर प्रदर्शन एकल प्रतिक्रिया से बेहतर है
दोनों प्रणालियां सहायक प्राथमिक स्वास्थ्य सेवा चिकित्सक (87% विशिष्टता/54% संवेदनशीलता) से अधिक हैं

सत्र के भीतर लंबाई प्रभाव

प्रतिक्रिया संचयी प्रभाव

न्यूनतम सीमा सामंजस्य: प्रतिक्रिया संख्या की परवाह किए बिना, सत्र न्यूनतम सीमा 30-50 शब्द है
घटते रिटर्न: N+1 प्रतिक्रिया की तुलना N प्रतिक्रिया से लाभ N बढ़ने के साथ घटता है
बहु-प्रतिक्रिया लाभ: दी गई लंबाई में, अधिक प्रतिक्रियाएं कम प्रतिक्रियाओं से बेहतर हैं
नई प्रतिक्रिया लाभ: नई प्रतिक्रिया शुरू करने का अधिकतम लाभ लगभग 4% AUC है
प्रारंभिक प्रतिक्रिया संतृप्ति: प्रणाली 2 200 शब्दों पर संतृप्त होती है (प्रणाली 1 120 शब्दों पर)

अप्रत्याशित खोज

लंबाई वृद्धि पैटर्न: वक्ता सत्र के दौरान प्रतिक्रिया लंबाई में क्रमिक वृद्धि करते हैं
लंबी और छोटी प्रतिक्रिया प्रदर्शन क्रॉसओवर: लंबी प्रतिक्रियाएं अंततः बेहतर प्रदर्शन करती हैं, लेकिन छोटी प्रतिक्रियाएं शुरुआत में बेहतर प्रदर्शन करती हैं
प्रतिक्रिया के भीतर सीमा: वर्तमान प्रतिक्रिया को बाधित न करने के लिए एक सीमा लंबाई मौजूद है
- प्रणाली 1: 80 शब्द (जारी रखने की सीमा) और 120 शब्द (संतृप्ति सीमा)
- प्रणाली 2: 150 शब्द (जारी रखने की सीमा) और 200 शब्द (संतृप्ति सीमा)

मुख्य संख्यात्मक परिणाम

सत्र इष्टतम लंबाई: लगभग 8 मिनट कुल भाषण (1000 शब्द)
प्रतिक्रिया के भीतर दूसरे आधे हिस्से का मूल्य: पहले आधे से 6% AUC अधिक
प्रणाली-अंतर प्रदर्शन अंतर: बेहतर प्रणाली अतिरिक्त शब्दावली का अधिक प्रभावी ढंग से उपयोग कर सकती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

लंबाई सीमा मौजूद है: स्पष्ट न्यूनतम और संतृप्ति लंबाई सीमा मौजूद है
प्रणाली निर्भरता: बेहतर प्रणाली में उच्च संतृप्ति सीमा होती है, अतिरिक्त जानकारी का बेहतर उपयोग कर सकती है
सत्र रणनीति: कई छोटी प्रतिक्रियाएं कुछ लंबी प्रतिक्रियाओं से बेहतर हैं
वास्तविक समय अनुप्रयोग मार्गदर्शन: उपयोगकर्ता को वास्तविक समय में कब जारी रखना है, कब प्रश्न स्विच करना है या सत्र समाप्त करना है, इसका मार्गदर्शन कर सकता है

सीमाएं

डेटा विशिष्टता: विशिष्ट लंबाई और भाषण दर मान विभिन्न डेटासेट, भाषा, आयु समूह में भिन्न हो सकते हैं
कार्य विशिष्टता: परिणाम मुख्य रूप से अवसाद वर्गीकरण कार्य पर लागू होते हैं
तकनीक निर्भरता: विशिष्ट ASR और NLP तकनीकों पर आधारित

भविष्य की दिशाएं

क्रॉस-भाषा सत्यापन: विभिन्न भाषाओं और सांस्कृतिक पृष्ठभूमि में निष्कर्षों को सत्यापित करना
वास्तविक समय प्रणाली विकास: ऐसी प्रणाली विकसित करना जो लंबाई को वास्तविक समय में अनुकूलित कर सके
बहु-कार्य विस्तार: निष्कर्षों को अन्य मानसिक स्वास्थ्य वर्गीकरण कार्यों तक विस्तारित करना

गहन मूल्यांकन

शक्तियां

उच्च व्यावहारिक मूल्य: व्यावहारिक अनुप्रयोगों में मुख्य समस्या को सीधे हल करता है
बड़ा डेटा पैमाना: वर्तमान में इस क्षेत्र के सबसे बड़े डेटासेट में से एक का उपयोग करता है
विधि व्यवस्थितता: बहु-आयामी, बहु-स्तरीय विश्लेषण विधि
अर्थपूर्ण खोज: वक्ता व्यवहार के दिलचस्प पैटर्न को उजागर करता है
मजबूत अनुप्रयोग मार्गदर्शन: विशिष्ट डिजाइन सिफारिशें प्रदान करता है

कमियां

सीमित तकनीकी नवाचार: मुख्य रूप से विश्लेषणात्मक अनुसंधान, तकनीकी विधि अपेक्षाकृत पारंपरिक
सामान्यीकरण क्षमता सत्यापन की प्रतीक्षा: परिणामों की क्रॉस-डोमेन सामान्यीकरण क्षमता को आगे सत्यापन की आवश्यकता है
अपर्याप्त सैद्धांतिक व्याख्या: देखे गए घटनाओं की गहन सैद्धांतिक व्याख्या की कमी

प्रभाव

क्षेत्र योगदान: भाषण अवसाद पहचान में इनपुट लंबाई अनुसंधान के अंतराल को भरता है
व्यावहारिक मूल्य: वास्तविक तैनाती प्रणालियों के लिए महत्वपूर्ण डिजाइन मार्गदर्शन प्रदान करता है
पुनरुत्पादनीयता: विधि स्पष्ट है, भाषा डेटा संघ के साथ डेटा रिलीज पर चर्चा शुरू की गई है

लागू परिदृश्य

भाषण-आधारित मानसिक स्वास्थ्य जांच अनुप्रयोग
दूरस्थ चिकित्सा और डिजिटल स्वास्थ्य प्लेटफॉर्म
मानव-मशीन संवाद प्रणाली अनुकूलन डिजाइन
भाषण भावनात्मक कंप्यूटिंग अनुसंधान

संदर्भ

पेपर 34 संबंधित साहित्य का हवाला देता है, जिसमें अवसाद पहचान, भाषण प्रसंस्करण, गहन शिक्षण आदि कई क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह महत्वपूर्ण व्यावहारिक मूल्य का एक अनुसंधान पेपर है। हालांकि तकनीकी नवाचार अपेक्षाकृत सीमित है, लेकिन यह व्यावहारिक अनुप्रयोगों में मुख्य समस्याओं को हल करता है और भाषण अवसाद पहचान प्रणालियों के डिजाइन और अनुकूलन के लिए मूल्यवान मार्गदर्शन प्रदान करता है। अनुसंधान विधि व्यवस्थित है, डेटा पैमाना बड़ा है, निष्कर्ष व्यावहारिक हैं, और इस क्षेत्र के व्यावहारिक अनुप्रयोग को आगे बढ़ाने में महत्वपूर्ण भूमिका निभाता है।