Depression has impacted millions of people worldwide and has become one of the most prevalent mental disorders. Early mental disorder detection can lead to cost savings for public health agencies and avoid the onset of other major comorbidities. Additionally, the shortage of specialized personnel is a critical issue because clinical depression diagnosis is highly dependent on expert professionals and is time consuming.
In this study, we explore the use of GPT-4 for clinical depression assessment based on transcript analysis. We examine the model's ability to classify patient interviews into binary categories: depressed and not depressed. A comparative analysis is conducted considering prompt complexity (e.g., using both simple and complex prompts) as well as varied temperature settings to assess the impact of prompt complexity and randomness on the model's performance.
Results indicate that GPT-4 exhibits considerable variability in accuracy and F1-Score across configurations, with optimal performance observed at lower temperature values (0.0-0.2) for complex prompts. However, beyond a certain threshold (temperature >= 0.3), the relationship between randomness and performance becomes unpredictable, diminishing the gains from prompt complexity.
These findings suggest that, while GPT-4 shows promise for clinical assessment, the configuration of the prompts and model parameters requires careful calibration to ensure consistent results. This preliminary study contributes to understanding the dynamics between prompt engineering and large language models, offering insights for future development of AI-powered tools in clinical settings.
- पेपर ID: 2501.00199
- शीर्षक: GPT-4 on Clinic Depression Assessment: An LLM-Based Pilot Study
- लेखक: Giuliano Lorenzoni, Pedro Elkind Velmovitsky, Paulo Alencar, Donald Cowan
- वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान), cs.AI (कृत्रिम बुद्धिमत्ता)
- प्रकाशन तिथि: 31 दिसंबर 2024 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2501.00199
अवसाद विश्वव्यापी लाखों लोगों को प्रभावित कर रहा है और सबसे आम मानसिक रोगों में से एक बन गया है। प्रारंभिक मानसिक रोग का पता लगाना सार्वजनिक स्वास्थ्य संस्थानों के लिए लागत बचा सकता है और अन्य गंभीर जटिलताओं को रोक सकता है। इसके अलावा, पेशेवरों की कमी एक महत्वपूर्ण समस्या है क्योंकि क्लिनिकल अवसाद निदान पेशेवरों पर अत्यधिक निर्भर है और समय लेने वाला है।
यह अध्ययन साक्षात्कार प्रतिलेख पाठ के आधार पर क्लिनिकल अवसाद मूल्यांकन के लिए GPT-4 का उपयोग करने की खोज करता है। अध्ययन ने मॉडल की रोगी साक्षात्कार को द्विआधारी श्रेणियों (अवसाद और गैर-अवसाद) में वर्गीकृत करने की क्षमता का परीक्षण किया। प्रॉम्प्ट जटिलता (सरल और जटिल प्रॉम्प्ट) और विभिन्न तापमान सेटिंग्स पर विचार करके तुलनात्मक विश्लेषण के माध्यम से, प्रॉम्प्ट जटिलता और यादृच्छिकता के मॉडल प्रदर्शन पर प्रभाव का मूल्यांकन किया गया।
परिणाम दर्शाते हैं कि GPT-4 विभिन्न कॉन्फ़िगरेशन में सटीकता और F1 स्कोर में महत्वपूर्ण परिवर्तनशीलता है, जटिल प्रॉम्प्ट के निम्न तापमान मानों (0.0-0.2) पर सर्वोत्तम प्रदर्शन देखा गया। हालांकि, एक निश्चित सीमा (तापमान ≥0.3) से अधिक होने पर, यादृच्छिकता और प्रदर्शन के बीच संबंध अप्रत्याशित हो जाता है, जो प्रॉम्प्ट जटिलता से मिलने वाले लाभों को कमजोर करता है।
यह अध्ययन जो मुख्य समस्या को हल करना चाहता है वह यह है कि क्लिनिकल अवसाद निदान में सहायता के लिए बड़े भाषा मॉडल GPT-4 का उपयोग कैसे किया जाए, विशेष रूप से रोगी साक्षात्कार प्रतिलेख के विश्लेषण के माध्यम से द्विआधारी वर्गीकरण (अवसाद/गैर-अवसाद) करके।
- वैश्विक स्वास्थ्य बोझ: अवसाद विश्वव्यापी सबसे आम मानसिक रोगों में से एक है, जो लाखों लोगों को प्रभावित करता है
- प्रारंभिक पहचान का मूल्य: शीघ्र पता लगाना चिकित्सा लागत को काफी कम कर सकता है और गंभीर जटिलताओं को रोक सकता है
- संसाधन की कमी: मानसिक स्वास्थ्य पेशेवरों की गंभीर कमी है, निदान प्रक्रिया विशेषज्ञों पर निर्भर है और समय लेने वाली है
- तकनीकी अवसर: बड़े भाषा मॉडल के विकास ने स्वचालित मानसिक स्वास्थ्य मूल्यांकन के लिए नई संभावनाएं प्रदान की हैं
- पारंपरिक मशीन लर्निंग विधियां: मुख्य रूप से SVM, TextCNN आदि विधियों का उपयोग करते हैं, DAIC-WOZ डेटासेट पर अनुप्रयोग सीमित है
- फीचर इंजीनियरिंग पर निर्भरता: हाथ से फीचर निकालने की आवश्यकता है, अंत-से-अंत स्वचालित क्षमता की कमी है
- LLM अनुप्रयोग अपर्याप्त: हालांकि अवसाद का पता लगाने के लिए LLM का उपयोग करने वाले अनुसंधान हैं, लेकिन व्यवस्थित प्रॉम्प्ट इंजीनियरिंग और पैरामीटर ट्यूनिंग अनुसंधान की कमी है
क्लिनिकल अवसाद मूल्यांकन में GPT-4 के अनुप्रयोग का व्यवस्थित रूप से अध्ययन करके, विशेष रूप से प्रॉम्प्ट इंजीनियरिंग रणनीतियों और मॉडल पैरामीटर (जैसे तापमान) के प्रदर्शन पर प्रभाव पर ध्यान केंद्रित करके, AI-सहायक मानसिक स्वास्थ्य निदान के लिए अनुभवजन्य आधार प्रदान करना।
- क्लिनिकल अवसाद द्विआधारी वर्गीकरण कार्य में GPT-4 के अनुप्रयोग का पहला व्यवस्थित अध्ययन, DAIC-WOZ डेटासेट के आधार पर व्यापक मूल्यांकन
- क्रमिक प्रॉम्प्ट इंजीनियरिंग रणनीति प्रस्तावित करना, सरल प्रॉम्प्ट से जटिल प्रॉम्प्ट तक और उदाहरण-संवर्धित तक, विभिन्न जटिलता के प्रदर्शन पर प्रभाव का व्यवस्थित विश्लेषण
- मॉडल स्थिरता और प्रदर्शन पर तापमान पैरामीटर के प्रभाव का गहन विश्लेषण, 0.0-0.2 की इष्टतम तापमान सीमा की खोज
- प्रॉम्प्ट जटिलता और यादृच्छिकता के बीच गैर-रैखिक संबंध का खुलासा, क्लिनिकल AI अनुप्रयोग के पैरामीटर ट्यूनिंग के लिए मार्गदर्शन प्रदान करना
- AI-सहायक मानसिक स्वास्थ्य निदान के लिए व्यावहारिक कॉन्फ़िगरेशन रणनीति प्रदान करना, क्लिनिकल पर्यावरण में झूठी नकारात्मकता को कम करने के महत्व पर जोर देना
इनपुट: रोगी साक्षात्कार का प्रतिलेख पाठ (DAIC-WOZ डेटासेट से)
आउटपुट: द्विआधारी वर्गीकरण परिणाम ("अवसाद" या "अवसाद नहीं")
बाधाएं: PHQ-8 स्केल के आधार पर मानकीकृत निदान मानदंड
यह अध्ययन पाँच-चरण क्रमिक प्रायोगिक डिजाइन अपनाता है:
सबसे बुनियादी वर्गीकरण प्रॉम्प्ट का उपयोग करना, कोई संदर्भ या उदाहरण प्रदान नहीं करना, प्रदर्शन आधारभूत के रूप में कार्य करना।
सरल प्रॉम्प्ट में चार उदाहरण जोड़ना (दो अवसाद के मामले, दो गैर-अवसाद के मामले), कुछ-शॉट लर्निंग रणनीति अपनाना।
उदाहरणों और विस्तृत क्लिनिकल संदर्भ को जोड़ना, पेशेवर मनोविकृति विज्ञानी के विश्लेषण दृष्टिकोण का अनुकरण करना, अधिक समृद्ध मार्गदर्शन जानकारी प्रदान करना।
विभिन्न तापमान मानों (0.0, 0.1, 0.2, 0.3, 0.5) के मॉडल प्रदर्शन पर प्रभाव का व्यवस्थित परीक्षण।
GPT-4 क्लिनिकल निदान विश्वसनीयता पर आउटपुट परिवर्तनशीलता के प्रभाव का विश्लेषण।
- क्रमिक प्रॉम्प्ट जटिलता डिजाइन: सरल से जटिल तक की व्यवस्थित प्रॉम्प्ट इंजीनियरिंग विधि
- तापमान-प्रदर्शन संबंध मॉडलिंग: क्लिनिकल वर्गीकरण कार्य में तापमान पैरामीटर की भूमिका का पहला व्यवस्थित अध्ययन
- क्लिनिकल-उन्मुख मूल्यांकन ढांचा: झूठी नकारात्मकता को कम करने पर ध्यान केंद्रित करना, क्लिनिकल अभ्यास की आवश्यकताओं के अनुरूप
- प्रशिक्षण-मुक्त सीधा अनुमान: पूरी तरह से पूर्व-प्रशिक्षित मॉडल की शून्य-शॉट और कुछ-शॉट क्षमताओं पर आधारित
DAIC-WOZ (Distress Analysis Interview Corpus - Wizard-of-Oz)
- आकार: 189 साक्षात्कार सत्र, वास्तविक उपयोग 184-188 (डेटा प्रसंस्करण समस्याओं के कारण मामूली भिन्नता)
- एनोटेशन: PHQ-8 स्केल के आधार पर, 56 अवसाद के मामले, लगभग 130 गैर-अवसाद के मामले
- डेटा प्रकार: साक्षात्कार प्रतिलेख पाठ
- डेटा वितरण: लगभग 30% अवसाद के मामले, 70% गैर-अवसाद के मामले (असंतुलित डेटासेट)
- सटीकता (Accuracy): समग्र वर्गीकरण सही दर
- सटीकता (Precision): अवसाद के रूप में भविष्यवाणी किए गए में वास्तविक अवसाद का अनुपात
- रिकॉल (Recall): वास्तविक अवसाद में सही ढंग से पहचाने गए का अनुपात
- F1 स्कोर: सटीकता और रिकॉल का हार्मोनिक माध्य
- भ्रम मैट्रिक्स: वर्गीकरण परिणाम वितरण का विस्तृत प्रदर्शन
- API इंटरफेस: OpenAI GPT-4 API
- प्रोग्रामिंग वातावरण: Python + Pandas + NumPy + scikit-learn + Matplotlib/Seaborn
- तापमान सीमा: 0.0 से 0.5, 0.1 का अंतराल
- उदाहरण चयन: दो सकारात्मक और दो नकारात्मक मामलों का संतुलित चयन
| मेट्रिक | मान |
|---|
| सटीकता | 70.74% |
| सटीकता | 54.55% |
| रिकॉल | 10.71% |
| F1 स्कोर | 17.91% |
भ्रम मैट्रिक्स: 127 सच्चे नकारात्मक, 5 झूठे सकारात्मक, 50 झूठे नकारात्मक, 6 सच्चे सकारात्मक
| मेट्रिक | मान |
|---|
| सटीकता | 70.49% |
| सटीकता | 50.00% |
| रिकॉल | 77.78% |
| F1 स्कोर | 60.87% |
मुख्य खोज: रिकॉल में उल्लेखनीय सुधार 77.78% तक, F1 स्कोर 17.91% से 60.87% तक बढ़ा
| मेट्रिक | मान |
|---|
| सटीकता | 69.23% |
| सटीकता | 48.39% |
| रिकॉल | 55.56% |
| F1 स्कोर | 51.72% |
अप्रत्याशित खोज: जटिल प्रॉम्प्ट प्रदर्शन वास्तव में गिरा, संभवतः डिफ़ॉल्ट तापमान सेटिंग के कारण अत्यधिक यादृच्छिकता की शुरुआत
| तापमान | सटीकता | सटीकता | रिकॉल | F1 स्कोर |
|---|
| 0.0 | 72.28% | 51.95% | 74.07% | 61.07% |
| 0.1 | 73.37% | 53.09% | 79.63% | 63.70% |
| 0.2 | 71.74% | 51.16% | 81.48% | 62.86% |
| 0.3 | 67.93% | 46.67% | 64.81% | 54.26% |
| 0.5 | 68.48% | 47.56% | 72.22% | 57.35% |
- इष्टतम तापमान सीमा: 0.0-0.2 अंतराल सर्वोत्तम प्रदर्शन दिखाता है, तापमान 0.1 पर उच्चतम सटीकता 73.37% और F1 स्कोर 63.70% प्राप्त होता है
- गैर-रैखिक तापमान-प्रदर्शन संबंध: तापमान ≥0.3 पर प्रदर्शन में उल्लेखनीय गिरावट, अप्रत्याशित उतार-चढ़ाव प्रदर्शित करता है
- उदाहरण लर्निंग प्रभाव महत्वपूर्ण: कुछ-शॉट लर्निंग F1 स्कोर को 17.91% से 60.87% तक बढ़ाता है
- जटिलता विरोधाभास: डिफ़ॉल्ट तापमान पर अत्यधिक जटिल प्रॉम्प्ट वास्तव में प्रदर्शन को कम करते हैं
- क्लिनिकल संकेतक अनुकूलन: कम तापमान सेटिंग संवेदनशीलता और विशिष्टता को प्रभावी ढंग से संतुलित करता है
क्रमिक प्रायोगिक डिजाइन के माध्यम से, प्रत्येक घटक के योगदान को स्पष्ट रूप से देखा जा सकता है:
- बुनियादी वर्गीकरण क्षमता: सरल प्रॉम्प्ट पहले से ही कुछ वर्गीकरण क्षमता रखता है (70.74% सटीकता)
- उदाहरण लर्निंग लाभ: कुछ-शॉट लर्निंग रिकॉल में उल्लेखनीय सुधार करता है (10.71% से 77.78% तक)
- तापमान ट्यूनिंग मूल्य: उपयुक्त तापमान सेटिंग प्रदर्शन संतुलन को आगे अनुकूलित कर सकता है
- जटिलता लागत: अत्यधिक इंजीनियर किए गए प्रॉम्प्ट शोर पेश कर सकते हैं
मौजूदा अनुसंधान मुख्य रूप से DAIC-WOZ डेटासेट पर अवसाद का पता लगाने के लिए SVM, TextCNN आदि पारंपरिक ML विधियों को अपनाता है, भाषण विशेषताओं और पाठ भावना विश्लेषण पर ध्यान केंद्रित करता है, लेकिन अंत-से-अंत स्वचालित क्षमता की कमी है।
- E-DAIC अनुसंधान: PHQ-8 स्कोर की भविष्यवाणी के लिए LLM का उपयोग करना, 3.65 की औसत निरपेक्ष त्रुटि प्राप्त करना
- क्रॉस-डोमेन LLM अनुप्रयोग: वित्त, सॉफ्टवेयर इंजीनियरिंग आदि क्षेत्रों में भावना विश्लेषण और वर्गीकरण कार्यों में संभावना प्रदर्शित करना
- व्यवस्थित प्रॉम्प्ट इंजीनियरिंग: क्लिनिकल वर्गीकरण पर प्रॉम्प्ट जटिलता के प्रभाव का पहला व्यवस्थित अध्ययन
- पैरामीटर संवेदनशीलता विश्लेषण: स्थिरता पर तापमान पैरामीटर के प्रभाव का गहन विश्लेषण
- क्लिनिकल-उन्मुख डिजाइन: झूठी नकारात्मकता को कम करने पर ध्यान केंद्रित करना, क्लिनिकल अभ्यास की आवश्यकताओं के अनुरूप
- GPT-4 में क्लिनिकल अवसाद वर्गीकरण की क्षमता है: उपयुक्त कॉन्फ़िगरेशन में 73.37% सटीकता और 63.70% F1 स्कोर प्राप्त कर सकता है
- प्रॉम्प्ट इंजीनियरिंग रणनीति प्रभावी है: उदाहरण संवर्धन प्रदर्शन में उल्लेखनीय सुधार करता है, विशेष रूप से रिकॉल
- तापमान पैरामीटर महत्वपूर्ण है: 0.0-0.2 की कम तापमान सीमा सर्वोत्तम स्थिरता और प्रदर्शन संतुलन प्रदान करती है
- जटिलता को सावधानीपूर्वक संतुलित करने की आवश्यकता है: अत्यधिक जटिल प्रॉम्प्ट अनावश्यक परिवर्तनशीलता पेश कर सकते हैं
- क्लिनिकल अनुप्रयोग के लिए सूक्ष्म ट्यूनिंग आवश्यक है: पैरामीटर कॉन्फ़िगरेशन सुसंगतता और विश्वसनीयता पर महत्वपूर्ण प्रभाव डालता है
- डेटासेट आकार सीमा: केवल 189 नमूने, परिणामों की सामान्यीकरण क्षमता को प्रभावित कर सकते हैं
- डेटा असंतुलन समस्या: 30% अवसाद दर वास्तविक जनसंख्या में रुग्णता दर से बहुत अधिक है, पूर्वाग्रह का कारण बन सकता है
- एकल डेटा स्रोत: केवल DAIC-WOZ डेटासेट का उपयोग, क्रॉस-डेटासेट सत्यापन की कमी
- यादृच्छिकता प्रभाव: मॉडल की अंतर्निहित यादृच्छिकता परिणाम सुसंगतता को प्रभावित कर सकती है
- पेशेवर सत्यापन की कमी: क्लिनिकल विशेषज्ञों के निदान परिणामों के साथ तुलना नहीं की गई
- पुनर्प्राप्ति-संवर्धित जनरेशन (RAG): बाहरी चिकित्सा ज्ञान आधार को एकीकृत करके निदान सटीकता में सुधार
- डोमेन-विशिष्ट सूक्ष्म-ट्यूनिंग: क्लिनिकल डेटा का उपयोग करके मॉडल को विशेष प्रशिक्षण देना
- बहु-मोडल संलयन: भाषण, वीडियो आदि कई मोडल जानकारी को जोड़ना
- परिवर्तनशीलता नियंत्रण रणनीति: कई बार चलाने के परिणामों को एकत्रित करने की विधि की खोज
- बड़े पैमाने पर क्लिनिकल सत्यापन: अधिक बड़े और विविध क्लिनिकल डेटा पर सत्यापन
- अनुसंधान डिजाइन कठोर है: क्रमिक प्रायोगिक डिजाइन प्रत्येक कारक के प्रभाव को स्पष्ट रूप से प्रदर्शित करता है
- व्यावहारिक मूल्य अधिक है: AI-सहायक मानसिक स्वास्थ्य निदान के लिए व्यावहारिक मार्गदर्शन प्रदान करता है
- पैरामीटर विश्लेषण गहन है: तापमान पैरामीटर के प्रदर्शन पर प्रभाव का व्यवस्थित विश्लेषण
- क्लिनिकल उन्मुखीकरण स्पष्ट है: झूठी नकारात्मकता को कम करने को महत्व देता है, क्लिनिकल अभ्यास की आवश्यकताओं के अनुरूप
- परिणाम पारदर्शी और विस्तृत हैं: विस्तृत भ्रम मैट्रिक्स और प्रदर्शन संकेतक प्रदान करता है
- नमूना आकार अपेक्षाकृत छोटा है: 189 नमूने गहन शिक्षा अनुसंधान के लिए सीमित हैं
- सांख्यिकीय महत्व परीक्षण की कमी: परिणामों की सांख्यिकीय महत्ता की रिपोर्ट नहीं की गई
- यादृच्छिकता नियंत्रण अपर्याप्त है: यादृच्छिक परिवर्तन को नियंत्रित करने के लिए कई बार चलाने का औसत नहीं लिया गया
- आधारभूत तुलना सीमित है: अन्य LLM या पारंपरिक विधियों के साथ तुलना की कमी
- क्लिनिकल सत्यापन अनुपस्थित है: वास्तविक क्लिनिकल विशेषज्ञ निदान के साथ तुलना नहीं की गई
- शैक्षणिक योगदान: मानसिक स्वास्थ्य क्षेत्र में LLM के अनुप्रयोग के लिए महत्वपूर्ण संदर्भ प्रदान करता है
- व्यावहारिक मूल्य: क्लिनिकल AI उपकरण विकास के लिए कॉन्फ़िगरेशन रणनीति मार्गदर्शन प्रदान करता है
- पद्धति मूल्य: प्रॉम्प्ट इंजीनियरिंग और पैरामीटर ट्यूनिंग विधि अन्य क्लिनिकल कार्यों तक विस्तारित की जा सकती है
- नीति प्रभाव: AI-सहायक चिकित्सा के विनियमन और मानक निर्धारण के लिए अनुभवजन्य समर्थन प्रदान करता है
- क्लिनिकल सहायक निदान: मानसिक स्वास्थ्य विशेषज्ञों के लिए सहायक उपकरण के रूप में
- बड़े पैमाने पर स्क्रीनिंग: संसाधन-सीमित क्षेत्रों में प्रारंभिक स्क्रीनिंग के लिए
- दूरस्थ चिकित्सा: ऑनलाइन मानसिक स्वास्थ्य सेवाओं का समर्थन करना
- अनुसंधान उपकरण: बड़े पैमाने पर मानसिक स्वास्थ्य अनुसंधान के लिए डेटा प्रीप्रोसेसिंग में उपयोग
पेपर में 20 संबंधित संदर्भों का हवाला दिया गया है, जिसमें शामिल हैं:
- DAIC-WOZ डेटासेट से संबंधित अनुसंधान
- अवसाद का पता लगाने में पारंपरिक मशीन लर्निंग के अनुप्रयोग
- विभिन्न क्षेत्रों में LLM के वर्गीकरण और जनरेशन कार्य
- मानसिक स्वास्थ्य मूल्यांकन के मानकीकृत उपकरण (PHQ-8)
समग्र मूल्यांकन: यह एक उच्च गुणवत्ता का प्रारंभिक अनुसंधान है जो क्लिनिकल अवसाद मूल्यांकन में GPT-4 के अनुप्रयोग की क्षमता की व्यवस्थित रूप से खोज करता है। अनुसंधान डिजाइन तर्कसंगत है, प्रायोगिक परिणाम मूल्यवान हैं, और AI-सहायक मानसिक स्वास्थ्य निदान क्षेत्र में महत्वपूर्ण योगदान प्रदान करता है। हालांकि नमूना आकार और सत्यापन पहलुओं में सीमाएं हैं, लेकिन यह बाद के अनुसंधान के लिए एक अच्छा आधार प्रदान करता है।