Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.
- पेपर ID: 2501.01305
- शीर्षक: Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case
- लेखक: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
- वर्गीकरण: cs.CL (कम्प्यूटेशनल और भाषा विज्ञान)
- प्रकाशन तिथि: 2 जनवरी 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2501.01305
- संस्थान: University of South Carolina AI Institute, Indian Institute of Research and Science, Indian Institute of Technology
बड़े भाषा मॉडल (LLMs) निदान मूल्यांकन में सहायता के लिए चिकित्सा पेशेवरों का ध्यान आकर्षित कर रहे हैं, जिससे रोगी के अत्यधिक बोझ और चिकित्सा सेवा प्रदाताओं की कमी के कारण स्वास्थ्य सेवा प्रणाली पर दबाव कम हो सकता है। LLMs को निदान मूल्यांकन में प्रभावी भूमिका निभाने के लिए, उन्हें नैदानिक चिकित्सकों द्वारा उपयोग की जाने वाली मानक निदान प्रक्रियाओं को निकटता से दोहराना होगा। यह पेपर विशेष रूप से रोगी स्वास्थ्य प्रश्नावली-9 (PHQ-9) का अध्ययन करता है जिसका उपयोग प्रमुख अवसादग्रस्तता विकार (MDD) के लिए किया जाता है और सामान्यीकृत चिंता विकार-7 (GAD-7) प्रश्नावली का उपयोग सामान्यीकृत चिंता विकार (GAD) के लिए किया जाता है। अनुसंधान विभिन्न प्रॉम्प्टिंग और फाइन-ट्यूनिंग तकनीकों की खोज करता है ताकि मालिकाना और ओपन-सोर्स LLMs को इन निदान प्रक्रियाओं का पालन करने के लिए निर्देशित किया जा सके, और LLM द्वारा उत्पन्न निदान परिणामों और विशेषज्ञ-सत्यापित सोने के मानक के बीच सहमति का मूल्यांकन किया जा सके।
- स्वास्थ्य सेवा प्रणाली पर दबाव: वर्तमान स्वास्थ्य सेवा प्रणाली रोगी के अत्यधिक बोझ और चिकित्सा सेवा प्रदाताओं की कमी के दोहरे दबाव का सामना कर रही है
- मानसिक स्वास्थ्य निदान की आवश्यकता: मानसिक स्वास्थ्य समस्याएं बढ़ रही हैं, जिन्हें मानकीकृत निदान मूल्यांकन उपकरणों की आवश्यकता है
- चिकित्सा क्षेत्र में LLMs की संभावना: बड़े भाषा मॉडल प्राकृतिक भाषा प्रसंस्करण कार्यों में उत्कृष्ट प्रदर्शन करते हैं और चिकित्सा संवाद परिदृश्यों में आवेदन की संभावना रखते हैं
- मानकीकृत निदान: PHQ-9 और GAD-7 नैदानिक रूप से व्यापक रूप से उपयोग किए जाने वाले मानकीकृत मूल्यांकन उपकरण हैं
- स्वचालन की आवश्यकता: LLMs के माध्यम से निदान मूल्यांकन को स्वचालित करना नैदानिक चिकित्सकों के बोझ को कम कर सकता है
- सहमति की आवश्यकता: LLMs को व्यावहारिक अनुप्रयोग के लिए नैदानिक चिकित्सकों की मानक निदान प्रक्रियाओं को दोहराने में सक्षम होना चाहिए
- स्कोरिंग विधि: केवल पाठ प्रासंगिकता स्कोरिंग पर आधारित, गहन समझ की कमी
- व्याख्यायोग्य AI विधि: LIME/SHAP जैसे प्रॉक्सी मॉडल का उपयोग, लेकिन नैदानिक व्याख्यायोग्यता सीमित है
- पाठ खंड पहचान: विशिष्ट निदान मानदंडों के लिए विशेषज्ञ मार्गदर्शन की कमी
- पहली विशेषज्ञ मॉडल: DiagnosticLlama प्रस्तावित किया गया, जो Llama आर्किटेक्चर पर आधारित निदान मानदंड मूल्यांकन के लिए विशेष रूप से फाइन-ट्यून किया गया पहला मॉडल है
- व्यापक मूल्यांकन ढांचा: प्रॉम्प्टिंग और फाइन-ट्यूनिंग दोनों श्रेणियों को कवर करने वाली एक व्यापक मूल्यांकन प्रणाली स्थापित की गई है
- उच्च गुणवत्ता वाला डेटासेट: विशेषज्ञ-सत्यापित LLM-एनोटेटेड सिंथेटिक डेटासेट का निर्माण किया गया, जो संबंधित अनुसंधान को बढ़ावा देता है
- बहु-मॉडल तुलना: मालिकाना मॉडल (GPT-3.5, GPT-4o) और ओपन-सोर्स मॉडल (Llama-3.1-8b, Mixtral-8x7b) के प्रदर्शन की व्यवस्थित तुलना
- मानकीकृत विधि: PHQ-9 और GAD-7 निदान मूल्यांकन के लिए LLMs को लागू करने के लिए मानकीकृत विधि प्रदान करता है
इनपुट: सोशल मीडिया पोस्ट पाठ (रोगी-नैदानिक चिकित्सक इंटरैक्शन के प्रॉक्सी के रूप में)
आउटपुट: PHQ-9/GAD-7 के प्रत्येक लक्षण के लिए पाठ खंड पहचान और लक्षण उपस्थिति निर्धारण
बाधाएं: PHQ-9 और GAD-7 की मानक निदान प्रक्रियाओं का कड़ाई से पालन करना चाहिए
- सरल प्रॉम्प्टिंग: सीधे निर्देशात्मक प्रॉम्प्टिंग
- उदाहरण प्रॉम्प्टिंग: कुछ उदाहरणों के साथ few-shot प्रॉम्प्टिंग
- निर्देशित प्रॉम्प्टिंग: Chain-of-Thought प्रॉम्प्टिंग जिसमें तर्क चरण मार्गदर्शन शामिल है
- आधार मॉडल: MentalLlama (105K मानसिक स्वास्थ्य निर्देश डेटा पर प्रशिक्षित)
- DiagnosticLlama: PRIMATE डेटासेट पर MentalLlama को फाइन-ट्यून करने के लिए HuggingFace AutoTrain का उपयोग
- आधार डेटा: PRIMATE डेटासेट का उपयोग (सोशल मीडिया पोस्ट + PHQ-9 एनोटेशन)
- GPT-4o वृद्धि: संबंधित लक्षणों के पाठ खंडों की पहचान के लिए GPT-4o का उपयोग
- विशेषज्ञ सत्यापन: तीन नैदानिक विशेषज्ञों द्वारा GPT-4o आउटपुट का सत्यापन (Cohen's Kappa: PHQ-9 के लिए 0.74, GAD-7 के लिए 0.72)
- गुणवत्ता नियंत्रण: केवल विशेषज्ञ-सहमत एनोटेशन परिणाम बनाए रखे गए
- लक्षण-विशिष्ट मार्गदर्शन: PHQ-9 और GAD-7 के प्रत्येक लक्षण के लिए विशेष प्रॉम्प्ट टेम्पलेट डिज़ाइन किए गए
- बहु-स्तरीय मूल्यांकन: hits@k रैंकिंग और मानक वर्गीकरण मेट्रिक्स के दोहरे मूल्यांकन प्रणाली का संयोजन
- क्रॉस-मॉडल सामंजस्य: विभिन्न आकार और प्रकार के LLMs पर विधि की प्रभावशीलता का सत्यापन
- नैदानिक सत्यापन: नैदानिक प्रासंगिकता सुनिश्चित करने के लिए पेशेवर नैदानिक चिकित्सकों को शामिल किया गया
- PRIMATE डेटासेट: सोशल मीडिया पोस्ट और PHQ-9 संबंधित एनोटेशन शामिल
- विशेषज्ञ-सत्यापित उप-समूह:
- PHQ-9: 40 GPT-4o एनोटेटेड नमूने विशेषज्ञ द्वारा सत्यापित
- GAD-7: 17 GPT-4o एनोटेटेड नमूने विशेषज्ञ द्वारा सत्यापित
- मॉडल एनोटेशन डेटा: कुल 1034 पोस्ट के बहु-मॉडल एनोटेशन परिणाम
- hits@k रैंकिंग मेट्रिक्स:
- hits@1: सबसे समान पाठ खंड सोने के मानक के शीर्ष 1 में होने की हिट दर
- hits@5: सबसे समान पाठ खंड सोने के मानक के शीर्ष 5 में होने की हिट दर
- मानक वर्गीकरण मेट्रिक्स: सटीकता (Accuracy), परिशुद्धता (Precision), रिकॉल (Recall), F1 स्कोर
- मालिकाना मॉडल: GPT-3.5-Turbo, GPT-4o-mini
- ओपन-सोर्स मॉडल: Llama-3.1-8b, Mixtral-8x7b
- फाइन-ट्यून किए गए मॉडल: MentalLlama, DiagnosticLlama
- पारंपरिक विधियां: BERT, MentalBERT, MentalRoBERTa
- मशीन लर्निंग विधियां: Logistic Regression, Random Forest, XGBoost
- कोड-मुक्त फाइन-ट्यूनिंग के लिए HuggingFace AutoTrain का उपयोग
- सभी मॉडलों के लिए समान प्रॉम्प्ट संरचना लागू की गई ताकि निष्पक्ष तुलना सुनिश्चित की जा सके
- बजट और API सीमाओं के कारण परीक्षण उप-समूह को यादृच्छिक रूप से चुना गया
मालिकाना मॉडल प्रदर्शन:
| मॉडल | hits@1 | hits@5 | Accuracy | Precision | Recall | F1-score |
|---|
| GPT-3.5-Turbo | 87% | 98% | 0.93 | 0.89 | 0.96 | 0.92 |
| GPT-4o-mini | 89% | 99% | 0.94 | 0.96 | 0.98 | 0.92 |
ओपन-सोर्स मॉडल प्रदर्शन:
| मॉडल | hits@1 | hits@5 | Accuracy | Precision | Recall | F1-score |
|---|
| Llama-3.1-8b | 83% | 88% | 0.84 | 0.86 | 0.78 | 0.82 |
| Mixtral-8x7b | 92% | 99% | 0.92 | 0.96 | 0.95 | 0.93 |
फाइन-ट्यून किए गए मॉडल प्रदर्शन:
| मॉडल | hits@1 | hits@5 | Accuracy | Precision | Recall | F1-score |
|---|
| MentalLlama | - | - | 0.82 | 0.83 | 0.63 | 0.75 |
| DiagnosticLlama | 68.3% | 76.2% | - | - | - | - |
GAD-7 के परिणाम PHQ-9 के समान प्रवृत्ति प्रदर्शित करते हैं, मालिकाना और ओपन-सोर्स मॉडल दोनों मानव एनोटेशन गुणवत्ता के करीब हैं।
- मॉडल प्रदर्शन अंतर: नई पीढ़ी के LLMs पुराने संस्करण मॉडल से काफी बेहतर हैं
- Llama2-7b-chat: F1=0.663
- Mistral-instruct: F1=0.655
- फाइन-ट्यूनिंग चुनौतियां: पेशेवर निदान कार्यों के लिए LLMs को फाइन-ट्यून करना अत्यंत चुनौतीपूर्ण है
- MentalLlama सीधे इनपुट दोहराता है, फाइन-ट्यूनिंग कॉन्फ़िगरेशन के महत्व को दर्शाता है
- DiagnosticLlama सुधार दिखाता है लेकिन अभी भी अनुकूलन की आवश्यकता है
- पारंपरिक विधि तुलना:
- BERT: F1=0.69
- MentalBERT: F1=0.71
- MentalRoBERTa: F1=0.48
- पारंपरिक ML विधियां खराब प्रदर्शन करती हैं (उच्चतम XGBoost: F1=0.65)
पेपर ठोस उदाहरणों के माध्यम से दिखाता है कि मॉडल पाठ में PHQ-9 लक्षणों के अनुरूप खंडों की पहचान कैसे करते हैं, उदाहरण के लिए "I thought I set myself up for success. Now I believe I was dead wrong for joining" को "स्वयं को विफल मानना" लक्षण के रूप में पहचानना।
- स्कोरिंग विधि: PHQ-9/GAD-7 लक्षणों से संबंधित पाठ प्रासंगिकता के आधार पर पाठ स्कोरिंग रैंकिंग
- व्याख्यायोग्य AI विधि: BERT मॉडल आउटपुट के नैदानिक व्याख्या के लिए LIME/SHAP जैसी तकनीकों का उपयोग
- पाठ खंड पहचान: पाठ खंडों की भविष्यवाणी और सारांश, मानव एनोटेशन के साथ तुलना
- विशेषज्ञ मार्गदर्शन: विशिष्ट निदान मानदंडों के लिए अत्यधिक विशेषज्ञ मॉडल आउटपुट मार्गदर्शन
- पहली बार: Llama आर्किटेक्चर पर आधारित निदान-विशिष्ट फाइन-ट्यून किया गया पहला मॉडल
- व्यवस्थितता: प्रॉम्प्टिंग और फाइन-ट्यूनिंग दोनों विधियों की व्यवस्थित तुलना प्रदान करता है
- Few-shot लर्निंग प्रभावी: LLMs few-shot सेटिंग में विशेषज्ञ नैदानिक चिकित्सकों के मूल्यांकन गुणवत्ता के करीब हो सकते हैं
- तर्क अंतर: परिणाम करीब होने के बावजूद, LLMs की तर्क प्रक्रिया नैदानिक चिकित्सकों से काफी भिन्न है
- फाइन-ट्यूनिंग चुनौतियां: मानसिक स्वास्थ्य निदान सहायता के लिए LLMs को फाइन-ट्यून करना अभी भी प्रमुख तकनीकी चुनौतियों का सामना कर रहा है
- व्यावहारिक संभावना: अनुसंधान स्वास्थ्य सेवा प्रणाली के दबाव को कम करने के लिए एक आशाजनक दिशा प्रदान करता है
- तर्क सामंजस्य: LLMs और नैदानिक चिकित्सकों की तर्क प्रक्रिया मिलान की सीमित डिग्री
- डेटा आकार: विशेषज्ञ-सत्यापित सोने के मानक डेटासेट का आकार अपेक्षाकृत छोटा है
- बजट सीमा: API लागत बड़े पैमाने पर प्रायोगिक सत्यापन को सीमित करती है
- फाइन-ट्यूनिंग जटिलता: फाइन-ट्यूनिंग को बड़े संसाधनों और हाइपरपैरामीटर ट्यूनिंग की आवश्यकता है
- नैदानिक अनुप्रयोग: नैदानिक चिकित्सकों के लिए अनुप्रयोग प्रोग्राम विकसित करना
- विस्तारित मूल्यांकन: DiagnosticLlama को GAD-7 तक विस्तारित करना, डेटासेट आकार बढ़ाना
- जटिल प्रश्नावली: गैर-रैखिक संरचित प्रश्नावली (जैसे CSSRS) का समर्थन करना
- सुरक्षा बाधाएं: सुरक्षा सुनिश्चित करने के लिए शब्दावली प्रतिबंध और आउटपुट पुनर्लेखन को एकीकृत करना
- मजबूत नैदानिक प्रासंगिकता: नैदानिक रूप से व्यापक रूप से उपयोग किए जाने वाले मानकीकृत मूल्यांकन उपकरणों को सीधे लक्षित करता है
- व्यापक विधि: प्रॉम्प्टिंग और फाइन-ट्यूनिंग दोनों मुख्य विधियों को कवर करता है
- कठोर मूल्यांकन: पेशेवर नैदानिक चिकित्सकों को शामिल करता है, परिणाम विश्वसनीयता सुनिश्चित करता है
- ओपन-सोर्स योगदान: समुदाय उपयोग के लिए मॉडल और डेटासेट प्रदान करता है
- पर्याप्त प्रयोग: बहु-मॉडल, बहु-मेट्रिक व्यवस्थित तुलना
- डेटासेट आकार: विशेषज्ञ-सत्यापित डेटासेट अपेक्षाकृत छोटा है, निष्कर्षों की सामान्यीकरण क्षमता को प्रभावित कर सकता है
- डोमेन सीमा: केवल अवसाद और चिंता दो रोगों को लक्षित करता है, कवरेज सीमित है
- तर्क विश्लेषण: LLMs की तर्क प्रक्रिया और नैदानिक चिकित्सकों के अंतर का विश्लेषण पर्याप्त गहराई में नहीं है
- लागत विचार: वास्तविक तैनाती की लागत-प्रभावशीलता विश्लेषण अनुपस्थित है
- नैतिकता चर्चा: AI-सहायक मानसिक स्वास्थ्य निदान की नैतिक समस्याओं पर चर्चा अपर्याप्त है
- शैक्षणिक मूल्य: मानसिक स्वास्थ्य क्षेत्र में LLMs के अनुप्रयोग के लिए महत्वपूर्ण संदर्भ प्रदान करता है
- व्यावहारिक मूल्य: चिकित्सा संस्थानों को AI-सहायक निदान प्रणाली तैनात करने के लिए तकनीकी आधार प्रदान करता है
- सामाजिक महत्व: मानसिक स्वास्थ्य सेवा संसाधन की कमी की समस्या को कम करने की संभावना रखता है
- पुनरुत्पादनशीलता: ओपन-सोर्स कोड और डेटासेट अनुसंधान पुनरुत्पादन और विस्तार का समर्थन करते हैं
- प्रारंभिक स्क्रीनिंग: बड़े पैमाने पर मानसिक स्वास्थ्य प्रारंभिक स्क्रीनिंग के लिए उपयुक्त
- सहायक निदान: नैदानिक चिकित्सकों के लिए सहायक उपकरण के रूप में, प्रतिस्थापन नहीं
- दूरस्थ चिकित्सा: दूरस्थ मानसिक स्वास्थ्य सेवा का समर्थन करता है
- अनुसंधान उपकरण: मानसिक स्वास्थ्य अनुसंधान के लिए स्वचालित विश्लेषण उपकरण प्रदान करता है
पेपर 29 संबंधित संदर्भों का हवाला देता है, जो LLMs, मानसिक स्वास्थ्य मूल्यांकन, प्रॉम्प्ट इंजीनियरिंग, फाइन-ट्यूनिंग तकनीकों और अन्य कई संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।
समग्र मूल्यांकन: यह LLMs को मानसिक स्वास्थ्य निदान क्षेत्र में लागू करने का एक महत्वपूर्ण अन्वेषणात्मक कार्य है। पेपर की विधि वैज्ञानिक है, प्रयोग पर्याप्त हैं, निष्कर्ष विश्वसनीय हैं, और इस अंतःविषय क्षेत्र के विकास में मूल्यवान योगदान दिया है। हालांकि कुछ सीमाएं हैं, लेकिन इसका अग्रणी महत्व और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण संदर्भ दस्तावेज़ बनाता है।