2025-11-17T04:19:13.460591

Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case

Roy, Surana, Eswaramoorthi et al.

Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.

academic

मानसिक स्वास्थ्य निदान मूल्यांकन के लिए बड़े भाषा मॉडल: अवसाद और चिंता के मामले में बड़े भाषा मॉडल की संभावना की खोज

मूल जानकारी

पेपर ID: 2501.01305
शीर्षक: Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case
लेखक: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
वर्गीकरण: cs.CL (कम्प्यूटेशनल और भाषा विज्ञान)
प्रकाशन तिथि: 2 जनवरी 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2501.01305
संस्थान: University of South Carolina AI Institute, Indian Institute of Research and Science, Indian Institute of Technology

सारांश

बड़े भाषा मॉडल (LLMs) निदान मूल्यांकन में सहायता के लिए चिकित्सा पेशेवरों का ध्यान आकर्षित कर रहे हैं, जिससे रोगी के अत्यधिक बोझ और चिकित्सा सेवा प्रदाताओं की कमी के कारण स्वास्थ्य सेवा प्रणाली पर दबाव कम हो सकता है। LLMs को निदान मूल्यांकन में प्रभावी भूमिका निभाने के लिए, उन्हें नैदानिक चिकित्सकों द्वारा उपयोग की जाने वाली मानक निदान प्रक्रियाओं को निकटता से दोहराना होगा। यह पेपर विशेष रूप से रोगी स्वास्थ्य प्रश्नावली-9 (PHQ-9) का अध्ययन करता है जिसका उपयोग प्रमुख अवसादग्रस्तता विकार (MDD) के लिए किया जाता है और सामान्यीकृत चिंता विकार-7 (GAD-7) प्रश्नावली का उपयोग सामान्यीकृत चिंता विकार (GAD) के लिए किया जाता है। अनुसंधान विभिन्न प्रॉम्प्टिंग और फाइन-ट्यूनिंग तकनीकों की खोज करता है ताकि मालिकाना और ओपन-सोर्स LLMs को इन निदान प्रक्रियाओं का पालन करने के लिए निर्देशित किया जा सके, और LLM द्वारा उत्पन्न निदान परिणामों और विशेषज्ञ-सत्यापित सोने के मानक के बीच सहमति का मूल्यांकन किया जा सके।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

स्वास्थ्य सेवा प्रणाली पर दबाव: वर्तमान स्वास्थ्य सेवा प्रणाली रोगी के अत्यधिक बोझ और चिकित्सा सेवा प्रदाताओं की कमी के दोहरे दबाव का सामना कर रही है
मानसिक स्वास्थ्य निदान की आवश्यकता: मानसिक स्वास्थ्य समस्याएं बढ़ रही हैं, जिन्हें मानकीकृत निदान मूल्यांकन उपकरणों की आवश्यकता है
चिकित्सा क्षेत्र में LLMs की संभावना: बड़े भाषा मॉडल प्राकृतिक भाषा प्रसंस्करण कार्यों में उत्कृष्ट प्रदर्शन करते हैं और चिकित्सा संवाद परिदृश्यों में आवेदन की संभावना रखते हैं

अनुसंधान का महत्व

मानकीकृत निदान: PHQ-9 और GAD-7 नैदानिक रूप से व्यापक रूप से उपयोग किए जाने वाले मानकीकृत मूल्यांकन उपकरण हैं
स्वचालन की आवश्यकता: LLMs के माध्यम से निदान मूल्यांकन को स्वचालित करना नैदानिक चिकित्सकों के बोझ को कम कर सकता है
सहमति की आवश्यकता: LLMs को व्यावहारिक अनुप्रयोग के लिए नैदानिक चिकित्सकों की मानक निदान प्रक्रियाओं को दोहराने में सक्षम होना चाहिए

मौजूदा तरीकों की सीमाएं

स्कोरिंग विधि: केवल पाठ प्रासंगिकता स्कोरिंग पर आधारित, गहन समझ की कमी
व्याख्यायोग्य AI विधि: LIME/SHAP जैसे प्रॉक्सी मॉडल का उपयोग, लेकिन नैदानिक व्याख्यायोग्यता सीमित है
पाठ खंड पहचान: विशिष्ट निदान मानदंडों के लिए विशेषज्ञ मार्गदर्शन की कमी

मुख्य योगदान

पहली विशेषज्ञ मॉडल: DiagnosticLlama प्रस्तावित किया गया, जो Llama आर्किटेक्चर पर आधारित निदान मानदंड मूल्यांकन के लिए विशेष रूप से फाइन-ट्यून किया गया पहला मॉडल है
व्यापक मूल्यांकन ढांचा: प्रॉम्प्टिंग और फाइन-ट्यूनिंग दोनों श्रेणियों को कवर करने वाली एक व्यापक मूल्यांकन प्रणाली स्थापित की गई है
उच्च गुणवत्ता वाला डेटासेट: विशेषज्ञ-सत्यापित LLM-एनोटेटेड सिंथेटिक डेटासेट का निर्माण किया गया, जो संबंधित अनुसंधान को बढ़ावा देता है
बहु-मॉडल तुलना: मालिकाना मॉडल (GPT-3.5, GPT-4o) और ओपन-सोर्स मॉडल (Llama-3.1-8b, Mixtral-8x7b) के प्रदर्शन की व्यवस्थित तुलना
मानकीकृत विधि: PHQ-9 और GAD-7 निदान मूल्यांकन के लिए LLMs को लागू करने के लिए मानकीकृत विधि प्रदान करता है

विधि विवरण

कार्य परिभाषा

इनपुट: सोशल मीडिया पोस्ट पाठ (रोगी-नैदानिक चिकित्सक इंटरैक्शन के प्रॉक्सी के रूप में) आउटपुट: PHQ-9/GAD-7 के प्रत्येक लक्षण के लिए पाठ खंड पहचान और लक्षण उपस्थिति निर्धारण बाधाएं: PHQ-9 और GAD-7 की मानक निदान प्रक्रियाओं का कड़ाई से पालन करना चाहिए

मॉडल आर्किटेक्चर

1. प्रॉम्प्टिंग विधि (Prompting Methods)

सरल प्रॉम्प्टिंग: सीधे निर्देशात्मक प्रॉम्प्टिंग
उदाहरण प्रॉम्प्टिंग: कुछ उदाहरणों के साथ few-shot प्रॉम्प्टिंग
निर्देशित प्रॉम्प्टिंग: Chain-of-Thought प्रॉम्प्टिंग जिसमें तर्क चरण मार्गदर्शन शामिल है

2. फाइन-ट्यूनिंग विधि (Fine-tuning Methods)

आधार मॉडल: MentalLlama (105K मानसिक स्वास्थ्य निर्देश डेटा पर प्रशिक्षित)
DiagnosticLlama: PRIMATE डेटासेट पर MentalLlama को फाइन-ट्यून करने के लिए HuggingFace AutoTrain का उपयोग

डेटा प्रसंस्करण प्रवाह

सोने के मानक डेटासेट निर्माण

आधार डेटा: PRIMATE डेटासेट का उपयोग (सोशल मीडिया पोस्ट + PHQ-9 एनोटेशन)
GPT-4o वृद्धि: संबंधित लक्षणों के पाठ खंडों की पहचान के लिए GPT-4o का उपयोग
विशेषज्ञ सत्यापन: तीन नैदानिक विशेषज्ञों द्वारा GPT-4o आउटपुट का सत्यापन (Cohen's Kappa: PHQ-9 के लिए 0.74, GAD-7 के लिए 0.72)
गुणवत्ता नियंत्रण: केवल विशेषज्ञ-सहमत एनोटेशन परिणाम बनाए रखे गए

तकनीकी नवाचार

लक्षण-विशिष्ट मार्गदर्शन: PHQ-9 और GAD-7 के प्रत्येक लक्षण के लिए विशेष प्रॉम्प्ट टेम्पलेट डिज़ाइन किए गए
बहु-स्तरीय मूल्यांकन: hits@k रैंकिंग और मानक वर्गीकरण मेट्रिक्स के दोहरे मूल्यांकन प्रणाली का संयोजन
क्रॉस-मॉडल सामंजस्य: विभिन्न आकार और प्रकार के LLMs पर विधि की प्रभावशीलता का सत्यापन
नैदानिक सत्यापन: नैदानिक प्रासंगिकता सुनिश्चित करने के लिए पेशेवर नैदानिक चिकित्सकों को शामिल किया गया

प्रायोगिक सेटअप

डेटासेट

PRIMATE डेटासेट: सोशल मीडिया पोस्ट और PHQ-9 संबंधित एनोटेशन शामिल
विशेषज्ञ-सत्यापित उप-समूह:
- PHQ-9: 40 GPT-4o एनोटेटेड नमूने विशेषज्ञ द्वारा सत्यापित
- GAD-7: 17 GPT-4o एनोटेटेड नमूने विशेषज्ञ द्वारा सत्यापित
मॉडल एनोटेशन डेटा: कुल 1034 पोस्ट के बहु-मॉडल एनोटेशन परिणाम

मूल्यांकन मेट्रिक्स

hits@k रैंकिंग मेट्रिक्स:
- hits@1: सबसे समान पाठ खंड सोने के मानक के शीर्ष 1 में होने की हिट दर
- hits@5: सबसे समान पाठ खंड सोने के मानक के शीर्ष 5 में होने की हिट दर
मानक वर्गीकरण मेट्रिक्स: सटीकता (Accuracy), परिशुद्धता (Precision), रिकॉल (Recall), F1 स्कोर

तुलना विधियां

मालिकाना मॉडल: GPT-3.5-Turbo, GPT-4o-mini
ओपन-सोर्स मॉडल: Llama-3.1-8b, Mixtral-8x7b
फाइन-ट्यून किए गए मॉडल: MentalLlama, DiagnosticLlama
पारंपरिक विधियां: BERT, MentalBERT, MentalRoBERTa
मशीन लर्निंग विधियां: Logistic Regression, Random Forest, XGBoost

कार्यान्वयन विवरण

कोड-मुक्त फाइन-ट्यूनिंग के लिए HuggingFace AutoTrain का उपयोग
सभी मॉडलों के लिए समान प्रॉम्प्ट संरचना लागू की गई ताकि निष्पक्ष तुलना सुनिश्चित की जा सके
बजट और API सीमाओं के कारण परीक्षण उप-समूह को यादृच्छिक रूप से चुना गया

प्रायोगिक परिणाम

मुख्य परिणाम

PHQ-9 लक्षण एनोटेशन परिणाम

मालिकाना मॉडल प्रदर्शन:

मॉडल	hits@1	hits@5	Accuracy	Precision	Recall	F1-score
GPT-3.5-Turbo	87%	98%	0.93	0.89	0.96	0.92
GPT-4o-mini	89%	99%	0.94	0.96	0.98	0.92

ओपन-सोर्स मॉडल प्रदर्शन:

मॉडल	hits@1	hits@5	Accuracy	Precision	Recall	F1-score
Llama-3.1-8b	83%	88%	0.84	0.86	0.78	0.82
Mixtral-8x7b	92%	99%	0.92	0.96	0.95	0.93

फाइन-ट्यून किए गए मॉडल प्रदर्शन:

मॉडल	hits@1	hits@5	Accuracy	Precision	Recall	F1-score
MentalLlama	-	-	0.82	0.83	0.63	0.75
DiagnosticLlama	68.3%	76.2%	-	-	-	-

GAD-7 लक्षण एनोटेशन परिणाम

GAD-7 के परिणाम PHQ-9 के समान प्रवृत्ति प्रदर्शित करते हैं, मालिकाना और ओपन-सोर्स मॉडल दोनों मानव एनोटेशन गुणवत्ता के करीब हैं।

महत्वपूर्ण निष्कर्ष

मॉडल प्रदर्शन अंतर: नई पीढ़ी के LLMs पुराने संस्करण मॉडल से काफी बेहतर हैं
- Llama2-7b-chat: F1=0.663
- Mistral-instruct: F1=0.655
फाइन-ट्यूनिंग चुनौतियां: पेशेवर निदान कार्यों के लिए LLMs को फाइन-ट्यून करना अत्यंत चुनौतीपूर्ण है
- MentalLlama सीधे इनपुट दोहराता है, फाइन-ट्यूनिंग कॉन्फ़िगरेशन के महत्व को दर्शाता है
- DiagnosticLlama सुधार दिखाता है लेकिन अभी भी अनुकूलन की आवश्यकता है
पारंपरिक विधि तुलना:
- BERT: F1=0.69
- MentalBERT: F1=0.71
- MentalRoBERTa: F1=0.48
- पारंपरिक ML विधियां खराब प्रदर्शन करती हैं (उच्चतम XGBoost: F1=0.65)

केस विश्लेषण

पेपर ठोस उदाहरणों के माध्यम से दिखाता है कि मॉडल पाठ में PHQ-9 लक्षणों के अनुरूप खंडों की पहचान कैसे करते हैं, उदाहरण के लिए "I thought I set myself up for success. Now I believe I was dead wrong for joining" को "स्वयं को विफल मानना" लक्षण के रूप में पहचानना।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

Few-shot लर्निंग प्रभावी: LLMs few-shot सेटिंग में विशेषज्ञ नैदानिक चिकित्सकों के मूल्यांकन गुणवत्ता के करीब हो सकते हैं
तर्क अंतर: परिणाम करीब होने के बावजूद, LLMs की तर्क प्रक्रिया नैदानिक चिकित्सकों से काफी भिन्न है
फाइन-ट्यूनिंग चुनौतियां: मानसिक स्वास्थ्य निदान सहायता के लिए LLMs को फाइन-ट्यून करना अभी भी प्रमुख तकनीकी चुनौतियों का सामना कर रहा है
व्यावहारिक संभावना: अनुसंधान स्वास्थ्य सेवा प्रणाली के दबाव को कम करने के लिए एक आशाजनक दिशा प्रदान करता है

सीमाएं

तर्क सामंजस्य: LLMs और नैदानिक चिकित्सकों की तर्क प्रक्रिया मिलान की सीमित डिग्री
डेटा आकार: विशेषज्ञ-सत्यापित सोने के मानक डेटासेट का आकार अपेक्षाकृत छोटा है
बजट सीमा: API लागत बड़े पैमाने पर प्रायोगिक सत्यापन को सीमित करती है
फाइन-ट्यूनिंग जटिलता: फाइन-ट्यूनिंग को बड़े संसाधनों और हाइपरपैरामीटर ट्यूनिंग की आवश्यकता है

भविष्य की दिशाएं

नैदानिक अनुप्रयोग: नैदानिक चिकित्सकों के लिए अनुप्रयोग प्रोग्राम विकसित करना
विस्तारित मूल्यांकन: DiagnosticLlama को GAD-7 तक विस्तारित करना, डेटासेट आकार बढ़ाना
जटिल प्रश्नावली: गैर-रैखिक संरचित प्रश्नावली (जैसे CSSRS) का समर्थन करना
सुरक्षा बाधाएं: सुरक्षा सुनिश्चित करने के लिए शब्दावली प्रतिबंध और आउटपुट पुनर्लेखन को एकीकृत करना

गहन मूल्यांकन

शक्तियां

मजबूत नैदानिक प्रासंगिकता: नैदानिक रूप से व्यापक रूप से उपयोग किए जाने वाले मानकीकृत मूल्यांकन उपकरणों को सीधे लक्षित करता है
व्यापक विधि: प्रॉम्प्टिंग और फाइन-ट्यूनिंग दोनों मुख्य विधियों को कवर करता है
कठोर मूल्यांकन: पेशेवर नैदानिक चिकित्सकों को शामिल करता है, परिणाम विश्वसनीयता सुनिश्चित करता है
ओपन-सोर्स योगदान: समुदाय उपयोग के लिए मॉडल और डेटासेट प्रदान करता है
पर्याप्त प्रयोग: बहु-मॉडल, बहु-मेट्रिक व्यवस्थित तुलना

कमियां

डेटासेट आकार: विशेषज्ञ-सत्यापित डेटासेट अपेक्षाकृत छोटा है, निष्कर्षों की सामान्यीकरण क्षमता को प्रभावित कर सकता है
डोमेन सीमा: केवल अवसाद और चिंता दो रोगों को लक्षित करता है, कवरेज सीमित है
तर्क विश्लेषण: LLMs की तर्क प्रक्रिया और नैदानिक चिकित्सकों के अंतर का विश्लेषण पर्याप्त गहराई में नहीं है
लागत विचार: वास्तविक तैनाती की लागत-प्रभावशीलता विश्लेषण अनुपस्थित है
नैतिकता चर्चा: AI-सहायक मानसिक स्वास्थ्य निदान की नैतिक समस्याओं पर चर्चा अपर्याप्त है

प्रभाव

शैक्षणिक मूल्य: मानसिक स्वास्थ्य क्षेत्र में LLMs के अनुप्रयोग के लिए महत्वपूर्ण संदर्भ प्रदान करता है
व्यावहारिक मूल्य: चिकित्सा संस्थानों को AI-सहायक निदान प्रणाली तैनात करने के लिए तकनीकी आधार प्रदान करता है
सामाजिक महत्व: मानसिक स्वास्थ्य सेवा संसाधन की कमी की समस्या को कम करने की संभावना रखता है
पुनरुत्पादनशीलता: ओपन-सोर्स कोड और डेटासेट अनुसंधान पुनरुत्पादन और विस्तार का समर्थन करते हैं

लागू परिदृश्य

प्रारंभिक स्क्रीनिंग: बड़े पैमाने पर मानसिक स्वास्थ्य प्रारंभिक स्क्रीनिंग के लिए उपयुक्त
सहायक निदान: नैदानिक चिकित्सकों के लिए सहायक उपकरण के रूप में, प्रतिस्थापन नहीं
दूरस्थ चिकित्सा: दूरस्थ मानसिक स्वास्थ्य सेवा का समर्थन करता है
अनुसंधान उपकरण: मानसिक स्वास्थ्य अनुसंधान के लिए स्वचालित विश्लेषण उपकरण प्रदान करता है

संदर्भ

पेपर 29 संबंधित संदर्भों का हवाला देता है, जो LLMs, मानसिक स्वास्थ्य मूल्यांकन, प्रॉम्प्ट इंजीनियरिंग, फाइन-ट्यूनिंग तकनीकों और अन्य कई संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।

समग्र मूल्यांकन: यह LLMs को मानसिक स्वास्थ्य निदान क्षेत्र में लागू करने का एक महत्वपूर्ण अन्वेषणात्मक कार्य है। पेपर की विधि वैज्ञानिक है, प्रयोग पर्याप्त हैं, निष्कर्ष विश्वसनीय हैं, और इस अंतःविषय क्षेत्र के विकास में मूल्यवान योगदान दिया है। हालांकि कुछ सीमाएं हैं, लेकिन इसका अग्रणी महत्व और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण संदर्भ दस्तावेज़ बनाता है।