2025-11-17T04:19:13.460591

Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case

Roy, Surana, Eswaramoorthi et al.

Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.

academic

نماذج اللغة الكبيرة لتقييمات التشخيص النفسي: استكشاف إمكانات نماذج اللغة الكبيرة في المساعدة في تقييمات التشخيص النفسي -- حالة الاكتئاب والقلق

المعلومات الأساسية

معرّف الورقة: 2501.01305
العنوان: نماذج اللغة الكبيرة لتقييمات التشخيص النفسي: استكشاف إمكانات نماذج اللغة الكبيرة في المساعدة في تقييمات التشخيص النفسي -- حالة الاكتئاب والقلق
المؤلفون: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
التصنيف: cs.CL (الحوسبة واللغة)
تاريخ النشر: 2 يناير 2025 (ورقة arXiv التمهيدية)
رابط الورقة: https://arxiv.org/abs/2501.01305
المؤسسات: معهد جامعة جنوب كارولينا للذكاء الاصطناعي، المعهد الهندي للبحث والعلوم، معهد الهند للتكنولوجيا

الملخص

تحظى نماذج اللغة الكبيرة (LLMs) باهتمام متزايد من قبل المتخصصين الطبيين في المساعدة في التقييمات التشخيصية، مع وعود بتخفيف الضغط على الأنظمة الصحية الناجم عن الإرهاق من المرضى ونقص مقدمي الخدمات الطبية. لكي تؤدي نماذج اللغة الكبيرة دوراً فعالاً في دعم التقييمات التشخيصية، يجب أن تكون قادرة على محاكاة الإجراءات التشخيصية القياسية التي يستخدمها الأطباء السريريون بشكل وثيق. تركز هذه الورقة بشكل خاص على دراسة عملية التقييم التشخيصي باستخدام استبيان صحة المريض-9 (PHQ-9) لاضطراب الاكتئاب الشديد (MDD) واستبيان اضطراب القلق العام-7 (GAD-7) لاضطراب القلق العام (GAD). تستكشف الدراسة تقنيات مختلفة للمطالبات والضبط الدقيق لتوجيه نماذج اللغة الكبيرة الملكية والمفتوحة المصدر لاتباع هذه الإجراءات التشخيصية، وتقيّم الاتساق بين النتائج التشخيصية التي تولدها نماذج اللغة الكبيرة والمعايير الذهبية التي تم التحقق منها من قبل الخبراء.

خلفية البحث والدافع

خلفية المشكلة

الضغط على النظام الصحي: يواجه النظام الصحي الحالي ضغطاً مزدوجاً من الإرهاق من المرضى ونقص مقدمي الخدمات الطبية
الحاجة إلى التشخيص النفسي: تتزايد مشاكل الصحة النفسية، مما يتطلب أدوات تقييم تشخيصية موحدة
إمكانات نماذج اللغة الكبيرة في المجال الطبي: أظهرت نماذج اللغة الكبيرة أداءً متفوقاً في مهام معالجة اللغات الطبيعية، مع إمكانات تطبيق في سيناريوهات الحوار الطبي

أهمية البحث

التشخيص الموحد: PHQ-9 و GAD-7 هما أدوات تقييم موحدة مستخدمة على نطاق واسع سريرياً
الحاجة إلى الأتمتة: يمكن لأتمتة التقييمات التشخيصية من خلال نماذج اللغة الكبيرة أن تخفف من عبء العمل على الأطباء السريريين
متطلبات الاتساق: يجب أن تكون نماذج اللغة الكبيرة قادرة على محاكاة الإجراءات التشخيصية القياسية للأطباء لتطبيق عملي فعلي

حدود الطرق الموجودة

طرق التصنيف: تعتمد فقط على تصنيف الصلة النصية، تفتقر إلى الفهم العميق
طرق الذكاء الاصطناعي القابل للتفسير: استخدام نماذج بديلة مثل LIME/SHAP، لكن القابلية للتفسير السريري محدودة
تحديد الأجزاء النصية: تفتقر إلى التوجيه المتخصص للمعايير التشخيصية المحددة

المساهمات الأساسية

نموذج متخصص رائد: تقديم DiagnosticLlama، أول نموذج مضبوط بدقة بناءً على معمارية Llama مخصص بشكل خاص لتقييم المعايير التشخيصية
إطار عمل تقييم شامل: إنشاء نظام تقييم شامل يغطي فئتي المطالبات والضبط الدقيق
مجموعة بيانات عالية الجودة: بناء مجموعة بيانات اصطناعية معلّمة من قبل نماذج اللغة الكبيرة تم التحقق منها من قبل الخبراء، لتعزيز البحث ذي الصلة
مقارنة متعددة النماذج: مقارنة منهجية لأداء النماذج الملكية (GPT-3.5, GPT-4o) والنماذج مفتوحة المصدر (Llama-3.1-8b, Mixtral-8x7b)
طريقة موحدة: توفير طريقة موحدة لتطبيق نماذج اللغة الكبيرة على التقييمات التشخيصية PHQ-9 و GAD-7

شرح الطريقة

تعريف المهمة

الإدخال: نصوص منشورات وسائل التواصل الاجتماعي (كبديل للتفاعل بين المريض والطبيب السريري) الإخراج: تحديد الأجزاء النصية لكل عنصر من PHQ-9/GAD-7 والحكم على وجود الأعراض القيود: يجب اتباع الإجراءات التشخيصية القياسية لـ PHQ-9 و GAD-7 بصرامة

معمارية النموذج

1. طرق المطالبات (Prompting Methods)

المطالبة البسيطة: تعليمات مباشرة
مطالبة العينات: مطالبات few-shot توفر عدداً قليلاً من الأمثلة
المطالبة الموجهة: مطالبات Chain-of-Thought التي تتضمن خطوات توجيهية للاستدلال

2. طرق الضبط الدقيق (Fine-tuning Methods)

النموذج الأساسي: MentalLlama (مدرب على 105K من بيانات التعليمات الصحية النفسية)
DiagnosticLlama: ضبط دقيق لـ MentalLlama باستخدام HuggingFace AutoTrain على مجموعة بيانات PRIMATE

سير العمل في معالجة البيانات

إنشاء مجموعة بيانات المعايير الذهبية

البيانات الأساسية: استخدام مجموعة بيانات PRIMATE (منشورات وسائل التواصل الاجتماعي + تعليقات PHQ-9)
التحسين بـ GPT-4o: استخدام GPT-4o لتحديد الأجزاء النصية المقابلة للأعراض
التحقق من قبل الخبراء: التحقق من مخرجات GPT-4o من قبل ثلاثة خبراء سريريين (Cohen's Kappa: 0.74 لـ PHQ-9، 0.72 لـ GAD-7)
مراقبة الجودة: الاحتفاظ فقط بنتائج التعليقات المعتمدة بإجماع الخبراء

نقاط الابتكار التقني

التوجيه الخاص بالأعراض: قوالب مطالبات متخصصة مصممة لكل عرض من أعراض PHQ-9 و GAD-7
التقييم متعدد المستويات: نظام تقييم ثنائي يجمع بين ترتيب hits@k والمقاييس التصنيفية القياسية
الاتساق عبر النماذج: التحقق من فعالية الطريقة على نماذج لغة كبيرة متعددة بأحجام وأنواع مختلفة
التحقق السريري: إدراج أطباء سريريين محترفين للتحقق من الجودة، مما يضمن الملاءمة السريرية

إعداد التجربة

مجموعات البيانات

مجموعة بيانات PRIMATE: تحتوي على منشورات وسائل التواصل الاجتماعي والتعليقات ذات الصلة بـ PHQ-9
المجموعة الفرعية المحققة من قبل الخبراء:
- PHQ-9: 40 عينة معلّمة من قبل GPT-4o تم التحقق منها من قبل الخبراء
- GAD-7: 17 عينة معلّمة من قبل GPT-4o تم التحقق منها من قبل الخبراء
بيانات التعليقات النموذجية: نتائج تعليقات متعددة النماذج لإجمالي 1034 منشور

مقاييس التقييم

مقاييس ترتيب hits@k:
- hits@1: معدل الضرب عندما يكون الجزء النصي الأكثر تشابهاً في المرتبة الأولى من المعيار الذهبي
- hits@5: معدل الضرب عندما يكون الجزء النصي الأكثر تشابهاً في أفضل 5 مراتب من المعيار الذهبي
مقاييس التصنيف القياسية: الدقة (Accuracy)، الدقة (Precision)، الاستدعاء (Recall)، درجة F1

طرق المقارنة

النماذج الملكية: GPT-3.5-Turbo, GPT-4o-mini
النماذج مفتوحة المصدر: Llama-3.1-8b, Mixtral-8x7b
النماذج المضبوطة بدقة: MentalLlama, DiagnosticLlama
الطرق التقليدية: BERT, MentalBERT, MentalRoBERTa
طرق التعلم الآلي: الانحدار اللوجستي، الغابات العشوائية، XGBoost

تفاصيل التنفيذ

استخدام HuggingFace AutoTrain للضبط الدقيق بدون كود
تطبيق نفس هيكل المطالبة على جميع النماذج لضمان المقارنة العادلة
اختيار عينة اختبار عشوائية بسبب قيود الميزانية وواجهات برمجة التطبيقات

نتائج التجربة

النتائج الرئيسية

نتائج تعليقات أعراض PHQ-9

أداء النماذج الملكية:

النموذج	hits@1	hits@5	الدقة	الدقة	الاستدعاء	درجة F1
GPT-3.5-Turbo	87%	98%	0.93	0.89	0.96	0.92
GPT-4o-mini	89%	99%	0.94	0.96	0.98	0.92

أداء النماذج مفتوحة المصدر:

النموذج	hits@1	hits@5	الدقة	الدقة	الاستدعاء	درجة F1
Llama-3.1-8b	83%	88%	0.84	0.86	0.78	0.82
Mixtral-8x7b	92%	99%	0.92	0.96	0.95	0.93

أداء النماذج المضبوطة بدقة:

النموذج	hits@1	hits@5	الدقة	الدقة	الاستدعاء	درجة F1
MentalLlama	-	-	0.82	0.83	0.63	0.75
DiagnosticLlama	68.3%	76.2%	-	-	-	-

نتائج تعليقات أعراض GAD-7

تُظهر نتائج GAD-7 اتجاهاً مشابهاً لـ PHQ-9، حيث تقترب النماذج الملكية والمفتوحة المصدر من جودة التعليقات البشرية.

النتائج المهمة

الاختلافات في أداء النموذج: تتفوق نماذج اللغة الكبيرة من الجيل الجديد بشكل كبير على النماذج الأقدم
- Llama2-7b-chat: F1=0.663
- Mistral-instruct: F1=0.655
تحديات الضبط الدقيق: يعتبر الضبط الدقيق لنماذج اللغة الكبيرة لمهام التشخيص المتخصصة أمراً بالغ الصعوبة
- MentalLlama يكرر الإدخال مباشرة، مما يدل على أهمية إعدادات الضبط الدقيق
- يُظهر DiagnosticLlama تحسناً لكن لا يزال يحتاج إلى تحسين
مقارنة الطرق التقليدية:
- BERT: F1=0.69
- MentalBERT: F1=0.71
- MentalRoBERTa: F1=0.48
- تُظهر طرق التعلم الآلي التقليدية أداءً أسوأ (أعلى XGBoost: F1=0.65)

تحليل الحالات

توضح الورقة من خلال أمثلة محددة كيف يقوم النموذج بتحديد الأجزاء النصية المقابلة لأعراض PHQ-9 في النص، على سبيل المثال تحديد "I thought I set myself up for success. Now I believe I was dead wrong for joining" المقابل لعرض "الشعور بأنني فاشل".

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

طرق التصنيف: ترتيب تصنيف النصوص بناءً على الصلة بأعراض PHQ-9/GAD-7
طرق الذكاء الاصطناعي القابل للتفسير: استخدام تقنيات LIME/SHAP لتفسير مخرجات نموذج BERT سريرياً
تحديد الأجزاء النصية: التنبؤ والتلخيص للأجزاء النصية، والمقارنة مع التعليقات اليدوية

مزايا هذه الورقة

التوجيه المتخصص: توجيه مخرجات نموذج متخصص للغاية، موجه نحو معايير تشخيصية محددة
الريادة: أول نموذج ضبط دقيق متخصص في التشخيص بناءً على معمارية Llama
النهج المنهجي: توفير مقارنة منهجية لطرق المطالبات والضبط الدقيق

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية التعلم القليل من الأمثلة: يمكن لنماذج اللغة الكبيرة أن تقترب من جودة التقييم لدى الأطباء السريريين المتخصصين في إعدادات few-shot
اختلافات الاستدلال: على الرغم من أن النتائج قريبة، فإن عملية الاستدلال في نماذج اللغة الكبيرة تختلف بشكل كبير عن الأطباء السريريين
تحديات الضبط الدقيق: لا يزال الضبط الدقيق لنماذج اللغة الكبيرة لمساعدة التشخيص النفسي يواجه تحديات تقنية كبيرة
الإمكانات العملية: يوفر البحث اتجاهاً واعداً لتخفيف الضغط على النظام الصحي

القيود

اتساق الاستدلال: تطابق محدود بين عملية الاستدلال في نماذج اللغة الكبيرة والأطباء السريريين
حجم البيانات: حجم مجموعة البيانات الذهبية المحققة من قبل الخبراء نسبياً صغير
قيود الميزانية: تحد تكاليف واجهات برمجة التطبيقات من التحقق التجريبي على نطاق واسع
تعقيد الضبط الدقيق: يتطلب الضبط الدقيق موارد كبيرة وضبط المعاملات الفائقة

الاتجاهات المستقبلية

التطبيقات السريرية: تطوير تطبيقات موجهة للأطباء السريريين
التقييم الموسع: توسيع نطاق DiagnosticLlama ليشمل GAD-7، وزيادة حجم مجموعة البيانات
الاستبيانات المعقدة: دعم الاستبيانات ذات الهياكل غير الخطية (مثل CSSRS)
قيود السلامة: دمج تقييد المصطلحات وإعادة الكتابة الناتجة لضمان السلامة

التقييم المتعمق

المزايا

الملاءمة السريرية القوية: موجهة مباشرة نحو أدوات التقييم الموحدة المستخدمة على نطاق واسع سريرياً
شمول الطريقة: يغطي طرق المطالبات والضبط الدقيق الرئيسية
صرامة التقييم: إدراج أطباء سريريين محترفين للتحقق، مما يضمن موثوقية النتائج
المساهمة مفتوحة المصدر: توفير النماذج ومجموعات البيانات لاستخدام المجتمع
التجارب الشاملة: مقارنة منهجية متعددة النماذج والمقاييس

أوجه القصور

حجم مجموعة البيانات: مجموعة البيانات الذهبية المحققة من قبل الخبراء نسبياً صغيرة، قد تؤثر على قابلية تعميم الاستنتاجات
حدود المجال: موجهة فقط نحو مرضين (الاكتئاب والقلق)، التغطية محدودة
تحليل الاستدلال: تحليل غير كافٍ للاختلافات بين عملية الاستدلال في نماذج اللغة الكبيرة والأطباء السريريين
اعتبارات التكلفة: تحليل تكلفة-فائدة مفقود للنشر الفعلي
المناقشة الأخلاقية: نقاش غير كافٍ للمشاكل الأخلاقية المتعلقة بالتشخيص النفسي بمساعدة الذكاء الاصطناعي

التأثير

القيمة الأكاديمية: توفير مرجع مهم لتطبيق نماذج اللغة الكبيرة في مجال الصحة النفسية
القيمة العملية: توفير أساس تقني لمؤسسات الرعاية الصحية لنشر أنظمة التشخيص بمساعدة الذكاء الاصطناعي
الأهمية الاجتماعية: قد يساعد في تخفيف مشكلة نقص موارد خدمات الصحة النفسية
قابلية التكرار: يدعم الكود مفتوح المصدر ومجموعات البيانات تكرار البحث والتوسع

السيناريوهات المطبقة

الفحص الأولي: مناسب للفحص الأولي على نطاق واسع للصحة النفسية
التشخيص المساعد: كأداة مساعدة للأطباء السريريين وليس بديلاً
الطب عن بعد: دعم خدمات الصحة النفسية عن بعد
أداة البحث: توفير أداة تحليل آلية لبحث الصحة النفسية

المراجع

تستشهد الورقة بـ 29 مرجعاً ذا صلة، تغطي نماذج اللغة الكبيرة وتقييمات الصحة النفسية وهندسة المطالبات وتقنيات الضبط الدقيق وغيرها من المجالات ذات الصلة، مما يوفر أساساً نظرياً متيناً للبحث.

التقييم الإجمالي: هذه ورقة استكشافية مهمة في تطبيق نماذج اللغة الكبيرة في مجال التشخيص النفسي. الطريقة علمية، والتجارب شاملة، والاستنتاجات موثوقة، مما يساهم بقيمة في تطور هذا المجال متعدد التخصصات. على الرغم من وجود بعض القيود، فإن أهميتها الرائدة وقيمتها العملية تجعلها مرجعاً مهماً في هذا المجال.