Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.
- معرّف الورقة: 2501.01305
- العنوان: نماذج اللغة الكبيرة لتقييمات التشخيص النفسي: استكشاف إمكانات نماذج اللغة الكبيرة في المساعدة في تقييمات التشخيص النفسي -- حالة الاكتئاب والقلق
- المؤلفون: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
- التصنيف: cs.CL (الحوسبة واللغة)
- تاريخ النشر: 2 يناير 2025 (ورقة arXiv التمهيدية)
- رابط الورقة: https://arxiv.org/abs/2501.01305
- المؤسسات: معهد جامعة جنوب كارولينا للذكاء الاصطناعي، المعهد الهندي للبحث والعلوم، معهد الهند للتكنولوجيا
تحظى نماذج اللغة الكبيرة (LLMs) باهتمام متزايد من قبل المتخصصين الطبيين في المساعدة في التقييمات التشخيصية، مع وعود بتخفيف الضغط على الأنظمة الصحية الناجم عن الإرهاق من المرضى ونقص مقدمي الخدمات الطبية. لكي تؤدي نماذج اللغة الكبيرة دوراً فعالاً في دعم التقييمات التشخيصية، يجب أن تكون قادرة على محاكاة الإجراءات التشخيصية القياسية التي يستخدمها الأطباء السريريون بشكل وثيق. تركز هذه الورقة بشكل خاص على دراسة عملية التقييم التشخيصي باستخدام استبيان صحة المريض-9 (PHQ-9) لاضطراب الاكتئاب الشديد (MDD) واستبيان اضطراب القلق العام-7 (GAD-7) لاضطراب القلق العام (GAD). تستكشف الدراسة تقنيات مختلفة للمطالبات والضبط الدقيق لتوجيه نماذج اللغة الكبيرة الملكية والمفتوحة المصدر لاتباع هذه الإجراءات التشخيصية، وتقيّم الاتساق بين النتائج التشخيصية التي تولدها نماذج اللغة الكبيرة والمعايير الذهبية التي تم التحقق منها من قبل الخبراء.
- الضغط على النظام الصحي: يواجه النظام الصحي الحالي ضغطاً مزدوجاً من الإرهاق من المرضى ونقص مقدمي الخدمات الطبية
- الحاجة إلى التشخيص النفسي: تتزايد مشاكل الصحة النفسية، مما يتطلب أدوات تقييم تشخيصية موحدة
- إمكانات نماذج اللغة الكبيرة في المجال الطبي: أظهرت نماذج اللغة الكبيرة أداءً متفوقاً في مهام معالجة اللغات الطبيعية، مع إمكانات تطبيق في سيناريوهات الحوار الطبي
- التشخيص الموحد: PHQ-9 و GAD-7 هما أدوات تقييم موحدة مستخدمة على نطاق واسع سريرياً
- الحاجة إلى الأتمتة: يمكن لأتمتة التقييمات التشخيصية من خلال نماذج اللغة الكبيرة أن تخفف من عبء العمل على الأطباء السريريين
- متطلبات الاتساق: يجب أن تكون نماذج اللغة الكبيرة قادرة على محاكاة الإجراءات التشخيصية القياسية للأطباء لتطبيق عملي فعلي
- طرق التصنيف: تعتمد فقط على تصنيف الصلة النصية، تفتقر إلى الفهم العميق
- طرق الذكاء الاصطناعي القابل للتفسير: استخدام نماذج بديلة مثل LIME/SHAP، لكن القابلية للتفسير السريري محدودة
- تحديد الأجزاء النصية: تفتقر إلى التوجيه المتخصص للمعايير التشخيصية المحددة
- نموذج متخصص رائد: تقديم DiagnosticLlama، أول نموذج مضبوط بدقة بناءً على معمارية Llama مخصص بشكل خاص لتقييم المعايير التشخيصية
- إطار عمل تقييم شامل: إنشاء نظام تقييم شامل يغطي فئتي المطالبات والضبط الدقيق
- مجموعة بيانات عالية الجودة: بناء مجموعة بيانات اصطناعية معلّمة من قبل نماذج اللغة الكبيرة تم التحقق منها من قبل الخبراء، لتعزيز البحث ذي الصلة
- مقارنة متعددة النماذج: مقارنة منهجية لأداء النماذج الملكية (GPT-3.5, GPT-4o) والنماذج مفتوحة المصدر (Llama-3.1-8b, Mixtral-8x7b)
- طريقة موحدة: توفير طريقة موحدة لتطبيق نماذج اللغة الكبيرة على التقييمات التشخيصية PHQ-9 و GAD-7
الإدخال: نصوص منشورات وسائل التواصل الاجتماعي (كبديل للتفاعل بين المريض والطبيب السريري)
الإخراج: تحديد الأجزاء النصية لكل عنصر من PHQ-9/GAD-7 والحكم على وجود الأعراض
القيود: يجب اتباع الإجراءات التشخيصية القياسية لـ PHQ-9 و GAD-7 بصرامة
- المطالبة البسيطة: تعليمات مباشرة
- مطالبة العينات: مطالبات few-shot توفر عدداً قليلاً من الأمثلة
- المطالبة الموجهة: مطالبات Chain-of-Thought التي تتضمن خطوات توجيهية للاستدلال
- النموذج الأساسي: MentalLlama (مدرب على 105K من بيانات التعليمات الصحية النفسية)
- DiagnosticLlama: ضبط دقيق لـ MentalLlama باستخدام HuggingFace AutoTrain على مجموعة بيانات PRIMATE
- البيانات الأساسية: استخدام مجموعة بيانات PRIMATE (منشورات وسائل التواصل الاجتماعي + تعليقات PHQ-9)
- التحسين بـ GPT-4o: استخدام GPT-4o لتحديد الأجزاء النصية المقابلة للأعراض
- التحقق من قبل الخبراء: التحقق من مخرجات GPT-4o من قبل ثلاثة خبراء سريريين (Cohen's Kappa: 0.74 لـ PHQ-9، 0.72 لـ GAD-7)
- مراقبة الجودة: الاحتفاظ فقط بنتائج التعليقات المعتمدة بإجماع الخبراء
- التوجيه الخاص بالأعراض: قوالب مطالبات متخصصة مصممة لكل عرض من أعراض PHQ-9 و GAD-7
- التقييم متعدد المستويات: نظام تقييم ثنائي يجمع بين ترتيب hits@k والمقاييس التصنيفية القياسية
- الاتساق عبر النماذج: التحقق من فعالية الطريقة على نماذج لغة كبيرة متعددة بأحجام وأنواع مختلفة
- التحقق السريري: إدراج أطباء سريريين محترفين للتحقق من الجودة، مما يضمن الملاءمة السريرية
- مجموعة بيانات PRIMATE: تحتوي على منشورات وسائل التواصل الاجتماعي والتعليقات ذات الصلة بـ PHQ-9
- المجموعة الفرعية المحققة من قبل الخبراء:
- PHQ-9: 40 عينة معلّمة من قبل GPT-4o تم التحقق منها من قبل الخبراء
- GAD-7: 17 عينة معلّمة من قبل GPT-4o تم التحقق منها من قبل الخبراء
- بيانات التعليقات النموذجية: نتائج تعليقات متعددة النماذج لإجمالي 1034 منشور
- مقاييس ترتيب hits@k:
- hits@1: معدل الضرب عندما يكون الجزء النصي الأكثر تشابهاً في المرتبة الأولى من المعيار الذهبي
- hits@5: معدل الضرب عندما يكون الجزء النصي الأكثر تشابهاً في أفضل 5 مراتب من المعيار الذهبي
- مقاييس التصنيف القياسية: الدقة (Accuracy)، الدقة (Precision)، الاستدعاء (Recall)، درجة F1
- النماذج الملكية: GPT-3.5-Turbo, GPT-4o-mini
- النماذج مفتوحة المصدر: Llama-3.1-8b, Mixtral-8x7b
- النماذج المضبوطة بدقة: MentalLlama, DiagnosticLlama
- الطرق التقليدية: BERT, MentalBERT, MentalRoBERTa
- طرق التعلم الآلي: الانحدار اللوجستي، الغابات العشوائية، XGBoost
- استخدام HuggingFace AutoTrain للضبط الدقيق بدون كود
- تطبيق نفس هيكل المطالبة على جميع النماذج لضمان المقارنة العادلة
- اختيار عينة اختبار عشوائية بسبب قيود الميزانية وواجهات برمجة التطبيقات
أداء النماذج الملكية:
| النموذج | hits@1 | hits@5 | الدقة | الدقة | الاستدعاء | درجة F1 |
|---|
| GPT-3.5-Turbo | 87% | 98% | 0.93 | 0.89 | 0.96 | 0.92 |
| GPT-4o-mini | 89% | 99% | 0.94 | 0.96 | 0.98 | 0.92 |
أداء النماذج مفتوحة المصدر:
| النموذج | hits@1 | hits@5 | الدقة | الدقة | الاستدعاء | درجة F1 |
|---|
| Llama-3.1-8b | 83% | 88% | 0.84 | 0.86 | 0.78 | 0.82 |
| Mixtral-8x7b | 92% | 99% | 0.92 | 0.96 | 0.95 | 0.93 |
أداء النماذج المضبوطة بدقة:
| النموذج | hits@1 | hits@5 | الدقة | الدقة | الاستدعاء | درجة F1 |
|---|
| MentalLlama | - | - | 0.82 | 0.83 | 0.63 | 0.75 |
| DiagnosticLlama | 68.3% | 76.2% | - | - | - | - |
تُظهر نتائج GAD-7 اتجاهاً مشابهاً لـ PHQ-9، حيث تقترب النماذج الملكية والمفتوحة المصدر من جودة التعليقات البشرية.
- الاختلافات في أداء النموذج: تتفوق نماذج اللغة الكبيرة من الجيل الجديد بشكل كبير على النماذج الأقدم
- Llama2-7b-chat: F1=0.663
- Mistral-instruct: F1=0.655
- تحديات الضبط الدقيق: يعتبر الضبط الدقيق لنماذج اللغة الكبيرة لمهام التشخيص المتخصصة أمراً بالغ الصعوبة
- MentalLlama يكرر الإدخال مباشرة، مما يدل على أهمية إعدادات الضبط الدقيق
- يُظهر DiagnosticLlama تحسناً لكن لا يزال يحتاج إلى تحسين
- مقارنة الطرق التقليدية:
- BERT: F1=0.69
- MentalBERT: F1=0.71
- MentalRoBERTa: F1=0.48
- تُظهر طرق التعلم الآلي التقليدية أداءً أسوأ (أعلى XGBoost: F1=0.65)
توضح الورقة من خلال أمثلة محددة كيف يقوم النموذج بتحديد الأجزاء النصية المقابلة لأعراض PHQ-9 في النص، على سبيل المثال تحديد "I thought I set myself up for success. Now I believe I was dead wrong for joining" المقابل لعرض "الشعور بأنني فاشل".
- طرق التصنيف: ترتيب تصنيف النصوص بناءً على الصلة بأعراض PHQ-9/GAD-7
- طرق الذكاء الاصطناعي القابل للتفسير: استخدام تقنيات LIME/SHAP لتفسير مخرجات نموذج BERT سريرياً
- تحديد الأجزاء النصية: التنبؤ والتلخيص للأجزاء النصية، والمقارنة مع التعليقات اليدوية
- التوجيه المتخصص: توجيه مخرجات نموذج متخصص للغاية، موجه نحو معايير تشخيصية محددة
- الريادة: أول نموذج ضبط دقيق متخصص في التشخيص بناءً على معمارية Llama
- النهج المنهجي: توفير مقارنة منهجية لطرق المطالبات والضبط الدقيق
- فعالية التعلم القليل من الأمثلة: يمكن لنماذج اللغة الكبيرة أن تقترب من جودة التقييم لدى الأطباء السريريين المتخصصين في إعدادات few-shot
- اختلافات الاستدلال: على الرغم من أن النتائج قريبة، فإن عملية الاستدلال في نماذج اللغة الكبيرة تختلف بشكل كبير عن الأطباء السريريين
- تحديات الضبط الدقيق: لا يزال الضبط الدقيق لنماذج اللغة الكبيرة لمساعدة التشخيص النفسي يواجه تحديات تقنية كبيرة
- الإمكانات العملية: يوفر البحث اتجاهاً واعداً لتخفيف الضغط على النظام الصحي
- اتساق الاستدلال: تطابق محدود بين عملية الاستدلال في نماذج اللغة الكبيرة والأطباء السريريين
- حجم البيانات: حجم مجموعة البيانات الذهبية المحققة من قبل الخبراء نسبياً صغير
- قيود الميزانية: تحد تكاليف واجهات برمجة التطبيقات من التحقق التجريبي على نطاق واسع
- تعقيد الضبط الدقيق: يتطلب الضبط الدقيق موارد كبيرة وضبط المعاملات الفائقة
- التطبيقات السريرية: تطوير تطبيقات موجهة للأطباء السريريين
- التقييم الموسع: توسيع نطاق DiagnosticLlama ليشمل GAD-7، وزيادة حجم مجموعة البيانات
- الاستبيانات المعقدة: دعم الاستبيانات ذات الهياكل غير الخطية (مثل CSSRS)
- قيود السلامة: دمج تقييد المصطلحات وإعادة الكتابة الناتجة لضمان السلامة
- الملاءمة السريرية القوية: موجهة مباشرة نحو أدوات التقييم الموحدة المستخدمة على نطاق واسع سريرياً
- شمول الطريقة: يغطي طرق المطالبات والضبط الدقيق الرئيسية
- صرامة التقييم: إدراج أطباء سريريين محترفين للتحقق، مما يضمن موثوقية النتائج
- المساهمة مفتوحة المصدر: توفير النماذج ومجموعات البيانات لاستخدام المجتمع
- التجارب الشاملة: مقارنة منهجية متعددة النماذج والمقاييس
- حجم مجموعة البيانات: مجموعة البيانات الذهبية المحققة من قبل الخبراء نسبياً صغيرة، قد تؤثر على قابلية تعميم الاستنتاجات
- حدود المجال: موجهة فقط نحو مرضين (الاكتئاب والقلق)، التغطية محدودة
- تحليل الاستدلال: تحليل غير كافٍ للاختلافات بين عملية الاستدلال في نماذج اللغة الكبيرة والأطباء السريريين
- اعتبارات التكلفة: تحليل تكلفة-فائدة مفقود للنشر الفعلي
- المناقشة الأخلاقية: نقاش غير كافٍ للمشاكل الأخلاقية المتعلقة بالتشخيص النفسي بمساعدة الذكاء الاصطناعي
- القيمة الأكاديمية: توفير مرجع مهم لتطبيق نماذج اللغة الكبيرة في مجال الصحة النفسية
- القيمة العملية: توفير أساس تقني لمؤسسات الرعاية الصحية لنشر أنظمة التشخيص بمساعدة الذكاء الاصطناعي
- الأهمية الاجتماعية: قد يساعد في تخفيف مشكلة نقص موارد خدمات الصحة النفسية
- قابلية التكرار: يدعم الكود مفتوح المصدر ومجموعات البيانات تكرار البحث والتوسع
- الفحص الأولي: مناسب للفحص الأولي على نطاق واسع للصحة النفسية
- التشخيص المساعد: كأداة مساعدة للأطباء السريريين وليس بديلاً
- الطب عن بعد: دعم خدمات الصحة النفسية عن بعد
- أداة البحث: توفير أداة تحليل آلية لبحث الصحة النفسية
تستشهد الورقة بـ 29 مرجعاً ذا صلة، تغطي نماذج اللغة الكبيرة وتقييمات الصحة النفسية وهندسة المطالبات وتقنيات الضبط الدقيق وغيرها من المجالات ذات الصلة، مما يوفر أساساً نظرياً متيناً للبحث.
التقييم الإجمالي: هذه ورقة استكشافية مهمة في تطبيق نماذج اللغة الكبيرة في مجال التشخيص النفسي. الطريقة علمية، والتجارب شاملة، والاستنتاجات موثوقة، مما يساهم بقيمة في تطور هذا المجال متعدد التخصصات. على الرغم من وجود بعض القيود، فإن أهميتها الرائدة وقيمتها العملية تجعلها مرجعاً مهماً في هذا المجال.