2025-11-17T04:19:13.460591

Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case

Roy, Surana, Eswaramoorthi et al.
Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.
academic

Große Sprachmodelle für psychiatrische Diagnosebeurteilungen: Erforschung des Potenzials großer Sprachmodelle zur Unterstützung psychiatrischer Diagnosebeurteilungen -- Der Fall Depression und Angststörung

Grundinformationen

  • Papier-ID: 2501.01305
  • Titel: Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case
  • Autoren: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 2. Januar 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2501.01305
  • Institutionen: University of South Carolina AI Institute, Indian Institute of Research and Science, Indian Institute of Technology

Zusammenfassung

Große Sprachmodelle (LLMs) erhalten zunehmende Aufmerksamkeit von medizinischen Fachleuten bei der Unterstützung von Diagnosebeurteilungen und versprechen, den Druck auf Gesundheitssysteme durch Überlastung von Patienten und Mangel an Gesundheitsdienstleistern zu verringern. Damit LLMs bei der Unterstützung von Diagnosebeurteilungen wirksam eingesetzt werden können, müssen sie in der Lage sein, die von Klinikern verwendeten standardisierten Diagnoseverfahren eng nachzuahmen. Dieses Papier untersucht speziell den Diagnoseprozess des Patient Health Questionnaire-9 (PHQ-9) für Major Depressive Disorder (MDD) und des Generalized Anxiety Disorder-7 (GAD-7)-Fragebogens für Generalized Anxiety Disorder (GAD). Die Studie erforscht verschiedene Prompt- und Fine-Tuning-Techniken, um proprietäre und Open-Source-LLMs zur Einhaltung dieser Diagnoseverfahren zu führen, und bewertet die Übereinstimmung zwischen von LLMs generierten Diagnoseergebnissen und von Experten validierten Goldstandards.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Druck auf Gesundheitssysteme: Das aktuelle Gesundheitssystem steht unter doppeltem Druck durch Patientenüberlastung und Mangel an Gesundheitsdienstleistern
  2. Bedarf an psychiatrischer Diagnose: Zunehmende psychische Gesundheitsprobleme erfordern standardisierte Diagnosebeurteilungsinstrumente
  3. Potenzial von LLMs im Gesundheitswesen: Große Sprachmodelle zeigen hervorragende Leistungen bei Aufgaben der Verarbeitung natürlicher Sprache und haben Anwendungspotenzial in medizinischen Gesprächsszenarien

Forschungsbedeutung

  • Standardisierte Diagnose: PHQ-9 und GAD-7 sind in der Klinik weit verbreitete standardisierte Beurteilungsinstrumente
  • Automatisierungsbedarf: Die Automatisierung von Diagnosebeurteilungen durch LLMs kann die Belastung von Klinikern verringern
  • Konsistenzanforderung: LLMs müssen in der Lage sein, standardisierte Diagnoseverfahren von Klinikern nachzuahmen, um praktisch anwendbar zu sein

Einschränkungen bestehender Methoden

  1. Bewertungsmethoden: Basieren nur auf Textrelevanzscores, mangelndes tiefes Verständnis
  2. Interpretierbare KI-Methoden: Verwendung von Proxy-Modellen wie LIME/SHAP, aber begrenzte klinische Interpretierbarkeit
  3. Textfragmenterkennung: Mangel an spezialisierter Anleitung für spezifische Diagnosestandards

Kernbeiträge

  1. Bahnbrechendes spezialisiertes Modell: Vorstellung von DiagnosticLlama, dem ersten auf der Llama-Architektur basierenden, speziell für die Bewertung von Diagnosestandards abgestimmten Modell
  2. Umfassendes Bewertungsrahmenwerk: Etablierung eines umfassenden Bewertungssystems, das beide Kategorien von Prompt- und Fine-Tuning-Methoden abdeckt
  3. Hochwertige Datensätze: Konstruktion eines von Experten validierten, von LLMs annotierten synthetischen Datensatzes zur Förderung verwandter Forschung
  4. Vergleich mehrerer Modelle: Systematischer Vergleich der Leistung proprietärer Modelle (GPT-3.5, GPT-4o) und Open-Source-Modelle (Llama-3.1-8b, Mixtral-8x7b)
  5. Standardisierte Methoden: Bereitstellung standardisierter Methoden zur Anwendung von LLMs auf PHQ-9- und GAD-7-Diagnosebeurteilungen

Methodische Details

Aufgabendefinition

Eingabe: Texte aus sozialen Medien (als Proxy für Patienten-Kliniker-Interaktionen) Ausgabe: Textfragmenterkennung für jeden PHQ-9/GAD-7-Symptombereich und Beurteilung des Symptomvorhandenseins Einschränkungen: Strikte Einhaltung der standardisierten Diagnoseverfahren von PHQ-9 und GAD-7

Modellarchitektur

1. Prompt-Methoden (Prompting Methods)

  • Naive Prompting: Direkte Anweisungs-Prompts
  • Few-Shot Prompting: Prompts mit wenigen Beispielen
  • Guided Prompting: Chain-of-Thought-Prompts mit Reasoning-Schritt-Anleitung

2. Fine-Tuning-Methoden (Fine-tuning Methods)

  • Basismodell: MentalLlama (trainiert auf 105K psychiatrischen Anweisungsdaten)
  • DiagnosticLlama: MentalLlama mit HuggingFace AutoTrain auf dem PRIMATE-Datensatz abgestimmt

Datenverarbeitungsprozess

Erstellung des Goldstandard-Datensatzes

  1. Basisdaten: Verwendung des PRIMATE-Datensatzes (Social-Media-Beiträge + PHQ-9-Annotationen)
  2. GPT-4o-Anreicherung: Verwendung von GPT-4o zur Identifikation von Textfragmenten für entsprechende Symptome
  3. Expertenvalidierung: Validierung der GPT-4o-Ausgabe durch drei klinische Experten (Cohen's Kappa: 0,74 für PHQ-9, 0,72 für GAD-7)
  4. Qualitätskontrolle: Beibehaltung nur der von Experten konsistent validierten Annotationen

Technische Innovationen

  1. Symptomspezifische Anleitung: Speziell entwickelte Prompt-Vorlagen für jedes PHQ-9- und GAD-7-Symptom
  2. Mehrstufige Bewertung: Duales Bewertungssystem, das hits@k-Ranking und standardisierte Klassifizierungsmetriken kombiniert
  3. Modellübergreifende Konsistenz: Validierung der Methodeneffektivität über mehrere LLMs unterschiedlicher Größe und Typen
  4. Klinische Validierung: Einbeziehung professioneller Kliniker zur Qualitätsvalidierung und Sicherstellung der klinischen Relevanz

Experimentelle Einrichtung

Datensätze

  • PRIMATE-Datensatz: Enthält Social-Media-Beiträge und PHQ-9-bezogene Annotationen
  • Expertenvalidierte Teilmenge:
    • PHQ-9: 40 von GPT-4o annotierte Stichproben, die von Experten validiert wurden
    • GAD-7: 17 von GPT-4o annotierte Stichproben, die von Experten validiert wurden
  • Modell-Annotationsdaten: Insgesamt 1034 Beiträge mit Multi-Modell-Annotationen

Bewertungsmetriken

  1. hits@k-Ranking-Metriken:
    • hits@1: Trefferquote, wenn das ähnlichste Textfragment in den Top-1 des Goldstandards liegt
    • hits@5: Trefferquote, wenn das ähnlichste Textfragment in den Top-5 des Goldstandards liegt
  2. Standardklassifizierungsmetriken: Genauigkeit (Accuracy), Präzision (Precision), Recall, F1-Score

Vergleichsmethoden

  • Proprietäre Modelle: GPT-3.5-Turbo, GPT-4o-mini
  • Open-Source-Modelle: Llama-3.1-8b, Mixtral-8x7b
  • Abgestimmte Modelle: MentalLlama, DiagnosticLlama
  • Traditionelle Methoden: BERT, MentalBERT, MentalRoBERTa
  • Machine-Learning-Methoden: Logistische Regression, Random Forest, XGBoost

Implementierungsdetails

  • Verwendung von HuggingFace AutoTrain für codefreies Fine-Tuning
  • Identische Prompt-Struktur für alle Modelle zur Gewährleistung fairer Vergleiche
  • Zufällige Auswahl von Testunterstichproben aufgrund von Budget- und API-Beschränkungen

Experimentelle Ergebnisse

Hauptergebnisse

PHQ-9-Symptom-Annotationsergebnisse

Leistung proprietärer Modelle:

Modellhits@1hits@5AccuracyPrecisionRecallF1-score
GPT-3.5-Turbo87%98%0,930,890,960,92
GPT-4o-mini89%99%0,940,960,980,92

Leistung von Open-Source-Modellen:

Modellhits@1hits@5AccuracyPrecisionRecallF1-score
Llama-3.1-8b83%88%0,840,860,780,82
Mixtral-8x7b92%99%0,920,960,950,93

Leistung abgestimmter Modelle:

Modellhits@1hits@5AccuracyPrecisionRecallF1-score
MentalLlama--0,820,830,630,75
DiagnosticLlama68,3%76,2%----

GAD-7-Symptom-Annotationsergebnisse

Die GAD-7-Ergebnisse zeigen ähnliche Trends wie PHQ-9, wobei proprietäre und Open-Source-Modelle eine Qualität nahe menschlicher Annotationen erreichen.

Wichtige Erkenntnisse

  1. Modellleistungsunterschiede: Neue Generation von LLMs übertrifft deutlich ältere Modellversionen
    • Llama2-7b-chat: F1=0,663
    • Mistral-instruct: F1=0,655
  2. Fine-Tuning-Herausforderungen: Fine-Tuning von LLMs für spezialisierte Diagnoseaufgaben ist äußerst anspruchsvoll
    • MentalLlama wiederholt direkt die Eingabe, was die Bedeutung der Fine-Tuning-Konfiguration zeigt
    • DiagnosticLlama zeigt Verbesserungen, benötigt aber weitere Optimierung
  3. Vergleich mit traditionellen Methoden:
    • BERT: F1=0,69
    • MentalBERT: F1=0,71
    • MentalRoBERTa: F1=0,48
    • Traditionelle ML-Methoden zeigen schlechtere Leistung (höchstes XGBoost: F1=0,65)

Fallstudienanalyse

Das Papier zeigt durch konkrete Beispiele, wie Modelle Textfragmente identifizieren, die PHQ-9-Symptomen entsprechen, z.B. die Identifikation von "I thought I set myself up for success. Now I believe I was dead wrong for joining" als entsprechend dem Symptom "sich selbst als Versager fühlen".

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Bewertungsmethoden: Textbewertungs-Ranking basierend auf Relevanz zu PHQ-9/GAD-7-Symptomen
  2. Interpretierbare KI-Methoden: Verwendung von LIME/SHAP-Techniken zur klinischen Interpretation von BERT-Modellausgaben
  3. Textfragmenterkennung: Vorhersage und Zusammenfassung von Textfragmenten mit Vergleich zu manuellen Annotationen

Vorteile dieses Papiers

  • Spezialisierte Anleitung: Hochgradig spezialisierte Modellausgabeanleitung für spezifische Diagnosestandards
  • Neuheit: Erstes auf Llama-Architektur basierendes, für Diagnose spezialisiertes abgestimmtes Modell
  • Systematik: Systematischer Vergleich von Prompt- und Fine-Tuning-Methoden

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Few-Shot-Learning ist wirksam: LLMs können in Few-Shot-Einstellungen eine Qualität erreichen, die der Bewertung durch Experten-Kliniker nahekommt
  2. Reasoning-Unterschiede: Obwohl die Ergebnisse ähnlich sind, unterscheidet sich der Reasoning-Prozess von LLMs erheblich von dem von Klinikern
  3. Fine-Tuning-Herausforderungen: Fine-Tuning von LLMs zur Unterstützung der psychiatrischen Diagnose steht vor großen technischen Herausforderungen
  4. Praktisches Potenzial: Die Forschung bietet eine vielversprechende Richtung zur Verringerung des Drucks auf Gesundheitssysteme

Einschränkungen

  1. Reasoning-Konsistenz: Begrenzte Übereinstimmung zwischen LLM- und Kliniker-Reasoning-Prozessen
  2. Datengröße: Relativ kleine Größe des von Experten validierten Goldstandard-Datensatzes
  3. Budgetbeschränkungen: API-Kosten begrenzen umfangreiche experimentelle Validierung
  4. Fine-Tuning-Komplexität: Fine-Tuning erfordert erhebliche Ressourcen und Hyperparameter-Optimierung

Zukünftige Richtungen

  1. Klinische Anwendung: Entwicklung von Anwendungen für Kliniker
  2. Erweiterte Bewertung: Erweiterung von DiagnosticLlama auf GAD-7, Vergrößerung des Datensatzes
  3. Komplexe Fragebögen: Unterstützung für nichtlineare strukturierte Fragebögen (z.B. CSSRS)
  4. Sicherheitseinschränkungen: Integration von Terminologie-Einschränkungen und Output-Umformulierung zur Gewährleistung der Sicherheit

Tiefgreifende Bewertung

Stärken

  1. Starke klinische Relevanz: Direkte Ausrichtung auf in der Klinik weit verbreitete standardisierte Beurteilungsinstrumente
  2. Umfassende Methodik: Abdeckung von Prompt- und Fine-Tuning-Methoden
  3. Strenge Bewertung: Einbeziehung professioneller Kliniker zur Validierung und Gewährleistung der Ergebniszuverlässigkeit
  4. Open-Source-Beiträge: Bereitstellung von Modellen und Datensätzen für die Gemeinschaft
  5. Ausreichende Experimente: Systematischer Vergleich mehrerer Modelle und Metriken

Schwächen

  1. Datensatzgröße: Relativ kleine Größe des von Experten validierten Datensatzes, kann die Generalisierbarkeit der Schlussfolgerungen beeinflussen
  2. Domänenbeschränkung: Nur auf zwei Krankheiten (Depression und Angststörung) ausgerichtet, begrenzte Abdeckung
  3. Reasoning-Analyse: Unzureichende Analyse der Unterschiede zwischen LLM- und Kliniker-Reasoning-Prozessen
  4. Kostenüberlegung: Fehlende Kosten-Nutzen-Analyse für praktische Bereitstellung
  5. Ethische Diskussion: Unzureichende Diskussion ethischer Fragen bei KI-gestützter psychiatrischer Diagnose

Auswirkungen

  1. Akademischer Wert: Wichtige Referenz für die Anwendung von LLMs im psychiatrischen Bereich
  2. Praktischer Wert: Technische Grundlage für die Bereitstellung von KI-gestützten Diagnosesystemen in Gesundheitseinrichtungen
  3. Gesellschaftliche Bedeutung: Vielversprechend zur Linderung von Ressourcenmangel bei psychiatrischen Diensten
  4. Reproduzierbarkeit: Open-Source-Code und Datensätze unterstützen Forschungsreproduzierbarkeit und Erweiterung

Anwendungsszenarien

  1. Anfängliches Screening: Geeignet für großflächiges psychiatrisches Anfangsscreening
  2. Diagnoseunterstützung: Als Unterstützungswerkzeug für Kliniker, nicht als Ersatz
  3. Telemedizin: Unterstützung von Remote-Psychiatriediensten
  4. Forschungswerkzeug: Automatisierte Analysewerkzeuge für psychiatrische Forschung

Literaturverzeichnis

Das Papier zitiert 29 verwandte Arbeiten, die wichtige Arbeiten in mehreren verwandten Bereichen wie LLMs, psychiatrische Beurteilung, Prompt-Engineering und Fine-Tuning-Techniken abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist eine wichtige explorative Arbeit bei der Anwendung von LLMs im Bereich der psychiatrischen Diagnose. Die Methodik des Papiers ist wissenschaftlich fundiert, die Experimente sind ausreichend, und die Schlussfolgerungen sind zuverlässig, was einen wertvollen Beitrag zur Entwicklung dieses interdisziplinären Bereichs darstellt. Trotz einiger Einschränkungen machen seine bahnbrechende Bedeutung und praktischer Wert es zu einer wichtigen Referenz in diesem Bereich.