Depression has impacted millions of people worldwide and has become one of the most prevalent mental disorders. Early mental disorder detection can lead to cost savings for public health agencies and avoid the onset of other major comorbidities. Additionally, the shortage of specialized personnel is a critical issue because clinical depression diagnosis is highly dependent on expert professionals and is time consuming.
In this study, we explore the use of GPT-4 for clinical depression assessment based on transcript analysis. We examine the model's ability to classify patient interviews into binary categories: depressed and not depressed. A comparative analysis is conducted considering prompt complexity (e.g., using both simple and complex prompts) as well as varied temperature settings to assess the impact of prompt complexity and randomness on the model's performance.
Results indicate that GPT-4 exhibits considerable variability in accuracy and F1-Score across configurations, with optimal performance observed at lower temperature values (0.0-0.2) for complex prompts. However, beyond a certain threshold (temperature >= 0.3), the relationship between randomness and performance becomes unpredictable, diminishing the gains from prompt complexity.
These findings suggest that, while GPT-4 shows promise for clinical assessment, the configuration of the prompts and model parameters requires careful calibration to ensure consistent results. This preliminary study contributes to understanding the dynamics between prompt engineering and large language models, offering insights for future development of AI-powered tools in clinical settings.
- Papier-ID: 2501.00199
- Titel: GPT-4 on Clinic Depression Assessment: An LLM-Based Pilot Study
- Autoren: Giuliano Lorenzoni, Pedro Elkind Velmovitsky, Paulo Alencar, Donald Cowan
- Klassifizierung: cs.CL (Computerlinguistik), cs.AI (Künstliche Intelligenz)
- Veröffentlichungsdatum: 31. Dezember 2024 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2501.00199
Depression hat Millionen von Menschen weltweit betroffen und ist eine der häufigsten psychischen Erkrankungen. Die Früherkennung psychischer Erkrankungen kann öffentlichen Gesundheitsinstitutionen Kosten sparen und das Auftreten schwerwiegender Komplikationen verhindern. Darüber hinaus ist der Fachkräftemangel ein kritisches Problem, da die klinische Depressionsdiagnose stark von Fachleuten abhängt und zeitaufwändig ist.
Diese Studie untersucht die Verwendung von GPT-4 zur klinischen Depressionsbeurteilung basierend auf Interviewtranskripten. Die Forschung prüft die Fähigkeit des Modells, Patienteninterviews in binäre Kategorien (depressiv und nicht depressiv) zu klassifizieren. Durch Berücksichtigung der Prompt-Komplexität (einfache und komplexe Prompts) sowie verschiedener Temperatureinstellungen wird eine vergleichende Analyse durchgeführt, um die Auswirkungen von Prompt-Komplexität und Zufälligkeit auf die Modellleistung zu bewerten.
Die Ergebnisse zeigen erhebliche Variabilität in Genauigkeit und F1-Score von GPT-4 unter verschiedenen Konfigurationen, wobei die beste Leistung bei komplexen Prompts mit niedrigeren Temperaturwerten (0,0–0,2) beobachtet wird. Wenn jedoch ein bestimmter Schwellenwert überschritten wird (Temperatur ≥ 0,3), wird die Beziehung zwischen Zufälligkeit und Leistung unvorhersehbar und schwächt die Vorteile der Prompt-Komplexität.
Das Kernproblem dieser Studie besteht darin, wie das große Sprachmodell GPT-4 zur Unterstützung der klinischen Depressionsdiagnose genutzt werden kann, insbesondere durch die Analyse von Patienteninterviewtranskripten für die binäre Klassifizierung (depressiv/nicht depressiv).
- Globale Gesundheitsbelastung: Depression ist eine der häufigsten psychischen Erkrankungen weltweit und betrifft Millionen von Menschen
- Wert der Früherkennung: Frühe Erkennung kann medizinische Kosten erheblich senken und schwerwiegende Komplikationen verhindern
- Ressourcenmangel: Schwerwiegender Mangel an Fachkräften im Bereich psychische Gesundheit; Diagnoseverfahren sind expertenabhängig und zeitaufwändig
- Technologische Chancen: Die Entwicklung großer Sprachmodelle bietet neue Möglichkeiten für die Automatisierung der Bewertung psychischer Gesundheit
- Traditionelle maschinelle Lernmethoden: Hauptsächlich SVM, TextCNN und andere Methoden mit begrenzter Anwendung auf dem DAIC-WOZ-Datensatz
- Abhängigkeit von Feature-Engineering: Erfordert manuelle Merkmalsextraktion und mangelnde End-to-End-Automatisierungsfähigkeit
- Unzureichende LLM-Anwendung: Obwohl es Forschungen zur Depressionserkennungsmittels LLM gibt, fehlt eine systematische Untersuchung von Prompt-Engineering und Parameteroptimierung
Durch systematische Untersuchung der Anwendung von GPT-4 bei der klinischen Depressionsbeurteilung, insbesondere mit Fokus auf Prompt-Engineering-Strategien und die Auswirkungen von Modellparametern (wie Temperatur) auf die Leistung, wird eine empirische Grundlage für die KI-gestützte Diagnose psychischer Gesundheit geschaffen.
- Erste systematische Untersuchung der Anwendung von GPT-4 bei der binären Klassifizierungsaufgabe klinischer Depression, basierend auf umfassender Bewertung des DAIC-WOZ-Datensatzes
- Vorschlag einer progressiven Prompt-Engineering-Strategie, von einfachen bis komplexen Prompts bis hin zu beispielgestützter Verbesserung, mit systematischer Analyse der Auswirkungen verschiedener Komplexitätsgrade auf die Leistung
- Tiefgehende Analyse der Auswirkungen des Temperaturparameters auf Modellstabilität und Leistung, mit Entdeckung des optimalen Temperaturbereichs von 0,0–0,2
- Offenlegung der nichtlinearen Beziehung zwischen Prompt-Komplexität und Zufälligkeit, was Anleitung für die Parameteroptimierung in klinischen KI-Anwendungen bietet
- Bereitstellung praktischer Konfigurationsstrategien für KI-gestützte Diagnose psychischer Gesundheit, mit Betonung der Bedeutung der Minimierung falsch negativer Ergebnisse in klinischen Umgebungen
Eingabe: Transkribierter Text von Patienteninterviews (aus dem DAIC-WOZ-Datensatz)
Ausgabe: Binäres Klassifizierungsergebnis ("depressed" oder "not depressed")
Einschränkungen: Standardisierte Diagnosekriterien basierend auf der PHQ-8-Skala
Diese Studie verwendet ein fünfstufiges progressives Experimentaldesign:
Verwendung des grundlegendsten Klassifizierungsprompts ohne Kontext oder Beispiele als Leistungs-Baseline.
Hinzufügen von vier Beispielen (zwei Depressivfälle, zwei Nicht-Depressivfälle) zum einfachen Prompt unter Verwendung einer Few-Shot-Lernstrategie.
Kombination von Beispielen und detailliertem klinischem Kontext, Simulation der Analyseperspektive eines professionellen Psychopathologen mit umfassenderen Anleitung.
Systematische Prüfung der Auswirkungen verschiedener Temperaturwerte (0,0, 0,1, 0,2, 0,3, 0,5) auf die Modellleistung.
Analyse der Auswirkungen von Ausgabevariabilität auf die Zuverlässigkeit der GPT-4-Klinischen Diagnose.
- Progressives Prompt-Komplexitätsdesign: Systematische Prompt-Engineering-Methode von einfach bis komplex
- Temperatur-Leistungs-Beziehungsmodellierung: Erste systematische Untersuchung der Rolle des Temperaturparameters bei klinischen Klassifizierungsaufgaben
- Klinisch orientiertes Bewertungsrahmenwerk: Fokus auf Minimierung falsch negativer Ergebnisse, entsprechend klinischer Praxis
- Trainingsfreie direkte Inferenz: Vollständig basierend auf Zero-Shot- und Few-Shot-Fähigkeiten des vortrainierten Modells
DAIC-WOZ (Distress Analysis Interview Corpus - Wizard-of-Oz)
- Umfang: 189 Interviewsitzungen, tatsächlich 184–188 verwendet (aufgrund von Datenverarbeitungsproblemen leicht variabel)
- Annotation: Basierend auf PHQ-8-Skala, 56 Depressivfälle, etwa 130 Nicht-Depressivfälle
- Datentyp: Interviewtranskripte
- Datenverteilung: Etwa 30 % Depressivfälle, 70 % Nicht-Depressivfälle (unausgeglichener Datensatz)
- Genauigkeit (Accuracy): Gesamtklassifizierungskorrektheit
- Präzision (Precision): Anteil der als depressiv vorhergesagten, die tatsächlich depressiv sind
- Recall (Sensitivität): Anteil der tatsächlich Depressiven, die korrekt identifiziert werden
- F1-Score: Harmonisches Mittel von Präzision und Recall
- Verwechslungsmatrix: Detaillierte Darstellung der Klassifizierungsergebnisverteilung
- API-Schnittstelle: OpenAI GPT-4 API
- Programmierumgebung: Python + Pandas + NumPy + scikit-learn + Matplotlib/Seaborn
- Temperaturbereich: 0,0 bis 0,5, Intervall 0,1
- Beispielauswahl: Ausgewogene Auswahl von zwei positiven und zwei negativen Fällen
| Metrik | Wert |
|---|
| Genauigkeit | 70,74 % |
| Präzision | 54,55 % |
| Recall | 10,71 % |
| F1-Score | 17,91 % |
Verwechslungsmatrix: 127 echte Negative, 5 falsch Positive, 50 falsch Negative, 6 echte Positive
| Metrik | Wert |
|---|
| Genauigkeit | 70,49 % |
| Präzision | 50,00 % |
| Recall | 77,78 % |
| F1-Score | 60,87 % |
Schlüsselfund: Recall steigt deutlich auf 77,78 %, F1-Score springt von 17,91 % auf 60,87 %
| Metrik | Wert |
|---|
| Genauigkeit | 69,23 % |
| Präzision | 48,39 % |
| Recall | 55,56 % |
| F1-Score | 51,72 % |
Unerwarteter Fund: Leistung des komplexen Prompts nimmt ab, möglicherweise aufgrund übermäßiger Zufälligkeit durch Standardtemperatureinstellung
| Temperatur | Genauigkeit | Präzision | Recall | F1-Score |
|---|
| 0,0 | 72,28 % | 51,95 % | 74,07 % | 61,07 % |
| 0,1 | 73,37 % | 53,09 % | 79,63 % | 63,70 % |
| 0,2 | 71,74 % | 51,16 % | 81,48 % | 62,86 % |
| 0,3 | 67,93 % | 46,67 % | 64,81 % | 54,26 % |
| 0,5 | 68,48 % | 47,56 % | 72,22 % | 57,35 % |
- Optimaler Temperaturbereich: Der Bereich 0,0–0,2 zeigt die beste Leistung; bei Temperatur 0,1 werden höchste Genauigkeit (73,37 %) und F1-Score (63,70 %) erreicht
- Nichtlineare Temperatur-Leistungs-Beziehung: Leistung sinkt deutlich bei Temperatur ≥ 0,3 mit unvorhersehbaren Schwankungen
- Signifikanter Effekt des Beispiellernens: Few-Shot-Lernen erhöht F1-Score von 17,91 % auf 60,87 %
- Komplexitätsparadoxon: Übermäßig komplexe Prompts senken die Leistung bei Standardtemperatur
- Optimierung klinischer Indikatoren: Niedrige Temperatureinstellungen balancieren effektiv Sensitivität und Spezifität
Durch das progressive Experimentaldesign können die Beiträge einzelner Komponenten deutlich erkannt werden:
- Grundlegende Klassifizierungsfähigkeit: Einfache Prompts zeigen bereits gewisse Klassifizierungsfähigkeit (70,74 % Genauigkeit)
- Gewinne aus Beispiellernen: Few-Shot-Lernen erhöht Recall deutlich (von 10,71 % auf 77,78 %)
- Wert der Temperaturoptimierung: Angemessene Temperatureinstellung kann Leistungsbalance weiter optimieren
- Kosten der Komplexität: Überoptimierte Prompts können Rauschen einführen
Bestehende Forschungen verwenden hauptsächlich SVM, TextCNN und andere traditionelle ML-Methoden auf dem DAIC-WOZ-Datensatz zur Depressionserkennungserkennung, mit Fokus auf Sprach- und Textsentimentmerkmale, aber mangelnder End-to-End-Automatisierungsfähigkeit.
- E-DAIC-Forschung: Verwendung von LLM zur Vorhersage von PHQ-8-Scores mit durchschnittlichem absoluten Fehler von 3,65
- Domänenübergreifende LLM-Anwendungen: Zeigen Potenzial bei Sentimentanalyse und Klassifizierungsaufgaben in Finanzen, Softwareentwicklung und anderen Bereichen
- Systematisches Prompt-Engineering: Erste systematische Untersuchung der Auswirkungen von Prompt-Komplexität auf klinische Klassifizierung
- Parameterempfindlichkeitsanalyse: Tiefgehende Analyse der Auswirkungen des Temperaturparameters auf Stabilität
- Klinisch orientiertes Design: Fokus auf Minimierung falsch negativer Ergebnisse, entsprechend klinischer Praxis
- GPT-4 hat Potenzial für klinische Depressionsklassifizierung: Kann unter angemessener Konfiguration 73,37 % Genauigkeit und 63,70 % F1-Score erreichen
- Prompt-Engineering-Strategien sind wirksam: Beispielgestützte Verbesserung erhöht Leistung deutlich, besonders Recall
- Temperaturparameter ist entscheidend: Der niedrige Temperaturbereich 0,0–0,2 bietet beste Stabilitäts- und Leistungsbalance
- Komplexität erfordert sorgfältige Balance: Übermäßig komplexe Prompts können unnötige Variabilität einführen
- Klinische Anwendung erfordert Feinabstimmung: Parameterkonfiguration hat signifikante Auswirkungen auf Konsistenz und Zuverlässigkeit
- Datensatzgröße begrenzt: Nur 189 Proben, kann Verallgemeinerbarkeit der Ergebnisse beeinflussen
- Datenunausgeglichenheit: 30 % Depressionsrate ist deutlich höher als echte Bevölkerungsprävalenz, kann zu Verzerrungen führen
- Einzelne Datenquelle: Nur DAIC-WOZ-Datensatz verwendet, mangelnde datensatzübergreifende Validierung
- Zufälligkeit-Effekte: Inhärente Modellzufälligkeit kann Ergebniskonsistenz beeinflussen
- Fehlende Fachvalidierung: Keine Vergleichsvalidierung mit klinischen Expertdiagnosen
- Retrieval-Augmented Generation (RAG): Integration externer medizinischer Wissensdatenbanken zur Verbesserung der Diagnosegenauigkeit
- Domänenspezifisches Fine-Tuning: Spezialisiertes Training des Modells mit klinischen Daten
- Multimodale Fusion: Kombination von Sprach-, Video- und anderen Modalitätsinformationen
- Variabilitätskontrollstrategien: Erkundung von Methoden zur Aggregation mehrfacher Durchläufe
- Großflächige klinische Validierung: Validierung auf größeren und vielfältigeren klinischen Datensätzen
- Strenge Forschungsgestaltung: Progressives Experimentaldesign zeigt Auswirkungen einzelner Faktoren deutlich
- Hoher praktischer Wert: Bietet praktische Anleitung für KI-gestützte Diagnose psychischer Gesundheit
- Tiefgehende Parameteranalyse: Systematische Analyse der Temperaturparameterauswirkungen auf Leistung
- Klare klinische Orientierung: Betonung der Minimierung falsch negativer Ergebnisse, entsprechend klinischer Praxis
- Transparente und detaillierte Ergebnisse: Bereitstellung detaillierter Verwechslungsmatrizen und Leistungskennzahlen
- Kleine Stichprobengröße: 189 Proben sind für Deep-Learning-Forschung relativ begrenzt
- Fehlende statistische Signifikanztests: Statistische Signifikanz der Ergebnisse nicht berichtet
- Unzureichende Zufälligkeitskontrolle: Keine Durchschnittswertbildung über mehrere Durchläufe zur Kontrolle von Zufallsvariationen
- Begrenzte Baseline-Vergleiche: Mangelnde Vergleiche mit anderen LLMs oder traditionellen Methoden
- Fehlende klinische Validierung: Keine Vergleichsvalidierung mit echten klinischen Expertdiagnosen
- Akademischer Beitrag: Bietet wichtige Referenz für LLM-Anwendungen im Bereich psychische Gesundheit
- Praktischer Wert: Bietet Konfigurationsstrategien für die Entwicklung klinischer KI-Tools
- Methodologischer Wert: Prompt-Engineering- und Parameteroptimierungsmethoden können auf andere klinische Aufgaben übertragen werden
- Politische Auswirkungen: Bietet empirische Unterstützung für Regulierung und Standardisierung von KI-gestützter Medizin
- Klinische Hilfsdiagnose: Als Hilfstool für Fachleute im Bereich psychische Gesundheit
- Großflächiges Screening: Initiales Screening in ressourcenbegrenzten Regionen
- Telemedizin: Unterstützung von Online-Diensten im Bereich psychische Gesundheit
- Forschungstool: Für Datenvorverarbeitung in großflächigen Studien zur psychischen Gesundheit
Das Papier zitiert 20 verwandte Literaturquellen, umfassend:
- Forschung zum DAIC-WOZ-Datensatz
- Anwendung traditionellen maschinellen Lernens bei Depressionserkennungserkennung
- LLM-Klassifizierungs- und Generierungsaufgaben in verschiedenen Bereichen
- Standardisierte Tools zur Bewertung psychischer Gesundheit (PHQ-8)
Gesamtbewertung: Dies ist eine hochwertige Vorstudie, die systematisch das Anwendungspotenzial von GPT-4 bei der klinischen Depressionsbeurteilung untersucht. Das Forschungsdesign ist angemessen, die experimentellen Ergebnisse haben Wert und leisten wichtige Beiträge zum Bereich der KI-gestützten Diagnose psychischer Gesundheit. Trotz Einschränkungen bei Stichprobengröße und Validierung schafft sie eine solide Grundlage für nachfolgende Forschungen.