2025-11-17T04:19:13.460591

Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case

Roy, Surana, Eswaramoorthi et al.

Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.

academic

Modelli di Linguaggio di Grandi Dimensioni per Valutazioni Diagnostiche della Salute Mentale: Esplorare il Potenziale dei Modelli di Linguaggio di Grandi Dimensioni nell'Assistenza alle Valutazioni Diagnostiche della Salute Mentale -- Il Caso della Depressione e dell'Ansia

Informazioni Fondamentali

ID Articolo: 2501.01305
Titolo: Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case
Autori: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
Classificazione: cs.CL (Computation and Language)
Data di Pubblicazione: 2 gennaio 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2501.01305
Istituzioni: University of South Carolina AI Institute, Indian Institute of Research and Science, Indian Institute of Technology

Riassunto

I modelli di linguaggio di grandi dimensioni (LLM) stanno ricevendo crescente attenzione dai professionisti medici per l'assistenza nelle valutazioni diagnostiche, con la promessa di alleviare la pressione sui sistemi sanitari causata dal sovraccarico di pazienti e dalla carenza di fornitori di servizi medici. Affinché gli LLM svolgano un ruolo efficace nel supporto delle valutazioni diagnostiche, devono essere in grado di replicare fedelmente i procedure diagnostiche standardizzate utilizzate dai clinici. Questo articolo esamina specificamente il processo di valutazione diagnostica utilizzando il Patient Health Questionnaire-9 (PHQ-9) per il disturbo depressivo maggiore (MDD) e il Generalized Anxiety Disorder-7 (GAD-7) per il disturbo d'ansia generalizzato (GAD). Lo studio esplora varie tecniche di prompting e fine-tuning per guidare gli LLM proprietari e open-source nel seguire questi processi diagnostici, e valuta la concordanza tra i risultati diagnostici generati dagli LLM e gli standard di riferimento verificati da esperti.

Contesto di Ricerca e Motivazione

Contesto del Problema

Pressione sul Sistema Sanitario: Il sistema sanitario attuale affronta la doppia pressione del sovraccarico di pazienti e della carenza di fornitori di servizi medici
Necessità di Diagnosi della Salute Mentale: I problemi di salute mentale stanno aumentando, richiedendo strumenti di valutazione diagnostica standardizzati
Potenziale degli LLM nel Settore Medico: I modelli di linguaggio di grandi dimensioni hanno dimostrato eccellenza nei compiti di elaborazione del linguaggio naturale, con potenziale applicativo negli scenari di dialogo medico

Importanza della Ricerca

Diagnosi Standardizzata: PHQ-9 e GAD-7 sono strumenti di valutazione standardizzati ampiamente utilizzati in clinica
Necessità di Automazione: L'automazione delle valutazioni diagnostiche attraverso gli LLM può ridurre il carico di lavoro dei clinici
Requisiti di Concordanza: Gli LLM devono essere in grado di replicare i procedure diagnostiche standardizzate dei clinici per applicazioni pratiche

Limitazioni degli Approcci Esistenti

Metodi di Scoring: Basati solo su scoring di rilevanza testuale, mancano di comprensione profonda
Approcci di IA Interpretabile: Utilizzo di modelli surrogati come LIME/SHAP, ma con interpretabilità clinica limitata
Identificazione di Frammenti di Testo: Mancanza di guida specializzata per criteri diagnostici specifici

Contributi Fondamentali

Modello Specializzato Innovativo: Propone DiagnosticLlama, il primo modello fine-tuned basato su architettura Llama specificamente per la valutazione di criteri diagnostici
Framework di Valutazione Completo: Stabilisce un sistema di valutazione completo che copre due categorie principali di metodi: prompting e fine-tuning
Dataset di Alta Qualità: Costruisce un dataset sintetico annotato da LLM e verificato da esperti, promuovendo la ricerca correlata
Confronto Multi-Modello: Confronta sistematicamente le prestazioni di modelli proprietari (GPT-3.5, GPT-4o) e modelli open-source (Llama-3.1-8b, Mixtral-8x7b)
Metodologia Standardizzata: Fornisce metodi standardizzati per l'applicazione degli LLM alle valutazioni diagnostiche PHQ-9 e GAD-7

Spiegazione Dettagliata dei Metodi

Definizione del Compito

Input: Testo di post da social media (come proxy di interazioni paziente-clinico) Output: Identificazione di frammenti di testo e giudizio sulla presenza di sintomi per ogni elemento di PHQ-9/GAD-7 Vincoli: Deve seguire rigorosamente i procedure diagnostici standardizzati di PHQ-9 e GAD-7

Architettura del Modello

1. Metodi di Prompting

Prompting Ingenuo: Istruzioni dirette
Prompting con Esempi: Prompting few-shot con esempi forniti
Prompting Guidato: Prompting Chain-of-Thought con guida ai passaggi di ragionamento

2. Metodi di Fine-tuning

Modello Base: MentalLlama (addestrato su 105K dati di istruzioni sulla salute mentale)
DiagnosticLlama: MentalLlama fine-tuned utilizzando HuggingFace AutoTrain sul dataset PRIMATE

Flusso di Elaborazione dei Dati

Creazione del Dataset di Standard di Riferimento

Dati Base: Utilizzo del dataset PRIMATE (post da social media + annotazioni PHQ-9)
Potenziamento con GPT-4o: Utilizzo di GPT-4o per identificare frammenti di testo corrispondenti ai sintomi
Verifica da Esperti: Tre esperti clinici verificano l'output di GPT-4o (Cohen's Kappa: 0.74 per PHQ-9, 0.72 per GAD-7)
Controllo di Qualità: Conservazione solo dei risultati di annotazione concordati dagli esperti

Punti di Innovazione Tecnica

Guida Specifica ai Sintomi: Modelli di prompting specializzati progettati per ogni sintomo di PHQ-9 e GAD-7
Valutazione Multi-Livello: Sistema di valutazione duale che combina metriche di ranking hits@k e metriche di classificazione standard
Concordanza Cross-Modello: Validazione della metodologia su più LLM di diverse dimensioni e tipi
Verifica Clinica: Introduzione di medici clinici professionisti per la verifica della qualità, garantendo la rilevanza clinica

Configurazione Sperimentale

Dataset

Dataset PRIMATE: Contiene post da social media e annotazioni correlate a PHQ-9
Sottoinsieme Verificato da Esperti:
- PHQ-9: 40 campioni annotati da GPT-4o verificati da esperti
- GAD-7: 17 campioni annotati da GPT-4o verificati da esperti
Dati Annotati da Modelli: Risultati di annotazione multi-modello per un totale di 1034 post

Metriche di Valutazione

Metriche di Ranking hits@k:
- hits@1: Tasso di successo quando il frammento di testo più simile si trova nella posizione 1 dello standard di riferimento
- hits@5: Tasso di successo quando il frammento di testo più simile si trova nelle prime 5 posizioni dello standard di riferimento
Metriche di Classificazione Standard: Accuratezza, Precisione, Richiamo, Punteggio F1

Metodi di Confronto

Modelli Proprietari: GPT-3.5-Turbo, GPT-4o-mini
Modelli Open-source: Llama-3.1-8b, Mixtral-8x7b
Modelli Fine-tuned: MentalLlama, DiagnosticLlama
Metodi Tradizionali: BERT, MentalBERT, MentalRoBERTa
Metodi di Machine Learning: Logistic Regression, Random Forest, XGBoost

Dettagli di Implementazione

Utilizzo di HuggingFace AutoTrain per fine-tuning senza codice
Applicazione della stessa struttura di prompting a tutti i modelli per garantire confronti equi
Selezione casuale di sottoinsiemi di test a causa di vincoli di budget e API

Risultati Sperimentali

Risultati Principali

Risultati di Annotazione dei Sintomi PHQ-9

Prestazioni dei Modelli Proprietari:

Modello	hits@1	hits@5	Accuratezza	Precisione	Richiamo	Punteggio F1
GPT-3.5-Turbo	87%	98%	0.93	0.89	0.96	0.92
GPT-4o-mini	89%	99%	0.94	0.96	0.98	0.92

Prestazioni dei Modelli Open-source:

Modello	hits@1	hits@5	Accuratezza	Precisione	Richiamo	Punteggio F1
Llama-3.1-8b	83%	88%	0.84	0.86	0.78	0.82
Mixtral-8x7b	92%	99%	0.92	0.96	0.95	0.93

Prestazioni dei Modelli Fine-tuned:

Modello	hits@1	hits@5	Accuratezza	Precisione	Richiamo	Punteggio F1
MentalLlama	-	-	0.82	0.83	0.63	0.75
DiagnosticLlama	68.3%	76.2%	-	-	-	-

Risultati di Annotazione dei Sintomi GAD-7

I risultati di GAD-7 presentano tendenze simili a PHQ-9, con modelli proprietari e open-source che si avvicinano alla qualità dell'annotazione umana.

Scoperte Importanti

Differenze di Prestazione dei Modelli: Gli LLM di nuova generazione superano significativamente i modelli di versioni precedenti
- Llama2-7b-chat: F1=0.663
- Mistral-instruct: F1=0.655
Sfide del Fine-tuning: Il fine-tuning degli LLM per compiti diagnostici professionali è estremamente impegnativo
- MentalLlama ripete direttamente l'input, dimostrando l'importanza della configurazione del fine-tuning
- DiagnosticLlama mostra miglioramenti ma necessita ancora di ottimizzazione
Confronto con Metodi Tradizionali:
- BERT: F1=0.69
- MentalBERT: F1=0.71
- MentalRoBERTa: F1=0.48
- I metodi tradizionali di ML mostrano prestazioni peggiori (massimo XGBoost: F1=0.65)

Analisi di Casi

L'articolo presenta esempi concreti di come i modelli identificano frammenti di testo nel testo corrispondenti ai sintomi di PHQ-9, ad esempio identificando "I thought I set myself up for success. Now I believe I was dead wrong for joining" come corrispondente al sintomo "sentirsi come un fallimento".

Lavori Correlati

Principali Direzioni di Ricerca

Metodi di Scoring: Scoring e ranking del testo basati sulla rilevanza rispetto ai sintomi di PHQ-9/GAD-7
Approcci di IA Interpretabile: Utilizzo di tecniche LIME/SHAP per l'interpretazione clinica degli output dei modelli BERT
Identificazione di Frammenti di Testo: Previsione e sintesi di frammenti di testo, confrontati con annotazioni manuali

Vantaggi di Questo Articolo

Guida Specializzata: Output del modello altamente specializzato e guidato, specifico per criteri diagnostici particolari
Novità: Primo modello fine-tuned basato su architettura Llama dedicato alla diagnosi
Sistematicità: Confronto sistematico di due categorie principali di metodi: prompting e fine-tuning

Conclusioni e Discussione

Conclusioni Principali

Efficacia dell'Apprendimento Few-shot: Gli LLM in configurazione few-shot possono avvicinarsi alla qualità della valutazione di medici clinici esperti
Differenze di Ragionamento: Nonostante risultati simili, il processo di ragionamento degli LLM differisce significativamente da quello dei clinici
Sfide del Fine-tuning: Il fine-tuning degli LLM per l'assistenza diagnostica della salute mentale affronta ancora sfide tecniche significative
Potenziale Pratico: La ricerca fornisce una direzione promettente per alleviare la pressione sul sistema sanitario

Limitazioni

Coerenza del Ragionamento: Corrispondenza limitata tra il processo di ragionamento degli LLM e quello dei clinici
Dimensione del Dataset: La dimensione del dataset di standard di riferimento verificato da esperti è relativamente piccola
Vincoli di Budget: I costi delle API limitano la verifica sperimentale su larga scala
Complessità del Fine-tuning: Il fine-tuning richiede risorse significative e ottimizzazione degli iperparametri

Direzioni Future

Applicazioni Cliniche: Sviluppo di applicazioni rivolte ai medici clinici
Valutazione Estesa: Estensione di DiagnosticLlama a GAD-7, aumento della dimensione del dataset
Questionari Complessi: Supporto per questionari strutturati non lineari (come CSSRS)
Vincoli di Sicurezza: Integrazione di limitazioni terminologiche e riscrittura dell'output per garantire la sicurezza

Valutazione Approfondita

Punti di Forza

Forte Rilevanza Clinica: Direttamente orientato a strumenti di valutazione standardizzati ampiamente utilizzati in clinica
Metodologia Completa: Copre due approcci principali: prompting e fine-tuning
Valutazione Rigorosa: Introduzione di medici clinici professionisti per la verifica, garantendo l'affidabilità dei risultati
Contributi Open-source: Fornisce modelli e dataset per l'utilizzo della comunità
Esperimenti Sufficienti: Confronto sistematico multi-modello e multi-metrica

Carenze

Dimensione del Dataset: Il dataset verificato da esperti è relativamente piccolo, potrebbe influire sulla generalizzabilità delle conclusioni
Limitazioni del Dominio: Copre solo due malattie (depressione e ansia), copertura limitata
Analisi del Ragionamento: L'analisi delle differenze tra il processo di ragionamento degli LLM e quello dei clinici non è sufficientemente approfondita
Considerazioni di Costo: Manca l'analisi del rapporto costo-beneficio della distribuzione effettiva
Discussione Etica: Discussione insufficiente delle questioni etiche della diagnosi della salute mentale assistita da IA

Impatto

Valore Accademico: Fornisce un importante riferimento per l'applicazione degli LLM nel campo della salute mentale
Valore Pratico: Fornisce una base tecnica per le istituzioni mediche per distribuire sistemi di diagnosi assistita da IA
Significato Sociale: Ha il potenziale di alleviare il problema della carenza di risorse nei servizi di salute mentale
Riproducibilità: Il codice open-source e i dataset supportano la riproduzione e l'estensione della ricerca

Scenari Applicabili

Screening Iniziale: Adatto per lo screening iniziale su larga scala della salute mentale
Diagnosi Assistita: Come strumento di assistenza per i clinici piuttosto che come sostituto
Telemedicina: Supporto per servizi di salute mentale a distanza
Strumenti di Ricerca: Fornisce strumenti di analisi automatizzata per la ricerca sulla salute mentale

Riferimenti Bibliografici

L'articolo cita 29 lavori correlati, coprendo molteplici campi rilevanti inclusi LLM, valutazione della salute mentale, ingegneria del prompting, tecniche di fine-tuning e altri, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un importante lavoro esplorativo nell'applicazione degli LLM al campo della diagnosi della salute mentale. La metodologia è scientifica, gli esperimenti sono sufficienti e le conclusioni sono affidabili, fornendo un contributo prezioso allo sviluppo di questo campo interdisciplinare. Nonostante alcune limitazioni, il suo significato pioneristico e il suo valore pratico lo rendono un importante riferimento nel settore.