2025-11-17T04:19:13.460591

Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case

Roy, Surana, Eswaramoorthi et al.
Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.
academic

Modelli di Linguaggio di Grandi Dimensioni per Valutazioni Diagnostiche della Salute Mentale: Esplorare il Potenziale dei Modelli di Linguaggio di Grandi Dimensioni nell'Assistenza alle Valutazioni Diagnostiche della Salute Mentale -- Il Caso della Depressione e dell'Ansia

Informazioni Fondamentali

  • ID Articolo: 2501.01305
  • Titolo: Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case
  • Autori: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
  • Classificazione: cs.CL (Computation and Language)
  • Data di Pubblicazione: 2 gennaio 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2501.01305
  • Istituzioni: University of South Carolina AI Institute, Indian Institute of Research and Science, Indian Institute of Technology

Riassunto

I modelli di linguaggio di grandi dimensioni (LLM) stanno ricevendo crescente attenzione dai professionisti medici per l'assistenza nelle valutazioni diagnostiche, con la promessa di alleviare la pressione sui sistemi sanitari causata dal sovraccarico di pazienti e dalla carenza di fornitori di servizi medici. Affinché gli LLM svolgano un ruolo efficace nel supporto delle valutazioni diagnostiche, devono essere in grado di replicare fedelmente i procedure diagnostiche standardizzate utilizzate dai clinici. Questo articolo esamina specificamente il processo di valutazione diagnostica utilizzando il Patient Health Questionnaire-9 (PHQ-9) per il disturbo depressivo maggiore (MDD) e il Generalized Anxiety Disorder-7 (GAD-7) per il disturbo d'ansia generalizzato (GAD). Lo studio esplora varie tecniche di prompting e fine-tuning per guidare gli LLM proprietari e open-source nel seguire questi processi diagnostici, e valuta la concordanza tra i risultati diagnostici generati dagli LLM e gli standard di riferimento verificati da esperti.

Contesto di Ricerca e Motivazione

Contesto del Problema

  1. Pressione sul Sistema Sanitario: Il sistema sanitario attuale affronta la doppia pressione del sovraccarico di pazienti e della carenza di fornitori di servizi medici
  2. Necessità di Diagnosi della Salute Mentale: I problemi di salute mentale stanno aumentando, richiedendo strumenti di valutazione diagnostica standardizzati
  3. Potenziale degli LLM nel Settore Medico: I modelli di linguaggio di grandi dimensioni hanno dimostrato eccellenza nei compiti di elaborazione del linguaggio naturale, con potenziale applicativo negli scenari di dialogo medico

Importanza della Ricerca

  • Diagnosi Standardizzata: PHQ-9 e GAD-7 sono strumenti di valutazione standardizzati ampiamente utilizzati in clinica
  • Necessità di Automazione: L'automazione delle valutazioni diagnostiche attraverso gli LLM può ridurre il carico di lavoro dei clinici
  • Requisiti di Concordanza: Gli LLM devono essere in grado di replicare i procedure diagnostiche standardizzate dei clinici per applicazioni pratiche

Limitazioni degli Approcci Esistenti

  1. Metodi di Scoring: Basati solo su scoring di rilevanza testuale, mancano di comprensione profonda
  2. Approcci di IA Interpretabile: Utilizzo di modelli surrogati come LIME/SHAP, ma con interpretabilità clinica limitata
  3. Identificazione di Frammenti di Testo: Mancanza di guida specializzata per criteri diagnostici specifici

Contributi Fondamentali

  1. Modello Specializzato Innovativo: Propone DiagnosticLlama, il primo modello fine-tuned basato su architettura Llama specificamente per la valutazione di criteri diagnostici
  2. Framework di Valutazione Completo: Stabilisce un sistema di valutazione completo che copre due categorie principali di metodi: prompting e fine-tuning
  3. Dataset di Alta Qualità: Costruisce un dataset sintetico annotato da LLM e verificato da esperti, promuovendo la ricerca correlata
  4. Confronto Multi-Modello: Confronta sistematicamente le prestazioni di modelli proprietari (GPT-3.5, GPT-4o) e modelli open-source (Llama-3.1-8b, Mixtral-8x7b)
  5. Metodologia Standardizzata: Fornisce metodi standardizzati per l'applicazione degli LLM alle valutazioni diagnostiche PHQ-9 e GAD-7

Spiegazione Dettagliata dei Metodi

Definizione del Compito

Input: Testo di post da social media (come proxy di interazioni paziente-clinico) Output: Identificazione di frammenti di testo e giudizio sulla presenza di sintomi per ogni elemento di PHQ-9/GAD-7 Vincoli: Deve seguire rigorosamente i procedure diagnostici standardizzati di PHQ-9 e GAD-7

Architettura del Modello

1. Metodi di Prompting

  • Prompting Ingenuo: Istruzioni dirette
  • Prompting con Esempi: Prompting few-shot con esempi forniti
  • Prompting Guidato: Prompting Chain-of-Thought con guida ai passaggi di ragionamento

2. Metodi di Fine-tuning

  • Modello Base: MentalLlama (addestrato su 105K dati di istruzioni sulla salute mentale)
  • DiagnosticLlama: MentalLlama fine-tuned utilizzando HuggingFace AutoTrain sul dataset PRIMATE

Flusso di Elaborazione dei Dati

Creazione del Dataset di Standard di Riferimento

  1. Dati Base: Utilizzo del dataset PRIMATE (post da social media + annotazioni PHQ-9)
  2. Potenziamento con GPT-4o: Utilizzo di GPT-4o per identificare frammenti di testo corrispondenti ai sintomi
  3. Verifica da Esperti: Tre esperti clinici verificano l'output di GPT-4o (Cohen's Kappa: 0.74 per PHQ-9, 0.72 per GAD-7)
  4. Controllo di Qualità: Conservazione solo dei risultati di annotazione concordati dagli esperti

Punti di Innovazione Tecnica

  1. Guida Specifica ai Sintomi: Modelli di prompting specializzati progettati per ogni sintomo di PHQ-9 e GAD-7
  2. Valutazione Multi-Livello: Sistema di valutazione duale che combina metriche di ranking hits@k e metriche di classificazione standard
  3. Concordanza Cross-Modello: Validazione della metodologia su più LLM di diverse dimensioni e tipi
  4. Verifica Clinica: Introduzione di medici clinici professionisti per la verifica della qualità, garantendo la rilevanza clinica

Configurazione Sperimentale

Dataset

  • Dataset PRIMATE: Contiene post da social media e annotazioni correlate a PHQ-9
  • Sottoinsieme Verificato da Esperti:
    • PHQ-9: 40 campioni annotati da GPT-4o verificati da esperti
    • GAD-7: 17 campioni annotati da GPT-4o verificati da esperti
  • Dati Annotati da Modelli: Risultati di annotazione multi-modello per un totale di 1034 post

Metriche di Valutazione

  1. Metriche di Ranking hits@k:
    • hits@1: Tasso di successo quando il frammento di testo più simile si trova nella posizione 1 dello standard di riferimento
    • hits@5: Tasso di successo quando il frammento di testo più simile si trova nelle prime 5 posizioni dello standard di riferimento
  2. Metriche di Classificazione Standard: Accuratezza, Precisione, Richiamo, Punteggio F1

Metodi di Confronto

  • Modelli Proprietari: GPT-3.5-Turbo, GPT-4o-mini
  • Modelli Open-source: Llama-3.1-8b, Mixtral-8x7b
  • Modelli Fine-tuned: MentalLlama, DiagnosticLlama
  • Metodi Tradizionali: BERT, MentalBERT, MentalRoBERTa
  • Metodi di Machine Learning: Logistic Regression, Random Forest, XGBoost

Dettagli di Implementazione

  • Utilizzo di HuggingFace AutoTrain per fine-tuning senza codice
  • Applicazione della stessa struttura di prompting a tutti i modelli per garantire confronti equi
  • Selezione casuale di sottoinsiemi di test a causa di vincoli di budget e API

Risultati Sperimentali

Risultati Principali

Risultati di Annotazione dei Sintomi PHQ-9

Prestazioni dei Modelli Proprietari:

Modellohits@1hits@5AccuratezzaPrecisioneRichiamoPunteggio F1
GPT-3.5-Turbo87%98%0.930.890.960.92
GPT-4o-mini89%99%0.940.960.980.92

Prestazioni dei Modelli Open-source:

Modellohits@1hits@5AccuratezzaPrecisioneRichiamoPunteggio F1
Llama-3.1-8b83%88%0.840.860.780.82
Mixtral-8x7b92%99%0.920.960.950.93

Prestazioni dei Modelli Fine-tuned:

Modellohits@1hits@5AccuratezzaPrecisioneRichiamoPunteggio F1
MentalLlama--0.820.830.630.75
DiagnosticLlama68.3%76.2%----

Risultati di Annotazione dei Sintomi GAD-7

I risultati di GAD-7 presentano tendenze simili a PHQ-9, con modelli proprietari e open-source che si avvicinano alla qualità dell'annotazione umana.

Scoperte Importanti

  1. Differenze di Prestazione dei Modelli: Gli LLM di nuova generazione superano significativamente i modelli di versioni precedenti
    • Llama2-7b-chat: F1=0.663
    • Mistral-instruct: F1=0.655
  2. Sfide del Fine-tuning: Il fine-tuning degli LLM per compiti diagnostici professionali è estremamente impegnativo
    • MentalLlama ripete direttamente l'input, dimostrando l'importanza della configurazione del fine-tuning
    • DiagnosticLlama mostra miglioramenti ma necessita ancora di ottimizzazione
  3. Confronto con Metodi Tradizionali:
    • BERT: F1=0.69
    • MentalBERT: F1=0.71
    • MentalRoBERTa: F1=0.48
    • I metodi tradizionali di ML mostrano prestazioni peggiori (massimo XGBoost: F1=0.65)

Analisi di Casi

L'articolo presenta esempi concreti di come i modelli identificano frammenti di testo nel testo corrispondenti ai sintomi di PHQ-9, ad esempio identificando "I thought I set myself up for success. Now I believe I was dead wrong for joining" come corrispondente al sintomo "sentirsi come un fallimento".

Lavori Correlati

Principali Direzioni di Ricerca

  1. Metodi di Scoring: Scoring e ranking del testo basati sulla rilevanza rispetto ai sintomi di PHQ-9/GAD-7
  2. Approcci di IA Interpretabile: Utilizzo di tecniche LIME/SHAP per l'interpretazione clinica degli output dei modelli BERT
  3. Identificazione di Frammenti di Testo: Previsione e sintesi di frammenti di testo, confrontati con annotazioni manuali

Vantaggi di Questo Articolo

  • Guida Specializzata: Output del modello altamente specializzato e guidato, specifico per criteri diagnostici particolari
  • Novità: Primo modello fine-tuned basato su architettura Llama dedicato alla diagnosi
  • Sistematicità: Confronto sistematico di due categorie principali di metodi: prompting e fine-tuning

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia dell'Apprendimento Few-shot: Gli LLM in configurazione few-shot possono avvicinarsi alla qualità della valutazione di medici clinici esperti
  2. Differenze di Ragionamento: Nonostante risultati simili, il processo di ragionamento degli LLM differisce significativamente da quello dei clinici
  3. Sfide del Fine-tuning: Il fine-tuning degli LLM per l'assistenza diagnostica della salute mentale affronta ancora sfide tecniche significative
  4. Potenziale Pratico: La ricerca fornisce una direzione promettente per alleviare la pressione sul sistema sanitario

Limitazioni

  1. Coerenza del Ragionamento: Corrispondenza limitata tra il processo di ragionamento degli LLM e quello dei clinici
  2. Dimensione del Dataset: La dimensione del dataset di standard di riferimento verificato da esperti è relativamente piccola
  3. Vincoli di Budget: I costi delle API limitano la verifica sperimentale su larga scala
  4. Complessità del Fine-tuning: Il fine-tuning richiede risorse significative e ottimizzazione degli iperparametri

Direzioni Future

  1. Applicazioni Cliniche: Sviluppo di applicazioni rivolte ai medici clinici
  2. Valutazione Estesa: Estensione di DiagnosticLlama a GAD-7, aumento della dimensione del dataset
  3. Questionari Complessi: Supporto per questionari strutturati non lineari (come CSSRS)
  4. Vincoli di Sicurezza: Integrazione di limitazioni terminologiche e riscrittura dell'output per garantire la sicurezza

Valutazione Approfondita

Punti di Forza

  1. Forte Rilevanza Clinica: Direttamente orientato a strumenti di valutazione standardizzati ampiamente utilizzati in clinica
  2. Metodologia Completa: Copre due approcci principali: prompting e fine-tuning
  3. Valutazione Rigorosa: Introduzione di medici clinici professionisti per la verifica, garantendo l'affidabilità dei risultati
  4. Contributi Open-source: Fornisce modelli e dataset per l'utilizzo della comunità
  5. Esperimenti Sufficienti: Confronto sistematico multi-modello e multi-metrica

Carenze

  1. Dimensione del Dataset: Il dataset verificato da esperti è relativamente piccolo, potrebbe influire sulla generalizzabilità delle conclusioni
  2. Limitazioni del Dominio: Copre solo due malattie (depressione e ansia), copertura limitata
  3. Analisi del Ragionamento: L'analisi delle differenze tra il processo di ragionamento degli LLM e quello dei clinici non è sufficientemente approfondita
  4. Considerazioni di Costo: Manca l'analisi del rapporto costo-beneficio della distribuzione effettiva
  5. Discussione Etica: Discussione insufficiente delle questioni etiche della diagnosi della salute mentale assistita da IA

Impatto

  1. Valore Accademico: Fornisce un importante riferimento per l'applicazione degli LLM nel campo della salute mentale
  2. Valore Pratico: Fornisce una base tecnica per le istituzioni mediche per distribuire sistemi di diagnosi assistita da IA
  3. Significato Sociale: Ha il potenziale di alleviare il problema della carenza di risorse nei servizi di salute mentale
  4. Riproducibilità: Il codice open-source e i dataset supportano la riproduzione e l'estensione della ricerca

Scenari Applicabili

  1. Screening Iniziale: Adatto per lo screening iniziale su larga scala della salute mentale
  2. Diagnosi Assistita: Come strumento di assistenza per i clinici piuttosto che come sostituto
  3. Telemedicina: Supporto per servizi di salute mentale a distanza
  4. Strumenti di Ricerca: Fornisce strumenti di analisi automatizzata per la ricerca sulla salute mentale

Riferimenti Bibliografici

L'articolo cita 29 lavori correlati, coprendo molteplici campi rilevanti inclusi LLM, valutazione della salute mentale, ingegneria del prompting, tecniche di fine-tuning e altri, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un importante lavoro esplorativo nell'applicazione degli LLM al campo della diagnosi della salute mentale. La metodologia è scientifica, gli esperimenti sono sufficienti e le conclusioni sono affidabili, fornendo un contributo prezioso allo sviluppo di questo campo interdisciplinare. Nonostante alcune limitazioni, il suo significato pioneristico e il suo valore pratico lo rendono un importante riferimento nel settore.