Depression has impacted millions of people worldwide and has become one of the most prevalent mental disorders. Early mental disorder detection can lead to cost savings for public health agencies and avoid the onset of other major comorbidities. Additionally, the shortage of specialized personnel is a critical issue because clinical depression diagnosis is highly dependent on expert professionals and is time consuming.
In this study, we explore the use of GPT-4 for clinical depression assessment based on transcript analysis. We examine the model's ability to classify patient interviews into binary categories: depressed and not depressed. A comparative analysis is conducted considering prompt complexity (e.g., using both simple and complex prompts) as well as varied temperature settings to assess the impact of prompt complexity and randomness on the model's performance.
Results indicate that GPT-4 exhibits considerable variability in accuracy and F1-Score across configurations, with optimal performance observed at lower temperature values (0.0-0.2) for complex prompts. However, beyond a certain threshold (temperature >= 0.3), the relationship between randomness and performance becomes unpredictable, diminishing the gains from prompt complexity.
These findings suggest that, while GPT-4 shows promise for clinical assessment, the configuration of the prompts and model parameters requires careful calibration to ensure consistent results. This preliminary study contributes to understanding the dynamics between prompt engineering and large language models, offering insights for future development of AI-powered tools in clinical settings.
- ID Articolo: 2501.00199
- Titolo: GPT-4 on Clinic Depression Assessment: An LLM-Based Pilot Study
- Autori: Giuliano Lorenzoni, Pedro Elkind Velmovitsky, Paulo Alencar, Donald Cowan
- Classificazione: cs.CL (Linguistica Computazionale), cs.AI (Intelligenza Artificiale)
- Data di Pubblicazione: 31 dicembre 2024 (preprint arXiv)
- Link dell'Articolo: https://arxiv.org/abs/2501.00199
La depressione ha colpito milioni di persone in tutto il mondo, diventando una delle malattie mentali più diffuse. La rilevazione precoce delle malattie psichiatriche può ridurre i costi per le istituzioni di sanità pubblica ed evitare altre gravi complicazioni. Inoltre, la carenza di professionisti rappresenta un problema critico, poiché la diagnosi clinica della depressione dipende fortemente da esperti ed è molto dispendiosa in termini di tempo.
Questo studio esplora l'utilizzo di GPT-4 per la valutazione clinica della depressione basata su trascrizioni di interviste. La ricerca ha testato la capacità del modello di classificare le interviste dei pazienti in due categorie binarie (depresso e non depresso). Attraverso un'analisi comparativa che considera la complessità dei prompt (prompt semplici e complessi) e diverse impostazioni di temperatura, è stato valutato l'impatto della complessità dei prompt e della casualità sulla prestazione del modello.
I risultati mostrano una variabilità significativa nell'accuratezza e nel punteggio F1 di GPT-4 in diverse configurazioni, con le migliori prestazioni osservate a valori di temperatura più bassi (0,0-0,2) con prompt complessi. Tuttavia, oltre una certa soglia (temperatura ≥ 0,3), la relazione tra casualità e prestazione diventa imprevedibile, indebolendo i vantaggi derivanti dalla complessità dei prompt.
Il problema centrale affrontato da questa ricerca è come sfruttare il modello di linguaggio di grandi dimensioni GPT-4 per assistere nella diagnosi clinica della depressione, in particolare attraverso l'analisi di trascrizioni di interviste con pazienti per la classificazione binaria (depresso/non depresso).
- Onere sanitario globale: La depressione è una delle malattie mentali più diffuse a livello mondiale, colpendo milioni di persone
- Valore della rilevazione precoce: L'identificazione precoce può ridurre significativamente i costi medici e prevenire gravi complicazioni
- Carenza di risorse: Grave insufficienza di professionisti della salute mentale, con processi diagnostici dipendenti da esperti e dispendiosi in termini di tempo
- Opportunità tecnologica: Lo sviluppo di modelli di linguaggio di grandi dimensioni offre nuove possibilità per l'automatizzazione della valutazione della salute mentale
- Metodi tradizionali di apprendimento automatico: Principalmente basati su SVM, TextCNN e altri approcci, con applicazione limitata al dataset DAIC-WOZ
- Dipendenza dall'ingegneria delle caratteristiche: Richiede l'estrazione manuale di caratteristiche, mancando di capacità di automazione end-to-end
- Insufficiente applicazione di LLM: Sebbene esistano ricerche che utilizzano LLM per il rilevamento della depressione, mancano studi sistematici sull'ingegneria dei prompt e l'ottimizzazione dei parametri
Attraverso uno studio sistematico dell'applicazione di GPT-4 nella valutazione clinica della depressione, con particolare attenzione alle strategie di ingegneria dei prompt e ai parametri del modello (come la temperatura) che influenzano le prestazioni, fornire una base empirica per la diagnosi della salute mentale assistita da IA.
- Primo studio sistematico dell'applicazione di GPT-4 nel compito di classificazione binaria della depressione clinica, con valutazione completa basata sul dataset DAIC-WOZ
- Proposta di una strategia di ingegneria dei prompt progressiva, dall'analisi dei prompt semplici ai prompt complessi fino all'arricchimento con esempi, analizzando sistematicamente l'impatto di diverse complessità sulle prestazioni
- Analisi approfondita dell'impatto del parametro di temperatura sulla stabilità e sulle prestazioni del modello, scoprendo l'intervallo di temperatura ottimale di 0,0-0,2
- Rivelazione della relazione non lineare tra complessità dei prompt e casualità, fornendo orientamenti per l'ottimizzazione dei parametri nelle applicazioni cliniche di IA
- Fornitura di strategie di configurazione pratica per la diagnosi della salute mentale assistita da IA, enfatizzando l'importanza di ridurre i falsi negativi negli ambienti clinici
Input: Testo trascritto di interviste con pazienti (dal dataset DAIC-WOZ)
Output: Risultato di classificazione binaria ("depresso" o "non depresso")
Vincoli: Criteri diagnostici standardizzati basati sulla scala PHQ-8
Questo studio adotta un disegno sperimentale progressivo in cinque fasi:
Utilizzo del prompt di classificazione più basilare, senza fornire alcun contesto o esempio, come baseline di prestazione.
Aggiunta di quattro esempi al prompt semplice (due casi di depressione, due casi di non depressione), adottando una strategia di apprendimento few-shot.
Combinazione di esempi e contesto clinico dettagliato, simulando la prospettiva analitica di uno psicologo clinico professionista, fornendo informazioni di guida più ricche.
Test sistematico dell'impatto di diversi valori di temperatura (0,0, 0,1, 0,2, 0,3, 0,5) sulle prestazioni del modello.
Analisi dell'impatto della variabilità dell'output sull'affidabilità della diagnosi clinica di GPT-4.
- Disegno progressivo della complessità dei prompt: Metodo sistematico di ingegneria dei prompt dal semplice al complesso
- Modellazione della relazione temperatura-prestazione: Primo studio sistematico del ruolo del parametro di temperatura nei compiti di classificazione clinica
- Framework di valutazione orientato clinicamente: Focalizzazione sulla riduzione dei falsi negativi, in linea con la pratica clinica
- Inferenza diretta senza addestramento: Completamente basata sulle capacità zero-shot e few-shot del modello preaddestrato
DAIC-WOZ (Distress Analysis Interview Corpus - Wizard-of-Oz)
- Dimensione: 189 sessioni di intervista, effettivamente utilizzate 184-188 (con lievi variazioni dovute a problemi di elaborazione dei dati)
- Annotazione: Basata sulla scala PHQ-8, 56 casi di depressione, circa 130 casi di non depressione
- Tipo di dati: Testo trascritto di interviste
- Distribuzione dei dati: Circa 30% di casi di depressione, 70% di casi di non depressione (dataset sbilanciato)
- Accuratezza (Accuracy): Tasso complessivo di classificazione corretta
- Precisione (Precision): Proporzione di veri positivi tra i predetti come depressi
- Sensibilità (Recall): Proporzione di casi effettivamente depressi correttamente identificati
- Punteggio F1: Media armonica di precisione e sensibilità
- Matrice di Confusione: Visualizzazione dettagliata della distribuzione dei risultati di classificazione
- Interfaccia API: OpenAI GPT-4 API
- Ambiente di programmazione: Python + Pandas + NumPy + scikit-learn + Matplotlib/Seaborn
- Intervallo di temperatura: Da 0,0 a 0,5, con incrementi di 0,1
- Selezione degli esempi: Scelta equilibrata di due casi positivi e due casi negativi
| Metrica | Valore |
|---|
| Accuratezza | 70,74% |
| Precisione | 54,55% |
| Sensibilità | 10,71% |
| Punteggio F1 | 17,91% |
Matrice di Confusione: 127 veri negativi, 5 falsi positivi, 50 falsi negativi, 6 veri positivi
| Metrica | Valore |
|---|
| Accuratezza | 70,49% |
| Precisione | 50,00% |
| Sensibilità | 77,78% |
| Punteggio F1 | 60,87% |
Scoperta chiave: Aumento significativo della sensibilità al 77,78%, con il punteggio F1 che salta da 17,91% a 60,87%
| Metrica | Valore |
|---|
| Accuratezza | 69,23% |
| Precisione | 48,39% |
| Sensibilità | 55,56% |
| Punteggio F1 | 51,72% |
Scoperta inaspettata: Le prestazioni del prompt complesso diminuiscono effettivamente, probabilmente a causa dell'introduzione di maggiore casualità dall'impostazione di temperatura predefinita
| Temperatura | Accuratezza | Precisione | Sensibilità | Punteggio F1 |
|---|
| 0,0 | 72,28% | 51,95% | 74,07% | 61,07% |
| 0,1 | 73,37% | 53,09% | 79,63% | 63,70% |
| 0,2 | 71,74% | 51,16% | 81,48% | 62,86% |
| 0,3 | 67,93% | 46,67% | 64,81% | 54,26% |
| 0,5 | 68,48% | 47,56% | 72,22% | 57,35% |
- Intervallo di temperatura ottimale: L'intervallo 0,0-0,2 mostra le migliori prestazioni, con la temperatura 0,1 che raggiunge l'accuratezza massima del 73,37% e il punteggio F1 di 63,70%
- Relazione non lineare temperatura-prestazione: Le prestazioni diminuiscono significativamente quando la temperatura ≥ 0,3, mostrando fluttuazioni imprevedibili
- Effetto significativo dell'apprendimento da esempi: L'apprendimento few-shot aumenta il punteggio F1 da 17,91% a 60,87%
- Paradosso della complessità: I prompt eccessivamente complessi riducono effettivamente le prestazioni con la temperatura predefinita
- Ottimizzazione degli indicatori clinici: Le impostazioni di temperatura bassa bilanciano efficacemente sensibilità e specificità
Attraverso il disegno sperimentale progressivo, è possibile osservare chiaramente il contributo di ciascun componente:
- Capacità di classificazione di base: Il prompt semplice già possiede una certa capacità di classificazione (70,74% di accuratezza)
- Guadagno dell'apprendimento da esempi: L'apprendimento few-shot aumenta significativamente la sensibilità (da 10,71% a 77,78%)
- Valore dell'ottimizzazione della temperatura: L'impostazione appropriata della temperatura può ulteriormente ottimizzare l'equilibrio delle prestazioni
- Costo della complessità: I prompt eccessivamente ingegnerizzati possono introdurre rumore
Le ricerche esistenti adottano principalmente metodi ML tradizionali come SVM e TextCNN sul dataset DAIC-WOZ per il rilevamento della depressione, focalizzandosi su caratteristiche vocali e analisi del sentimento del testo, ma mancano di capacità di automazione end-to-end.
- Ricerca E-DAIC: Utilizzo di LLM per prevedere i punteggi PHQ-8, ottenendo un errore assoluto medio di 3,65
- Applicazioni di LLM cross-dominio: Dimostrazione di potenziale in analisi del sentimento e compiti di classificazione in settori come finanza e ingegneria del software
- Ingegneria sistematica dei prompt: Primo studio sistematico dell'impatto della complessità dei prompt sulla classificazione clinica
- Analisi della sensibilità dei parametri: Analisi approfondita dell'impatto del parametro di temperatura sulla stabilità
- Disegno orientato clinicamente: Focalizzazione sulla riduzione dei falsi negativi, in linea con la pratica clinica
- GPT-4 possiede potenziale nella classificazione clinica della depressione: Con configurazione appropriata può raggiungere un'accuratezza del 73,37% e un punteggio F1 del 63,70%
- Le strategie di ingegneria dei prompt sono efficaci: L'arricchimento con esempi aumenta significativamente le prestazioni, in particolare la sensibilità
- Il parametro di temperatura è critico: L'intervallo di temperatura bassa di 0,0-0,2 fornisce il miglior equilibrio tra stabilità e prestazioni
- La complessità richiede un bilanciamento attento: I prompt eccessivamente complessi possono introdurre variabilità non necessaria
- L'applicazione clinica richiede un'ottimizzazione fine: L'impatto della configurazione dei parametri sulla coerenza e l'affidabilità è significativo
- Limitazione della dimensione del dataset: Solo 189 campioni, che potrebbero influenzare la generalizzabilità dei risultati
- Problema dello squilibrio dei dati: Un tasso di depressione del 30% è molto più alto del tasso di prevalenza nella popolazione reale, che potrebbe introdurre distorsioni
- Fonte di dati singola: Utilizzo solo del dataset DAIC-WOZ, mancanza di validazione cross-dataset
- Impatto della casualità: La casualità intrinseca del modello potrebbe influenzare la coerenza dei risultati
- Mancanza di validazione professionale: Nessun confronto con i risultati diagnostici di esperti clinici
- Generazione Aumentata da Recupero (RAG): Integrazione di basi di conoscenze mediche esterne per migliorare l'accuratezza diagnostica
- Fine-tuning specifico del dominio: Addestramento specializzato del modello utilizzando dati clinici
- Fusione multimodale: Combinazione di informazioni da modalità multiple come voce e video
- Strategie di controllo della variabilità: Esplorazione di metodi di aggregazione dei risultati da più esecuzioni
- Validazione clinica su larga scala: Verifica su dataset clinici più grandi e diversificati
- Disegno della ricerca rigoroso: Il disegno sperimentale progressivo presenta chiaramente l'impatto di ciascun fattore
- Alto valore pratico: Fornisce orientamenti pratici per la diagnosi della salute mentale assistita da IA
- Analisi dei parametri approfondita: Studio sistematico dell'impatto del parametro di temperatura sulle prestazioni
- Orientamento clinico chiaro: Enfasi sulla riduzione dei falsi negativi, in linea con la pratica clinica
- Risultati trasparenti e dettagliati: Fornisce matrici di confusione dettagliate e metriche di prestazione
- Dimensione del campione relativamente piccola: 189 campioni sono relativamente limitati per la ricerca di apprendimento profondo
- Mancanza di test di significatività statistica: Non sono riportate le significatività statistiche dei risultati
- Controllo insufficiente della casualità: Non sono state adottate medie di più esecuzioni per controllare la variazione casuale
- Confronto di baseline limitato: Mancanza di confronti con altri LLM o metodi tradizionali
- Assenza di validazione clinica: Nessun confronto con le diagnosi di esperti clinici reali
- Contributo accademico: Fornisce un importante riferimento per l'applicazione di LLM nel campo della salute mentale
- Valore pratico: Fornisce orientamenti sulla strategia di configurazione per lo sviluppo di strumenti clinici di IA
- Valore metodologico: I metodi di ingegneria dei prompt e ottimizzazione dei parametri possono essere estesi ad altri compiti clinici
- Impatto politico: Fornisce supporto empirico per la regolamentazione e la standardizzazione della medicina assistita da IA
- Diagnosi clinica assistita: Come strumento ausiliario per gli esperti di salute mentale
- Screening su larga scala: Screening iniziale in regioni con risorse limitate
- Telemedicina: Supporto per i servizi di salute mentale online
- Strumento di ricerca: Preelaborazione dei dati per la ricerca su larga scala sulla salute mentale
L'articolo cita 20 articoli correlati, che coprono:
- Ricerche correlate al dataset DAIC-WOZ
- Applicazioni di apprendimento automatico tradizionale nel rilevamento della depressione
- Compiti di classificazione e generazione di LLM in vari settori
- Strumenti standardizzati per la valutazione della salute mentale (PHQ-8)
Valutazione Complessiva: Questo è uno studio preliminare di alta qualità che esplora sistematicamente il potenziale dell'applicazione di GPT-4 nella valutazione clinica della depressione. Il disegno della ricerca è ragionevole, i risultati sperimentali hanno valore e fornisce importanti contributi al campo della diagnosi della salute mentale assistita da IA. Sebbene presenti limitazioni in termini di dimensione del campione e metodi di validazione, pone una solida base per la ricerca futura.