2025-11-17T04:19:13.460591

Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case

Roy, Surana, Eswaramoorthi et al.

Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.

academic

Modèles de Langage de Grande Taille pour les Évaluations Diagnostiques en Santé Mentale : Exploration du Potentiel des Modèles de Langage de Grande Taille pour Assister les Évaluations Diagnostiques en Santé Mentale -- Le Cas de la Dépression et de l'Anxiété

Informations Fondamentales

ID de l'article: 2501.01305
Titre: Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case
Auteurs: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
Classification: cs.CL (Calcul et Langage)
Date de publication: 2 janvier 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2501.01305
Institutions: University of South Carolina AI Institute, Indian Institute of Research and Science, Indian Institute of Technology

Résumé

Les modèles de langage de grande taille (LLMs) suscitent une attention croissante des professionnels de la santé pour assister les évaluations diagnostiques, promettant d'atténuer les pressions sur les systèmes de santé causées par la surcharge des patients et la pénurie de prestataires de services médicaux. Pour que les LLMs jouent un rôle efficace dans le soutien des évaluations diagnostiques, ils doivent être capables de reproduire étroitement les procédures diagnostiques standardisées utilisées par les cliniciens. Cet article étudie spécifiquement le processus d'évaluation diagnostique du Questionnaire de Santé du Patient-9 (PHQ-9) pour le trouble dépressif majeur (TDM) et du Questionnaire d'Anxiété Généralisée-7 (GAD-7) pour le trouble d'anxiété généralisée (TAG). L'étude explore diverses techniques d'incitation et d'ajustement fin pour guider les LLMs propriétaires et open-source à suivre ces processus diagnostiques, et évalue la concordance entre les résultats diagnostiques générés par les LLMs et les normes de référence validées par des experts.

Contexte et Motivation de la Recherche

Contexte du Problème

Pressions du système de santé: Le système de santé actuel fait face à une double pression due à la surcharge des patients et à la pénurie de prestataires de services médicaux
Besoins en diagnostic de santé mentale: Les problèmes de santé mentale s'aggravent, nécessitant des outils d'évaluation diagnostique standardisés
Potentiel des LLMs dans le domaine médical: Les modèles de langage de grande taille excellent dans les tâches de traitement du langage naturel et présentent un potentiel d'application dans les scénarios de dialogue médical

Importance de la Recherche

Diagnostic standardisé: Le PHQ-9 et le GAD-7 sont des outils d'évaluation standardisés largement utilisés en clinique
Besoin d'automatisation: L'automatisation des évaluations diagnostiques via les LLMs peut réduire la charge de travail des cliniciens
Exigences de concordance: Les LLMs doivent être capables de reproduire les procédures diagnostiques standardisées des cliniciens pour une application pratique

Limitations des Approches Existantes

Méthodes de notation: Basées uniquement sur la notation de pertinence textuelle, manquant de compréhension approfondie
Approches d'IA explicable: Utilisation de modèles de substitution tels que LIME/SHAP, mais explicabilité clinique limitée
Identification de fragments textuels: Manque de guidance spécialisée pour les critères diagnostiques spécifiques

Contributions Principales

Modèle spécialisé novateur: Proposition de DiagnosticLlama, le premier modèle ajusté basé sur l'architecture Llama spécifiquement conçu pour l'évaluation des critères diagnostiques
Cadre d'évaluation complet: Établissement d'un système d'évaluation complet couvrant deux grandes catégories de méthodes : l'incitation et l'ajustement fin
Ensemble de données de haute qualité: Construction d'un ensemble de données synthétiques annoté par des LLMs et validé par des experts, favorisant la recherche connexe
Comparaison multi-modèles: Comparaison systématique des performances des modèles propriétaires (GPT-3.5, GPT-4o) et des modèles open-source (Llama-3.1-8b, Mixtral-8x7b)
Méthodes standardisées: Fourniture de méthodes standardisées pour l'application des LLMs aux évaluations diagnostiques PHQ-9 et GAD-7

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: Texte de publications sur les réseaux sociaux (en tant que proxy des interactions patient-clinicien) Sortie: Identification de fragments textuels et jugement de présence de symptômes pour chaque élément du PHQ-9/GAD-7 Contraintes: Respect strict des processus diagnostiques standardisés du PHQ-9 et du GAD-7

Architecture du Modèle

1. Méthodes d'Incitation (Prompting Methods)

Incitation naïve: Instructions directes
Incitation par exemples: Incitation few-shot fournissant quelques exemples
Incitation guidée: Incitation Chain-of-Thought incluant des étapes de raisonnement guidé

2. Méthodes d'Ajustement Fin (Fine-tuning Methods)

Modèle de base: MentalLlama (entraîné sur 105K données d'instructions en santé mentale)
DiagnosticLlama: Ajustement fin de MentalLlama sur l'ensemble de données PRIMATE en utilisant HuggingFace AutoTrain

Processus de Traitement des Données

Création d'Ensemble de Données de Référence

Données de base: Utilisation de l'ensemble de données PRIMATE (publications sur les réseaux sociaux + annotations PHQ-9)
Enrichissement par GPT-4o: Utilisation de GPT-4o pour identifier les fragments textuels correspondant aux symptômes
Validation par experts: Validation par trois experts cliniques des résultats de GPT-4o (Kappa de Cohen: 0,74 pour PHQ-9, 0,72 pour GAD-7)
Contrôle de qualité: Conservation uniquement des résultats d'annotation approuvés à l'unanimité par les experts

Points d'Innovation Technique

Guidance spécifique aux symptômes: Conception de modèles d'incitation spécialisés pour chaque symptôme du PHQ-9 et du GAD-7
Évaluation multi-niveaux: Système d'évaluation double combinant le classement hits@k et les métriques de classification standard
Cohérence inter-modèles: Validation de l'efficacité de la méthode sur plusieurs LLMs de différentes tailles et types
Validation clinique: Introduction de cliniciens professionnels pour la validation de la qualité, assurant la pertinence clinique

Configuration Expérimentale

Ensemble de Données

Ensemble de données PRIMATE: Contenant des publications sur les réseaux sociaux et des annotations associées au PHQ-9
Sous-ensemble validé par experts:
- PHQ-9: 40 échantillons annotés par GPT-4o validés par des experts
- GAD-7: 17 échantillons annotés par GPT-4o validés par des experts
Données annotées par modèles: Résultats d'annotations multi-modèles pour un total de 1034 publications

Métriques d'Évaluation

Métriques de classement hits@k:
- hits@1: Taux de réussite du fragment textuel le plus similaire dans les 1 premiers résultats de référence
- hits@5: Taux de réussite du fragment textuel le plus similaire dans les 5 premiers résultats de référence
Métriques de classification standard: Exactitude (Accuracy), Précision (Precision), Rappel (Recall), Score F1

Méthodes de Comparaison

Modèles propriétaires: GPT-3.5-Turbo, GPT-4o-mini
Modèles open-source: Llama-3.1-8b, Mixtral-8x7b
Modèles ajustés: MentalLlama, DiagnosticLlama
Méthodes traditionnelles: BERT, MentalBERT, MentalRoBERTa
Méthodes d'apprentissage automatique: Régression Logistique, Forêt Aléatoire, XGBoost

Détails d'Implémentation

Utilisation de HuggingFace AutoTrain pour l'ajustement fin sans code
Application de la même structure d'incitation à tous les modèles pour assurer une comparaison équitable
Sélection aléatoire de sous-ensembles de test en raison des limitations budgétaires et d'API

Résultats Expérimentaux

Résultats Principaux

Résultats d'Annotation des Symptômes PHQ-9

Performance des modèles propriétaires:

Modèle	hits@1	hits@5	Exactitude	Précision	Rappel	Score F1
GPT-3.5-Turbo	87%	98%	0,93	0,89	0,96	0,92
GPT-4o-mini	89%	99%	0,94	0,96	0,98	0,92

Performance des modèles open-source:

Modèle	hits@1	hits@5	Exactitude	Précision	Rappel	Score F1
Llama-3.1-8b	83%	88%	0,84	0,86	0,78	0,82
Mixtral-8x7b	92%	99%	0,92	0,96	0,95	0,93

Performance des modèles ajustés:

Modèle	hits@1	hits@5	Exactitude	Précision	Rappel	Score F1
MentalLlama	-	-	0,82	0,83	0,63	0,75
DiagnosticLlama	68,3%	76,2%	-	-	-	-

Résultats d'Annotation des Symptômes GAD-7

Les résultats du GAD-7 présentent une tendance similaire à celle du PHQ-9, les modèles propriétaires et open-source se rapprochant de la qualité des annotations humaines.

Découvertes Importantes

Différences de performance des modèles: Les LLMs de nouvelle génération surpassent significativement les modèles plus anciens
- Llama2-7b-chat: F1=0,663
- Mistral-instruct: F1=0,655
Défis de l'ajustement fin: L'ajustement fin des LLMs pour les tâches diagnostiques professionnelles est extrêmement difficile
- MentalLlama répète directement l'entrée, démontrant l'importance de la configuration de l'ajustement fin
- DiagnosticLlama montre des améliorations mais nécessite toujours une optimisation
Comparaison avec les méthodes traditionnelles:
- BERT: F1=0,69
- MentalBERT: F1=0,71
- MentalRoBERTa: F1=0,48
- Les méthodes d'apprentissage automatique traditionnel affichent des performances plus faibles (XGBoost maximal: F1=0,65)

Analyse de Cas

L'article démontre par des exemples concrets comment les modèles identifient les fragments textuels correspondant aux symptômes du PHQ-9 dans le texte, par exemple l'identification de "I thought I set myself up for success. Now I believe I was dead wrong for joining" correspondant au symptôme "se sentir comme un échec".

Travaux Connexes

Principales Directions de Recherche

Méthodes de notation: Classement des textes basé sur la pertinence par rapport aux symptômes du PHQ-9/GAD-7
Approches d'IA explicable: Utilisation de techniques telles que LIME/SHAP pour interpréter cliniquement les résultats des modèles BERT
Identification de fragments textuels: Prédiction et résumé de fragments textuels, comparaison avec les annotations manuelles

Avantages de cet Article

Guidance spécialisée: Guidance de sortie hautement spécialisée pour les critères diagnostiques spécifiques
Caractère novateur: Premier modèle ajusté spécialisé en diagnostic basé sur l'architecture Llama
Systématicité: Comparaison systématique de deux grandes catégories de méthodes : l'incitation et l'ajustement fin

Conclusions et Discussion

Conclusions Principales

Efficacité de l'apprentissage few-shot: Les LLMs en configuration few-shot peuvent se rapprocher de la qualité d'évaluation des cliniciens experts
Différences de raisonnement: Bien que les résultats soient proches, le processus de raisonnement des LLMs diffère significativement de celui des cliniciens
Défis de l'ajustement fin: L'ajustement fin des LLMs pour l'assistance diagnostique en santé mentale fait toujours face à des défis techniques majeurs
Potentiel pratique: La recherche fournit une direction prometteuse pour atténuer les pressions sur le système de santé

Limitations

Cohérence du raisonnement: Correspondance limitée entre le processus de raisonnement des LLMs et celui des cliniciens
Taille de l'ensemble de données: L'ensemble de données de référence validé par des experts est relativement petit
Limitations budgétaires: Les coûts d'API limitent la vérification expérimentale à grande échelle
Complexité de l'ajustement fin: L'ajustement fin nécessite des ressources considérables et un réglage des hyperparamètres

Directions Futures

Application clinique: Développement d'applications destinées aux cliniciens
Évaluation étendue: Extension de DiagnosticLlama au GAD-7, augmentation de la taille de l'ensemble de données
Questionnaires complexes: Support des questionnaires structurés non linéaires (par exemple, CSSRS)
Contraintes de sécurité: Intégration de restrictions terminologiques et de réécriture de résultats pour assurer la sécurité

Évaluation Approfondie

Points Forts

Pertinence clinique forte: Ciblage direct des outils d'évaluation standardisés largement utilisés en clinique
Méthode complète: Couverture des deux principales approches : l'incitation et l'ajustement fin
Évaluation rigoureuse: Introduction de cliniciens professionnels pour la validation, assurant la fiabilité des résultats
Contribution open-source: Fourniture de modèles et d'ensembles de données pour utilisation communautaire
Expérimentation suffisante: Comparaison systématique multi-modèles et multi-métriques

Insuffisances

Taille de l'ensemble de données: L'ensemble de données validé par des experts est relativement petit, pouvant affecter la généralisation des conclusions
Limitation du domaine: Ciblage uniquement de deux maladies (dépression et anxiété), couverture limitée
Analyse du raisonnement: Analyse insuffisante des différences entre le processus de raisonnement des LLMs et celui des cliniciens
Considérations de coûts: Absence d'analyse coûts-bénéfices du déploiement pratique
Discussion éthique: Discussion insuffisante des questions éthiques liées au diagnostic de santé mentale assisté par IA

Impact

Valeur académique: Fourniture d'une référence importante pour l'application des LLMs dans le domaine de la santé mentale
Valeur pratique: Fourniture d'une base technique pour le déploiement par les établissements de santé de systèmes de diagnostic assisté par IA
Signification sociale: Promesse d'atténuer le problème de pénurie de ressources en services de santé mentale
Reproductibilité: Support du code open-source et des ensembles de données pour la reproduction et l'extension de la recherche

Scénarios d'Application

Dépistage initial: Applicable au dépistage initial à grande échelle en santé mentale
Diagnostic assisté: Utilisation comme outil d'assistance pour les cliniciens plutôt que comme remplacement
Télémédecine: Support des services de santé mentale à distance
Outil de recherche: Fourniture d'outils d'analyse automatisée pour la recherche en santé mentale

Références

L'article cite 29 références connexes, couvrant plusieurs domaines pertinents incluant les LLMs, l'évaluation de la santé mentale, l'ingénierie d'incitation, les techniques d'ajustement fin, etc., fournissant une base théorique solide pour la recherche.

Évaluation Globale: Cet article constitue un travail d'exploration important dans l'application des LLMs au domaine du diagnostic en santé mentale. La méthode est scientifique, l'expérimentation suffisante et les conclusions fiables, apportant une contribution précieuse au développement de ce domaine interdisciplinaire. Malgré certaines limitations, sa signification novatrice et sa valeur pratique en font une référence importante dans ce domaine.