2025-11-17T04:19:13.460591

Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case

Roy, Surana, Eswaramoorthi et al.
Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.
academic

Modèles de Langage de Grande Taille pour les Évaluations Diagnostiques en Santé Mentale : Exploration du Potentiel des Modèles de Langage de Grande Taille pour Assister les Évaluations Diagnostiques en Santé Mentale -- Le Cas de la Dépression et de l'Anxiété

Informations Fondamentales

  • ID de l'article: 2501.01305
  • Titre: Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case
  • Auteurs: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
  • Classification: cs.CL (Calcul et Langage)
  • Date de publication: 2 janvier 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2501.01305
  • Institutions: University of South Carolina AI Institute, Indian Institute of Research and Science, Indian Institute of Technology

Résumé

Les modèles de langage de grande taille (LLMs) suscitent une attention croissante des professionnels de la santé pour assister les évaluations diagnostiques, promettant d'atténuer les pressions sur les systèmes de santé causées par la surcharge des patients et la pénurie de prestataires de services médicaux. Pour que les LLMs jouent un rôle efficace dans le soutien des évaluations diagnostiques, ils doivent être capables de reproduire étroitement les procédures diagnostiques standardisées utilisées par les cliniciens. Cet article étudie spécifiquement le processus d'évaluation diagnostique du Questionnaire de Santé du Patient-9 (PHQ-9) pour le trouble dépressif majeur (TDM) et du Questionnaire d'Anxiété Généralisée-7 (GAD-7) pour le trouble d'anxiété généralisée (TAG). L'étude explore diverses techniques d'incitation et d'ajustement fin pour guider les LLMs propriétaires et open-source à suivre ces processus diagnostiques, et évalue la concordance entre les résultats diagnostiques générés par les LLMs et les normes de référence validées par des experts.

Contexte et Motivation de la Recherche

Contexte du Problème

  1. Pressions du système de santé: Le système de santé actuel fait face à une double pression due à la surcharge des patients et à la pénurie de prestataires de services médicaux
  2. Besoins en diagnostic de santé mentale: Les problèmes de santé mentale s'aggravent, nécessitant des outils d'évaluation diagnostique standardisés
  3. Potentiel des LLMs dans le domaine médical: Les modèles de langage de grande taille excellent dans les tâches de traitement du langage naturel et présentent un potentiel d'application dans les scénarios de dialogue médical

Importance de la Recherche

  • Diagnostic standardisé: Le PHQ-9 et le GAD-7 sont des outils d'évaluation standardisés largement utilisés en clinique
  • Besoin d'automatisation: L'automatisation des évaluations diagnostiques via les LLMs peut réduire la charge de travail des cliniciens
  • Exigences de concordance: Les LLMs doivent être capables de reproduire les procédures diagnostiques standardisées des cliniciens pour une application pratique

Limitations des Approches Existantes

  1. Méthodes de notation: Basées uniquement sur la notation de pertinence textuelle, manquant de compréhension approfondie
  2. Approches d'IA explicable: Utilisation de modèles de substitution tels que LIME/SHAP, mais explicabilité clinique limitée
  3. Identification de fragments textuels: Manque de guidance spécialisée pour les critères diagnostiques spécifiques

Contributions Principales

  1. Modèle spécialisé novateur: Proposition de DiagnosticLlama, le premier modèle ajusté basé sur l'architecture Llama spécifiquement conçu pour l'évaluation des critères diagnostiques
  2. Cadre d'évaluation complet: Établissement d'un système d'évaluation complet couvrant deux grandes catégories de méthodes : l'incitation et l'ajustement fin
  3. Ensemble de données de haute qualité: Construction d'un ensemble de données synthétiques annoté par des LLMs et validé par des experts, favorisant la recherche connexe
  4. Comparaison multi-modèles: Comparaison systématique des performances des modèles propriétaires (GPT-3.5, GPT-4o) et des modèles open-source (Llama-3.1-8b, Mixtral-8x7b)
  5. Méthodes standardisées: Fourniture de méthodes standardisées pour l'application des LLMs aux évaluations diagnostiques PHQ-9 et GAD-7

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: Texte de publications sur les réseaux sociaux (en tant que proxy des interactions patient-clinicien) Sortie: Identification de fragments textuels et jugement de présence de symptômes pour chaque élément du PHQ-9/GAD-7 Contraintes: Respect strict des processus diagnostiques standardisés du PHQ-9 et du GAD-7

Architecture du Modèle

1. Méthodes d'Incitation (Prompting Methods)

  • Incitation naïve: Instructions directes
  • Incitation par exemples: Incitation few-shot fournissant quelques exemples
  • Incitation guidée: Incitation Chain-of-Thought incluant des étapes de raisonnement guidé

2. Méthodes d'Ajustement Fin (Fine-tuning Methods)

  • Modèle de base: MentalLlama (entraîné sur 105K données d'instructions en santé mentale)
  • DiagnosticLlama: Ajustement fin de MentalLlama sur l'ensemble de données PRIMATE en utilisant HuggingFace AutoTrain

Processus de Traitement des Données

Création d'Ensemble de Données de Référence

  1. Données de base: Utilisation de l'ensemble de données PRIMATE (publications sur les réseaux sociaux + annotations PHQ-9)
  2. Enrichissement par GPT-4o: Utilisation de GPT-4o pour identifier les fragments textuels correspondant aux symptômes
  3. Validation par experts: Validation par trois experts cliniques des résultats de GPT-4o (Kappa de Cohen: 0,74 pour PHQ-9, 0,72 pour GAD-7)
  4. Contrôle de qualité: Conservation uniquement des résultats d'annotation approuvés à l'unanimité par les experts

Points d'Innovation Technique

  1. Guidance spécifique aux symptômes: Conception de modèles d'incitation spécialisés pour chaque symptôme du PHQ-9 et du GAD-7
  2. Évaluation multi-niveaux: Système d'évaluation double combinant le classement hits@k et les métriques de classification standard
  3. Cohérence inter-modèles: Validation de l'efficacité de la méthode sur plusieurs LLMs de différentes tailles et types
  4. Validation clinique: Introduction de cliniciens professionnels pour la validation de la qualité, assurant la pertinence clinique

Configuration Expérimentale

Ensemble de Données

  • Ensemble de données PRIMATE: Contenant des publications sur les réseaux sociaux et des annotations associées au PHQ-9
  • Sous-ensemble validé par experts:
    • PHQ-9: 40 échantillons annotés par GPT-4o validés par des experts
    • GAD-7: 17 échantillons annotés par GPT-4o validés par des experts
  • Données annotées par modèles: Résultats d'annotations multi-modèles pour un total de 1034 publications

Métriques d'Évaluation

  1. Métriques de classement hits@k:
    • hits@1: Taux de réussite du fragment textuel le plus similaire dans les 1 premiers résultats de référence
    • hits@5: Taux de réussite du fragment textuel le plus similaire dans les 5 premiers résultats de référence
  2. Métriques de classification standard: Exactitude (Accuracy), Précision (Precision), Rappel (Recall), Score F1

Méthodes de Comparaison

  • Modèles propriétaires: GPT-3.5-Turbo, GPT-4o-mini
  • Modèles open-source: Llama-3.1-8b, Mixtral-8x7b
  • Modèles ajustés: MentalLlama, DiagnosticLlama
  • Méthodes traditionnelles: BERT, MentalBERT, MentalRoBERTa
  • Méthodes d'apprentissage automatique: Régression Logistique, Forêt Aléatoire, XGBoost

Détails d'Implémentation

  • Utilisation de HuggingFace AutoTrain pour l'ajustement fin sans code
  • Application de la même structure d'incitation à tous les modèles pour assurer une comparaison équitable
  • Sélection aléatoire de sous-ensembles de test en raison des limitations budgétaires et d'API

Résultats Expérimentaux

Résultats Principaux

Résultats d'Annotation des Symptômes PHQ-9

Performance des modèles propriétaires:

Modèlehits@1hits@5ExactitudePrécisionRappelScore F1
GPT-3.5-Turbo87%98%0,930,890,960,92
GPT-4o-mini89%99%0,940,960,980,92

Performance des modèles open-source:

Modèlehits@1hits@5ExactitudePrécisionRappelScore F1
Llama-3.1-8b83%88%0,840,860,780,82
Mixtral-8x7b92%99%0,920,960,950,93

Performance des modèles ajustés:

Modèlehits@1hits@5ExactitudePrécisionRappelScore F1
MentalLlama--0,820,830,630,75
DiagnosticLlama68,3%76,2%----

Résultats d'Annotation des Symptômes GAD-7

Les résultats du GAD-7 présentent une tendance similaire à celle du PHQ-9, les modèles propriétaires et open-source se rapprochant de la qualité des annotations humaines.

Découvertes Importantes

  1. Différences de performance des modèles: Les LLMs de nouvelle génération surpassent significativement les modèles plus anciens
    • Llama2-7b-chat: F1=0,663
    • Mistral-instruct: F1=0,655
  2. Défis de l'ajustement fin: L'ajustement fin des LLMs pour les tâches diagnostiques professionnelles est extrêmement difficile
    • MentalLlama répète directement l'entrée, démontrant l'importance de la configuration de l'ajustement fin
    • DiagnosticLlama montre des améliorations mais nécessite toujours une optimisation
  3. Comparaison avec les méthodes traditionnelles:
    • BERT: F1=0,69
    • MentalBERT: F1=0,71
    • MentalRoBERTa: F1=0,48
    • Les méthodes d'apprentissage automatique traditionnel affichent des performances plus faibles (XGBoost maximal: F1=0,65)

Analyse de Cas

L'article démontre par des exemples concrets comment les modèles identifient les fragments textuels correspondant aux symptômes du PHQ-9 dans le texte, par exemple l'identification de "I thought I set myself up for success. Now I believe I was dead wrong for joining" correspondant au symptôme "se sentir comme un échec".

Travaux Connexes

Principales Directions de Recherche

  1. Méthodes de notation: Classement des textes basé sur la pertinence par rapport aux symptômes du PHQ-9/GAD-7
  2. Approches d'IA explicable: Utilisation de techniques telles que LIME/SHAP pour interpréter cliniquement les résultats des modèles BERT
  3. Identification de fragments textuels: Prédiction et résumé de fragments textuels, comparaison avec les annotations manuelles

Avantages de cet Article

  • Guidance spécialisée: Guidance de sortie hautement spécialisée pour les critères diagnostiques spécifiques
  • Caractère novateur: Premier modèle ajusté spécialisé en diagnostic basé sur l'architecture Llama
  • Systématicité: Comparaison systématique de deux grandes catégories de méthodes : l'incitation et l'ajustement fin

Conclusions et Discussion

Conclusions Principales

  1. Efficacité de l'apprentissage few-shot: Les LLMs en configuration few-shot peuvent se rapprocher de la qualité d'évaluation des cliniciens experts
  2. Différences de raisonnement: Bien que les résultats soient proches, le processus de raisonnement des LLMs diffère significativement de celui des cliniciens
  3. Défis de l'ajustement fin: L'ajustement fin des LLMs pour l'assistance diagnostique en santé mentale fait toujours face à des défis techniques majeurs
  4. Potentiel pratique: La recherche fournit une direction prometteuse pour atténuer les pressions sur le système de santé

Limitations

  1. Cohérence du raisonnement: Correspondance limitée entre le processus de raisonnement des LLMs et celui des cliniciens
  2. Taille de l'ensemble de données: L'ensemble de données de référence validé par des experts est relativement petit
  3. Limitations budgétaires: Les coûts d'API limitent la vérification expérimentale à grande échelle
  4. Complexité de l'ajustement fin: L'ajustement fin nécessite des ressources considérables et un réglage des hyperparamètres

Directions Futures

  1. Application clinique: Développement d'applications destinées aux cliniciens
  2. Évaluation étendue: Extension de DiagnosticLlama au GAD-7, augmentation de la taille de l'ensemble de données
  3. Questionnaires complexes: Support des questionnaires structurés non linéaires (par exemple, CSSRS)
  4. Contraintes de sécurité: Intégration de restrictions terminologiques et de réécriture de résultats pour assurer la sécurité

Évaluation Approfondie

Points Forts

  1. Pertinence clinique forte: Ciblage direct des outils d'évaluation standardisés largement utilisés en clinique
  2. Méthode complète: Couverture des deux principales approches : l'incitation et l'ajustement fin
  3. Évaluation rigoureuse: Introduction de cliniciens professionnels pour la validation, assurant la fiabilité des résultats
  4. Contribution open-source: Fourniture de modèles et d'ensembles de données pour utilisation communautaire
  5. Expérimentation suffisante: Comparaison systématique multi-modèles et multi-métriques

Insuffisances

  1. Taille de l'ensemble de données: L'ensemble de données validé par des experts est relativement petit, pouvant affecter la généralisation des conclusions
  2. Limitation du domaine: Ciblage uniquement de deux maladies (dépression et anxiété), couverture limitée
  3. Analyse du raisonnement: Analyse insuffisante des différences entre le processus de raisonnement des LLMs et celui des cliniciens
  4. Considérations de coûts: Absence d'analyse coûts-bénéfices du déploiement pratique
  5. Discussion éthique: Discussion insuffisante des questions éthiques liées au diagnostic de santé mentale assisté par IA

Impact

  1. Valeur académique: Fourniture d'une référence importante pour l'application des LLMs dans le domaine de la santé mentale
  2. Valeur pratique: Fourniture d'une base technique pour le déploiement par les établissements de santé de systèmes de diagnostic assisté par IA
  3. Signification sociale: Promesse d'atténuer le problème de pénurie de ressources en services de santé mentale
  4. Reproductibilité: Support du code open-source et des ensembles de données pour la reproduction et l'extension de la recherche

Scénarios d'Application

  1. Dépistage initial: Applicable au dépistage initial à grande échelle en santé mentale
  2. Diagnostic assisté: Utilisation comme outil d'assistance pour les cliniciens plutôt que comme remplacement
  3. Télémédecine: Support des services de santé mentale à distance
  4. Outil de recherche: Fourniture d'outils d'analyse automatisée pour la recherche en santé mentale

Références

L'article cite 29 références connexes, couvrant plusieurs domaines pertinents incluant les LLMs, l'évaluation de la santé mentale, l'ingénierie d'incitation, les techniques d'ajustement fin, etc., fournissant une base théorique solide pour la recherche.


Évaluation Globale: Cet article constitue un travail d'exploration important dans l'application des LLMs au domaine du diagnostic en santé mentale. La méthode est scientifique, l'expérimentation suffisante et les conclusions fiables, apportant une contribution précieuse au développement de ce domaine interdisciplinaire. Malgré certaines limitations, sa signification novatrice et sa valeur pratique en font une référence importante dans ce domaine.