2025-11-15T23:04:12.069621

GPT-4 on Clinic Depression Assessment: An LLM-Based Pilot Study

Lorenzoni, Velmovitsky, Alencar et al.
Depression has impacted millions of people worldwide and has become one of the most prevalent mental disorders. Early mental disorder detection can lead to cost savings for public health agencies and avoid the onset of other major comorbidities. Additionally, the shortage of specialized personnel is a critical issue because clinical depression diagnosis is highly dependent on expert professionals and is time consuming. In this study, we explore the use of GPT-4 for clinical depression assessment based on transcript analysis. We examine the model's ability to classify patient interviews into binary categories: depressed and not depressed. A comparative analysis is conducted considering prompt complexity (e.g., using both simple and complex prompts) as well as varied temperature settings to assess the impact of prompt complexity and randomness on the model's performance. Results indicate that GPT-4 exhibits considerable variability in accuracy and F1-Score across configurations, with optimal performance observed at lower temperature values (0.0-0.2) for complex prompts. However, beyond a certain threshold (temperature >= 0.3), the relationship between randomness and performance becomes unpredictable, diminishing the gains from prompt complexity. These findings suggest that, while GPT-4 shows promise for clinical assessment, the configuration of the prompts and model parameters requires careful calibration to ensure consistent results. This preliminary study contributes to understanding the dynamics between prompt engineering and large language models, offering insights for future development of AI-powered tools in clinical settings.
academic

GPT-4 dans l'Évaluation Clinique de la Dépression : Une Étude Pilote Basée sur les LLM

Informations Fondamentales

  • ID de l'article : 2501.00199
  • Titre : GPT-4 on Clinic Depression Assessment: An LLM-Based Pilot Study
  • Auteurs : Giuliano Lorenzoni, Pedro Elkind Velmovitsky, Paulo Alencar, Donald Cowan
  • Classification : cs.CL (Linguistique Computationnelle), cs.AI (Intelligence Artificielle)
  • Date de publication : 31 décembre 2024 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2501.00199

Résumé

La dépression affecte des millions de personnes dans le monde et constitue l'une des maladies mentales les plus répandues. La détection précoce des troubles mentaux peut réduire les coûts pour les organismes de santé publique et prévenir d'autres complications graves. De plus, la pénurie de professionnels représente un problème critique, car le diagnostic clinique de la dépression dépend fortement des experts et est très chronophage.

Cette étude explore l'utilisation de GPT-4 pour l'évaluation clinique de la dépression basée sur des transcriptions d'entretiens. L'étude teste la capacité du modèle à classer les entretiens de patients en deux catégories binaires (déprimé et non déprimé). Une analyse comparative est menée en considérant la complexité des invites (invites simples et complexes) ainsi que différents paramètres de température pour évaluer l'impact de la complexité des invites et de l'aléatoire sur la performance du modèle.

Les résultats montrent une variabilité significative de la précision et du score F1 de GPT-4 selon les différentes configurations, avec les meilleures performances observées à des valeurs de température plus basses (0,0-0,2) avec des invites complexes. Cependant, au-delà d'un certain seuil (température ≥ 0,3), la relation entre l'aléatoire et la performance devient imprévisible, réduisant les bénéfices apportés par la complexité des invites.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental que cette étude vise à résoudre est comment utiliser le grand modèle de langage GPT-4 pour faciliter le diagnostic clinique de la dépression, en particulier par l'analyse de transcriptions d'entretiens de patients pour une classification binaire (déprimé/non déprimé).

Importance du Problème

  1. Charge mondiale de santé : La dépression est l'une des maladies mentales les plus répandues au monde, affectant des millions de personnes
  2. Valeur de la détection précoce : La détection précoce peut réduire considérablement les coûts médicaux et prévenir les complications graves
  3. Pénurie de ressources : Grave manque de professionnels de la santé mentale, le processus de diagnostic dépendant des experts et étant chronophage
  4. Opportunité technologique : Le développement des grands modèles de langage offre de nouvelles possibilités pour l'automatisation de l'évaluation de la santé mentale

Limitations des Approches Existantes

  1. Méthodes d'apprentissage automatique traditionnel : Utilisation principalement de SVM, TextCNN et autres méthodes, avec une application limitée sur l'ensemble de données DAIC-WOZ
  2. Dépendance à l'ingénierie des caractéristiques : Nécessité d'extraire manuellement les caractéristiques, manque de capacité d'automatisation de bout en bout
  3. Application insuffisante des LLM : Bien que certaines recherches utilisent les LLM pour la détection de la dépression, il existe un manque d'études systématiques sur l'ingénierie des invites et l'optimisation des paramètres

Motivation de la Recherche

Par une étude systématique de l'application de GPT-4 dans l'évaluation clinique de la dépression, en particulier en se concentrant sur les stratégies d'ingénierie des invites et l'impact des paramètres du modèle (tels que la température) sur la performance, fournir une base empirique pour le diagnostic de santé mentale assisté par l'IA.

Contributions Principales

  1. Première étude systématique de l'application de GPT-4 dans la tâche de classification binaire de la dépression clinique, avec une évaluation complète basée sur l'ensemble de données DAIC-WOZ
  2. Proposition d'une stratégie d'ingénierie des invites progressive, allant des invites simples aux invites complexes en passant par l'amélioration par exemples, analysant systématiquement l'impact de différents niveaux de complexité sur la performance
  3. Analyse approfondie de l'impact du paramètre de température sur la stabilité et la performance du modèle, découvrant la plage de température optimale de 0,0-0,2
  4. Révélation de la relation non linéaire entre la complexité des invites et l'aléatoire, fournissant des conseils pour l'optimisation des paramètres dans les applications cliniques d'IA
  5. Fourniture de stratégies de configuration pratiques pour le diagnostic de santé mentale assisté par l'IA, soulignant l'importance de réduire les faux négatifs dans les environnements cliniques

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Texte transcrit d'entretiens de patients (provenant de l'ensemble de données DAIC-WOZ) Sortie : Résultat de classification binaire (« depressed » ou « not depressed ») Contraintes : Critères de diagnostic standardisés basés sur l'échelle PHQ-8

Architecture de la Conception Expérimentale

Cette étude adopte une conception expérimentale progressive en cinq étapes :

RQ1 : Ligne de Base avec Invites Simples

Utilisation de l'invité de classification la plus basique, sans fournir de contexte ou d'exemples, servant de ligne de base de performance.

RQ2 : Invites Améliorées par Exemples

Ajout de quatre exemples (deux cas de dépression, deux cas sans dépression) à l'invité simple, adoptant une stratégie d'apprentissage few-shot.

RQ3 : Conception d'Invites Complexes

Combinaison d'exemples et de contexte clinique détaillé, simulant la perspective analytique d'un psychopathologiste professionnel, fournissant des informations directrices plus riches.

RQ4 : Optimisation du Paramètre de Température

Test systématique de l'impact de différentes valeurs de température (0,0, 0,1, 0,2, 0,3, 0,5) sur la performance du modèle.

RQ5 : Analyse de Stabilité

Analyse de l'impact de la variabilité des résultats sur la fiabilité du diagnostic clinique de GPT-4.

Points d'Innovation Technique

  1. Conception progressive de la complexité des invites : Approche systématique d'ingénierie des invites allant du simple au complexe
  2. Modélisation de la relation température-performance : Première étude systématique du rôle du paramètre de température dans les tâches de classification clinique
  3. Cadre d'évaluation orienté vers la clinique : Accent sur la réduction des faux négatifs, conforme aux pratiques cliniques
  4. Inférence directe sans entraînement : Entièrement basée sur les capacités zero-shot et few-shot du modèle pré-entraîné

Configuration Expérimentale

Ensemble de Données

DAIC-WOZ (Distress Analysis Interview Corpus - Wizard-of-Oz)

  • Taille : 189 sessions d'entretien, 184-188 réellement utilisées (légères variations dues aux problèmes de traitement des données)
  • Annotation : Basée sur l'échelle PHQ-8, 56 cas de dépression, environ 130 cas sans dépression
  • Type de données : Texte transcrit d'entretiens
  • Distribution des données : Environ 30% de cas de dépression, 70% de cas sans dépression (ensemble de données déséquilibré)

Métriques d'Évaluation

  • Précision (Accuracy) : Taux global de classification correcte
  • Précision (Precision) : Proportion de vrais positifs parmi les prédictions positives
  • Rappel (Recall) : Proportion de vrais positifs parmi les cas réellement positifs
  • Score F1 : Moyenne harmonique de la précision et du rappel
  • Matrice de Confusion : Affichage détaillé de la distribution des résultats de classification

Détails d'Implémentation

  • Interface API : API OpenAI GPT-4
  • Environnement de programmation : Python + Pandas + NumPy + scikit-learn + Matplotlib/Seaborn
  • Plage de température : 0,0 à 0,5, intervalle de 0,1
  • Sélection d'exemples : Sélection équilibrée de deux cas positifs et deux cas négatifs

Résultats Expérimentaux

Résultats Principaux

RQ1 : Résultats de la Ligne de Base avec Invites Simples

MétriqueValeur
Précision70,74%
Précision (Precision)54,55%
Rappel10,71%
Score F117,91%

Matrice de Confusion : 127 vrais négatifs, 5 faux positifs, 50 faux négatifs, 6 vrais positifs

RQ2 : Résultats des Invites Améliorées par Exemples

MétriqueValeur
Précision70,49%
Précision (Precision)50,00%
Rappel77,78%
Score F160,87%

Découverte clé : Augmentation significative du rappel à 77,78%, score F1 passant de 17,91% à 60,87%

RQ3 : Résultats des Invites Complexes

MétriqueValeur
Précision69,23%
Précision (Precision)48,39%
Rappel55,56%
Score F151,72%

Découverte inattendue : La performance des invites complexes diminue réellement, probablement en raison de l'introduction d'une aléatoire excessive par les paramètres de température par défaut

RQ4 : Résultats de l'Optimisation de la Température

TempératurePrécisionPrécision (Precision)RappelScore F1
0,072,28%51,95%74,07%61,07%
0,173,37%53,09%79,63%63,70%
0,271,74%51,16%81,48%62,86%
0,367,93%46,67%64,81%54,26%
0,568,48%47,56%72,22%57,35%

Découvertes Expérimentales Clés

  1. Plage de température optimale : L'intervalle 0,0-0,2 affiche les meilleures performances, avec une précision maximale de 73,37% et un score F1 de 63,70% à température 0,1
  2. Relation non linéaire température-performance : La performance diminue significativement à température ≥ 0,3, présentant des fluctuations imprévisibles
  3. Effet significatif de l'apprentissage par exemples : L'apprentissage few-shot augmente le score F1 de 17,91% à 60,87%
  4. Paradoxe de la complexité : Les invites excessivement complexes réduisent réellement la performance à température par défaut
  5. Optimisation des indicateurs cliniques : Les paramètres de température basse équilibrent efficacement la sensibilité et la spécificité

Analyse des Expériences d'Ablation

Grâce à la conception expérimentale progressive, on peut clairement voir la contribution de chaque composant :

  • Capacité de classification de base : Les invites simples possèdent déjà une certaine capacité de classification (70,74% de précision)
  • Gain de l'apprentissage par exemples : L'apprentissage few-shot améliore significativement le rappel (de 10,71% à 77,78%)
  • Valeur de l'optimisation de la température : Un paramètre de température approprié peut optimiser davantage l'équilibre des performances
  • Coût de la complexité : Les invites sur-ingéniérées peuvent introduire du bruit

Travaux Connexes

Méthodes d'Apprentissage Automatique Traditionnel

Les recherches existantes adoptent principalement des méthodes ML traditionnelles telles que SVM et TextCNN sur l'ensemble de données DAIC-WOZ pour la détection de la dépression, se concentrant sur l'extraction de caractéristiques vocales et l'analyse des sentiments textuels, mais manquent de capacité d'automatisation de bout en bout.

Applications des LLM dans le Domaine de la Santé Mentale

  • Recherche E-DAIC : Utilisation de LLM pour prédire les scores PHQ-8, atteignant une erreur absolue moyenne de 3,65
  • Applications LLM inter-domaines : Démonstration de potentiel dans l'analyse des sentiments et les tâches de classification dans les domaines financier, de l'ingénierie logicielle, etc.

Avantages Relatifs de cet Article

  1. Ingénierie systématique des invites : Première étude systématique de l'impact de la complexité des invites sur la classification clinique
  2. Analyse de la sensibilité des paramètres : Étude approfondie du rôle du paramètre de température sur la stabilité
  3. Conception orientée vers la clinique : Accent sur la réduction des faux négatifs, conforme aux pratiques cliniques

Conclusions et Discussion

Conclusions Principales

  1. GPT-4 possède un potentiel pour la classification clinique de la dépression : Peut atteindre une précision de 73,37% et un score F1 de 63,70% avec une configuration appropriée
  2. Les stratégies d'ingénierie des invites sont efficaces : L'amélioration par exemples améliore significativement la performance, en particulier le rappel
  3. Le paramètre de température est crucial : La plage de température basse de 0,0-0,2 fournit le meilleur équilibre entre stabilité et performance
  4. La complexité nécessite un équilibre prudent : Les invites excessivement complexes peuvent introduire une variabilité inutile
  5. L'application clinique nécessite un ajustement fin : L'impact de la configuration des paramètres sur la cohérence et la fiabilité est significatif

Limitations

  1. Limitation de la taille de l'ensemble de données : Seulement 189 échantillons, pouvant affecter la généralisation des résultats
  2. Problème de déséquilibre des données : Un taux de dépression de 30% est beaucoup plus élevé que le taux de prévalence réel dans la population, pouvant introduire des biais
  3. Source de données unique : Utilisation uniquement de l'ensemble de données DAIC-WOZ, manque de validation inter-ensembles
  4. Impact de l'aléatoire : L'aléatoire inhérent au modèle peut affecter la cohérence des résultats
  5. Manque de validation professionnelle : Pas de comparaison avec les résultats de diagnostic des experts cliniques

Directions Futures

  1. Génération Augmentée par Récupération (RAG) : Intégration de bases de connaissances médicales externes pour améliorer la précision du diagnostic
  2. Ajustement Spécifique au Domaine : Formation spécialisée du modèle utilisant des données cliniques
  3. Fusion Multimodale : Combinaison d'informations de plusieurs modalités telles que la voix et la vidéo
  4. Stratégies de Contrôle de la Variabilité : Exploration de méthodes d'agrégation des résultats de plusieurs exécutions
  5. Validation Clinique à Grande Échelle : Vérification sur des données cliniques plus grandes et plus diversifiées

Évaluation Approfondie

Points Forts

  1. Conception de recherche rigoureuse : La conception expérimentale progressive montre clairement l'impact de chaque facteur
  2. Valeur pratique élevée : Fournit des conseils pratiques pour le diagnostic de santé mentale assisté par l'IA
  3. Analyse des paramètres approfondie : Étude systématique de l'impact du paramètre de température sur la performance
  4. Orientation clinique claire : Valorise la réduction des faux négatifs, conforme aux pratiques cliniques
  5. Résultats transparents et détaillés : Fourniture de matrices de confusion détaillées et d'indicateurs de performance

Insuffisances

  1. Taille d'échantillon relativement petite : 189 échantillons sont relativement limités pour la recherche en apprentissage profond
  2. Manque de tests de signification statistique : Pas de rapport sur la signification statistique des résultats
  3. Contrôle insuffisant de l'aléatoire : N'a pas utilisé la moyenne de plusieurs exécutions pour contrôler la variation aléatoire
  4. Comparaison de base limitée : Manque de comparaison avec d'autres LLM ou méthodes traditionnelles
  5. Absence de validation clinique : Pas de comparaison avec les diagnostics d'experts cliniques réels

Impact

  1. Contribution académique : Fournit une référence importante pour l'application des LLM dans le domaine de la santé mentale
  2. Valeur pratique : Fournit des conseils de configuration pour le développement d'outils cliniques d'IA
  3. Valeur méthodologique : Les méthodes d'ingénierie des invites et d'optimisation des paramètres peuvent être généralisées à d'autres tâches cliniques
  4. Impact politique : Fournit un soutien empirique pour la réglementation et la normalisation de l'IA médicale assistée

Scénarios d'Application

  1. Diagnostic Clinique Assisté : Comme outil d'assistance pour les experts en santé mentale
  2. Dépistage à Grande Échelle : Dépistage initial dans les régions aux ressources limitées
  3. Télémédecine : Soutien aux services de santé mentale en ligne
  4. Outil de Recherche : Utilisation pour le prétraitement des données dans la recherche en santé mentale à grande échelle

Références

L'article cite 20 articles connexes, couvrant :

  • Recherches connexes sur l'ensemble de données DAIC-WOZ
  • Applications de l'apprentissage automatique traditionnel dans la détection de la dépression
  • Tâches de classification et de génération des LLM dans divers domaines
  • Outils standardisés pour l'évaluation de la santé mentale (PHQ-8)

Évaluation Générale : Ceci est une étude préliminaire de haute qualité qui explore systématiquement le potentiel d'application de GPT-4 dans l'évaluation clinique de la dépression. La conception de la recherche est raisonnable, les résultats expérimentaux sont précieux et l'étude apporte une contribution importante au domaine du diagnostic de santé mentale assisté par l'IA. Bien qu'il existe des limitations concernant la taille de l'échantillon et la validation, l'étude jette une base solide pour les recherches ultérieures.