2025-11-17T04:19:13.460591

Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case

Roy, Surana, Eswaramoorthi et al.
Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.
academic

Modelos de Lenguaje Grande para Evaluaciones Diagnósticas de Salud Mental: Explorando el Potencial de Modelos de Lenguaje Grande para Asistir en Evaluaciones Diagnósticas de Salud Mental -- El Caso de la Depresión y la Ansiedad

Información Básica

  • ID del Artículo: 2501.01305
  • Título: Modelos de Lenguaje Grande para Evaluaciones Diagnósticas de Salud Mental: Explorando el Potencial de Modelos de Lenguaje Grande para Asistir en Evaluaciones Diagnósticas de Salud Mental -- El Caso de la Depresión y la Ansiedad
  • Autores: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
  • Clasificación: cs.CL (Computación y Lenguaje)
  • Fecha de Publicación: 2 de enero de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2501.01305
  • Instituciones: University of South Carolina AI Institute, Indian Institute of Research and Science, Indian Institute of Technology

Resumen

Los modelos de lenguaje grande (LLMs) están recibiendo creciente atención de profesionales médicos para asistir en evaluaciones diagnósticas, con el potencial de aliviar la presión en los sistemas de salud causada por la sobrecarga de pacientes y la escasez de proveedores de servicios médicos. Para que los LLMs desempeñen un papel efectivo en el apoyo a evaluaciones diagnósticas, deben ser capaces de replicar estrechamente los procedimientos diagnósticos estándar utilizados por clínicos. Este artículo investiga específicamente el proceso de evaluación diagnóstica utilizando el Cuestionario de Salud del Paciente-9 (PHQ-9) para el Trastorno Depresivo Mayor (TDM) y el Cuestionario de Trastorno de Ansiedad Generalizada-7 (GAD-7) para el Trastorno de Ansiedad Generalizada (TAG). El estudio explora diversas técnicas de indicaciones y ajuste fino para guiar a LLMs propietarios y de código abierto en el seguimiento de estos procesos diagnósticos, y evalúa la concordancia entre los resultados diagnósticos generados por LLMs y el estándar de referencia validado por expertos.

Contexto e Motivación de la Investigación

Antecedentes del Problema

  1. Presión en el Sistema de Salud: El sistema de salud actual enfrenta la doble presión de la sobrecarga de pacientes y la escasez de proveedores de servicios médicos
  2. Necesidad de Diagnóstico de Salud Mental: Los problemas de salud mental son cada vez más graves, requiriendo herramientas de evaluación diagnóstica estandarizadas
  3. Potencial de los LLMs en el Ámbito Médico: Los modelos de lenguaje grande han demostrado un desempeño excepcional en tareas de procesamiento del lenguaje natural, con potencial de aplicación en escenarios de diálogo médico

Importancia de la Investigación

  • Diagnóstico Estandarizado: PHQ-9 y GAD-7 son herramientas de evaluación estandarizadas ampliamente utilizadas en clínica
  • Necesidad de Automatización: La automatización de evaluaciones diagnósticas mediante LLMs puede reducir la carga de trabajo de los clínicos
  • Requisito de Concordancia: Los LLMs deben ser capaces de replicar los procedimientos diagnósticos estándar de los clínicos para tener aplicación práctica

Limitaciones de Métodos Existentes

  1. Métodos de Puntuación: Basados únicamente en puntuación de relevancia textual, carecen de comprensión profunda
  2. Métodos de IA Interpretable: Utilizan modelos sustitutos como LIME/SHAP, pero con interpretabilidad clínica limitada
  3. Identificación de Fragmentos de Texto: Carecen de orientación especializada para criterios diagnósticos específicos

Contribuciones Principales

  1. Modelo Especializado Pionero: Propone DiagnosticLlama, el primer modelo ajustado fino basado en arquitectura Llama específicamente diseñado para evaluación de criterios diagnósticos
  2. Marco de Evaluación Integral: Establece un sistema de evaluación exhaustivo que abarca dos categorías principales de métodos: indicaciones y ajuste fino
  3. Conjunto de Datos de Alta Calidad: Construye un conjunto de datos sintético anotado por LLM validado por expertos, promoviendo investigación relacionada
  4. Comparación Multimodelo: Compara sistemáticamente el desempeño de modelos propietarios (GPT-3.5, GPT-4o) y modelos de código abierto (Llama-3.1-8b, Mixtral-8x7b)
  5. Metodología Estandarizada: Proporciona métodos estandarizados para aplicar LLMs a evaluaciones diagnósticas de PHQ-9 y GAD-7

Explicación Detallada de Métodos

Definición de Tareas

Entrada: Texto de publicaciones en redes sociales (como proxy de interacciones paciente-clínico) Salida: Identificación de fragmentos de texto y determinación de presencia de síntomas para cada elemento de PHQ-9/GAD-7 Restricciones: Debe adherirse estrictamente a los procedimientos diagnósticos estándar de PHQ-9 y GAD-7

Arquitectura del Modelo

1. Métodos de Indicación (Prompting Methods)

  • Indicación Ingenua: Instrucciones directas
  • Indicación por Ejemplos: Indicación few-shot proporcionando pocos ejemplos
  • Indicación Guiada: Indicación Chain-of-Thought que incluye pasos de razonamiento guiado

2. Métodos de Ajuste Fino (Fine-tuning Methods)

  • Modelo Base: MentalLlama (entrenado en 105K datos de instrucciones de salud mental)
  • DiagnosticLlama: MentalLlama ajustado fino usando HuggingFace AutoTrain en el conjunto de datos PRIMATE

Flujo de Procesamiento de Datos

Creación del Conjunto de Datos de Estándar de Referencia

  1. Datos Base: Utiliza el conjunto de datos PRIMATE (publicaciones en redes sociales + anotaciones PHQ-9)
  2. Mejora con GPT-4o: Utiliza GPT-4o para identificar fragmentos de texto correspondientes a síntomas
  3. Validación por Expertos: Tres expertos clínicos validan la salida de GPT-4o (Kappa de Cohen: 0.74 para PHQ-9, 0.72 para GAD-7)
  4. Control de Calidad: Solo se retienen los resultados de anotación consensuados por expertos

Puntos de Innovación Técnica

  1. Orientación Específica de Síntomas: Plantillas de indicación especializadas diseñadas para cada síntoma de PHQ-9 y GAD-7
  2. Evaluación Multinivel: Sistema de evaluación dual que combina métricas de clasificación estándar y ordenamiento hits@k
  3. Consistencia Multimodelo: Validación de la efectividad del método en múltiples LLMs de diferentes tamaños y tipos
  4. Validación Clínica: Introducción de médicos clínicos profesionales para validación de calidad, asegurando relevancia clínica

Configuración Experimental

Conjunto de Datos

  • Conjunto de Datos PRIMATE: Contiene publicaciones en redes sociales con anotaciones relacionadas a PHQ-9
  • Subconjunto Validado por Expertos:
    • PHQ-9: 40 muestras anotadas por GPT-4o validadas por expertos
    • GAD-7: 17 muestras anotadas por GPT-4o validadas por expertos
  • Datos Anotados por Modelo: Resultados de anotación multimodelo de 1034 publicaciones en total

Métricas de Evaluación

  1. Métricas de Ordenamiento hits@k:
    • hits@1: Tasa de acierto cuando el fragmento de texto más similar está en la posición 1 del estándar de referencia
    • hits@5: Tasa de acierto cuando el fragmento de texto más similar está en las primeras 5 posiciones del estándar de referencia
  2. Métricas de Clasificación Estándar: Exactitud (Accuracy), Precisión (Precision), Sensibilidad (Recall), Puntuación F1

Métodos Comparativos

  • Modelos Propietarios: GPT-3.5-Turbo, GPT-4o-mini
  • Modelos de Código Abierto: Llama-3.1-8b, Mixtral-8x7b
  • Modelos Ajustados Fino: MentalLlama, DiagnosticLlama
  • Métodos Tradicionales: BERT, MentalBERT, MentalRoBERTa
  • Métodos de Aprendizaje Automático: Regresión Logística, Bosque Aleatorio, XGBoost

Detalles de Implementación

  • Utiliza HuggingFace AutoTrain para ajuste fino sin código
  • Estructura de indicación idéntica aplicada a todos los modelos para asegurar comparación justa
  • Selección aleatoria de subconjunto de prueba debido a limitaciones presupuestarias y de API

Resultados Experimentales

Resultados Principales

Resultados de Anotación de Síntomas PHQ-9

Desempeño de Modelos Propietarios:

Modelohits@1hits@5ExactitudPrecisiónSensibilidadPuntuación F1
GPT-3.5-Turbo87%98%0.930.890.960.92
GPT-4o-mini89%99%0.940.960.980.92

Desempeño de Modelos de Código Abierto:

Modelohits@1hits@5ExactitudPrecisiónSensibilidadPuntuación F1
Llama-3.1-8b83%88%0.840.860.780.82
Mixtral-8x7b92%99%0.920.960.950.93

Desempeño de Modelos Ajustados Fino:

Modelohits@1hits@5ExactitudPrecisiónSensibilidadPuntuación F1
MentalLlama--0.820.830.630.75
DiagnosticLlama68.3%76.2%----

Resultados de Anotación de Síntomas GAD-7

Los resultados de GAD-7 presentan tendencias similares a PHQ-9, con modelos propietarios y de código abierto aproximándose a la calidad de anotación humana.

Hallazgos Importantes

  1. Diferencias de Desempeño del Modelo: Los LLMs de nueva generación superan significativamente a modelos de versiones anteriores
    • Llama2-7b-chat: F1=0.663
    • Mistral-instruct: F1=0.655
  2. Desafíos del Ajuste Fino: El ajuste fino de LLMs para tareas diagnósticas profesionales es extremadamente desafiante
    • MentalLlama repite directamente la entrada, demostrando la importancia de la configuración del ajuste fino
    • DiagnosticLlama muestra mejora pero aún requiere optimización
  3. Comparación con Métodos Tradicionales:
    • BERT: F1=0.69
    • MentalBERT: F1=0.71
    • MentalRoBERTa: F1=0.48
    • Los métodos de ML tradicionales muestran desempeño inferior (máximo XGBoost: F1=0.65)

Análisis de Casos

El artículo demuestra mediante ejemplos concretos cómo los modelos identifican fragmentos de texto correspondientes a síntomas de PHQ-9, por ejemplo, identificando "I thought I set myself up for success. Now I believe I was dead wrong for joining" correspondiente al síntoma "sentirse como un fracaso".

Trabajo Relacionado

Direcciones Principales de Investigación

  1. Métodos de Puntuación: Ordenamiento de puntuación de texto basado en relevancia a síntomas de PHQ-9/GAD-7
  2. Métodos de IA Interpretable: Utilización de técnicas LIME/SHAP para interpretar clínicamente salidas de modelos BERT
  3. Identificación de Fragmentos de Texto: Predicción y resumen de fragmentos de texto, comparación con anotaciones manuales

Ventajas de Este Artículo

  • Orientación Especializada: Orientación de salida de modelo altamente especializada, dirigida a criterios diagnósticos específicos
  • Carácter Pionero: Primer modelo de ajuste fino diagnóstico especializado basado en arquitectura Llama
  • Sistematicidad: Comparación sistemática de dos categorías principales de métodos: indicaciones y ajuste fino

Conclusiones y Discusión

Conclusiones Principales

  1. Aprendizaje Few-shot Efectivo: Los LLMs en configuración few-shot pueden aproximarse a la calidad de evaluación de médicos clínicos expertos
  2. Diferencias de Razonamiento: Aunque los resultados son similares, el proceso de razonamiento de los LLMs difiere significativamente del de los clínicos
  3. Desafíos del Ajuste Fino: El ajuste fino de LLMs para asistencia en diagnóstico de salud mental aún enfrenta desafíos técnicos significativos
  4. Potencial Práctico: La investigación proporciona una dirección prometedora para aliviar la presión en los sistemas de salud

Limitaciones

  1. Consistencia de Razonamiento: La concordancia entre el proceso de razonamiento de LLMs y clínicos es limitada
  2. Escala de Datos: El conjunto de datos de estándar de referencia validado por expertos es relativamente pequeño
  3. Limitaciones Presupuestarias: Los costos de API limitan la validación experimental a gran escala
  4. Complejidad del Ajuste Fino: El ajuste fino requiere recursos sustanciales y ajuste de hiperparámetros

Direcciones Futuras

  1. Aplicación Clínica: Desarrollo de aplicaciones dirigidas a médicos clínicos
  2. Evaluación Expandida: Extensión de DiagnosticLlama a GAD-7, aumento del tamaño del conjunto de datos
  3. Cuestionarios Complejos: Soporte para cuestionarios con estructura no lineal (como CSSRS)
  4. Restricciones de Seguridad: Integración de restricciones terminológicas y reescritura de salida para asegurar seguridad

Evaluación Profunda

Fortalezas

  1. Relevancia Clínica Fuerte: Dirigida directamente a herramientas de evaluación estandarizadas ampliamente utilizadas en clínica
  2. Metodología Integral: Abarca dos métodos principales: indicaciones y ajuste fino
  3. Evaluación Rigurosa: Introducción de validación por médicos clínicos profesionales, asegurando confiabilidad de resultados
  4. Contribución de Código Abierto: Proporciona modelos y conjuntos de datos para uso de la comunidad
  5. Experimentación Suficiente: Comparación sistemática multimodelo y multimétrica

Deficiencias

  1. Escala del Conjunto de Datos: El conjunto de datos validado por expertos es relativamente pequeño, pudiendo afectar la generalización de conclusiones
  2. Limitación de Dominio: Solo dirigida a dos enfermedades (depresión y ansiedad), cobertura limitada
  3. Análisis de Razonamiento: Análisis insuficiente de diferencias entre procesos de razonamiento de LLMs y clínicos
  4. Consideraciones de Costo: Falta análisis de costo-beneficio para implementación práctica
  5. Discusión Ética: Discusión insuficiente de cuestiones éticas en diagnóstico de salud mental asistido por IA

Impacto

  1. Valor Académico: Proporciona referencia importante para aplicación de LLMs en el ámbito de salud mental
  2. Valor Práctico: Proporciona base técnica para que instituciones médicas implementen sistemas de diagnóstico asistido por IA
  3. Significado Social: Tiene potencial para aliviar problemas de escasez de recursos en servicios de salud mental
  4. Reproducibilidad: Código abierto y conjuntos de datos apoyan reproducción y extensión de investigación

Escenarios de Aplicación

  1. Cribado Inicial: Aplicable a cribado de salud mental a gran escala
  2. Diagnóstico Asistido: Como herramienta auxiliar de clínicos, no como sustituto
  3. Telemedicina: Apoyo a servicios de salud mental remota
  4. Herramienta de Investigación: Proporciona herramienta de análisis automatizado para investigación de salud mental

Referencias

El artículo cita 29 referencias relacionadas, abarcando múltiples campos relevantes incluyendo LLMs, evaluación de salud mental, ingeniería de indicaciones, y técnicas de ajuste fino, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un trabajo de exploración importante en la aplicación de LLMs al ámbito del diagnóstico de salud mental. El artículo presenta metodología científica, experimentación suficiente y conclusiones confiables, realizando contribuciones valiosas al desarrollo de este campo interdisciplinario. Aunque presenta algunas limitaciones, su significado pionero y valor práctico lo convierten en una referencia importante en el campo.