2025-11-17T04:19:13.460591

Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case

Roy, Surana, Eswaramoorthi et al.

Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.

academic

Modelos de Lenguaje Grande para Evaluaciones Diagnósticas de Salud Mental: Explorando el Potencial de Modelos de Lenguaje Grande para Asistir en Evaluaciones Diagnósticas de Salud Mental -- El Caso de la Depresión y la Ansiedad

Información Básica

ID del Artículo: 2501.01305
Título: Modelos de Lenguaje Grande para Evaluaciones Diagnósticas de Salud Mental: Explorando el Potencial de Modelos de Lenguaje Grande para Asistir en Evaluaciones Diagnósticas de Salud Mental -- El Caso de la Depresión y la Ansiedad
Autores: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
Clasificación: cs.CL (Computación y Lenguaje)
Fecha de Publicación: 2 de enero de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2501.01305
Instituciones: University of South Carolina AI Institute, Indian Institute of Research and Science, Indian Institute of Technology

Resumen

Los modelos de lenguaje grande (LLMs) están recibiendo creciente atención de profesionales médicos para asistir en evaluaciones diagnósticas, con el potencial de aliviar la presión en los sistemas de salud causada por la sobrecarga de pacientes y la escasez de proveedores de servicios médicos. Para que los LLMs desempeñen un papel efectivo en el apoyo a evaluaciones diagnósticas, deben ser capaces de replicar estrechamente los procedimientos diagnósticos estándar utilizados por clínicos. Este artículo investiga específicamente el proceso de evaluación diagnóstica utilizando el Cuestionario de Salud del Paciente-9 (PHQ-9) para el Trastorno Depresivo Mayor (TDM) y el Cuestionario de Trastorno de Ansiedad Generalizada-7 (GAD-7) para el Trastorno de Ansiedad Generalizada (TAG). El estudio explora diversas técnicas de indicaciones y ajuste fino para guiar a LLMs propietarios y de código abierto en el seguimiento de estos procesos diagnósticos, y evalúa la concordancia entre los resultados diagnósticos generados por LLMs y el estándar de referencia validado por expertos.

Contexto e Motivación de la Investigación

Antecedentes del Problema

Presión en el Sistema de Salud: El sistema de salud actual enfrenta la doble presión de la sobrecarga de pacientes y la escasez de proveedores de servicios médicos
Necesidad de Diagnóstico de Salud Mental: Los problemas de salud mental son cada vez más graves, requiriendo herramientas de evaluación diagnóstica estandarizadas
Potencial de los LLMs en el Ámbito Médico: Los modelos de lenguaje grande han demostrado un desempeño excepcional en tareas de procesamiento del lenguaje natural, con potencial de aplicación en escenarios de diálogo médico

Importancia de la Investigación

Diagnóstico Estandarizado: PHQ-9 y GAD-7 son herramientas de evaluación estandarizadas ampliamente utilizadas en clínica
Necesidad de Automatización: La automatización de evaluaciones diagnósticas mediante LLMs puede reducir la carga de trabajo de los clínicos
Requisito de Concordancia: Los LLMs deben ser capaces de replicar los procedimientos diagnósticos estándar de los clínicos para tener aplicación práctica

Limitaciones de Métodos Existentes

Métodos de Puntuación: Basados únicamente en puntuación de relevancia textual, carecen de comprensión profunda
Métodos de IA Interpretable: Utilizan modelos sustitutos como LIME/SHAP, pero con interpretabilidad clínica limitada
Identificación de Fragmentos de Texto: Carecen de orientación especializada para criterios diagnósticos específicos

Contribuciones Principales

Modelo Especializado Pionero: Propone DiagnosticLlama, el primer modelo ajustado fino basado en arquitectura Llama específicamente diseñado para evaluación de criterios diagnósticos
Marco de Evaluación Integral: Establece un sistema de evaluación exhaustivo que abarca dos categorías principales de métodos: indicaciones y ajuste fino
Conjunto de Datos de Alta Calidad: Construye un conjunto de datos sintético anotado por LLM validado por expertos, promoviendo investigación relacionada
Comparación Multimodelo: Compara sistemáticamente el desempeño de modelos propietarios (GPT-3.5, GPT-4o) y modelos de código abierto (Llama-3.1-8b, Mixtral-8x7b)
Metodología Estandarizada: Proporciona métodos estandarizados para aplicar LLMs a evaluaciones diagnósticas de PHQ-9 y GAD-7

Explicación Detallada de Métodos

Definición de Tareas

Entrada: Texto de publicaciones en redes sociales (como proxy de interacciones paciente-clínico) Salida: Identificación de fragmentos de texto y determinación de presencia de síntomas para cada elemento de PHQ-9/GAD-7 Restricciones: Debe adherirse estrictamente a los procedimientos diagnósticos estándar de PHQ-9 y GAD-7

Arquitectura del Modelo

1. Métodos de Indicación (Prompting Methods)

Indicación Ingenua: Instrucciones directas
Indicación por Ejemplos: Indicación few-shot proporcionando pocos ejemplos
Indicación Guiada: Indicación Chain-of-Thought que incluye pasos de razonamiento guiado

2. Métodos de Ajuste Fino (Fine-tuning Methods)

Modelo Base: MentalLlama (entrenado en 105K datos de instrucciones de salud mental)
DiagnosticLlama: MentalLlama ajustado fino usando HuggingFace AutoTrain en el conjunto de datos PRIMATE

Flujo de Procesamiento de Datos

Creación del Conjunto de Datos de Estándar de Referencia

Datos Base: Utiliza el conjunto de datos PRIMATE (publicaciones en redes sociales + anotaciones PHQ-9)
Mejora con GPT-4o: Utiliza GPT-4o para identificar fragmentos de texto correspondientes a síntomas
Validación por Expertos: Tres expertos clínicos validan la salida de GPT-4o (Kappa de Cohen: 0.74 para PHQ-9, 0.72 para GAD-7)
Control de Calidad: Solo se retienen los resultados de anotación consensuados por expertos

Puntos de Innovación Técnica

Orientación Específica de Síntomas: Plantillas de indicación especializadas diseñadas para cada síntoma de PHQ-9 y GAD-7
Evaluación Multinivel: Sistema de evaluación dual que combina métricas de clasificación estándar y ordenamiento hits@k
Consistencia Multimodelo: Validación de la efectividad del método en múltiples LLMs de diferentes tamaños y tipos
Validación Clínica: Introducción de médicos clínicos profesionales para validación de calidad, asegurando relevancia clínica

Configuración Experimental

Conjunto de Datos

Conjunto de Datos PRIMATE: Contiene publicaciones en redes sociales con anotaciones relacionadas a PHQ-9
Subconjunto Validado por Expertos:
- PHQ-9: 40 muestras anotadas por GPT-4o validadas por expertos
- GAD-7: 17 muestras anotadas por GPT-4o validadas por expertos
Datos Anotados por Modelo: Resultados de anotación multimodelo de 1034 publicaciones en total

Métricas de Evaluación

Métricas de Ordenamiento hits@k:
- hits@1: Tasa de acierto cuando el fragmento de texto más similar está en la posición 1 del estándar de referencia
- hits@5: Tasa de acierto cuando el fragmento de texto más similar está en las primeras 5 posiciones del estándar de referencia
Métricas de Clasificación Estándar: Exactitud (Accuracy), Precisión (Precision), Sensibilidad (Recall), Puntuación F1

Métodos Comparativos

Modelos Propietarios: GPT-3.5-Turbo, GPT-4o-mini
Modelos de Código Abierto: Llama-3.1-8b, Mixtral-8x7b
Modelos Ajustados Fino: MentalLlama, DiagnosticLlama
Métodos Tradicionales: BERT, MentalBERT, MentalRoBERTa
Métodos de Aprendizaje Automático: Regresión Logística, Bosque Aleatorio, XGBoost

Detalles de Implementación

Utiliza HuggingFace AutoTrain para ajuste fino sin código
Estructura de indicación idéntica aplicada a todos los modelos para asegurar comparación justa
Selección aleatoria de subconjunto de prueba debido a limitaciones presupuestarias y de API

Resultados Experimentales

Resultados Principales

Resultados de Anotación de Síntomas PHQ-9

Desempeño de Modelos Propietarios:

Modelo	hits@1	hits@5	Exactitud	Precisión	Sensibilidad	Puntuación F1
GPT-3.5-Turbo	87%	98%	0.93	0.89	0.96	0.92
GPT-4o-mini	89%	99%	0.94	0.96	0.98	0.92

Desempeño de Modelos de Código Abierto:

Modelo	hits@1	hits@5	Exactitud	Precisión	Sensibilidad	Puntuación F1
Llama-3.1-8b	83%	88%	0.84	0.86	0.78	0.82
Mixtral-8x7b	92%	99%	0.92	0.96	0.95	0.93

Desempeño de Modelos Ajustados Fino:

Modelo	hits@1	hits@5	Exactitud	Precisión	Sensibilidad	Puntuación F1
MentalLlama	-	-	0.82	0.83	0.63	0.75
DiagnosticLlama	68.3%	76.2%	-	-	-	-

Resultados de Anotación de Síntomas GAD-7

Los resultados de GAD-7 presentan tendencias similares a PHQ-9, con modelos propietarios y de código abierto aproximándose a la calidad de anotación humana.

Hallazgos Importantes

Diferencias de Desempeño del Modelo: Los LLMs de nueva generación superan significativamente a modelos de versiones anteriores
- Llama2-7b-chat: F1=0.663
- Mistral-instruct: F1=0.655
Desafíos del Ajuste Fino: El ajuste fino de LLMs para tareas diagnósticas profesionales es extremadamente desafiante
- MentalLlama repite directamente la entrada, demostrando la importancia de la configuración del ajuste fino
- DiagnosticLlama muestra mejora pero aún requiere optimización
Comparación con Métodos Tradicionales:
- BERT: F1=0.69
- MentalBERT: F1=0.71
- MentalRoBERTa: F1=0.48
- Los métodos de ML tradicionales muestran desempeño inferior (máximo XGBoost: F1=0.65)

Análisis de Casos

El artículo demuestra mediante ejemplos concretos cómo los modelos identifican fragmentos de texto correspondientes a síntomas de PHQ-9, por ejemplo, identificando "I thought I set myself up for success. Now I believe I was dead wrong for joining" correspondiente al síntoma "sentirse como un fracaso".

Trabajo Relacionado

Direcciones Principales de Investigación

Métodos de Puntuación: Ordenamiento de puntuación de texto basado en relevancia a síntomas de PHQ-9/GAD-7
Métodos de IA Interpretable: Utilización de técnicas LIME/SHAP para interpretar clínicamente salidas de modelos BERT
Identificación de Fragmentos de Texto: Predicción y resumen de fragmentos de texto, comparación con anotaciones manuales

Ventajas de Este Artículo

Orientación Especializada: Orientación de salida de modelo altamente especializada, dirigida a criterios diagnósticos específicos
Carácter Pionero: Primer modelo de ajuste fino diagnóstico especializado basado en arquitectura Llama
Sistematicidad: Comparación sistemática de dos categorías principales de métodos: indicaciones y ajuste fino

Conclusiones y Discusión

Conclusiones Principales

Aprendizaje Few-shot Efectivo: Los LLMs en configuración few-shot pueden aproximarse a la calidad de evaluación de médicos clínicos expertos
Diferencias de Razonamiento: Aunque los resultados son similares, el proceso de razonamiento de los LLMs difiere significativamente del de los clínicos
Desafíos del Ajuste Fino: El ajuste fino de LLMs para asistencia en diagnóstico de salud mental aún enfrenta desafíos técnicos significativos
Potencial Práctico: La investigación proporciona una dirección prometedora para aliviar la presión en los sistemas de salud

Limitaciones

Consistencia de Razonamiento: La concordancia entre el proceso de razonamiento de LLMs y clínicos es limitada
Escala de Datos: El conjunto de datos de estándar de referencia validado por expertos es relativamente pequeño
Limitaciones Presupuestarias: Los costos de API limitan la validación experimental a gran escala
Complejidad del Ajuste Fino: El ajuste fino requiere recursos sustanciales y ajuste de hiperparámetros

Direcciones Futuras

Aplicación Clínica: Desarrollo de aplicaciones dirigidas a médicos clínicos
Evaluación Expandida: Extensión de DiagnosticLlama a GAD-7, aumento del tamaño del conjunto de datos
Cuestionarios Complejos: Soporte para cuestionarios con estructura no lineal (como CSSRS)
Restricciones de Seguridad: Integración de restricciones terminológicas y reescritura de salida para asegurar seguridad

Evaluación Profunda

Fortalezas

Relevancia Clínica Fuerte: Dirigida directamente a herramientas de evaluación estandarizadas ampliamente utilizadas en clínica
Metodología Integral: Abarca dos métodos principales: indicaciones y ajuste fino
Evaluación Rigurosa: Introducción de validación por médicos clínicos profesionales, asegurando confiabilidad de resultados
Contribución de Código Abierto: Proporciona modelos y conjuntos de datos para uso de la comunidad
Experimentación Suficiente: Comparación sistemática multimodelo y multimétrica

Deficiencias

Escala del Conjunto de Datos: El conjunto de datos validado por expertos es relativamente pequeño, pudiendo afectar la generalización de conclusiones
Limitación de Dominio: Solo dirigida a dos enfermedades (depresión y ansiedad), cobertura limitada
Análisis de Razonamiento: Análisis insuficiente de diferencias entre procesos de razonamiento de LLMs y clínicos
Consideraciones de Costo: Falta análisis de costo-beneficio para implementación práctica
Discusión Ética: Discusión insuficiente de cuestiones éticas en diagnóstico de salud mental asistido por IA

Impacto

Valor Académico: Proporciona referencia importante para aplicación de LLMs en el ámbito de salud mental
Valor Práctico: Proporciona base técnica para que instituciones médicas implementen sistemas de diagnóstico asistido por IA
Significado Social: Tiene potencial para aliviar problemas de escasez de recursos en servicios de salud mental
Reproducibilidad: Código abierto y conjuntos de datos apoyan reproducción y extensión de investigación

Escenarios de Aplicación

Cribado Inicial: Aplicable a cribado de salud mental a gran escala
Diagnóstico Asistido: Como herramienta auxiliar de clínicos, no como sustituto
Telemedicina: Apoyo a servicios de salud mental remota
Herramienta de Investigación: Proporciona herramienta de análisis automatizado para investigación de salud mental

Referencias

El artículo cita 29 referencias relacionadas, abarcando múltiples campos relevantes incluyendo LLMs, evaluación de salud mental, ingeniería de indicaciones, y técnicas de ajuste fino, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un trabajo de exploración importante en la aplicación de LLMs al ámbito del diagnóstico de salud mental. El artículo presenta metodología científica, experimentación suficiente y conclusiones confiables, realizando contribuciones valiosas al desarrollo de este campo interdisciplinario. Aunque presenta algunas limitaciones, su significado pionero y valor práctico lo convierten en una referencia importante en el campo.