Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.
Modelos de Lenguaje Grande para Evaluaciones Diagnósticas de Salud Mental: Explorando el Potencial de Modelos de Lenguaje Grande para Asistir en Evaluaciones Diagnósticas de Salud Mental -- El Caso de la Depresión y la Ansiedad
- ID del Artículo: 2501.01305
- Título: Modelos de Lenguaje Grande para Evaluaciones Diagnósticas de Salud Mental: Explorando el Potencial de Modelos de Lenguaje Grande para Asistir en Evaluaciones Diagnósticas de Salud Mental -- El Caso de la Depresión y la Ansiedad
- Autores: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
- Clasificación: cs.CL (Computación y Lenguaje)
- Fecha de Publicación: 2 de enero de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2501.01305
- Instituciones: University of South Carolina AI Institute, Indian Institute of Research and Science, Indian Institute of Technology
Los modelos de lenguaje grande (LLMs) están recibiendo creciente atención de profesionales médicos para asistir en evaluaciones diagnósticas, con el potencial de aliviar la presión en los sistemas de salud causada por la sobrecarga de pacientes y la escasez de proveedores de servicios médicos. Para que los LLMs desempeñen un papel efectivo en el apoyo a evaluaciones diagnósticas, deben ser capaces de replicar estrechamente los procedimientos diagnósticos estándar utilizados por clínicos. Este artículo investiga específicamente el proceso de evaluación diagnóstica utilizando el Cuestionario de Salud del Paciente-9 (PHQ-9) para el Trastorno Depresivo Mayor (TDM) y el Cuestionario de Trastorno de Ansiedad Generalizada-7 (GAD-7) para el Trastorno de Ansiedad Generalizada (TAG). El estudio explora diversas técnicas de indicaciones y ajuste fino para guiar a LLMs propietarios y de código abierto en el seguimiento de estos procesos diagnósticos, y evalúa la concordancia entre los resultados diagnósticos generados por LLMs y el estándar de referencia validado por expertos.
- Presión en el Sistema de Salud: El sistema de salud actual enfrenta la doble presión de la sobrecarga de pacientes y la escasez de proveedores de servicios médicos
- Necesidad de Diagnóstico de Salud Mental: Los problemas de salud mental son cada vez más graves, requiriendo herramientas de evaluación diagnóstica estandarizadas
- Potencial de los LLMs en el Ámbito Médico: Los modelos de lenguaje grande han demostrado un desempeño excepcional en tareas de procesamiento del lenguaje natural, con potencial de aplicación en escenarios de diálogo médico
- Diagnóstico Estandarizado: PHQ-9 y GAD-7 son herramientas de evaluación estandarizadas ampliamente utilizadas en clínica
- Necesidad de Automatización: La automatización de evaluaciones diagnósticas mediante LLMs puede reducir la carga de trabajo de los clínicos
- Requisito de Concordancia: Los LLMs deben ser capaces de replicar los procedimientos diagnósticos estándar de los clínicos para tener aplicación práctica
- Métodos de Puntuación: Basados únicamente en puntuación de relevancia textual, carecen de comprensión profunda
- Métodos de IA Interpretable: Utilizan modelos sustitutos como LIME/SHAP, pero con interpretabilidad clínica limitada
- Identificación de Fragmentos de Texto: Carecen de orientación especializada para criterios diagnósticos específicos
- Modelo Especializado Pionero: Propone DiagnosticLlama, el primer modelo ajustado fino basado en arquitectura Llama específicamente diseñado para evaluación de criterios diagnósticos
- Marco de Evaluación Integral: Establece un sistema de evaluación exhaustivo que abarca dos categorías principales de métodos: indicaciones y ajuste fino
- Conjunto de Datos de Alta Calidad: Construye un conjunto de datos sintético anotado por LLM validado por expertos, promoviendo investigación relacionada
- Comparación Multimodelo: Compara sistemáticamente el desempeño de modelos propietarios (GPT-3.5, GPT-4o) y modelos de código abierto (Llama-3.1-8b, Mixtral-8x7b)
- Metodología Estandarizada: Proporciona métodos estandarizados para aplicar LLMs a evaluaciones diagnósticas de PHQ-9 y GAD-7
Entrada: Texto de publicaciones en redes sociales (como proxy de interacciones paciente-clínico)
Salida: Identificación de fragmentos de texto y determinación de presencia de síntomas para cada elemento de PHQ-9/GAD-7
Restricciones: Debe adherirse estrictamente a los procedimientos diagnósticos estándar de PHQ-9 y GAD-7
- Indicación Ingenua: Instrucciones directas
- Indicación por Ejemplos: Indicación few-shot proporcionando pocos ejemplos
- Indicación Guiada: Indicación Chain-of-Thought que incluye pasos de razonamiento guiado
- Modelo Base: MentalLlama (entrenado en 105K datos de instrucciones de salud mental)
- DiagnosticLlama: MentalLlama ajustado fino usando HuggingFace AutoTrain en el conjunto de datos PRIMATE
- Datos Base: Utiliza el conjunto de datos PRIMATE (publicaciones en redes sociales + anotaciones PHQ-9)
- Mejora con GPT-4o: Utiliza GPT-4o para identificar fragmentos de texto correspondientes a síntomas
- Validación por Expertos: Tres expertos clínicos validan la salida de GPT-4o (Kappa de Cohen: 0.74 para PHQ-9, 0.72 para GAD-7)
- Control de Calidad: Solo se retienen los resultados de anotación consensuados por expertos
- Orientación Específica de Síntomas: Plantillas de indicación especializadas diseñadas para cada síntoma de PHQ-9 y GAD-7
- Evaluación Multinivel: Sistema de evaluación dual que combina métricas de clasificación estándar y ordenamiento hits@k
- Consistencia Multimodelo: Validación de la efectividad del método en múltiples LLMs de diferentes tamaños y tipos
- Validación Clínica: Introducción de médicos clínicos profesionales para validación de calidad, asegurando relevancia clínica
- Conjunto de Datos PRIMATE: Contiene publicaciones en redes sociales con anotaciones relacionadas a PHQ-9
- Subconjunto Validado por Expertos:
- PHQ-9: 40 muestras anotadas por GPT-4o validadas por expertos
- GAD-7: 17 muestras anotadas por GPT-4o validadas por expertos
- Datos Anotados por Modelo: Resultados de anotación multimodelo de 1034 publicaciones en total
- Métricas de Ordenamiento hits@k:
- hits@1: Tasa de acierto cuando el fragmento de texto más similar está en la posición 1 del estándar de referencia
- hits@5: Tasa de acierto cuando el fragmento de texto más similar está en las primeras 5 posiciones del estándar de referencia
- Métricas de Clasificación Estándar: Exactitud (Accuracy), Precisión (Precision), Sensibilidad (Recall), Puntuación F1
- Modelos Propietarios: GPT-3.5-Turbo, GPT-4o-mini
- Modelos de Código Abierto: Llama-3.1-8b, Mixtral-8x7b
- Modelos Ajustados Fino: MentalLlama, DiagnosticLlama
- Métodos Tradicionales: BERT, MentalBERT, MentalRoBERTa
- Métodos de Aprendizaje Automático: Regresión Logística, Bosque Aleatorio, XGBoost
- Utiliza HuggingFace AutoTrain para ajuste fino sin código
- Estructura de indicación idéntica aplicada a todos los modelos para asegurar comparación justa
- Selección aleatoria de subconjunto de prueba debido a limitaciones presupuestarias y de API
Desempeño de Modelos Propietarios:
| Modelo | hits@1 | hits@5 | Exactitud | Precisión | Sensibilidad | Puntuación F1 |
|---|
| GPT-3.5-Turbo | 87% | 98% | 0.93 | 0.89 | 0.96 | 0.92 |
| GPT-4o-mini | 89% | 99% | 0.94 | 0.96 | 0.98 | 0.92 |
Desempeño de Modelos de Código Abierto:
| Modelo | hits@1 | hits@5 | Exactitud | Precisión | Sensibilidad | Puntuación F1 |
|---|
| Llama-3.1-8b | 83% | 88% | 0.84 | 0.86 | 0.78 | 0.82 |
| Mixtral-8x7b | 92% | 99% | 0.92 | 0.96 | 0.95 | 0.93 |
Desempeño de Modelos Ajustados Fino:
| Modelo | hits@1 | hits@5 | Exactitud | Precisión | Sensibilidad | Puntuación F1 |
|---|
| MentalLlama | - | - | 0.82 | 0.83 | 0.63 | 0.75 |
| DiagnosticLlama | 68.3% | 76.2% | - | - | - | - |
Los resultados de GAD-7 presentan tendencias similares a PHQ-9, con modelos propietarios y de código abierto aproximándose a la calidad de anotación humana.
- Diferencias de Desempeño del Modelo: Los LLMs de nueva generación superan significativamente a modelos de versiones anteriores
- Llama2-7b-chat: F1=0.663
- Mistral-instruct: F1=0.655
- Desafíos del Ajuste Fino: El ajuste fino de LLMs para tareas diagnósticas profesionales es extremadamente desafiante
- MentalLlama repite directamente la entrada, demostrando la importancia de la configuración del ajuste fino
- DiagnosticLlama muestra mejora pero aún requiere optimización
- Comparación con Métodos Tradicionales:
- BERT: F1=0.69
- MentalBERT: F1=0.71
- MentalRoBERTa: F1=0.48
- Los métodos de ML tradicionales muestran desempeño inferior (máximo XGBoost: F1=0.65)
El artículo demuestra mediante ejemplos concretos cómo los modelos identifican fragmentos de texto correspondientes a síntomas de PHQ-9, por ejemplo, identificando "I thought I set myself up for success. Now I believe I was dead wrong for joining" correspondiente al síntoma "sentirse como un fracaso".
- Métodos de Puntuación: Ordenamiento de puntuación de texto basado en relevancia a síntomas de PHQ-9/GAD-7
- Métodos de IA Interpretable: Utilización de técnicas LIME/SHAP para interpretar clínicamente salidas de modelos BERT
- Identificación de Fragmentos de Texto: Predicción y resumen de fragmentos de texto, comparación con anotaciones manuales
- Orientación Especializada: Orientación de salida de modelo altamente especializada, dirigida a criterios diagnósticos específicos
- Carácter Pionero: Primer modelo de ajuste fino diagnóstico especializado basado en arquitectura Llama
- Sistematicidad: Comparación sistemática de dos categorías principales de métodos: indicaciones y ajuste fino
- Aprendizaje Few-shot Efectivo: Los LLMs en configuración few-shot pueden aproximarse a la calidad de evaluación de médicos clínicos expertos
- Diferencias de Razonamiento: Aunque los resultados son similares, el proceso de razonamiento de los LLMs difiere significativamente del de los clínicos
- Desafíos del Ajuste Fino: El ajuste fino de LLMs para asistencia en diagnóstico de salud mental aún enfrenta desafíos técnicos significativos
- Potencial Práctico: La investigación proporciona una dirección prometedora para aliviar la presión en los sistemas de salud
- Consistencia de Razonamiento: La concordancia entre el proceso de razonamiento de LLMs y clínicos es limitada
- Escala de Datos: El conjunto de datos de estándar de referencia validado por expertos es relativamente pequeño
- Limitaciones Presupuestarias: Los costos de API limitan la validación experimental a gran escala
- Complejidad del Ajuste Fino: El ajuste fino requiere recursos sustanciales y ajuste de hiperparámetros
- Aplicación Clínica: Desarrollo de aplicaciones dirigidas a médicos clínicos
- Evaluación Expandida: Extensión de DiagnosticLlama a GAD-7, aumento del tamaño del conjunto de datos
- Cuestionarios Complejos: Soporte para cuestionarios con estructura no lineal (como CSSRS)
- Restricciones de Seguridad: Integración de restricciones terminológicas y reescritura de salida para asegurar seguridad
- Relevancia Clínica Fuerte: Dirigida directamente a herramientas de evaluación estandarizadas ampliamente utilizadas en clínica
- Metodología Integral: Abarca dos métodos principales: indicaciones y ajuste fino
- Evaluación Rigurosa: Introducción de validación por médicos clínicos profesionales, asegurando confiabilidad de resultados
- Contribución de Código Abierto: Proporciona modelos y conjuntos de datos para uso de la comunidad
- Experimentación Suficiente: Comparación sistemática multimodelo y multimétrica
- Escala del Conjunto de Datos: El conjunto de datos validado por expertos es relativamente pequeño, pudiendo afectar la generalización de conclusiones
- Limitación de Dominio: Solo dirigida a dos enfermedades (depresión y ansiedad), cobertura limitada
- Análisis de Razonamiento: Análisis insuficiente de diferencias entre procesos de razonamiento de LLMs y clínicos
- Consideraciones de Costo: Falta análisis de costo-beneficio para implementación práctica
- Discusión Ética: Discusión insuficiente de cuestiones éticas en diagnóstico de salud mental asistido por IA
- Valor Académico: Proporciona referencia importante para aplicación de LLMs en el ámbito de salud mental
- Valor Práctico: Proporciona base técnica para que instituciones médicas implementen sistemas de diagnóstico asistido por IA
- Significado Social: Tiene potencial para aliviar problemas de escasez de recursos en servicios de salud mental
- Reproducibilidad: Código abierto y conjuntos de datos apoyan reproducción y extensión de investigación
- Cribado Inicial: Aplicable a cribado de salud mental a gran escala
- Diagnóstico Asistido: Como herramienta auxiliar de clínicos, no como sustituto
- Telemedicina: Apoyo a servicios de salud mental remota
- Herramienta de Investigación: Proporciona herramienta de análisis automatizado para investigación de salud mental
El artículo cita 29 referencias relacionadas, abarcando múltiples campos relevantes incluyendo LLMs, evaluación de salud mental, ingeniería de indicaciones, y técnicas de ajuste fino, proporcionando una base teórica sólida para la investigación.
Evaluación General: Este es un trabajo de exploración importante en la aplicación de LLMs al ámbito del diagnóstico de salud mental. El artículo presenta metodología científica, experimentación suficiente y conclusiones confiables, realizando contribuciones valiosas al desarrollo de este campo interdisciplinario. Aunque presenta algunas limitaciones, su significado pionero y valor práctico lo convierten en una referencia importante en el campo.