2025-11-23T03:49:16.478723

Does Biomedical Training Lead to Better Medical Performance?

Dada, Bauer, Contreras et al.

Large Language Models (LLMs) are expected to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs aim to address healthcare-specific challenges, including privacy demands and computational constraints. Assessing the models' suitability for this sensitive application area is of the utmost importance. However, biomedical training has not been systematically evaluated on medical tasks. This study investigates the effect of biomedical training in the context of six practical medical tasks evaluating $25$ models. In contrast to previous evaluations, our results reveal a performance decline in nine out of twelve biomedical models after fine-tuning, particularly on tasks involving hallucinations, ICD10 coding, and instruction adherence. General-domain models like Meta-Llama-3.1-70B-Instruct outperformed their biomedical counterparts, indicating a trade-off between domain-specific fine-tuning and general medical task performance. We open-source all evaluation scripts and datasets at https://github.com/TIO-IKIM/CLUE to support further research in this critical area.

academic

¿Conduce el Entrenamiento Biomédico a un Mejor Desempeño Médico?

Información Básica

ID del Artículo: 2404.04067
Título: Does Biomedical Training Lead to Better Medical Performance?
Autores: Amin Dada, Osman Alperen Koraş, Marie Bauer, Jean-Philippe Corbeil, Amanda Butler Contreras, Constantin Marc Seibold, Kaleb E Smith, Julian Friedrich, Jens Kleesiek
Clasificación: cs.CL cs.AI cs.LG
Fecha de Publicación/Conferencia: Preimpresión arXiv (Enviado en abril de 2024, actualizado en octubre de 2025)
Enlace del Artículo: https://arxiv.org/abs/2404.04067v5

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) poseen un enorme potencial en aplicaciones de atención médica, y los modelos adaptados al dominio biomédico prometen proporcionar un mejor desempeño en tareas médicas. Sin embargo, la efectividad de la adaptación al dominio biomédico en tareas clínicas sigue siendo incierta. Este estudio realiza una comparación directa de 12 modelos adaptados biomédicamente y sus modelos base de dominio general en seis tareas clínicas. Los resultados muestran que 11 de los 12 modelos biomédicos exhiben degradación del desempeño, lo que desafía los hallazgos previos que reportaban efectos positivos de la adaptación biomédica. Notablemente, los resultados positivos anteriores dependían principalmente de evaluaciones de opción múltiple, que pueden no reflejar el desempeño en aplicaciones clínicas del mundo real.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que este estudio aborda es: ¿El entrenamiento especializado en el dominio biomédico realmente mejora el desempeño de los Modelos de Lenguaje de Gran Escala en tareas clínicas reales?

Importancia

Necesidades de Aplicación Práctica: Los LLMs en atención médica tienen un enorme potencial para mejorar la calidad y eficiencia de la atención al paciente
Consideraciones de Inversión de Recursos: El desarrollo de LLMs biomédicos requiere recursos computacionales sustanciales y datos especializados
Consideraciones de Seguridad: Las aplicaciones médicas requieren estándares extremadamente altos de precisión y confiabilidad del modelo

Limitaciones de Métodos Existentes

Limitaciones en Métodos de Evaluación: La investigación previa se basaba principalmente en evaluaciones de preguntas de opción múltiple (MCQA), careciendo de pruebas en documentos clínicos reales
Conclusiones Inconsistentes: Investigaciones recientes han comenzado a cuestionar la efectividad de la adaptación al dominio biomédico
Falta de Comparación Sistemática: Ausencia de comparaciones sistemáticas directas entre múltiples modelos biomédicos y sus modelos base

Motivación de la Investigación

Los autores buscan revelar los efectos reales del entrenamiento biomédico a través de evaluación sistemática en tareas clínicas reales, proporcionando evidencia objetiva para el desarrollo de este campo.

Contribuciones Principales

Marco de Evaluación Sistemática: Construcción del marco CLUE (Clinical Language Understanding Evaluation), que incluye 6 tareas clínicas reales
Comparación de Modelos a Gran Escala: Evaluación de 24 modelos de lenguaje, incluyendo 12 modelos biomédicos y sus modelos base
Hallazgos Disruptivos: Descubrimiento de que 11/12 modelos biomédicos muestran degradación del desempeño en tareas clínicas, desafiando el conocimiento convencional
Contribución de Código Abierto: Liberación de la tubería de evaluación completa, promoviendo investigación reproducible
Análisis Profundo de Errores: Identificación de problemas principales en modelos biomédicos: alucinaciones, degradación de la capacidad de seguimiento de instrucciones, etc.

Explicación Detallada de Métodos

Definición de Tareas

El marco de evaluación CLUE incluye 6 tareas clínicas divididas en dos niveles de dificultad:

Nivel 1 (Tareas Simples, Entrada Corta):

MedNLI: Inferencia de lenguaje natural basada en notas clínicas de MIMIC-III
MeQSum: Resumen de preguntas de salud del consumidor
Problem Summary: Extracción de problemas del paciente de notas clínicas con estructura SOAP

Nivel 2 (Tareas Complejas, Entrada Larga):

LongHealth: Comprensión de documentos largos y preguntas-respuestas
MeDiSumQA: Preguntas-respuestas y simplificación de resúmenes de alta
MeDiSumCode: Predicción de codificación ICD-10

Arquitectura de Modelos

Los modelos biomédicos evaluados incluyen:

Serie Meditron (7B/70B): Preentrenamiento continuo basado en Llama-2
Serie BioMistral: Entrenamiento basado en Mistral-7B
Serie OpenBioLLM (8B/70B): Entrenamiento basado en Llama-3 usando SFT+DPO
Serie Med42 (8B/70B): Entrenamiento basado en Llama-3
Otros Modelos: Internist.ai, Aloe, Meditron3, etc.

Puntos de Innovación Técnica

Evaluación en Tareas Clínicas Reales: A diferencia de MCQA tradicional, utiliza documentos y tareas clínicas reales
Métricas Multidimensionales: Combinación de ROUGE, BERTScore, F1 de entidades UMLS y otras métricas
Comparación Sistemática: Cada modelo biomédico se compara directamente con su modelo base
Análisis de Patrones de Error: Análisis profundo de tipos de errores específicos como alucinaciones y bucles repetitivos

Configuración Experimental

Conjuntos de Datos

MedNLI: 1,425 muestras basadas en notas clínicas de MIMIC-III
MeQSum: 1,000 consultas de salud del consumidor
Problem Summary: 237 notas clínicas con estructura SOAP
LongHealth: 400 preguntas-respuestas de documentos largos (promedio 5,537 palabras)
MeDiSumQA: 453 preguntas-respuestas de resúmenes de alta
MeDiSumCode: 500 tareas de codificación ICD-10

Métricas de Evaluación

Tareas de Generación de Texto: ROUGE-1/2/L, BERTScore, F1 de entidades UMLS
Tareas de Clasificación: Precisión, puntuación F1
Tareas de Codificación: Coincidencia exacta, coincidencia aproximada, proporción de códigos válidos

Métodos de Comparación

12 modelos biomédicos con sus modelos base correspondientes
Modelos adicionales de dominio general como referencias de referencia

Detalles de Implementación

Recursos Computacionales: Nodo NVIDIA DGX A100 640GB, aproximadamente 1536 horas GPU
Estrategia de Indicaciones: Nivel 1 utiliza 3-shot, Nivel 2 utiliza 1-shot (excepto LongHealth)
Configuración de Modelos: Utiliza plantillas de instrucciones predeterminadas de Hugging Face

Resultados Experimentales

Resultados Principales

Categoría de Modelo	Cambio de Desempeño Promedio Nivel 1	Cambio de Desempeño Promedio Nivel 2	Tendencia General
Meditron-7B	-7.08	-	Degradación
Meditron-70B	-4.59	-	Degradación
BioMistral-7B	+0.26	+0.71	Mejora Ligera
BioMistral-7B-DARE	+2.93	+2.70	Mejora
OpenBioLLM-8B	-15.17	-13.54	Degradación Significativa
Med42-8B	+2.51	-1.40	Mixta

Hallazgos Clave:

Solo BioMistral-7B-DARE supera consistentemente al modelo base en todas las tareas
11/12 modelos muestran degradación del desempeño en al menos una tarea
4 modelos muestran degradación del desempeño en todas las tareas

Experimentos de Ablación

Impacto de la Complejidad de la Tarea:

Tareas Nivel 1: Algunos modelos muestran mejora ligera
Tareas Nivel 2: La mayoría de modelos muestran degradación significativa

Impacto del Tamaño del Modelo:

Modelos de 8B parámetros: Más propensos a obtener mejoras
Modelos de 70B parámetros: Más propensos a degradación del desempeño después del entrenamiento

Análisis de Casos

Ejemplos de Patrones de Error:

Problema de Alucinación: En la tarea 3 de LongHealth, Llama3-OpenBioLLM-8B disminuye de 56.25 puntos en el modelo base a 1.55 puntos
Bucles Repetitivos: Los modelos biomédicos frecuentemente quedan atrapados en repetición de tokens, produciendo salidas incoherentes
Errores de Codificación ICD-10: Los modelos tienden a incrementar números en lugar de predecir códigos válidos

Hallazgos Experimentales

Diferencia con Evaluación MCQA: La evaluación tradicional de opción múltiple muestra efectos positivos, pero el desempeño en tareas clínicas reales disminuye
Importancia de la Calidad del Modelo Base: Los modelos genéricos más nuevos (como Llama-3) son más importantes que la adaptación biomédica
Degradación de la Capacidad de Seguimiento de Instrucciones: El entrenamiento biomédico daña la capacidad del modelo de seguir instrucciones

Trabajo Relacionado

Desarrollo de LLMs Biomédicos

Modelos Comerciales: Med-PaLM, MedGemini
Modelos de Código Abierto: Meditron, Biomistral, Internist.ai, Med42

Voces Cuestionadoras

Investigaciones recientes han comenzado a cuestionar la efectividad de la adaptación biomédica:

Jeong et al. (2024): Descubrimiento de que LLMs biomédicos no tienen ventajas claras
Ceballos-Arroyo et al. (2024): La adaptación al dominio puede dañar el seguimiento de instrucciones

Posicionamiento de Este Artículo

Este artículo proporciona evidencia empírica para esta controversia a través de evaluación sistemática de tareas clínicas reales.

Conclusiones y Discusión

Conclusiones Principales

El Entrenamiento Biomédico No Siempre es Beneficioso: La mayoría de modelos biomédicos muestran degradación del desempeño en tareas clínicas reales
Competitividad de Modelos Genéricos: Modelos genéricos como Meta-Llama-3.1-70B muestran el mejor desempeño
Importancia del Método de Evaluación: La evaluación MCQA puede ser engañosa; la evaluación en tareas reales es más importante
Potencial de Fusión de Pesos: El éxito de BioMistral-DARE indica que la fusión de pesos es una dirección prometedora

Limitaciones

Limitaciones de Recursos Computacionales: No se exploraron diferentes configuraciones de temperatura, indicaciones de cadena de pensamiento, etc.
Riesgo de Contaminación de Datos: El uso de conjuntos de datos públicos no puede evitar completamente la contaminación de datos
Diferencias en Entornos Clínicos: La evaluación no se realizó en entornos clínicos reales
Evaluación de Seguridad Insuficiente: Se requieren ensayos clínicos prospectivos para verificar la seguridad

Direcciones Futuras

Mejora de Métodos de Entrenamiento: Exploración de estrategias de adaptación al dominio más efectivas
Mejora de Calidad de Datos: Uso de datos de entrenamiento de alta calidad
Técnicas de Fusión de Pesos: Investigación adicional de métodos de fusión de pesos
Verificación de Ensayos Clínicos: Prueba en entornos clínicos reales

Evaluación Profunda

Fortalezas

Diseño de Investigación Riguroso: Comparación sistemática de 12 modelos biomédicos con modelos base
Diseño de Tareas Práctico: Utiliza documentos y tareas clínicas reales, más cercano a aplicaciones prácticas
Hallazgos Disruptivos: Desafía el punto de vista dominante en el campo
Alto Valor de Contribución de Código Abierto: El marco de evaluación completo promueve investigación posterior
Análisis de Errores Profundo: Análisis detallado de problemas específicos como alucinaciones y repeticiones

Insuficiencias

Tamaño de Muestra Limitado: El número de muestras en algunas tareas es relativamente pequeño (por ejemplo, Problem Summary con solo 237 muestras)
Alcance de Evaluación Limitado: Se enfoca principalmente en inglés y tipos específicos de tareas clínicas
Falta de Análisis Teórico: Carencia de explicación teórica profunda sobre por qué el entrenamiento biomédico conduce a degradación del desempeño
Detalles de Entrenamiento Insuficientes: Descripción limitada del proceso de entrenamiento específico de cada modelo biomédico

Impacto

Valor Académico: Proporciona reflexión importante para investigación de LLMs biomédicos
Orientación Práctica: Ayuda a profesionales a elegir modelos de manera más racional
Contribución Metodológica: El marco de evaluación CLUE puede ser ampliamente adoptado
Optimización de Recursos: Evita inversión ciega en desarrollo de modelos biomédicos

Escenarios Aplicables

Decisiones de Selección de Modelos: Selección de modelos base apropiados para aplicaciones de IA médica
Orientación de Dirección de Investigación: Proporciona nuevas perspectivas para investigación de LLMs biomédicos
Establecimiento de Estándares de Evaluación: Establece estándares más rigurosos para evaluación de IA médica
Referencia de Decisiones de Inversión: Proporciona base para asignación de inversión y recursos relacionados

Referencias

Chen, Z. et al. (2023). MEDITRON-70B: Scaling Medical Pretraining for Large Language Models.
Labrak, Y. et al. (2024). BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains.
Jeong, D. P. et al. (2024). Medical adaptation of large language and vision-language models: Are we making progress?
Ceballos-Arroyo, A. M. et al. (2024). Open (clinical) LLMs are sensitive to instruction phrasings.

Resumen: Este artículo revela las limitaciones del entrenamiento biomédico en tareas clínicas reales a través de diseño experimental riguroso, proporcionando reflexión importante para el campo. Aunque las conclusiones pueden ser inesperadas, el rigor metodológico y la importancia de los hallazgos lo convierten en una contribución importante al campo de la IA médica. La investigación nos recuerda la necesidad de evaluar más cuidadosamente los efectos del entrenamiento especializado y valorar la importancia de los modelos genéricos en aplicaciones médicas.