2025-11-23T03:49:16.478723

Does Biomedical Training Lead to Better Medical Performance?

Dada, Bauer, Contreras et al.
Large Language Models (LLMs) are expected to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs aim to address healthcare-specific challenges, including privacy demands and computational constraints. Assessing the models' suitability for this sensitive application area is of the utmost importance. However, biomedical training has not been systematically evaluated on medical tasks. This study investigates the effect of biomedical training in the context of six practical medical tasks evaluating $25$ models. In contrast to previous evaluations, our results reveal a performance decline in nine out of twelve biomedical models after fine-tuning, particularly on tasks involving hallucinations, ICD10 coding, and instruction adherence. General-domain models like Meta-Llama-3.1-70B-Instruct outperformed their biomedical counterparts, indicating a trade-off between domain-specific fine-tuning and general medical task performance. We open-source all evaluation scripts and datasets at https://github.com/TIO-IKIM/CLUE to support further research in this critical area.
academic

¿Conduce el Entrenamiento Biomédico a un Mejor Desempeño Médico?

Información Básica

  • ID del Artículo: 2404.04067
  • Título: Does Biomedical Training Lead to Better Medical Performance?
  • Autores: Amin Dada, Osman Alperen Koraş, Marie Bauer, Jean-Philippe Corbeil, Amanda Butler Contreras, Constantin Marc Seibold, Kaleb E Smith, Julian Friedrich, Jens Kleesiek
  • Clasificación: cs.CL cs.AI cs.LG
  • Fecha de Publicación/Conferencia: Preimpresión arXiv (Enviado en abril de 2024, actualizado en octubre de 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2404.04067v5

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) poseen un enorme potencial en aplicaciones de atención médica, y los modelos adaptados al dominio biomédico prometen proporcionar un mejor desempeño en tareas médicas. Sin embargo, la efectividad de la adaptación al dominio biomédico en tareas clínicas sigue siendo incierta. Este estudio realiza una comparación directa de 12 modelos adaptados biomédicamente y sus modelos base de dominio general en seis tareas clínicas. Los resultados muestran que 11 de los 12 modelos biomédicos exhiben degradación del desempeño, lo que desafía los hallazgos previos que reportaban efectos positivos de la adaptación biomédica. Notablemente, los resultados positivos anteriores dependían principalmente de evaluaciones de opción múltiple, que pueden no reflejar el desempeño en aplicaciones clínicas del mundo real.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que este estudio aborda es: ¿El entrenamiento especializado en el dominio biomédico realmente mejora el desempeño de los Modelos de Lenguaje de Gran Escala en tareas clínicas reales?

Importancia

  1. Necesidades de Aplicación Práctica: Los LLMs en atención médica tienen un enorme potencial para mejorar la calidad y eficiencia de la atención al paciente
  2. Consideraciones de Inversión de Recursos: El desarrollo de LLMs biomédicos requiere recursos computacionales sustanciales y datos especializados
  3. Consideraciones de Seguridad: Las aplicaciones médicas requieren estándares extremadamente altos de precisión y confiabilidad del modelo

Limitaciones de Métodos Existentes

  1. Limitaciones en Métodos de Evaluación: La investigación previa se basaba principalmente en evaluaciones de preguntas de opción múltiple (MCQA), careciendo de pruebas en documentos clínicos reales
  2. Conclusiones Inconsistentes: Investigaciones recientes han comenzado a cuestionar la efectividad de la adaptación al dominio biomédico
  3. Falta de Comparación Sistemática: Ausencia de comparaciones sistemáticas directas entre múltiples modelos biomédicos y sus modelos base

Motivación de la Investigación

Los autores buscan revelar los efectos reales del entrenamiento biomédico a través de evaluación sistemática en tareas clínicas reales, proporcionando evidencia objetiva para el desarrollo de este campo.

Contribuciones Principales

  1. Marco de Evaluación Sistemática: Construcción del marco CLUE (Clinical Language Understanding Evaluation), que incluye 6 tareas clínicas reales
  2. Comparación de Modelos a Gran Escala: Evaluación de 24 modelos de lenguaje, incluyendo 12 modelos biomédicos y sus modelos base
  3. Hallazgos Disruptivos: Descubrimiento de que 11/12 modelos biomédicos muestran degradación del desempeño en tareas clínicas, desafiando el conocimiento convencional
  4. Contribución de Código Abierto: Liberación de la tubería de evaluación completa, promoviendo investigación reproducible
  5. Análisis Profundo de Errores: Identificación de problemas principales en modelos biomédicos: alucinaciones, degradación de la capacidad de seguimiento de instrucciones, etc.

Explicación Detallada de Métodos

Definición de Tareas

El marco de evaluación CLUE incluye 6 tareas clínicas divididas en dos niveles de dificultad:

Nivel 1 (Tareas Simples, Entrada Corta):

  • MedNLI: Inferencia de lenguaje natural basada en notas clínicas de MIMIC-III
  • MeQSum: Resumen de preguntas de salud del consumidor
  • Problem Summary: Extracción de problemas del paciente de notas clínicas con estructura SOAP

Nivel 2 (Tareas Complejas, Entrada Larga):

  • LongHealth: Comprensión de documentos largos y preguntas-respuestas
  • MeDiSumQA: Preguntas-respuestas y simplificación de resúmenes de alta
  • MeDiSumCode: Predicción de codificación ICD-10

Arquitectura de Modelos

Los modelos biomédicos evaluados incluyen:

  • Serie Meditron (7B/70B): Preentrenamiento continuo basado en Llama-2
  • Serie BioMistral: Entrenamiento basado en Mistral-7B
  • Serie OpenBioLLM (8B/70B): Entrenamiento basado en Llama-3 usando SFT+DPO
  • Serie Med42 (8B/70B): Entrenamiento basado en Llama-3
  • Otros Modelos: Internist.ai, Aloe, Meditron3, etc.

Puntos de Innovación Técnica

  1. Evaluación en Tareas Clínicas Reales: A diferencia de MCQA tradicional, utiliza documentos y tareas clínicas reales
  2. Métricas Multidimensionales: Combinación de ROUGE, BERTScore, F1 de entidades UMLS y otras métricas
  3. Comparación Sistemática: Cada modelo biomédico se compara directamente con su modelo base
  4. Análisis de Patrones de Error: Análisis profundo de tipos de errores específicos como alucinaciones y bucles repetitivos

Configuración Experimental

Conjuntos de Datos

  • MedNLI: 1,425 muestras basadas en notas clínicas de MIMIC-III
  • MeQSum: 1,000 consultas de salud del consumidor
  • Problem Summary: 237 notas clínicas con estructura SOAP
  • LongHealth: 400 preguntas-respuestas de documentos largos (promedio 5,537 palabras)
  • MeDiSumQA: 453 preguntas-respuestas de resúmenes de alta
  • MeDiSumCode: 500 tareas de codificación ICD-10

Métricas de Evaluación

  • Tareas de Generación de Texto: ROUGE-1/2/L, BERTScore, F1 de entidades UMLS
  • Tareas de Clasificación: Precisión, puntuación F1
  • Tareas de Codificación: Coincidencia exacta, coincidencia aproximada, proporción de códigos válidos

Métodos de Comparación

  • 12 modelos biomédicos con sus modelos base correspondientes
  • Modelos adicionales de dominio general como referencias de referencia

Detalles de Implementación

  • Recursos Computacionales: Nodo NVIDIA DGX A100 640GB, aproximadamente 1536 horas GPU
  • Estrategia de Indicaciones: Nivel 1 utiliza 3-shot, Nivel 2 utiliza 1-shot (excepto LongHealth)
  • Configuración de Modelos: Utiliza plantillas de instrucciones predeterminadas de Hugging Face

Resultados Experimentales

Resultados Principales

Categoría de ModeloCambio de Desempeño Promedio Nivel 1Cambio de Desempeño Promedio Nivel 2Tendencia General
Meditron-7B-7.08-Degradación
Meditron-70B-4.59-Degradación
BioMistral-7B+0.26+0.71Mejora Ligera
BioMistral-7B-DARE+2.93+2.70Mejora
OpenBioLLM-8B-15.17-13.54Degradación Significativa
Med42-8B+2.51-1.40Mixta

Hallazgos Clave:

  1. Solo BioMistral-7B-DARE supera consistentemente al modelo base en todas las tareas
  2. 11/12 modelos muestran degradación del desempeño en al menos una tarea
  3. 4 modelos muestran degradación del desempeño en todas las tareas

Experimentos de Ablación

Impacto de la Complejidad de la Tarea:

  • Tareas Nivel 1: Algunos modelos muestran mejora ligera
  • Tareas Nivel 2: La mayoría de modelos muestran degradación significativa

Impacto del Tamaño del Modelo:

  • Modelos de 8B parámetros: Más propensos a obtener mejoras
  • Modelos de 70B parámetros: Más propensos a degradación del desempeño después del entrenamiento

Análisis de Casos

Ejemplos de Patrones de Error:

  1. Problema de Alucinación: En la tarea 3 de LongHealth, Llama3-OpenBioLLM-8B disminuye de 56.25 puntos en el modelo base a 1.55 puntos
  2. Bucles Repetitivos: Los modelos biomédicos frecuentemente quedan atrapados en repetición de tokens, produciendo salidas incoherentes
  3. Errores de Codificación ICD-10: Los modelos tienden a incrementar números en lugar de predecir códigos válidos

Hallazgos Experimentales

  1. Diferencia con Evaluación MCQA: La evaluación tradicional de opción múltiple muestra efectos positivos, pero el desempeño en tareas clínicas reales disminuye
  2. Importancia de la Calidad del Modelo Base: Los modelos genéricos más nuevos (como Llama-3) son más importantes que la adaptación biomédica
  3. Degradación de la Capacidad de Seguimiento de Instrucciones: El entrenamiento biomédico daña la capacidad del modelo de seguir instrucciones

Trabajo Relacionado

Desarrollo de LLMs Biomédicos

  • Modelos Comerciales: Med-PaLM, MedGemini
  • Modelos de Código Abierto: Meditron, Biomistral, Internist.ai, Med42

Voces Cuestionadoras

Investigaciones recientes han comenzado a cuestionar la efectividad de la adaptación biomédica:

  • Jeong et al. (2024): Descubrimiento de que LLMs biomédicos no tienen ventajas claras
  • Ceballos-Arroyo et al. (2024): La adaptación al dominio puede dañar el seguimiento de instrucciones

Posicionamiento de Este Artículo

Este artículo proporciona evidencia empírica para esta controversia a través de evaluación sistemática de tareas clínicas reales.

Conclusiones y Discusión

Conclusiones Principales

  1. El Entrenamiento Biomédico No Siempre es Beneficioso: La mayoría de modelos biomédicos muestran degradación del desempeño en tareas clínicas reales
  2. Competitividad de Modelos Genéricos: Modelos genéricos como Meta-Llama-3.1-70B muestran el mejor desempeño
  3. Importancia del Método de Evaluación: La evaluación MCQA puede ser engañosa; la evaluación en tareas reales es más importante
  4. Potencial de Fusión de Pesos: El éxito de BioMistral-DARE indica que la fusión de pesos es una dirección prometedora

Limitaciones

  1. Limitaciones de Recursos Computacionales: No se exploraron diferentes configuraciones de temperatura, indicaciones de cadena de pensamiento, etc.
  2. Riesgo de Contaminación de Datos: El uso de conjuntos de datos públicos no puede evitar completamente la contaminación de datos
  3. Diferencias en Entornos Clínicos: La evaluación no se realizó en entornos clínicos reales
  4. Evaluación de Seguridad Insuficiente: Se requieren ensayos clínicos prospectivos para verificar la seguridad

Direcciones Futuras

  1. Mejora de Métodos de Entrenamiento: Exploración de estrategias de adaptación al dominio más efectivas
  2. Mejora de Calidad de Datos: Uso de datos de entrenamiento de alta calidad
  3. Técnicas de Fusión de Pesos: Investigación adicional de métodos de fusión de pesos
  4. Verificación de Ensayos Clínicos: Prueba en entornos clínicos reales

Evaluación Profunda

Fortalezas

  1. Diseño de Investigación Riguroso: Comparación sistemática de 12 modelos biomédicos con modelos base
  2. Diseño de Tareas Práctico: Utiliza documentos y tareas clínicas reales, más cercano a aplicaciones prácticas
  3. Hallazgos Disruptivos: Desafía el punto de vista dominante en el campo
  4. Alto Valor de Contribución de Código Abierto: El marco de evaluación completo promueve investigación posterior
  5. Análisis de Errores Profundo: Análisis detallado de problemas específicos como alucinaciones y repeticiones

Insuficiencias

  1. Tamaño de Muestra Limitado: El número de muestras en algunas tareas es relativamente pequeño (por ejemplo, Problem Summary con solo 237 muestras)
  2. Alcance de Evaluación Limitado: Se enfoca principalmente en inglés y tipos específicos de tareas clínicas
  3. Falta de Análisis Teórico: Carencia de explicación teórica profunda sobre por qué el entrenamiento biomédico conduce a degradación del desempeño
  4. Detalles de Entrenamiento Insuficientes: Descripción limitada del proceso de entrenamiento específico de cada modelo biomédico

Impacto

  1. Valor Académico: Proporciona reflexión importante para investigación de LLMs biomédicos
  2. Orientación Práctica: Ayuda a profesionales a elegir modelos de manera más racional
  3. Contribución Metodológica: El marco de evaluación CLUE puede ser ampliamente adoptado
  4. Optimización de Recursos: Evita inversión ciega en desarrollo de modelos biomédicos

Escenarios Aplicables

  1. Decisiones de Selección de Modelos: Selección de modelos base apropiados para aplicaciones de IA médica
  2. Orientación de Dirección de Investigación: Proporciona nuevas perspectivas para investigación de LLMs biomédicos
  3. Establecimiento de Estándares de Evaluación: Establece estándares más rigurosos para evaluación de IA médica
  4. Referencia de Decisiones de Inversión: Proporciona base para asignación de inversión y recursos relacionados

Referencias

  1. Chen, Z. et al. (2023). MEDITRON-70B: Scaling Medical Pretraining for Large Language Models.
  2. Labrak, Y. et al. (2024). BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains.
  3. Jeong, D. P. et al. (2024). Medical adaptation of large language and vision-language models: Are we making progress?
  4. Ceballos-Arroyo, A. M. et al. (2024). Open (clinical) LLMs are sensitive to instruction phrasings.

Resumen: Este artículo revela las limitaciones del entrenamiento biomédico en tareas clínicas reales a través de diseño experimental riguroso, proporcionando reflexión importante para el campo. Aunque las conclusiones pueden ser inesperadas, el rigor metodológico y la importancia de los hallazgos lo convierten en una contribución importante al campo de la IA médica. La investigación nos recuerda la necesidad de evaluar más cuidadosamente los efectos del entrenamiento especializado y valorar la importancia de los modelos genéricos en aplicaciones médicas.