2025-11-23T03:49:16.478723

Does Biomedical Training Lead to Better Medical Performance?

Dada, Bauer, Contreras et al.

Large Language Models (LLMs) are expected to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs aim to address healthcare-specific challenges, including privacy demands and computational constraints. Assessing the models' suitability for this sensitive application area is of the utmost importance. However, biomedical training has not been systematically evaluated on medical tasks. This study investigates the effect of biomedical training in the context of six practical medical tasks evaluating $25$ models. In contrast to previous evaluations, our results reveal a performance decline in nine out of twelve biomedical models after fine-tuning, particularly on tasks involving hallucinations, ICD10 coding, and instruction adherence. General-domain models like Meta-Llama-3.1-70B-Instruct outperformed their biomedical counterparts, indicating a trade-off between domain-specific fine-tuning and general medical task performance. We open-source all evaluation scripts and datasets at https://github.com/TIO-IKIM/CLUE to support further research in this critical area.

academic

Приводит ли биомедицинское обучение к лучшей медицинской производительности?

Основная информация

ID статьи: 2404.04067
Название: Does Biomedical Training Lead to Better Medical Performance?
Авторы: Amin Dada, Osman Alperen Koraş, Marie Bauer, Jean-Philippe Corbeil, Amanda Butler Contreras, Constantin Marc Seibold, Kaleb E Smith, Julian Friedrich, Jens Kleesiek
Классификация: cs.CL cs.AI cs.LG
Дата публикации/конференция: препринт arXiv (подано в апреле 2024 г., обновлено в октябре 2025 г.)
Ссылка на статью: https://arxiv.org/abs/2404.04067v5

Аннотация

Большие языковые модели (LLM) имеют огромный потенциал в приложениях здравоохранения, и модели, адаптированные к биомедицинской области, обещают лучшую производительность на медицинских задачах. Однако эффективность биомедицинской адаптации для клинических задач остаётся неопределённой. В данном исследовании проведено прямое сравнение 12 биомедицинских адаптированных моделей и их универсальных базовых моделей на шести клинических задачах. Результаты показывают, что 11 из 12 биомедицинских моделей демонстрируют снижение производительности, что ставит под сомнение предыдущие сообщения о положительных эффектах биомедицинской адаптации. Примечательно, что предыдущие положительные результаты в основном опирались на оценку с множественным выбором, которая может не отражать производительность в реальных клинических приложениях.

Исследовательский контекст и мотивация

Определение проблемы

Основной вопрос, который решает данное исследование: действительно ли специализированное обучение в биомедицинской области улучшает производительность больших языковых моделей на практических клинических задачах?

Значимость

Потребности практического применения: LLM имеют огромный потенциал в здравоохранении для повышения качества и эффективности ухода за пациентами
Рассмотрение затрат ресурсов: разработка биомедицинских LLM требует значительных вычислительных ресурсов и специализированных данных
Соображения безопасности: медицинские приложения предъявляют высокие требования к точности и надёжности моделей

Ограничения существующих методов

Ограничения методов оценки: предыдущие исследования в основном полагались на оценку с множественным выбором (MCQA), без тестирования на реальных клинических документах
Несогласованность выводов: недавние исследования начали ставить под сомнение эффективность биомедицинской адаптации
Отсутствие систематического сравнения: недостаток прямого систематического сравнения нескольких биомедицинских моделей с их базовыми моделями

Исследовательская мотивация

Авторы стремятся выявить истинный эффект биомедицинского обучения путём систематической оценки на реальных клинических задачах, предоставляя объективные доказательства для развития этой области.

Основные вклады

Систематическая структура оценки: разработана структура оценки CLUE (Clinical Language Understanding Evaluation), включающая 6 практических клинических задач
Крупномасштабное сравнение моделей: оценены 24 языковые модели, включая 12 биомедицинских моделей и их базовые модели
Революционные открытия: обнаружено, что 11 из 12 биомедицинских моделей показывают снижение производительности на клинических задачах, что ставит под сомнение традиционные представления
Вклад в открытый исходный код: опубликован полный конвейер оценки для содействия воспроизводимым исследованиям
Глубокий анализ ошибок: выявлены основные проблемы биомедицинских моделей: галлюцинации, снижение способности следовать инструкциям и т.д.

Подробное описание методов

Определение задач

Структура оценки CLUE включает 6 клинических задач, разделённых на два уровня сложности:

Уровень 1 (простые задачи, короткий ввод):

MedNLI: логический вывод на естественном языке на основе клинических записей MIMIC-III
MeQSum: резюмирование вопросов о здоровье потребителей
Problem Summary: извлечение проблем пациента из клинических записей структуры SOAP

Уровень 2 (сложные задачи, длинный ввод):

LongHealth: понимание длинных документов и ответы на вопросы
MeDiSumQA: ответы на вопросы и упрощение выписных резюме
MeDiSumCode: прогнозирование кодов МКБ-10

Архитектура моделей

Оценённые биомедицинские модели включают:

Серия Meditron (7B/70B): непрерывное предварительное обучение на основе Llama-2
Серия BioMistral: обучение на основе Mistral-7B
Серия OpenBioLLM (8B/70B): обучение на основе Llama-3 с использованием SFT+DPO
Серия Med42 (8B/70B): обучение на основе Llama-3
Другие модели: Internist.ai, Aloe, Meditron3 и т.д.

Технические инновации

Оценка на реальных клинических задачах: в отличие от традиционного MCQA, используются реальные клинические документы и задачи
Многомерные метрики: сочетание ROUGE, BERTScore, F1 сущностей UMLS и других показателей
Систематическое сравнение: каждая биомедицинская модель сравнивается непосредственно с её базовой моделью
Анализ паттернов ошибок: глубокий анализ конкретных типов ошибок, таких как галлюцинации и циклические повторения

Экспериментальная установка

Наборы данных

MedNLI: 1 425 образцов на основе клинических записей MIMIC-III
MeQSum: 1 000 запросов о здоровье потребителей
Problem Summary: 237 клинических записей структуры SOAP
LongHealth: 400 вопросов по длинным документам (среднее 5 537 слов)
MeDiSumQA: 453 вопроса по выписным резюме
MeDiSumCode: 500 задач кодирования МКБ-10

Метрики оценки

Задачи генерации текста: ROUGE-1/2/L, BERTScore, F1 сущностей UMLS
Задачи классификации: точность, F1-оценка
Задачи кодирования: точное совпадение, приблизительное совпадение, доля действительных кодов

Методы сравнения

12 биомедицинских моделей и их соответствующие базовые модели
Дополнительные универсальные модели в качестве эталонных

Детали реализации

Вычислительные ресурсы: узел NVIDIA DGX A100 640GB, примерно 1536 часов GPU
Стратегия подсказок: Level 1 использует 3-shot, Level 2 использует 1-shot (кроме LongHealth)
Конфигурация моделей: использованы шаблоны инструкций Hugging Face по умолчанию

Результаты экспериментов

Основные результаты

Категория модели	Среднее изменение производительности Level 1	Среднее изменение производительности Level 2	Общая тенденция
Meditron-7B	-7.08	-	Снижение
Meditron-70B	-4.59	-	Снижение
BioMistral-7B	+0.26	+0.71	Лёгкое улучшение
BioMistral-7B-DARE	+2.93	+2.70	Улучшение
OpenBioLLM-8B	-15.17	-13.54	Значительное снижение
Med42-8B	+2.51	-1.40	Смешанный результат

Ключевые открытия:

Только BioMistral-7B-DARE последовательно превосходит базовую модель на всех задачах
11 из 12 моделей показывают снижение производительности по крайней мере на одной задаче
4 модели показывают снижение производительности на всех задачах

Абляционные эксперименты

Влияние сложности задачи:

Задачи Level 1: некоторые модели показывают лёгкое улучшение
Задачи Level 2: большинство моделей показывают значительное снижение

Влияние размера модели:

Модели с 8B параметрами: более вероятно получить улучшение
Модели с 70B параметрами: более вероятно показать снижение производительности после обучения

Анализ примеров

Примеры паттернов ошибок:

Проблема галлюцинаций: в задаче LongHealth 3 Llama3-OpenBioLLM-8B снизилась с 56.25 баллов базовой модели до 1.55 баллов
Циклические повторения: биомедицинские модели часто застревают в повторении токенов, создавая несвязный вывод
Ошибки кодирования МКБ-10: модели склонны к возрастающим числам вместо прогнозирования действительных кодов

Экспериментальные открытия

Различие с оценкой MCQA: традиционная оценка с множественным выбором показывает положительные эффекты, но реальные клинические задачи показывают снижение производительности
Важность качества базовой модели: более новые универсальные модели (такие как Llama-3) важнее, чем биомедицинская адаптация
Снижение способности следовать инструкциям: биомедицинское обучение ухудшает способность модели следовать инструкциям

Связанные работы

Развитие биомедицинских LLM

Коммерческие модели: Med-PaLM, MedGemini
Модели с открытым исходным кодом: Meditron, Biomistral, Internist.ai, Med42

Критические голоса

Недавние исследования начали ставить под сомнение эффективность биомедицинской адаптации:

Jeong et al. (2024): обнаружили отсутствие явных преимуществ биомедицинских LLM
Ceballos-Arroyo et al. (2024): адаптация к области может ухудшить следование инструкциям

Позиция данной работы

Данная работа предоставляет эмпирические доказательства этого спора путём систематической оценки на реальных клинических задачах.

Заключение и обсуждение

Основные выводы

Биомедицинское обучение не всегда полезно: большинство биомедицинских моделей показывают снижение производительности на практических клинических задачах
Конкурентоспособность универсальных моделей: универсальные модели, такие как Meta-Llama-3.1-70B, показывают лучшую производительность
Важность методов оценки: оценка MCQA может вводить в заблуждение, оценка на реальных задачах более важна
Потенциал слияния весов: успех BioMistral-DARE указывает на перспективность методов слияния весов

Ограничения

Ограничения вычислительных ресурсов: не исследованы различные параметры температуры, подсказки цепочки мыслей и другие методы
Риск загрязнения данных: использование открытых наборов данных не может полностью избежать загрязнения данных
Различия в клинической среде: оценка не проводилась в реальной клинической среде
Недостаточная оценка безопасности: требуется проспективное клиническое испытание для проверки безопасности

Будущие направления

Улучшение методов обучения: исследование лучших стратегий адаптации к области
Повышение качества данных: использование высококачественных данных обучения
Технология слияния весов: дальнейшее исследование методов слияния весов
Проверка клиническими испытаниями: тестирование в реальной клинической среде

Глубокая оценка

Преимущества

Строгий дизайн исследования: систематическое сравнение 12 биомедицинских моделей с базовыми моделями
Практичный дизайн задач: использование реальных клинических документов и задач, более близких к практическому применению
Революционные открытия: ставят под сомнение господствующие взгляды в области
Высокая ценность вклада в открытый исходный код: полная структура оценки способствует последующим исследованиям
Глубокий анализ ошибок: детальный анализ конкретных проблем, таких как галлюцинации и циклические повторения

Недостатки

Ограниченный размер выборки: относительно небольшое количество образцов для некоторых задач (например, Problem Summary содержит только 237 образцов)
Ограниченный объём оценки: в основном сосредоточены на английском языке и определённых типах клинических задач
Отсутствие теоретического анализа: недостаточное объяснение того, почему биомедицинское обучение приводит к снижению производительности
Недостаточные детали обучения: ограниченное описание конкретного процесса обучения каждой биомедицинской модели

Влияние

Академическая ценность: предоставляет важное размышление для исследований биомедицинских LLM
Практическое руководство: помогает практикам более рационально выбирать модели
Вклад в методологию: структура оценки CLUE может быть широко принята
Оптимизация ресурсов: избегает слепого инвестирования в разработку биомедицинских моделей

Применимые сценарии

Решения по выбору моделей: выбор подходящей базовой модели для приложений медицинского AI
Руководство по направлениям исследований: предоставление новых идей для исследований биомедицинских LLM
Установление стандартов оценки: установление более строгих стандартов для оценки медицинского AI
Справочная информация для инвестиционных решений: справочная информация для соответствующих инвестиций и распределения ресурсов

Библиография

Chen, Z. et al. (2023). MEDITRON-70B: Scaling Medical Pretraining for Large Language Models.
Labrak, Y. et al. (2024). BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains.
Jeong, D. P. et al. (2024). Medical adaptation of large language and vision-language models: Are we making progress?
Ceballos-Arroyo, A. M. et al. (2024). Open (clinical) LLMs are sensitive to instruction phrasings.

Резюме: Данная работа посредством строгого экспериментального дизайна выявляет ограничения биомедицинского обучения на практических клинических задачах, предоставляя важное размышление для этой области. Хотя выводы могут быть неожиданными, строгость методологии и важность открытий делают её значительным вкладом в область медицинского AI. Исследование напоминает нам о необходимости более осторожной оценки эффектов специализированного обучения и признания ценности универсальных моделей в медицинских приложениях.