2025-11-23T03:49:16.478723

Does Biomedical Training Lead to Better Medical Performance?

Dada, Bauer, Contreras et al.

Large Language Models (LLMs) are expected to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs aim to address healthcare-specific challenges, including privacy demands and computational constraints. Assessing the models' suitability for this sensitive application area is of the utmost importance. However, biomedical training has not been systematically evaluated on medical tasks. This study investigates the effect of biomedical training in the context of six practical medical tasks evaluating $25$ models. In contrast to previous evaluations, our results reveal a performance decline in nine out of twelve biomedical models after fine-tuning, particularly on tasks involving hallucinations, ICD10 coding, and instruction adherence. General-domain models like Meta-Llama-3.1-70B-Instruct outperformed their biomedical counterparts, indicating a trade-off between domain-specific fine-tuning and general medical task performance. We open-source all evaluation scripts and datasets at https://github.com/TIO-IKIM/CLUE to support further research in this critical area.

academic

Does Biomedical Training Lead to Better Medical Performance?

基本信息

论文ID: 2404.04067
标题: Does Biomedical Training Lead to Better Medical Performance?
作者: Amin Dada, Osman Alperen Koraş, Marie Bauer, Jean-Philippe Corbeil, Amanda Butler Contreras, Constantin Marc Seibold, Kaleb E Smith, Julian Friedrich, Jens Kleesiek
分类: cs.CL cs.AI cs.LG
发表时间/会议: arXiv preprint (2024年4月提交，2025年10月更新)
论文链接: https://arxiv.org/abs/2404.04067v5

摘要

大型语言模型（LLMs）在医疗保健应用中具有巨大潜力，生物医学领域适应的模型承诺在医疗任务上提供更好的性能。然而，生物医学领域适应对临床任务的有效性仍不确定。本研究对12个生物医学适应模型及其通用领域基础模型在六个临床任务上进行了直接比较。结果显示，12个生物医学模型中有11个表现出性能下降，这挑战了之前报告的生物医学适应积极效果的发现。值得注意的是，之前的积极结果主要依赖于多项选择评估，这可能无法反映现实世界临床应用中的性能。

研究背景与动机

问题定义

该研究要解决的核心问题是：生物医学领域的专门训练是否真的能提升大型语言模型在实际临床任务中的表现？

重要性

实际应用需求：LLMs在医疗保健中有巨大潜力，可以提升患者护理质量和效率
资源投入考量：生物医学LLMs的开发需要大量计算资源和专业数据
安全性考虑：医疗应用对模型准确性和可靠性要求极高

现有方法局限性

评估方法局限：之前的研究主要依赖多项选择题（MCQA）评估，缺乏真实临床文档的测试
结论不一致：近期研究开始质疑生物医学领域适应的有效性
缺乏系统性比较：缺少对多个生物医学模型与其基础模型的直接系统性对比

研究动机

作者希望通过在真实临床任务上的系统性评估，揭示生物医学训练的真实效果，为该领域的发展提供客观依据。

核心贡献

系统性评估框架：构建了CLUE（Clinical Language Understanding Evaluation）评估框架，包含6个实际临床任务
大规模模型对比：评估了24个语言模型，包括12个生物医学模型及其基础模型
颠覆性发现：发现11/12的生物医学模型在临床任务上表现下降，挑战了传统认知
开源贡献：开源了完整的评估管道，促进可重现性研究
深入错误分析：识别了生物医学模型的主要问题：幻觉、指令遵循能力下降等

方法详解

任务定义

CLUE评估框架包含6个临床任务，分为两个难度级别：

Level 1（简单任务，短输入）：

MedNLI：基于MIMIC-III临床笔记的自然语言推理
MeQSum：消费者健康问题摘要
Problem Summary：从SOAP结构临床笔记中提取患者问题

Level 2（复杂任务，长输入）：

LongHealth：长文档理解和问答
MeDiSumQA：出院小结问答和简化
MeDiSumCode：ICD-10编码预测

模型架构

评估的生物医学模型包括：

Meditron系列（7B/70B）：基于Llama-2持续预训练
BioMistral系列：基于Mistral-7B训练
OpenBioLLM系列（8B/70B）：基于Llama-3使用SFT+DPO
Med42系列（8B/70B）：基于Llama-3训练
其他模型：Internist.ai、Aloe、Meditron3等

技术创新点

真实临床任务评估：不同于传统MCQA，使用真实临床文档和任务
多维度指标：结合ROUGE、BERTScore、UMLS实体F1等多个指标
系统性对比：每个生物医学模型都与其基础模型直接对比
错误模式分析：深入分析幻觉、重复循环等具体错误类型

实验设置

数据集

MedNLI: 1,425个样本，基于MIMIC-III临床笔记
MeQSum: 1,000个消费者健康询问
Problem Summary: 237个SOAP结构临床笔记
LongHealth: 400个长文档问答（平均5,537词）
MeDiSumQA: 453个出院小结问答
MeDiSumCode: 500个ICD-10编码任务

评价指标

文本生成任务：ROUGE-1/2/L、BERTScore、UMLS实体F1
分类任务：准确率、F1分数
编码任务：精确匹配、近似匹配、有效代码比例

对比方法

12个生物医学模型与其对应的基础模型
额外的通用领域模型作为参考基准

实现细节

计算资源：NVIDIA DGX A100 640GB节点，约1536 GPU小时
提示策略：Level 1使用3-shot，Level 2使用1-shot（LongHealth除外）
模型配置：使用Hugging Face默认指令模板

实验结果

主要结果

模型类别	Level 1平均性能变化	Level 2平均性能变化	总体趋势
Meditron-7B	-7.08	-	下降
Meditron-70B	-4.59	-	下降
BioMistral-7B	+0.26	+0.71	轻微提升
BioMistral-7B-DARE	+2.93	+2.70	提升
OpenBioLLM-8B	-15.17	-13.54	显著下降
Med42-8B	+2.51	-1.40	混合

关键发现：

仅有BioMistral-7B-DARE在所有任务上一致优于基础模型
11/12模型在至少一个任务上表现下降
4个模型在所有任务上都表现下降

消融实验

任务复杂度影响：

Level 1任务：部分模型有轻微提升
Level 2任务：大多数模型显著下降

模型规模影响：

8B参数模型：更容易获得改进
70B参数模型：训练后更容易性能下降

案例分析

错误模式示例：

幻觉问题：LongHealth任务3中，Llama3-OpenBioLLM-8B从基础模型的56.25分下降到1.55分
重复循环：生物医学模型经常陷入token重复，产生不连贯输出
ICD-10编码错误：模型倾向于递增数字而非预测有效代码

实验发现

与MCQA评估的差异：传统多项选择评估显示正面效果，但实际临床任务表现下降
基础模型质量的重要性：更新的通用模型（如Llama-3）比生物医学适应更重要
指令遵循能力下降：生物医学训练损害了模型的指令遵循能力

结论与讨论

主要结论

生物医学训练并非总是有益：大多数生物医学模型在实际临床任务上表现下降
通用模型的竞争力：Meta-Llama-3.1-70B等通用模型表现最佳
评估方法的重要性：MCQA评估可能误导，真实任务评估更重要
权重合并的潜力：BioMistral-DARE的成功表明权重合并是有前景的方向

局限性

计算资源限制：未探索不同温度设置、思维链提示等技术
数据污染风险：使用公开数据集无法完全避免数据污染
临床环境差异：评估未在真实临床环境中进行
安全性评估不足：需要前瞻性临床试验验证安全性

未来方向

改进训练方法：探索更好的领域适应策略
数据质量提升：使用高质量训练数据
权重合并技术：进一步研究权重合并方法
临床试验验证：在真实临床环境中测试

深度评价

优点

研究设计严谨：系统性对比12个生物医学模型与基础模型
任务设计实用：使用真实临床文档和任务，更贴近实际应用
发现具有颠覆性：挑战了领域内的主流观点
开源贡献价值高：完整的评估框架促进后续研究
错误分析深入：详细分析了幻觉、重复等具体问题

不足

样本规模有限：某些任务的样本数量相对较少（如Problem Summary仅237个）
评估范围局限：主要关注英语和特定类型的临床任务
缺乏理论分析：对为什么生物医学训练导致性能下降缺乏深入的理论解释
训练细节不足：对各个生物医学模型的具体训练过程描述有限

影响力

学术价值：为生物医学LLM研究提供了重要的反思
实用指导：帮助从业者更理性地选择模型
方法论贡献：CLUE评估框架可被广泛采用
资源优化：避免盲目投入生物医学模型开发

适用场景

模型选择决策：为医疗AI应用选择合适的基础模型
研究方向指导：为生物医学LLM研究提供新思路
评估标准制定：为医疗AI评估建立更严格的标准
投资决策参考：为相关投资和资源配置提供依据

参考文献

Chen, Z. et al. (2023). MEDITRON-70B: Scaling Medical Pretraining for Large Language Models.
Labrak, Y. et al. (2024). BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains.
Jeong, D. P. et al. (2024). Medical adaptation of large language and vision-language models: Are we making progress?
Ceballos-Arroyo, A. M. et al. (2024). Open (clinical) LLMs are sensitive to instruction phrasings.

总结：本文通过严格的实验设计揭示了生物医学训练在实际临床任务中的局限性，为该领域提供了重要的反思。虽然结论可能令人意外，但其方法论的严谨性和发现的重要性使其成为医疗AI领域的重要贡献。研究提醒我们需要更加审慎地评估专门化训练的效果，并重视通用模型在医疗应用中的价值。

Does Biomedical Training Lead to Better Medical Performance?

Does Biomedical Training Lead to Better Medical Performance?

基本信息

摘要

研究背景与动机

问题定义

重要性

现有方法局限性

研究动机

核心贡献

方法详解

任务定义

模型架构

技术创新点

实验设置

数据集

评价指标

对比方法

实现细节

实验结果

主要结果

消融实验

案例分析

实验发现

相关工作

生物医学LLM发展

质疑声音

本文定位

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献