Large Language Models (LLMs) are expected to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs aim to address healthcare-specific challenges, including privacy demands and computational constraints. Assessing the models' suitability for this sensitive application area is of the utmost importance. However, biomedical training has not been systematically evaluated on medical tasks. This study investigates the effect of biomedical training in the context of six practical medical tasks evaluating $25$ models. In contrast to previous evaluations, our results reveal a performance decline in nine out of twelve biomedical models after fine-tuning, particularly on tasks involving hallucinations, ICD10 coding, and instruction adherence. General-domain models like Meta-Llama-3.1-70B-Instruct outperformed their biomedical counterparts, indicating a trade-off between domain-specific fine-tuning and general medical task performance. We open-source all evaluation scripts and datasets at https://github.com/TIO-IKIM/CLUE to support further research in this critical area.
academic- 论文ID: 2404.04067
- 标题: Does Biomedical Training Lead to Better Medical Performance?
- 作者: Amin Dada, Osman Alperen Koraş, Marie Bauer, Jean-Philippe Corbeil, Amanda Butler Contreras, Constantin Marc Seibold, Kaleb E Smith, Julian Friedrich, Jens Kleesiek
- 分类: cs.CL cs.AI cs.LG
- 发表时间/会议: arXiv preprint (2024年4月提交,2025年10月更新)
- 论文链接: https://arxiv.org/abs/2404.04067v5
大型语言模型(LLMs)在医疗保健应用中具有巨大潜力,生物医学领域适应的模型承诺在医疗任务上提供更好的性能。然而,生物医学领域适应对临床任务的有效性仍不确定。本研究对12个生物医学适应模型及其通用领域基础模型在六个临床任务上进行了直接比较。结果显示,12个生物医学模型中有11个表现出性能下降,这挑战了之前报告的生物医学适应积极效果的发现。值得注意的是,之前的积极结果主要依赖于多项选择评估,这可能无法反映现实世界临床应用中的性能。
该研究要解决的核心问题是:生物医学领域的专门训练是否真的能提升大型语言模型在实际临床任务中的表现?
- 实际应用需求:LLMs在医疗保健中有巨大潜力,可以提升患者护理质量和效率
- 资源投入考量:生物医学LLMs的开发需要大量计算资源和专业数据
- 安全性考虑:医疗应用对模型准确性和可靠性要求极高
- 评估方法局限:之前的研究主要依赖多项选择题(MCQA)评估,缺乏真实临床文档的测试
- 结论不一致:近期研究开始质疑生物医学领域适应的有效性
- 缺乏系统性比较:缺少对多个生物医学模型与其基础模型的直接系统性对比
作者希望通过在真实临床任务上的系统性评估,揭示生物医学训练的真实效果,为该领域的发展提供客观依据。
- 系统性评估框架:构建了CLUE(Clinical Language Understanding Evaluation)评估框架,包含6个实际临床任务
- 大规模模型对比:评估了24个语言模型,包括12个生物医学模型及其基础模型
- 颠覆性发现:发现11/12的生物医学模型在临床任务上表现下降,挑战了传统认知
- 开源贡献:开源了完整的评估管道,促进可重现性研究
- 深入错误分析:识别了生物医学模型的主要问题:幻觉、指令遵循能力下降等
CLUE评估框架包含6个临床任务,分为两个难度级别:
Level 1(简单任务,短输入):
- MedNLI:基于MIMIC-III临床笔记的自然语言推理
- MeQSum:消费者健康问题摘要
- Problem Summary:从SOAP结构临床笔记中提取患者问题
Level 2(复杂任务,长输入):
- LongHealth:长文档理解和问答
- MeDiSumQA:出院小结问答和简化
- MeDiSumCode:ICD-10编码预测
评估的生物医学模型包括:
- Meditron系列(7B/70B):基于Llama-2持续预训练
- BioMistral系列:基于Mistral-7B训练
- OpenBioLLM系列(8B/70B):基于Llama-3使用SFT+DPO
- Med42系列(8B/70B):基于Llama-3训练
- 其他模型:Internist.ai、Aloe、Meditron3等
- 真实临床任务评估:不同于传统MCQA,使用真实临床文档和任务
- 多维度指标:结合ROUGE、BERTScore、UMLS实体F1等多个指标
- 系统性对比:每个生物医学模型都与其基础模型直接对比
- 错误模式分析:深入分析幻觉、重复循环等具体错误类型
- MedNLI: 1,425个样本,基于MIMIC-III临床笔记
- MeQSum: 1,000个消费者健康询问
- Problem Summary: 237个SOAP结构临床笔记
- LongHealth: 400个长文档问答(平均5,537词)
- MeDiSumQA: 453个出院小结问答
- MeDiSumCode: 500个ICD-10编码任务
- 文本生成任务:ROUGE-1/2/L、BERTScore、UMLS实体F1
- 分类任务:准确率、F1分数
- 编码任务:精确匹配、近似匹配、有效代码比例
- 12个生物医学模型与其对应的基础模型
- 额外的通用领域模型作为参考基准
- 计算资源:NVIDIA DGX A100 640GB节点,约1536 GPU小时
- 提示策略:Level 1使用3-shot,Level 2使用1-shot(LongHealth除外)
- 模型配置:使用Hugging Face默认指令模板
| 模型类别 | Level 1平均性能变化 | Level 2平均性能变化 | 总体趋势 |
|---|
| Meditron-7B | -7.08 | - | 下降 |
| Meditron-70B | -4.59 | - | 下降 |
| BioMistral-7B | +0.26 | +0.71 | 轻微提升 |
| BioMistral-7B-DARE | +2.93 | +2.70 | 提升 |
| OpenBioLLM-8B | -15.17 | -13.54 | 显著下降 |
| Med42-8B | +2.51 | -1.40 | 混合 |
关键发现:
- 仅有BioMistral-7B-DARE在所有任务上一致优于基础模型
- 11/12模型在至少一个任务上表现下降
- 4个模型在所有任务上都表现下降
任务复杂度影响:
- Level 1任务:部分模型有轻微提升
- Level 2任务:大多数模型显著下降
模型规模影响:
- 8B参数模型:更容易获得改进
- 70B参数模型:训练后更容易性能下降
错误模式示例:
- 幻觉问题:LongHealth任务3中,Llama3-OpenBioLLM-8B从基础模型的56.25分下降到1.55分
- 重复循环:生物医学模型经常陷入token重复,产生不连贯输出
- ICD-10编码错误:模型倾向于递增数字而非预测有效代码
- 与MCQA评估的差异:传统多项选择评估显示正面效果,但实际临床任务表现下降
- 基础模型质量的重要性:更新的通用模型(如Llama-3)比生物医学适应更重要
- 指令遵循能力下降:生物医学训练损害了模型的指令遵循能力
- 商业模型:Med-PaLM、MedGemini
- 开源模型:Meditron、Biomistral、Internist.ai、Med42
近期研究开始质疑生物医学适应的有效性:
- Jeong et al. (2024):发现生物医学LLM无明显优势
- Ceballos-Arroyo et al. (2024):领域适应可能损害指令遵循
本文通过系统性的真实临床任务评估,为这一争议提供了实证证据。
- 生物医学训练并非总是有益:大多数生物医学模型在实际临床任务上表现下降
- 通用模型的竞争力:Meta-Llama-3.1-70B等通用模型表现最佳
- 评估方法的重要性:MCQA评估可能误导,真实任务评估更重要
- 权重合并的潜力:BioMistral-DARE的成功表明权重合并是有前景的方向
- 计算资源限制:未探索不同温度设置、思维链提示等技术
- 数据污染风险:使用公开数据集无法完全避免数据污染
- 临床环境差异:评估未在真实临床环境中进行
- 安全性评估不足:需要前瞻性临床试验验证安全性
- 改进训练方法:探索更好的领域适应策略
- 数据质量提升:使用高质量训练数据
- 权重合并技术:进一步研究权重合并方法
- 临床试验验证:在真实临床环境中测试
- 研究设计严谨:系统性对比12个生物医学模型与基础模型
- 任务设计实用:使用真实临床文档和任务,更贴近实际应用
- 发现具有颠覆性:挑战了领域内的主流观点
- 开源贡献价值高:完整的评估框架促进后续研究
- 错误分析深入:详细分析了幻觉、重复等具体问题
- 样本规模有限:某些任务的样本数量相对较少(如Problem Summary仅237个)
- 评估范围局限:主要关注英语和特定类型的临床任务
- 缺乏理论分析:对为什么生物医学训练导致性能下降缺乏深入的理论解释
- 训练细节不足:对各个生物医学模型的具体训练过程描述有限
- 学术价值:为生物医学LLM研究提供了重要的反思
- 实用指导:帮助从业者更理性地选择模型
- 方法论贡献:CLUE评估框架可被广泛采用
- 资源优化:避免盲目投入生物医学模型开发
- 模型选择决策:为医疗AI应用选择合适的基础模型
- 研究方向指导:为生物医学LLM研究提供新思路
- 评估标准制定:为医疗AI评估建立更严格的标准
- 投资决策参考:为相关投资和资源配置提供依据
- Chen, Z. et al. (2023). MEDITRON-70B: Scaling Medical Pretraining for Large Language Models.
- Labrak, Y. et al. (2024). BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains.
- Jeong, D. P. et al. (2024). Medical adaptation of large language and vision-language models: Are we making progress?
- Ceballos-Arroyo, A. M. et al. (2024). Open (clinical) LLMs are sensitive to instruction phrasings.
总结:本文通过严格的实验设计揭示了生物医学训练在实际临床任务中的局限性,为该领域提供了重要的反思。虽然结论可能令人意外,但其方法论的严谨性和发现的重要性使其成为医疗AI领域的重要贡献。研究提醒我们需要更加审慎地评估专门化训练的效果,并重视通用模型在医疗应用中的价值。