Large language models (LLMs) excel at clinical information extraction but their computational demands limit practical deployment. Knowledge distillation--the process of transferring knowledge from larger to smaller models--offers a potential solution. We evaluate the performance of distilled BERT models, which are approximately 1,000 times smaller than modern LLMs, for clinical named entity recognition (NER) tasks. We leveraged state-of-the-art LLMs (Gemini and OpenAI models) and medical ontologies (RxNorm and SNOMED) as teacher labelers for medication, disease, and symptom extraction. We applied our approach to over 3,300 clinical notes spanning five publicly available datasets, comparing distilled BERT models against both their teacher labelers and BERT models fine-tuned on human labels. External validation was conducted using clinical notes from the MedAlign dataset. For disease extraction, F1 scores were 0.82 (teacher model), 0.89 (BioBERT trained on human labels), and 0.84 (BioBERT-distilled). For medication, F1 scores were 0.84 (teacher model), 0.91 (BioBERT-human), and 0.87 (BioBERT-distilled). For symptoms: F1 score of 0.73 (teacher model) and 0.68 (BioBERT-distilled). Distilled BERT models had faster inference (12x, 4x, 8x faster than GPT-4o, o1-mini, and Gemini Flash respectively) and lower costs (85x, 101x, 2x cheaper than GPT-4o, o1-mini, and Gemini Flash respectively). On the external validation dataset, the distilled BERT model achieved F1 scores of 0.883 (medication), 0.726 (disease), and 0.699 (symptom). Distilled BERT models were up to 101x cheaper and 12x faster than state-of-the-art LLMs while achieving similar performance on NER tasks. Distillation offers a computationally efficient and scalable alternative to large LLMs for clinical information extraction.
academic- 论文ID: 2501.00031
- 标题: Distilling Large Language Models for Efficient Clinical Information Extraction
- 作者: Karthik S. Vedula, Annika Gupta, Akshay Swaminathan, Ivan Lopez, Suhana Bedi, Nigam H. Shah
- 分类: cs.CL (Computation and Language)
- 发表时间: 2025年1月3日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2501.00031
本研究通过知识蒸馏技术,将大型语言模型的知识转移到体积约小1000倍的BERT模型中,用于临床命名实体识别任务。研究使用最新的LLMs(Gemini和OpenAI模型)以及医学本体(RxNorm和SNOMED)作为教师标注器,在超过3300份临床笔记上进行药物、疾病和症状提取。蒸馏后的BERT模型在保持相近性能的同时,推理速度提升4-12倍,成本降低2-101倍,为临床信息提取提供了高效且可扩展的解决方案。
电子健康记录中的临床笔记包含大量有价值的非结构化信息,这些信息往往无法在结构化字段中体现。将自由文本信息转换为结构化数据对于队列选择、观察性分析和问答系统至关重要,但从临床笔记中提取信息仍然充满挑战。
- 传统方法:基于规则的方法使用字符串匹配和医学本体,虽然可解释且计算高效,但往往无法捕获临床实体的多样化表示,包括同义词、缩写、细致描述和拼写错误。
- 机器学习方法:BERT类模型表现优异,但当前的临床NER模型往往专注于特定领域或实体类型,限制了广泛适用性。微调需要大量标注数据,成本高且耗时。
- 大型语言模型:LLMs在临床NER任务中表现出色,但需要大量计算资源,成本高昂,且专有LLMs需要HIPAA兼容端点处理受保护健康信息。
知识蒸馏技术提供了解决这些挑战的有前景方案,能够将大型模型的知识转移到小型模型中,既解决了领域特定BERT模型的局限性,又避免了计算昂贵的LLMs的部署问题。
- 多教师标注器系统:开发了结合最新LLMs(Gemini和OpenAI模型)与医学本体(RxNorm和SNOMED)的教师标注器,用于多种笔记类型的临床NER任务。
- 高效蒸馏模型:创建并发布了基于BERT的蒸馏模型,体积约为现代LLMs的1/1000,在超过2000份临床文档上训练,涵盖肿瘤进展笔记、出院摘要、放射学报告和科学摘要。
- 全面评估验证:在五个公开临床数据集上进行综合评估,包括模型失效模式分析和跨健康系统的外部验证分析。
本研究专注于三个不同的NER任务:
- 药物提取:识别临床笔记中的药物名称和药物类别
- 疾病提取:识别疾病、综合征和病理状况
- 症状提取:识别患者症状和临床表现
每个任务使用"内部-外部"(IO)标注格式,实体内的词标记为"Inside",其他词标记为"Outside"。
- LLM标注器:评估四个最新LLMs作为教师标注器
- GPT-4o (version 2024-08-06)
- GPT-4o-mini (version 2024-07-18)
- o1-mini (version 2024-09-12)
- Gemini 1.5 Flash (gemini-1.5-flash-002)
- 本体标注器:利用BioPortal注释器API访问生物医学本体
- RxNorm:用于药物提取
- SNOMED CT:用于疾病和症状提取
- 最优教师组合:评估5个教师标注器的所有31种可能子集组合,选择在开发集上F1分数最高的组合。
对每个NER任务,使用最优教师标注管道生成训练标签,然后微调独立的BERT模型:
- BERT base:通用语言模型
- BioBERT:在生物医学文献上预训练
- BioClinBERT:专门针对临床文本
训练参数:学习率=2×10⁻⁵,批次大小=8,权重衰减=0.01,训练10个epoch。
- 多教师融合策略:不同于现有研究使用单一教师模型,本研究系统性评估了LLMs和本体的31种组合,为不同任务选择最优组合。
- 跨领域泛化能力:在多种临床笔记类型上训练和测试,包括出院摘要、进展笔记、放射学报告等。
- 成本效益分析:提供详细的推理时间和成本比较,量化蒸馏模型的实际部署优势。
- n2c2 2018 Track 2:505份MIMIC-III出院摘要,专家标注药物提取
- 训练集:303份,测试集:202份,开发集:25份
- NCBI Disease Corpus:793篇PubMed摘要,专家标注疾病提取
- CORAL数据集:40名患者的去标识化进展笔记(20名乳腺癌,20名胰腺癌)
合并所有可用数据集,包括1000份MIMIC-III临床笔记(按文档类型分层抽样),最终教师标注数据集包含2096份文档。
使用MedAlign数据集进行外部验证,包含276份斯坦福医院和Lucile Packard儿童医院的纵向患者记录。
使用标准的token级别精确率、召回率和F1分数,将人工标注作为金标准。
- 教师标注器直接预测
- 基于人工标签微调的BERT模型
- 基于教师标签蒸馏的BERT模型
- 使用NVIDIA 4xH100 GPU进行训练
- 所有LLMs通过HIPAA兼容API端点执行
- 标准化参数:temperature=0.01, top-p=0.9
| 任务 | 最优组合 | F1分数 |
|---|
| 疾病提取 | o1-mini | 0.787 |
| 药物提取 | Gemini-1.5-flash + GPT-4o | 0.881 |
| 症状提取 | Gemini-1.5-flash + GPT-4o | 0.801 |
| 任务 | 人工标签+BERT | 教师标签+BERT | 仅教师标注器 |
|---|
| 疾病提取 | 0.89 | 0.84 | 0.82 |
| 药物提取 | 0.91 | 0.87 | 0.84 |
| 症状提取 | - | 0.68 | 0.73 |
| 模型 | 每笔记推理时间(秒) | 每笔记成本(美元) |
|---|
| 蒸馏BioBERT | 0.14 | 0.000187 |
| GPT-4o | 1.66 (+1086%) | 0.0159 (+8402%) |
| o1-mini | 0.58 (+314%) | 0.0189 (+1001%) |
| Gemini Flash | 1.17 (+736%) | 0.000460 (+146%) |
在MedAlign数据集上的表现:
- 药物提取:F1 = 0.883
- 疾病提取:F1 = 0.726
- 症状提取:F1 = 0.699
通过人工审查发现,大多数假阳性实际上是由于标注集错误导致:
- 症状提取:82.05%的假阳性实际为正确标注
- 药物提取:62.93%的假阳性实际为正确标注
- 疾病提取:73.33%的假阳性实际为正确标注
- 性能层次:人工标签微调 > 教师标签蒸馏 > 直接教师预测
- 本体作用有限:在症状提取的最优组合中均不包含本体标注器
- BioBERT优势:在大多数任务中表现最佳
- 成本效益显著:蒸馏模型比LLMs便宜2-101倍,快4-12倍
- 传统方法:基于规则和本体的方法,如UMLS
- 深度学习方法:BERT类模型,包括BioBERT、ClinicalBERT等领域特定变体
- 弱监督方法:如TROVE,使用UMLS本体生成弱标签训练BERT模型
- 通用蒸馏:从GPT-4到LLaMA等中等规模模型的蒸馏
- 医学领域蒸馏:DistilFLERT和蒸馏PubMedBERT在医学应用中的成功
- 多教师融合:系统性评估LLMs和本体的组合效果
- 跨领域验证:在多种笔记类型和健康系统间验证泛化能力
- 全面评估:包含成本效益分析和详细错误分析
蒸馏BERT模型在临床NER任务中能够以显著更低的计算成本和推理时间达到接近大型LLMs的性能,为临床信息提取提供了实用的解决方案。
- 教师质量不一:特别是症状标注的质量变化较大
- 实体类型有限:仅覆盖三种实体类型,未涉及程序、社会决定因素等
- 复杂任务缺失:未处理断言状态(如否定)或关系抽取任务
- 提示工程不足:所有LLMs使用相同提示,未针对性优化
- 测试集质量:存在标注不一致问题
- 扩展到更多实体类型和复杂NER任务
- 改进提示工程策略
- 探索更先进的蒸馏技术
- 提高测试集标注质量
- 实用性强:解决了LLMs部署成本高的实际问题
- 方法系统:全面评估了多种教师组合策略
- 验证充分:包含外部验证和详细错误分析
- 开放透明:提供代码和详细实验设置
- 成本量化:提供具体的时间和成本对比数据
- 创新性有限:知识蒸馏本身不是新技术,主要贡献在应用层面
- 基准比较不足:缺乏与其他蒸馏方法的直接比较
- 理论分析缺乏:未深入分析为什么某些教师组合效果更好
- 适用性限制:主要针对英文临床文本,泛化能力待验证
- 实践价值高:为临床NLP部署提供可行方案
- 可复现性好:提供完整代码和数据集信息
- 推广潜力大:方法可扩展到其他医学NLP任务
- 成本敏感应用:对资源受限环境具有重要意义
- 医院信息系统:需要实时处理大量临床笔记
- 研究机构:计算资源有限但需要高质量NER
- 医疗AI产品:需要平衡性能和部署成本
- 多语言扩展:可作为其他语言临床NER的基础框架
论文引用了61篇相关文献,主要包括:
- BERT相关工作:Devlin et al. (2019), Lee et al. (2020) BioBERT
- 知识蒸馏:Hinton et al. (2015), Zhou et al. (2024)
- 临床NLP:Henry et al. (2020) n2c2, Fleming et al. (2023) MedAlign
- 医学本体:Bodenreider (2004) UMLS, Liu et al. (2005) RxNorm
本研究为临床信息提取领域提供了一个实用且高效的解决方案,通过知识蒸馏技术成功平衡了模型性能与部署成本,具有重要的实践价值和推广意义。