Large language models (LLMs) excel at clinical information extraction but their computational demands limit practical deployment. Knowledge distillation--the process of transferring knowledge from larger to smaller models--offers a potential solution. We evaluate the performance of distilled BERT models, which are approximately 1,000 times smaller than modern LLMs, for clinical named entity recognition (NER) tasks. We leveraged state-of-the-art LLMs (Gemini and OpenAI models) and medical ontologies (RxNorm and SNOMED) as teacher labelers for medication, disease, and symptom extraction. We applied our approach to over 3,300 clinical notes spanning five publicly available datasets, comparing distilled BERT models against both their teacher labelers and BERT models fine-tuned on human labels. External validation was conducted using clinical notes from the MedAlign dataset. For disease extraction, F1 scores were 0.82 (teacher model), 0.89 (BioBERT trained on human labels), and 0.84 (BioBERT-distilled). For medication, F1 scores were 0.84 (teacher model), 0.91 (BioBERT-human), and 0.87 (BioBERT-distilled). For symptoms: F1 score of 0.73 (teacher model) and 0.68 (BioBERT-distilled). Distilled BERT models had faster inference (12x, 4x, 8x faster than GPT-4o, o1-mini, and Gemini Flash respectively) and lower costs (85x, 101x, 2x cheaper than GPT-4o, o1-mini, and Gemini Flash respectively). On the external validation dataset, the distilled BERT model achieved F1 scores of 0.883 (medication), 0.726 (disease), and 0.699 (symptom). Distilled BERT models were up to 101x cheaper and 12x faster than state-of-the-art LLMs while achieving similar performance on NER tasks. Distillation offers a computationally efficient and scalable alternative to large LLMs for clinical information extraction.
academic- 논문 ID: 2501.00031
- 제목: Distilling Large Language Models for Efficient Clinical Information Extraction
- 저자: Karthik S. Vedula, Annika Gupta, Akshay Swaminathan, Ivan Lopez, Suhana Bedi, Nigam H. Shah
- 분류: cs.CL (계산 언어학)
- 발표 시간: 2025년 1월 3일 (arXiv 사전 인쇄본)
- 논문 링크: https://arxiv.org/abs/2501.00031
본 연구는 지식 증류 기술을 통해 대규모 언어 모델의 지식을 크기가 약 1000배 작은 BERT 모델로 전이하여 임상 명명된 개체 인식(NER) 작업에 활용합니다. 본 연구는 최신 LLM(Gemini 및 OpenAI 모델)과 의료 온톨로지(RxNorm 및 SNOMED)를 교사 주석자로 사용하여 3300개 이상의 임상 기록에서 약물, 질병 및 증상 추출을 수행합니다. 증류된 BERT 모델은 유사한 성능을 유지하면서 추론 속도를 4-12배 향상시키고 비용을 2-101배 감소시켜 임상 정보 추출을 위한 효율적이고 확장 가능한 솔루션을 제공합니다.
전자 건강 기록의 임상 기록에는 구조화된 필드에 반영되지 않는 많은 가치 있는 비정형 정보가 포함되어 있습니다. 자유 텍스트 정보를 구조화된 데이터로 변환하는 것은 코호트 선택, 관찰 분석 및 질의응답 시스템에 필수적이지만, 임상 기록에서 정보를 추출하는 것은 여전히 도전적입니다.
- 전통적 방법: 규칙 기반 방법은 문자열 매칭 및 의료 온톨로지를 사용하며, 해석 가능하고 계산 효율적이지만 동의어, 약자, 세부 설명 및 철자 오류를 포함한 임상 개체의 다양한 표현을 포착하지 못하는 경우가 많습니다.
- 기계 학습 방법: BERT 클래스 모델은 우수한 성능을 보이지만, 현재 임상 NER 모델은 특정 도메인 또는 개체 유형에 초점을 맞추는 경향이 있어 광범위한 적용성을 제한합니다. 미세 조정에는 많은 주석 데이터가 필요하며 비용이 많이 들고 시간이 소요됩니다.
- 대규모 언어 모델: LLM은 임상 NER 작업에서 우수한 성능을 보이지만 많은 계산 리소스가 필요하며 비용이 많이 들고, 독점 LLM은 보호된 건강 정보를 처리하기 위해 HIPAA 호환 엔드포인트가 필요합니다.
지식 증류 기술은 이러한 과제를 해결하기 위한 유망한 솔루션을 제공하며, 대규모 모델의 지식을 소규모 모델로 전이할 수 있어 도메인 특정 BERT 모델의 한계를 해결하면서 계산 비용이 많이 드는 LLM의 배포 문제를 피할 수 있습니다.
- 다중 교사 주석자 시스템: 최신 LLM(Gemini 및 OpenAI 모델)과 의료 온톨로지(RxNorm 및 SNOMED)를 결합한 교사 주석자를 개발하여 다양한 기록 유형의 임상 NER 작업에 사용합니다.
- 효율적인 증류 모델: 현대 LLM의 약 1/1000 크기의 BERT 기반 증류 모델을 생성하고 공개하며, 종양 진행 기록, 퇴원 요약, 방사선학 보고서 및 과학 초록을 포함하여 2000개 이상의 임상 문서에서 훈련합니다.
- 포괄적 평가 검증: 모델 실패 패턴 분석 및 보건 시스템 간 외부 검증 분석을 포함하여 5개의 공개 임상 데이터셋에서 종합 평가를 수행합니다.
본 연구는 3가지 서로 다른 NER 작업에 초점을 맞춥니다:
- 약물 추출: 임상 기록에서 약물 이름 및 약물 범주 식별
- 질병 추출: 질병, 증후군 및 병리 상태 식별
- 증상 추출: 환자 증상 및 임상 증상 식별
각 작업은 "내부-외부"(IO) 주석 형식을 사용하며, 개체 내 단어는 "Inside"로, 기타 단어는 "Outside"로 표시됩니다.
- LLM 주석자: 4개의 최신 LLM을 교사 주석자로 평가
- GPT-4o (버전 2024-08-06)
- GPT-4o-mini (버전 2024-07-18)
- o1-mini (버전 2024-09-12)
- Gemini 1.5 Flash (gemini-1.5-flash-002)
- 온톨로지 주석자: BioPortal 주석자 API를 활용하여 생물의학 온톨로지에 접근
- RxNorm: 약물 추출용
- SNOMED CT: 질병 및 증상 추출용
- 최적 교사 조합: 5개 교사 주석자의 모든 31가지 가능한 부분집합 조합을 평가하고 개발 집합에서 F1 점수가 가장 높은 조합을 선택합니다.
각 NER 작업에 대해 최적 교사 주석 파이프라인을 사용하여 훈련 레이블을 생성한 후 독립적인 BERT 모델을 미세 조정합니다:
- BERT base: 범용 언어 모델
- BioBERT: 생물의학 문헌에서 사전 훈련됨
- BioClinBERT: 임상 텍스트를 위해 특별히 설계됨
훈련 매개변수: 학습률=2×10⁻⁵, 배치 크기=8, 가중치 감소=0.01, 10 에포크 훈련.
- 다중 교사 융합 전략: 단일 교사 모델을 사용하는 기존 연구와 달리, 본 연구는 LLM과 온톨로지의 31가지 조합을 체계적으로 평가하여 다양한 작업에 최적 조합을 선택합니다.
- 교차 도메인 일반화 능력: 퇴원 요약, 진행 기록, 방사선학 보고서 등 다양한 임상 기록 유형에서 훈련 및 테스트합니다.
- 비용 효율성 분석: 추론 시간 및 비용 비교에 대한 상세 정보를 제공하여 증류 모델의 실제 배포 이점을 정량화합니다.
- n2c2 2018 Track 2: 505개의 MIMIC-III 퇴원 요약, 약물 추출을 위한 전문가 주석
- 훈련 집합: 303개, 테스트 집합: 202개, 개발 집합: 25개
- NCBI Disease Corpus: 793개의 PubMed 초록, 질병 추출을 위한 전문가 주석
- CORAL 데이터셋: 40명 환자의 익명화된 진행 기록(유방암 20명, 췌장암 20명)
모든 사용 가능한 데이터셋을 병합하며, 1000개의 MIMIC-III 임상 기록(문서 유형별 층화 샘플링)을 포함하여 최종 교사 주석 데이터셋은 2096개 문서를 포함합니다.
스탠포드 병원 및 Lucile Packard 어린이 병원의 276개 종단 환자 기록을 포함하는 MedAlign 데이터셋을 사용하여 외부 검증을 수행합니다.
인간 주석을 금 표준으로 사용하여 표준 토큰 수준 정밀도, 재현율 및 F1 점수를 사용합니다.
- 교사 주석자 직접 예측
- 인간 레이블을 기반으로 미세 조정된 BERT 모델
- 교사 레이블을 기반으로 증류된 BERT 모델
- NVIDIA 4xH100 GPU를 사용한 훈련
- 모든 LLM은 HIPAA 호환 API 엔드포인트를 통해 실행
- 표준화 매개변수: temperature=0.01, top-p=0.9
| 작업 | 최적 조합 | F1 점수 |
|---|
| 질병 추출 | o1-mini | 0.787 |
| 약물 추출 | Gemini-1.5-flash + GPT-4o | 0.881 |
| 증상 추출 | Gemini-1.5-flash + GPT-4o | 0.801 |
| 작업 | 인간 레이블+BERT | 교사 레이블+BERT | 교사 주석자만 |
|---|
| 질병 추출 | 0.89 | 0.84 | 0.82 |
| 약물 추출 | 0.91 | 0.87 | 0.84 |
| 증상 추출 | - | 0.68 | 0.73 |
| 모델 | 기록당 추론 시간(초) | 기록당 비용(미국 달러) |
|---|
| 증류 BioBERT | 0.14 | 0.000187 |
| GPT-4o | 1.66 (+1086%) | 0.0159 (+8402%) |
| o1-mini | 0.58 (+314%) | 0.0189 (+1001%) |
| Gemini Flash | 1.17 (+736%) | 0.000460 (+146%) |
MedAlign 데이터셋에서의 성능:
- 약물 추출: F1 = 0.883
- 질병 추출: F1 = 0.726
- 증상 추출: F1 = 0.699
인간 검토를 통해 대부분의 거짓 양성이 실제로 주석 집합 오류로 인한 것임을 발견:
- 증상 추출: 거짓 양성의 82.05%가 실제로 올바른 주석
- 약물 추출: 거짓 양성의 62.93%가 실제로 올바른 주석
- 질병 추출: 거짓 양성의 73.33%가 실제로 올바른 주석
- 성능 계층: 인간 레이블 미세 조정 > 교사 레이블 증류 > 직접 교사 예측
- 온톨로지 역할 제한: 증상 추출의 최적 조합에 온톨로지 주석자 미포함
- BioBERT 장점: 대부분의 작업에서 최고 성능
- 비용 효율성 현저: 증류 모델은 LLM보다 2-101배 저렴하고 4-12배 빠름
- 전통적 방법: UMLS와 같은 규칙 및 온톨로지 기반 방법
- 심층 학습 방법: BioBERT, ClinicalBERT 등 도메인 특정 변형을 포함한 BERT 클래스 모델
- 약한 감독 방법: UMLS 온톨로지를 사용하여 약한 레이블을 생성하고 BERT 모델을 훈련하는 TROVE와 같은 방법
- 범용 증류: GPT-4에서 LLaMA 등 중간 규모 모델로의 증류
- 의료 도메인 증류: DistilFLERT 및 증류된 PubMedBERT의 의료 응용 성공
- 다중 교사 융합: LLM과 온톨로지 조합 효과의 체계적 평가
- 교차 도메인 검증: 다양한 기록 유형 및 보건 시스템 간 일반화 능력 검증
- 포괄적 평가: 비용 효율성 분석 및 상세 오류 분석 포함
증류된 BERT 모델은 임상 NER 작업에서 훨씬 낮은 계산 비용과 추론 시간으로 대규모 LLM에 가까운 성능을 달성할 수 있어 임상 정보 추출을 위한 실용적인 솔루션을 제공합니다.
- 교사 품질 불균일: 특히 증상 주석의 품질 변동이 큼
- 제한된 개체 유형: 3가지 개체 유형만 포함하며 절차, 사회적 결정 요인 등 미포함
- 복잡한 작업 부재: 부정 같은 주장 상태 또는 관계 추출 작업 미처리
- 불충분한 프롬프트 엔지니어링: 모든 LLM이 동일한 프롬프트를 사용하며 목표 최적화 미실시
- 테스트 집합 품질: 주석 불일치 문제 존재
- 더 많은 개체 유형 및 복잡한 NER 작업으로 확장
- 프롬프트 엔지니어링 전략 개선
- 더 고급 증류 기술 탐색
- 테스트 집합 주석 품질 향상
- 높은 실용성: LLM 배포 비용 문제 해결
- 체계적 방법: 다양한 교사 조합 전략의 포괄적 평가
- 충분한 검증: 외부 검증 및 상세 오류 분석 포함
- 개방적 투명성: 코드 및 상세 실험 설정 제공
- 비용 정량화: 구체적인 시간 및 비용 비교 데이터 제공
- 제한된 혁신성: 지식 증류 자체는 새로운 기술이 아니며 주요 기여는 응용 수준
- 불충분한 벤치마크 비교: 다른 증류 방법과의 직접 비교 부족
- 이론적 분석 부족: 특정 교사 조합이 더 나은 이유에 대한 심층 분석 미흡
- 적용성 제한: 주로 영문 임상 텍스트에 초점하며 일반화 능력 미검증
- 높은 실무 가치: 임상 NLP 배포를 위한 실행 가능한 솔루션 제공
- 우수한 재현성: 완전한 코드 및 데이터셋 정보 제공
- 큰 확산 잠재력: 방법을 다른 의료 NLP 작업으로 확장 가능
- 비용 민감 응용: 리소스 제한 환경에 중요한 의미
- 병원 정보 시스템: 많은 임상 기록의 실시간 처리 필요
- 연구 기관: 계산 리소스 제한적이나 고품질 NER 필요
- 의료 AI 제품: 성능과 배포 비용 균형 필요
- 다국어 확장: 다른 언어 임상 NER의 기초 프레임워크로 활용 가능
논문은 61개의 관련 문헌을 인용하며, 주요 내용은 다음을 포함합니다:
- BERT 관련 연구: Devlin et al. (2019), Lee et al. (2020) BioBERT
- 지식 증류: Hinton et al. (2015), Zhou et al. (2024)
- 임상 NLP: Henry et al. (2020) n2c2, Fleming et al. (2023) MedAlign
- 의료 온톨로지: Bodenreider (2004) UMLS, Liu et al. (2005) RxNorm
본 연구는 임상 정보 추출 분야에 실용적이고 효율적인 솔루션을 제공하며, 지식 증류 기술을 통해 모델 성능과 배포 비용을 성공적으로 균형 있게 조정하여 중요한 실무 가치와 확산 의미를 갖습니다.