2025-11-23T07:19:15.673915

Distilling Large Language Models for Efficient Clinical Information Extraction

Vedula, Gupta, Swaminathan et al.

Large language models (LLMs) excel at clinical information extraction but their computational demands limit practical deployment. Knowledge distillation--the process of transferring knowledge from larger to smaller models--offers a potential solution. We evaluate the performance of distilled BERT models, which are approximately 1,000 times smaller than modern LLMs, for clinical named entity recognition (NER) tasks. We leveraged state-of-the-art LLMs (Gemini and OpenAI models) and medical ontologies (RxNorm and SNOMED) as teacher labelers for medication, disease, and symptom extraction. We applied our approach to over 3,300 clinical notes spanning five publicly available datasets, comparing distilled BERT models against both their teacher labelers and BERT models fine-tuned on human labels. External validation was conducted using clinical notes from the MedAlign dataset. For disease extraction, F1 scores were 0.82 (teacher model), 0.89 (BioBERT trained on human labels), and 0.84 (BioBERT-distilled). For medication, F1 scores were 0.84 (teacher model), 0.91 (BioBERT-human), and 0.87 (BioBERT-distilled). For symptoms: F1 score of 0.73 (teacher model) and 0.68 (BioBERT-distilled). Distilled BERT models had faster inference (12x, 4x, 8x faster than GPT-4o, o1-mini, and Gemini Flash respectively) and lower costs (85x, 101x, 2x cheaper than GPT-4o, o1-mini, and Gemini Flash respectively). On the external validation dataset, the distilled BERT model achieved F1 scores of 0.883 (medication), 0.726 (disease), and 0.699 (symptom). Distilled BERT models were up to 101x cheaper and 12x faster than state-of-the-art LLMs while achieving similar performance on NER tasks. Distillation offers a computationally efficient and scalable alternative to large LLMs for clinical information extraction.

academic

효율적인 임상 정보 추출을 위한 대규모 언어 모델 증류

기본 정보

논문 ID: 2501.00031
제목: Distilling Large Language Models for Efficient Clinical Information Extraction
저자: Karthik S. Vedula, Annika Gupta, Akshay Swaminathan, Ivan Lopez, Suhana Bedi, Nigam H. Shah
분류: cs.CL (계산 언어학)
발표 시간: 2025년 1월 3일 (arXiv 사전 인쇄본)
논문 링크: https://arxiv.org/abs/2501.00031

요약

본 연구는 지식 증류 기술을 통해 대규모 언어 모델의 지식을 크기가 약 1000배 작은 BERT 모델로 전이하여 임상 명명된 개체 인식(NER) 작업에 활용합니다. 본 연구는 최신 LLM(Gemini 및 OpenAI 모델)과 의료 온톨로지(RxNorm 및 SNOMED)를 교사 주석자로 사용하여 3300개 이상의 임상 기록에서 약물, 질병 및 증상 추출을 수행합니다. 증류된 BERT 모델은 유사한 성능을 유지하면서 추론 속도를 4-12배 향상시키고 비용을 2-101배 감소시켜 임상 정보 추출을 위한 효율적이고 확장 가능한 솔루션을 제공합니다.

연구 배경 및 동기

문제 정의

전자 건강 기록의 임상 기록에는 구조화된 필드에 반영되지 않는 많은 가치 있는 비정형 정보가 포함되어 있습니다. 자유 텍스트 정보를 구조화된 데이터로 변환하는 것은 코호트 선택, 관찰 분석 및 질의응답 시스템에 필수적이지만, 임상 기록에서 정보를 추출하는 것은 여전히 도전적입니다.

기존 방법의 한계

전통적 방법: 규칙 기반 방법은 문자열 매칭 및 의료 온톨로지를 사용하며, 해석 가능하고 계산 효율적이지만 동의어, 약자, 세부 설명 및 철자 오류를 포함한 임상 개체의 다양한 표현을 포착하지 못하는 경우가 많습니다.
기계 학습 방법: BERT 클래스 모델은 우수한 성능을 보이지만, 현재 임상 NER 모델은 특정 도메인 또는 개체 유형에 초점을 맞추는 경향이 있어 광범위한 적용성을 제한합니다. 미세 조정에는 많은 주석 데이터가 필요하며 비용이 많이 들고 시간이 소요됩니다.
대규모 언어 모델: LLM은 임상 NER 작업에서 우수한 성능을 보이지만 많은 계산 리소스가 필요하며 비용이 많이 들고, 독점 LLM은 보호된 건강 정보를 처리하기 위해 HIPAA 호환 엔드포인트가 필요합니다.

연구 동기

지식 증류 기술은 이러한 과제를 해결하기 위한 유망한 솔루션을 제공하며, 대규모 모델의 지식을 소규모 모델로 전이할 수 있어 도메인 특정 BERT 모델의 한계를 해결하면서 계산 비용이 많이 드는 LLM의 배포 문제를 피할 수 있습니다.

핵심 기여

다중 교사 주석자 시스템: 최신 LLM(Gemini 및 OpenAI 모델)과 의료 온톨로지(RxNorm 및 SNOMED)를 결합한 교사 주석자를 개발하여 다양한 기록 유형의 임상 NER 작업에 사용합니다.
효율적인 증류 모델: 현대 LLM의 약 1/1000 크기의 BERT 기반 증류 모델을 생성하고 공개하며, 종양 진행 기록, 퇴원 요약, 방사선학 보고서 및 과학 초록을 포함하여 2000개 이상의 임상 문서에서 훈련합니다.
포괄적 평가 검증: 모델 실패 패턴 분석 및 보건 시스템 간 외부 검증 분석을 포함하여 5개의 공개 임상 데이터셋에서 종합 평가를 수행합니다.

방법론 상세 설명

작업 정의

본 연구는 3가지 서로 다른 NER 작업에 초점을 맞춥니다:

약물 추출: 임상 기록에서 약물 이름 및 약물 범주 식별
질병 추출: 질병, 증후군 및 병리 상태 식별
증상 추출: 환자 증상 및 임상 증상 식별

각 작업은 "내부-외부"(IO) 주석 형식을 사용하며, 개체 내 단어는 "Inside"로, 기타 단어는 "Outside"로 표시됩니다.

모델 아키텍처

교사 주석 파이프라인

LLM 주석자: 4개의 최신 LLM을 교사 주석자로 평가
- GPT-4o (버전 2024-08-06)
- GPT-4o-mini (버전 2024-07-18)
- o1-mini (버전 2024-09-12)
- Gemini 1.5 Flash (gemini-1.5-flash-002)
온톨로지 주석자: BioPortal 주석자 API를 활용하여 생물의학 온톨로지에 접근
- RxNorm: 약물 추출용
- SNOMED CT: 질병 및 증상 추출용
최적 교사 조합: 5개 교사 주석자의 모든 31가지 가능한 부분집합 조합을 평가하고 개발 집합에서 F1 점수가 가장 높은 조합을 선택합니다.

모델 증류 구현

각 NER 작업에 대해 최적 교사 주석 파이프라인을 사용하여 훈련 레이블을 생성한 후 독립적인 BERT 모델을 미세 조정합니다:

BERT base: 범용 언어 모델
BioBERT: 생물의학 문헌에서 사전 훈련됨
BioClinBERT: 임상 텍스트를 위해 특별히 설계됨

훈련 매개변수: 학습률=2×10⁻⁵, 배치 크기=8, 가중치 감소=0.01, 10 에포크 훈련.

기술 혁신 포인트

다중 교사 융합 전략: 단일 교사 모델을 사용하는 기존 연구와 달리, 본 연구는 LLM과 온톨로지의 31가지 조합을 체계적으로 평가하여 다양한 작업에 최적 조합을 선택합니다.
교차 도메인 일반화 능력: 퇴원 요약, 진행 기록, 방사선학 보고서 등 다양한 임상 기록 유형에서 훈련 및 테스트합니다.
비용 효율성 분석: 추론 시간 및 비용 비교에 대한 상세 정보를 제공하여 증류 모델의 실제 배포 이점을 정량화합니다.

실험 설정

데이터셋

주요 데이터셋

n2c2 2018 Track 2: 505개의 MIMIC-III 퇴원 요약, 약물 추출을 위한 전문가 주석
- 훈련 집합: 303개, 테스트 집합: 202개, 개발 집합: 25개
NCBI Disease Corpus: 793개의 PubMed 초록, 질병 추출을 위한 전문가 주석
- 공식 데이터셋 분할 사용
CORAL 데이터셋: 40명 환자의 익명화된 진행 기록(유방암 20명, 췌장암 20명)
- 테스트 집합: 35개, 개발 집합: 5개