2025-11-23T07:19:15.673915

Distilling Large Language Models for Efficient Clinical Information Extraction

Vedula, Gupta, Swaminathan et al.

Large language models (LLMs) excel at clinical information extraction but their computational demands limit practical deployment. Knowledge distillation--the process of transferring knowledge from larger to smaller models--offers a potential solution. We evaluate the performance of distilled BERT models, which are approximately 1,000 times smaller than modern LLMs, for clinical named entity recognition (NER) tasks. We leveraged state-of-the-art LLMs (Gemini and OpenAI models) and medical ontologies (RxNorm and SNOMED) as teacher labelers for medication, disease, and symptom extraction. We applied our approach to over 3,300 clinical notes spanning five publicly available datasets, comparing distilled BERT models against both their teacher labelers and BERT models fine-tuned on human labels. External validation was conducted using clinical notes from the MedAlign dataset. For disease extraction, F1 scores were 0.82 (teacher model), 0.89 (BioBERT trained on human labels), and 0.84 (BioBERT-distilled). For medication, F1 scores were 0.84 (teacher model), 0.91 (BioBERT-human), and 0.87 (BioBERT-distilled). For symptoms: F1 score of 0.73 (teacher model) and 0.68 (BioBERT-distilled). Distilled BERT models had faster inference (12x, 4x, 8x faster than GPT-4o, o1-mini, and Gemini Flash respectively) and lower costs (85x, 101x, 2x cheaper than GPT-4o, o1-mini, and Gemini Flash respectively). On the external validation dataset, the distilled BERT model achieved F1 scores of 0.883 (medication), 0.726 (disease), and 0.699 (symptom). Distilled BERT models were up to 101x cheaper and 12x faster than state-of-the-art LLMs while achieving similar performance on NER tasks. Distillation offers a computationally efficient and scalable alternative to large LLMs for clinical information extraction.

academic

Destillation großer Sprachmodelle für effiziente klinische Informationsextraktion

Grundlegende Informationen

Papier-ID: 2501.00031
Titel: Distilling Large Language Models for Efficient Clinical Information Extraction
Autoren: Karthik S. Vedula, Annika Gupta, Akshay Swaminathan, Ivan Lopez, Suhana Bedi, Nigam H. Shah
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 3. Januar 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2501.00031

Zusammenfassung

Diese Forschung überträgt durch WissensDestillationstechniken das Wissen großer Sprachmodelle auf BERT-Modelle, die etwa 1000-mal kleiner sind, für klinische Aufgaben zur Erkennung benannter Entitäten. Die Studie nutzt modernste LLMs (Gemini- und OpenAI-Modelle) sowie medizinische Ontologien (RxNorm und SNOMED) als Lehrerannotatoren zur Extraktion von Medikamenten, Krankheiten und Symptomen aus über 3300 klinischen Notizen. Das destillierte BERT-Modell behält vergleichbare Leistung bei, während die Inferenzgeschwindigkeit um das 4-12-fache erhöht und die Kosten um das 2-101-fache gesenkt werden, was eine effiziente und skalierbare Lösung für die klinische Informationsextraktion bietet.

Forschungshintergrund und Motivation

Problemdefinition

Klinische Notizen in elektronischen Gesundheitsakten enthalten große Mengen wertvoller unstrukturierter Informationen, die oft nicht in strukturierten Feldern erfasst werden. Die Umwandlung von Freitextinformationen in strukturierte Daten ist für Kohortenselektion, Beobachtungsstudien und Frage-Antwort-Systeme entscheidend, aber die Informationsextraktion aus klinischen Notizen bleibt eine Herausforderung.

Einschränkungen bestehender Methoden

Traditionelle Methoden: Regelbasierte Methoden verwenden Zeichenkettenabgleich und medizinische Ontologien. Obwohl interpretierbar und rechnerisch effizient, können sie die vielfältigen Darstellungen klinischer Entitäten, einschließlich Synonyme, Abkürzungen, detaillierte Beschreibungen und Tippfehler, oft nicht erfassen.
Maschinelles Lernen: BERT-ähnliche Modelle zeigen ausgezeichnete Leistungen, aber aktuelle klinische NER-Modelle konzentrieren sich oft auf spezifische Domänen oder Entitätstypen, was die breite Anwendbarkeit einschränkt. Das Fine-Tuning erfordert große Mengen annotierter Daten, was kostspielig und zeitaufwändig ist.
Große Sprachmodelle: LLMs zeigen hervorragende Leistungen bei klinischen NER-Aufgaben, erfordern aber erhebliche Rechenressourcen, sind kostspielig, und proprietäre LLMs benötigen HIPAA-konforme Endpunkte zur Verarbeitung geschützter Gesundheitsinformationen.

Forschungsmotivation

WissensDestillationstechniken bieten eine vielversprechende Lösung für diese Herausforderungen, indem sie das Wissen großer Modelle auf kleinere Modelle übertragen, was sowohl die Einschränkungen domänenspezifischer BERT-Modelle adressiert als auch die Bereitstellungsprobleme rechenintensiver LLMs vermeidet.

Kernbeiträge

Multi-Lehrer-Annotationssystem: Entwicklung eines Lehrerannotationssystems, das modernste LLMs (Gemini- und OpenAI-Modelle) mit medizinischen Ontologien (RxNorm und SNOMED) für klinische NER-Aufgaben bei verschiedenen Notiztypen kombiniert.
Effizientes Destillationsmodell: Erstellung und Veröffentlichung eines BERT-basierten Destillationsmodells, das etwa 1/1000 der Größe moderner LLMs aufweist und auf über 2000 klinischen Dokumenten trainiert wurde, die Tumorfortschrittsnotizen, Entlassungszusammenfassungen, Radiologieberichte und wissenschaftliche Abstracts umfassen.
Umfassende Evaluierungsvalidierung: Durchführung einer umfassenden Bewertung auf fünf öffentlichen klinischen Datensätzen, einschließlich Analyse von Modellfehlern und externer Validierungsanalyse über Gesundheitssysteme hinweg.

Methodische Details

Aufgabendefinition

Diese Forschung konzentriert sich auf drei unterschiedliche NER-Aufgaben:

Medikamentenextraktion: Identifikation von Medikamentennamen und Medikamentenkategorien in klinischen Notizen
Krankheitsextraktion: Identifikation von Krankheiten, Syndromen und pathologischen Zuständen
Symptomextraktion: Identifikation von Patientensymptomen und klinischen Manifestationen

Jede Aufgabe verwendet das "Inside-Outside" (IO) Annotationsformat, wobei Wörter innerhalb von Entitäten als "Inside" und andere Wörter als "Outside" gekennzeichnet werden.

Modellarchitektur

Lehrerannotations-Pipeline

LLM-Annotatoren: Bewertung von vier modernsten LLMs als Lehrerannotatoren
- GPT-4o (Version 2024-08-06)
- GPT-4o-mini (Version 2024-07-18)
- o1-mini (Version 2024-09-12)
- Gemini 1.5 Flash (gemini-1.5-flash-002)
Ontologie-Annotatoren: Nutzung der BioPortal-Annotator-API für den Zugriff auf biomedizinische Ontologien
- RxNorm: für Medikamentenextraktion
- SNOMED CT: für Krankheits- und Symptomextraktion
Optimale Lehrerkombination: Bewertung aller 31 möglichen Teilmengenkombinationen von 5 Lehrerannotatoren und Auswahl der Kombination mit dem höchsten F1-Score auf dem Entwicklungssatz.

Modell-Destillationsimplementierung

Für jede NER-Aufgabe werden Trainingslabels mit der optimalen Lehrerannotations-Pipeline generiert und dann separate BERT-Modelle fine-getuned:

BERT base: Allgemeines Sprachmodell
BioBERT: Auf biomedizinischer Literatur vortrainiert
BioClinBERT: Speziell für klinische Texte

Trainingsparameter: Lernrate=2×10⁻⁵, Batch-Größe=8, Gewichtszerfall=0,01, Training über 10 Epochen.

Technische Innovationen

Multi-Lehrer-Fusionsstrategie: Im Gegensatz zu bestehenden Forschungen, die einzelne Lehrermodelle verwenden, bewertet diese Forschung systematisch 31 Kombinationen von LLMs und Ontologien und wählt optimale Kombinationen für verschiedene Aufgaben.
Domänenübergreifende Generalisierungsfähigkeit: Training und Test auf verschiedenen klinischen Notiztypen, einschließlich Entlassungszusammenfassungen, Fortschrittsnotizen und Radiologieberichten.
Kosten-Nutzen-Analyse: Bereitstellung detaillierter Vergleiche von Inferenzzeit und Kosten zur Quantifizierung praktischer Bereitstellungsvorteile des Destillationsmodells.

Experimentelle Einrichtung

Datensätze

Hauptdatensätze

n2c2 2018 Track 2: 505 MIMIC-III-Entlassungszusammenfassungen, von Experten für Medikamentenextraktion annotiert
- Trainingssatz: 303, Testsatz: 202, Entwicklungssatz: 25
NCBI Disease Corpus: 793 PubMed-Abstracts, von Experten für Krankheitsextraktion annotiert
- Verwendung der offiziellen Datensatzteilung
CORAL-Datensatz: De-identifizierte Fortschrittsnotizen von 40 Patienten (20 Brustkrebs, 20 Bauchspeicheldrüsenkrebs)
- Testsatz: 35, Entwicklungssatz: 5

Lehrerannotations-Datensätze

Zusammenführung aller verfügbaren Datensätze, einschließlich 1000 MIMIC-III-Kliniktexten (geschichtete Stichprobe nach Dokumenttyp), mit insgesamt 2096 Dokumenten im Lehrerannotations-Datensatz.

Externe Validierung

Verwendung des MedAlign-Datensatzes für externe Validierung mit 276 Längspatienten-Aufzeichnungen aus Stanford Hospital und Lucile Packard Children's Hospital.

Bewertungsmetriken

Verwendung von Standard-Token-Level-Präzision, Recall und F1-Score mit manuellen Annotationen als Goldstandard.

Vergleichsmethoden

Direkte Vorhersage durch Lehrerannotatoren
BERT-Modell fine-getuned auf manuellen Labels
BERT-Modell durch Destillation mit Lehrerannotationen

Implementierungsdetails

Training mit NVIDIA 4xH100 GPU
Alle LLMs über HIPAA-konforme API-Endpunkte ausgeführt
Standardisierte Parameter: temperature=0,01, top-p=0,9

Experimentelle Ergebnisse

Hauptergebnisse

Leistung der Lehrerannotator-Kombinationen

Aufgabe	Optimale Kombination	F1-Score
Krankheitsextraktion	o1-mini	0,787
Medikamentenextraktion	Gemini-1.5-flash + GPT-4o	0,881
Symptomextraktion	Gemini-1.5-flash + GPT-4o	0,801

Leistungsvergleich des Destillationsmodells

Aufgabe	Manuelle Labels+BERT	Lehrerannotations-Labels+BERT	Nur Lehrerannotator
Krankheitsextraktion	0,89	0,84	0,82
Medikamentenextraktion	0,91	0,87	0,84
Symptomextraktion	-	0,68	0,73

Effizienzvergleich

Modell	Inferenzzeit pro Notiz (Sekunden)	Kosten pro Notiz (USD)
Destilliertes BioBERT	0,14	0,000187
GPT-4o	1,66 (+1086%)	0,0159 (+8402%)
o1-mini	0,58 (+314%)	0,0189 (+1001%)
Gemini Flash	1,17 (+736%)	0,000460 (+146%)

Externe Validierungsergebnisse

Leistung auf dem MedAlign-Datensatz:

Medikamentenextraktion: F1 = 0,883
Krankheitsextraktion: F1 = 0,726
Symptomextraktion: F1 = 0,699

Fehleranalyse

Durch manuelle Überprüfung wurde festgestellt, dass die meisten falsch positiven Ergebnisse tatsächlich durch Annotationsfehler verursacht wurden:

Symptomextraktion: 82,05% der falsch positiven Ergebnisse waren tatsächlich korrekt annotiert
Medikamentenextraktion: 62,93% der falsch positiven Ergebnisse waren tatsächlich korrekt annotiert
Krankheitsextraktion: 73,33% der falsch positiven Ergebnisse waren tatsächlich korrekt annotiert

Experimentelle Erkenntnisse

Leistungshierarchie: Manuelle Labels Fine-Tuning > Lehrerannotations-Destillation > Direkte Lehrervorhersage
Begrenzte Ontologie-Rolle: Ontologie-Annotatoren sind nicht in den optimalen Kombinationen für Symptomextraktion enthalten
BioBERT-Vorteil: Zeigt in den meisten Aufgaben die beste Leistung
Signifikante Kosteneffizienz: Destillationsmodelle sind 2-101-mal günstiger als LLMs und 4-12-mal schneller

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Destillierte BERT-Modelle können bei klinischen NER-Aufgaben eine Leistung erreichen, die großen LLMs nahe kommt, bei deutlich niedrigeren Rechenkosten und Inferenzzeiten, und bieten damit eine praktische Lösung für die klinische Informationsextraktion.

Einschränkungen

Ungleiche Lehrerqualität: Besonders große Qualitätsschwankungen bei Symptomannotationen
Begrenzte Entitätstypen: Abdeckung von nur drei Entitätstypen, keine Verfahren oder sozialen Determinanten
Fehlende komplexe Aufgaben: Keine Behandlung von Assertionsstatus (z.B. Negation) oder Beziehungsextraktionsaufgaben
Unzureichendes Prompt-Engineering: Alle LLMs verwenden identische Prompts ohne aufgabenspezifische Optimierung
Testset-Qualität: Vorhandene Annotationsinkonsitenzen

Zukünftige Richtungen

Erweiterung auf mehr Entitätstypen und komplexe NER-Aufgaben
Verbesserung von Prompt-Engineering-Strategien
Erforschung fortgeschrittener Destillationstechniken
Verbesserung der Testset-Annotationsqualität

Tiefgreifende Bewertung

Stärken

Hohe Praktikabilität: Löst das praktische Problem hoher LLM-Bereitstellungskosten
Systematische Methodik: Umfassende Bewertung verschiedener Lehrkombinationsstrategien
Ausreichende Validierung: Einschließlich externer Validierung und detaillierter Fehleranalyse
Offene Transparenz: Bereitstellung von Code und detaillierten Experimenteinstellungen
Kostenquantifizierung: Bereitstellung konkreter Zeit- und Kostenvergleichsdaten

Mängel

Begrenzte Innovativität: WissensDestillation ist keine neue Technologie; Hauptbeitrag liegt auf Anwendungsebene
Unzureichende Benchmark-Vergleiche: Fehlende direkte Vergleiche mit anderen Destillationsmethoden
Mangel an theoretischer Analyse: Keine tiefgreifende Analyse, warum bestimmte Lehrerkombinationen besser funktionieren
Anwendungsbeschränkungen: Hauptsächlich auf englische klinische Texte ausgerichtet; Generalisierungsfähigkeit muss noch überprüft werden

Auswirkungen

Hoher praktischer Wert: Bietet praktikable Lösung für klinische NLP-Bereitstellung
Gute Reproduzierbarkeit: Bereitstellung vollständiger Code- und Datensatzinformationen
Großes Ausbreitungspotenzial: Methode ist auf andere medizinische NLP-Aufgaben übertragbar
Kostenempfindliche Anwendungen: Von großer Bedeutung für ressourcenbegrenzte Umgebungen

Anwendungsszenarien

Krankenhausinformationssysteme: Benötigung der Echtzeitverarbeitung großer Mengen klinischer Notizen
Forschungsinstitutionen: Begrenzte Rechenressourcen, aber Bedarf an hochqualitativer NER
Medizinische KI-Produkte: Notwendigkeit, Leistung und Bereitstellungskosten auszugleichen
Mehrsprachige Erweiterung: Kann als Grundlage für klinische NER in anderen Sprachen dienen

Literaturverzeichnis

Das Papier zitiert 61 verwandte Literaturquellen, hauptsächlich einschließlich:

BERT-bezogene Arbeiten: Devlin et al. (2019), Lee et al. (2020) BioBERT
WissensDestillation: Hinton et al. (2015), Zhou et al. (2024)
Klinische NLP: Henry et al. (2020) n2c2, Fleming et al. (2023) MedAlign
Medizinische Ontologien: Bodenreider (2004) UMLS, Liu et al. (2005) RxNorm

Diese Forschung bietet eine praktische und effiziente Lösung für das Gebiet der klinischen Informationsextraktion. Durch WissensDestillationstechniken wird erfolgreich ein Gleichgewicht zwischen Modellleistung und Bereitstellungskosten erreicht, was bedeutenden praktischen Wert und Ausbreitungspotenzial hat.