Large language models (LLMs) excel at clinical information extraction but their computational demands limit practical deployment. Knowledge distillation--the process of transferring knowledge from larger to smaller models--offers a potential solution. We evaluate the performance of distilled BERT models, which are approximately 1,000 times smaller than modern LLMs, for clinical named entity recognition (NER) tasks. We leveraged state-of-the-art LLMs (Gemini and OpenAI models) and medical ontologies (RxNorm and SNOMED) as teacher labelers for medication, disease, and symptom extraction. We applied our approach to over 3,300 clinical notes spanning five publicly available datasets, comparing distilled BERT models against both their teacher labelers and BERT models fine-tuned on human labels. External validation was conducted using clinical notes from the MedAlign dataset. For disease extraction, F1 scores were 0.82 (teacher model), 0.89 (BioBERT trained on human labels), and 0.84 (BioBERT-distilled). For medication, F1 scores were 0.84 (teacher model), 0.91 (BioBERT-human), and 0.87 (BioBERT-distilled). For symptoms: F1 score of 0.73 (teacher model) and 0.68 (BioBERT-distilled). Distilled BERT models had faster inference (12x, 4x, 8x faster than GPT-4o, o1-mini, and Gemini Flash respectively) and lower costs (85x, 101x, 2x cheaper than GPT-4o, o1-mini, and Gemini Flash respectively). On the external validation dataset, the distilled BERT model achieved F1 scores of 0.883 (medication), 0.726 (disease), and 0.699 (symptom). Distilled BERT models were up to 101x cheaper and 12x faster than state-of-the-art LLMs while achieving similar performance on NER tasks. Distillation offers a computationally efficient and scalable alternative to large LLMs for clinical information extraction.
- Papier-ID: 2501.00031
- Titel: Distilling Large Language Models for Efficient Clinical Information Extraction
- Autoren: Karthik S. Vedula, Annika Gupta, Akshay Swaminathan, Ivan Lopez, Suhana Bedi, Nigam H. Shah
- Klassifizierung: cs.CL (Computerlinguistik)
- Veröffentlichungsdatum: 3. Januar 2025 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2501.00031
Diese Forschung überträgt durch WissensDestillationstechniken das Wissen großer Sprachmodelle auf BERT-Modelle, die etwa 1000-mal kleiner sind, für klinische Aufgaben zur Erkennung benannter Entitäten. Die Studie nutzt modernste LLMs (Gemini- und OpenAI-Modelle) sowie medizinische Ontologien (RxNorm und SNOMED) als Lehrerannotatoren zur Extraktion von Medikamenten, Krankheiten und Symptomen aus über 3300 klinischen Notizen. Das destillierte BERT-Modell behält vergleichbare Leistung bei, während die Inferenzgeschwindigkeit um das 4-12-fache erhöht und die Kosten um das 2-101-fache gesenkt werden, was eine effiziente und skalierbare Lösung für die klinische Informationsextraktion bietet.
Klinische Notizen in elektronischen Gesundheitsakten enthalten große Mengen wertvoller unstrukturierter Informationen, die oft nicht in strukturierten Feldern erfasst werden. Die Umwandlung von Freitextinformationen in strukturierte Daten ist für Kohortenselektion, Beobachtungsstudien und Frage-Antwort-Systeme entscheidend, aber die Informationsextraktion aus klinischen Notizen bleibt eine Herausforderung.
- Traditionelle Methoden: Regelbasierte Methoden verwenden Zeichenkettenabgleich und medizinische Ontologien. Obwohl interpretierbar und rechnerisch effizient, können sie die vielfältigen Darstellungen klinischer Entitäten, einschließlich Synonyme, Abkürzungen, detaillierte Beschreibungen und Tippfehler, oft nicht erfassen.
- Maschinelles Lernen: BERT-ähnliche Modelle zeigen ausgezeichnete Leistungen, aber aktuelle klinische NER-Modelle konzentrieren sich oft auf spezifische Domänen oder Entitätstypen, was die breite Anwendbarkeit einschränkt. Das Fine-Tuning erfordert große Mengen annotierter Daten, was kostspielig und zeitaufwändig ist.
- Große Sprachmodelle: LLMs zeigen hervorragende Leistungen bei klinischen NER-Aufgaben, erfordern aber erhebliche Rechenressourcen, sind kostspielig, und proprietäre LLMs benötigen HIPAA-konforme Endpunkte zur Verarbeitung geschützter Gesundheitsinformationen.
WissensDestillationstechniken bieten eine vielversprechende Lösung für diese Herausforderungen, indem sie das Wissen großer Modelle auf kleinere Modelle übertragen, was sowohl die Einschränkungen domänenspezifischer BERT-Modelle adressiert als auch die Bereitstellungsprobleme rechenintensiver LLMs vermeidet.
- Multi-Lehrer-Annotationssystem: Entwicklung eines Lehrerannotationssystems, das modernste LLMs (Gemini- und OpenAI-Modelle) mit medizinischen Ontologien (RxNorm und SNOMED) für klinische NER-Aufgaben bei verschiedenen Notiztypen kombiniert.
- Effizientes Destillationsmodell: Erstellung und Veröffentlichung eines BERT-basierten Destillationsmodells, das etwa 1/1000 der Größe moderner LLMs aufweist und auf über 2000 klinischen Dokumenten trainiert wurde, die Tumorfortschrittsnotizen, Entlassungszusammenfassungen, Radiologieberichte und wissenschaftliche Abstracts umfassen.
- Umfassende Evaluierungsvalidierung: Durchführung einer umfassenden Bewertung auf fünf öffentlichen klinischen Datensätzen, einschließlich Analyse von Modellfehlern und externer Validierungsanalyse über Gesundheitssysteme hinweg.
Diese Forschung konzentriert sich auf drei unterschiedliche NER-Aufgaben:
- Medikamentenextraktion: Identifikation von Medikamentennamen und Medikamentenkategorien in klinischen Notizen
- Krankheitsextraktion: Identifikation von Krankheiten, Syndromen und pathologischen Zuständen
- Symptomextraktion: Identifikation von Patientensymptomen und klinischen Manifestationen
Jede Aufgabe verwendet das "Inside-Outside" (IO) Annotationsformat, wobei Wörter innerhalb von Entitäten als "Inside" und andere Wörter als "Outside" gekennzeichnet werden.
- LLM-Annotatoren: Bewertung von vier modernsten LLMs als Lehrerannotatoren
- GPT-4o (Version 2024-08-06)
- GPT-4o-mini (Version 2024-07-18)
- o1-mini (Version 2024-09-12)
- Gemini 1.5 Flash (gemini-1.5-flash-002)
- Ontologie-Annotatoren: Nutzung der BioPortal-Annotator-API für den Zugriff auf biomedizinische Ontologien
- RxNorm: für Medikamentenextraktion
- SNOMED CT: für Krankheits- und Symptomextraktion
- Optimale Lehrerkombination: Bewertung aller 31 möglichen Teilmengenkombinationen von 5 Lehrerannotatoren und Auswahl der Kombination mit dem höchsten F1-Score auf dem Entwicklungssatz.
Für jede NER-Aufgabe werden Trainingslabels mit der optimalen Lehrerannotations-Pipeline generiert und dann separate BERT-Modelle fine-getuned:
- BERT base: Allgemeines Sprachmodell
- BioBERT: Auf biomedizinischer Literatur vortrainiert
- BioClinBERT: Speziell für klinische Texte
Trainingsparameter: Lernrate=2×10⁻⁵, Batch-Größe=8, Gewichtszerfall=0,01, Training über 10 Epochen.
- Multi-Lehrer-Fusionsstrategie: Im Gegensatz zu bestehenden Forschungen, die einzelne Lehrermodelle verwenden, bewertet diese Forschung systematisch 31 Kombinationen von LLMs und Ontologien und wählt optimale Kombinationen für verschiedene Aufgaben.
- Domänenübergreifende Generalisierungsfähigkeit: Training und Test auf verschiedenen klinischen Notiztypen, einschließlich Entlassungszusammenfassungen, Fortschrittsnotizen und Radiologieberichten.
- Kosten-Nutzen-Analyse: Bereitstellung detaillierter Vergleiche von Inferenzzeit und Kosten zur Quantifizierung praktischer Bereitstellungsvorteile des Destillationsmodells.
- n2c2 2018 Track 2: 505 MIMIC-III-Entlassungszusammenfassungen, von Experten für Medikamentenextraktion annotiert
- Trainingssatz: 303, Testsatz: 202, Entwicklungssatz: 25
- NCBI Disease Corpus: 793 PubMed-Abstracts, von Experten für Krankheitsextraktion annotiert
- Verwendung der offiziellen Datensatzteilung
- CORAL-Datensatz: De-identifizierte Fortschrittsnotizen von 40 Patienten (20 Brustkrebs, 20 Bauchspeicheldrüsenkrebs)
- Testsatz: 35, Entwicklungssatz: 5
Zusammenführung aller verfügbaren Datensätze, einschließlich 1000 MIMIC-III-Kliniktexten (geschichtete Stichprobe nach Dokumenttyp), mit insgesamt 2096 Dokumenten im Lehrerannotations-Datensatz.
Verwendung des MedAlign-Datensatzes für externe Validierung mit 276 Längspatienten-Aufzeichnungen aus Stanford Hospital und Lucile Packard Children's Hospital.
Verwendung von Standard-Token-Level-Präzision, Recall und F1-Score mit manuellen Annotationen als Goldstandard.
- Direkte Vorhersage durch Lehrerannotatoren
- BERT-Modell fine-getuned auf manuellen Labels
- BERT-Modell durch Destillation mit Lehrerannotationen
- Training mit NVIDIA 4xH100 GPU
- Alle LLMs über HIPAA-konforme API-Endpunkte ausgeführt
- Standardisierte Parameter: temperature=0,01, top-p=0,9
| Aufgabe | Optimale Kombination | F1-Score |
|---|
| Krankheitsextraktion | o1-mini | 0,787 |
| Medikamentenextraktion | Gemini-1.5-flash + GPT-4o | 0,881 |
| Symptomextraktion | Gemini-1.5-flash + GPT-4o | 0,801 |
| Aufgabe | Manuelle Labels+BERT | Lehrerannotations-Labels+BERT | Nur Lehrerannotator |
|---|
| Krankheitsextraktion | 0,89 | 0,84 | 0,82 |
| Medikamentenextraktion | 0,91 | 0,87 | 0,84 |
| Symptomextraktion | - | 0,68 | 0,73 |
| Modell | Inferenzzeit pro Notiz (Sekunden) | Kosten pro Notiz (USD) |
|---|
| Destilliertes BioBERT | 0,14 | 0,000187 |
| GPT-4o | 1,66 (+1086%) | 0,0159 (+8402%) |
| o1-mini | 0,58 (+314%) | 0,0189 (+1001%) |
| Gemini Flash | 1,17 (+736%) | 0,000460 (+146%) |
Leistung auf dem MedAlign-Datensatz:
- Medikamentenextraktion: F1 = 0,883
- Krankheitsextraktion: F1 = 0,726
- Symptomextraktion: F1 = 0,699
Durch manuelle Überprüfung wurde festgestellt, dass die meisten falsch positiven Ergebnisse tatsächlich durch Annotationsfehler verursacht wurden:
- Symptomextraktion: 82,05% der falsch positiven Ergebnisse waren tatsächlich korrekt annotiert
- Medikamentenextraktion: 62,93% der falsch positiven Ergebnisse waren tatsächlich korrekt annotiert
- Krankheitsextraktion: 73,33% der falsch positiven Ergebnisse waren tatsächlich korrekt annotiert
- Leistungshierarchie: Manuelle Labels Fine-Tuning > Lehrerannotations-Destillation > Direkte Lehrervorhersage
- Begrenzte Ontologie-Rolle: Ontologie-Annotatoren sind nicht in den optimalen Kombinationen für Symptomextraktion enthalten
- BioBERT-Vorteil: Zeigt in den meisten Aufgaben die beste Leistung
- Signifikante Kosteneffizienz: Destillationsmodelle sind 2-101-mal günstiger als LLMs und 4-12-mal schneller
- Traditionelle Methoden: Regel- und ontologiebasierte Methoden wie UMLS
- Deep-Learning-Methoden: BERT-ähnliche Modelle, einschließlich domänenspezifischer Varianten wie BioBERT und ClinicalBERT
- Schwach überwachte Methoden: Wie TROVE, das UMLS-Ontologien zur Generierung schwacher Labels zum Training von BERT-Modellen verwendet
- Allgemeine Destillation: Destillation von GPT-4 zu mittleren Modellen wie LLaMA
- Medizinische Domänen-Destillation: Erfolgreiche Anwendung von DistilFLERT und destilliertem PubMedBERT in medizinischen Anwendungen
- Multi-Lehrer-Fusion: Systematische Bewertung von Kombinationen von LLMs und Ontologien
- Domänenübergreifende Validierung: Validierung der Generalisierungsfähigkeit über verschiedene Notiztypen und Gesundheitssysteme
- Umfassende Bewertung: Einschließlich Kosten-Nutzen-Analyse und detaillierter Fehleranalyse
Destillierte BERT-Modelle können bei klinischen NER-Aufgaben eine Leistung erreichen, die großen LLMs nahe kommt, bei deutlich niedrigeren Rechenkosten und Inferenzzeiten, und bieten damit eine praktische Lösung für die klinische Informationsextraktion.
- Ungleiche Lehrerqualität: Besonders große Qualitätsschwankungen bei Symptomannotationen
- Begrenzte Entitätstypen: Abdeckung von nur drei Entitätstypen, keine Verfahren oder sozialen Determinanten
- Fehlende komplexe Aufgaben: Keine Behandlung von Assertionsstatus (z.B. Negation) oder Beziehungsextraktionsaufgaben
- Unzureichendes Prompt-Engineering: Alle LLMs verwenden identische Prompts ohne aufgabenspezifische Optimierung
- Testset-Qualität: Vorhandene Annotationsinkonsitenzen
- Erweiterung auf mehr Entitätstypen und komplexe NER-Aufgaben
- Verbesserung von Prompt-Engineering-Strategien
- Erforschung fortgeschrittener Destillationstechniken
- Verbesserung der Testset-Annotationsqualität
- Hohe Praktikabilität: Löst das praktische Problem hoher LLM-Bereitstellungskosten
- Systematische Methodik: Umfassende Bewertung verschiedener Lehrkombinationsstrategien
- Ausreichende Validierung: Einschließlich externer Validierung und detaillierter Fehleranalyse
- Offene Transparenz: Bereitstellung von Code und detaillierten Experimenteinstellungen
- Kostenquantifizierung: Bereitstellung konkreter Zeit- und Kostenvergleichsdaten
- Begrenzte Innovativität: WissensDestillation ist keine neue Technologie; Hauptbeitrag liegt auf Anwendungsebene
- Unzureichende Benchmark-Vergleiche: Fehlende direkte Vergleiche mit anderen Destillationsmethoden
- Mangel an theoretischer Analyse: Keine tiefgreifende Analyse, warum bestimmte Lehrerkombinationen besser funktionieren
- Anwendungsbeschränkungen: Hauptsächlich auf englische klinische Texte ausgerichtet; Generalisierungsfähigkeit muss noch überprüft werden
- Hoher praktischer Wert: Bietet praktikable Lösung für klinische NLP-Bereitstellung
- Gute Reproduzierbarkeit: Bereitstellung vollständiger Code- und Datensatzinformationen
- Großes Ausbreitungspotenzial: Methode ist auf andere medizinische NLP-Aufgaben übertragbar
- Kostenempfindliche Anwendungen: Von großer Bedeutung für ressourcenbegrenzte Umgebungen
- Krankenhausinformationssysteme: Benötigung der Echtzeitverarbeitung großer Mengen klinischer Notizen
- Forschungsinstitutionen: Begrenzte Rechenressourcen, aber Bedarf an hochqualitativer NER
- Medizinische KI-Produkte: Notwendigkeit, Leistung und Bereitstellungskosten auszugleichen
- Mehrsprachige Erweiterung: Kann als Grundlage für klinische NER in anderen Sprachen dienen
Das Papier zitiert 61 verwandte Literaturquellen, hauptsächlich einschließlich:
- BERT-bezogene Arbeiten: Devlin et al. (2019), Lee et al. (2020) BioBERT
- WissensDestillation: Hinton et al. (2015), Zhou et al. (2024)
- Klinische NLP: Henry et al. (2020) n2c2, Fleming et al. (2023) MedAlign
- Medizinische Ontologien: Bodenreider (2004) UMLS, Liu et al. (2005) RxNorm
Diese Forschung bietet eine praktische und effiziente Lösung für das Gebiet der klinischen Informationsextraktion. Durch WissensDestillationstechniken wird erfolgreich ein Gleichgewicht zwischen Modellleistung und Bereitstellungskosten erreicht, was bedeutenden praktischen Wert und Ausbreitungspotenzial hat.