2025-11-23T07:19:15.673915

Distilling Large Language Models for Efficient Clinical Information Extraction

Vedula, Gupta, Swaminathan et al.
Large language models (LLMs) excel at clinical information extraction but their computational demands limit practical deployment. Knowledge distillation--the process of transferring knowledge from larger to smaller models--offers a potential solution. We evaluate the performance of distilled BERT models, which are approximately 1,000 times smaller than modern LLMs, for clinical named entity recognition (NER) tasks. We leveraged state-of-the-art LLMs (Gemini and OpenAI models) and medical ontologies (RxNorm and SNOMED) as teacher labelers for medication, disease, and symptom extraction. We applied our approach to over 3,300 clinical notes spanning five publicly available datasets, comparing distilled BERT models against both their teacher labelers and BERT models fine-tuned on human labels. External validation was conducted using clinical notes from the MedAlign dataset. For disease extraction, F1 scores were 0.82 (teacher model), 0.89 (BioBERT trained on human labels), and 0.84 (BioBERT-distilled). For medication, F1 scores were 0.84 (teacher model), 0.91 (BioBERT-human), and 0.87 (BioBERT-distilled). For symptoms: F1 score of 0.73 (teacher model) and 0.68 (BioBERT-distilled). Distilled BERT models had faster inference (12x, 4x, 8x faster than GPT-4o, o1-mini, and Gemini Flash respectively) and lower costs (85x, 101x, 2x cheaper than GPT-4o, o1-mini, and Gemini Flash respectively). On the external validation dataset, the distilled BERT model achieved F1 scores of 0.883 (medication), 0.726 (disease), and 0.699 (symptom). Distilled BERT models were up to 101x cheaper and 12x faster than state-of-the-art LLMs while achieving similar performance on NER tasks. Distillation offers a computationally efficient and scalable alternative to large LLMs for clinical information extraction.
academic

Destillation großer Sprachmodelle für effiziente klinische Informationsextraktion

Grundlegende Informationen

  • Papier-ID: 2501.00031
  • Titel: Distilling Large Language Models for Efficient Clinical Information Extraction
  • Autoren: Karthik S. Vedula, Annika Gupta, Akshay Swaminathan, Ivan Lopez, Suhana Bedi, Nigam H. Shah
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 3. Januar 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2501.00031

Zusammenfassung

Diese Forschung überträgt durch WissensDestillationstechniken das Wissen großer Sprachmodelle auf BERT-Modelle, die etwa 1000-mal kleiner sind, für klinische Aufgaben zur Erkennung benannter Entitäten. Die Studie nutzt modernste LLMs (Gemini- und OpenAI-Modelle) sowie medizinische Ontologien (RxNorm und SNOMED) als Lehrerannotatoren zur Extraktion von Medikamenten, Krankheiten und Symptomen aus über 3300 klinischen Notizen. Das destillierte BERT-Modell behält vergleichbare Leistung bei, während die Inferenzgeschwindigkeit um das 4-12-fache erhöht und die Kosten um das 2-101-fache gesenkt werden, was eine effiziente und skalierbare Lösung für die klinische Informationsextraktion bietet.

Forschungshintergrund und Motivation

Problemdefinition

Klinische Notizen in elektronischen Gesundheitsakten enthalten große Mengen wertvoller unstrukturierter Informationen, die oft nicht in strukturierten Feldern erfasst werden. Die Umwandlung von Freitextinformationen in strukturierte Daten ist für Kohortenselektion, Beobachtungsstudien und Frage-Antwort-Systeme entscheidend, aber die Informationsextraktion aus klinischen Notizen bleibt eine Herausforderung.

Einschränkungen bestehender Methoden

  1. Traditionelle Methoden: Regelbasierte Methoden verwenden Zeichenkettenabgleich und medizinische Ontologien. Obwohl interpretierbar und rechnerisch effizient, können sie die vielfältigen Darstellungen klinischer Entitäten, einschließlich Synonyme, Abkürzungen, detaillierte Beschreibungen und Tippfehler, oft nicht erfassen.
  2. Maschinelles Lernen: BERT-ähnliche Modelle zeigen ausgezeichnete Leistungen, aber aktuelle klinische NER-Modelle konzentrieren sich oft auf spezifische Domänen oder Entitätstypen, was die breite Anwendbarkeit einschränkt. Das Fine-Tuning erfordert große Mengen annotierter Daten, was kostspielig und zeitaufwändig ist.
  3. Große Sprachmodelle: LLMs zeigen hervorragende Leistungen bei klinischen NER-Aufgaben, erfordern aber erhebliche Rechenressourcen, sind kostspielig, und proprietäre LLMs benötigen HIPAA-konforme Endpunkte zur Verarbeitung geschützter Gesundheitsinformationen.

Forschungsmotivation

WissensDestillationstechniken bieten eine vielversprechende Lösung für diese Herausforderungen, indem sie das Wissen großer Modelle auf kleinere Modelle übertragen, was sowohl die Einschränkungen domänenspezifischer BERT-Modelle adressiert als auch die Bereitstellungsprobleme rechenintensiver LLMs vermeidet.

Kernbeiträge

  1. Multi-Lehrer-Annotationssystem: Entwicklung eines Lehrerannotationssystems, das modernste LLMs (Gemini- und OpenAI-Modelle) mit medizinischen Ontologien (RxNorm und SNOMED) für klinische NER-Aufgaben bei verschiedenen Notiztypen kombiniert.
  2. Effizientes Destillationsmodell: Erstellung und Veröffentlichung eines BERT-basierten Destillationsmodells, das etwa 1/1000 der Größe moderner LLMs aufweist und auf über 2000 klinischen Dokumenten trainiert wurde, die Tumorfortschrittsnotizen, Entlassungszusammenfassungen, Radiologieberichte und wissenschaftliche Abstracts umfassen.
  3. Umfassende Evaluierungsvalidierung: Durchführung einer umfassenden Bewertung auf fünf öffentlichen klinischen Datensätzen, einschließlich Analyse von Modellfehlern und externer Validierungsanalyse über Gesundheitssysteme hinweg.

Methodische Details

Aufgabendefinition

Diese Forschung konzentriert sich auf drei unterschiedliche NER-Aufgaben:

  • Medikamentenextraktion: Identifikation von Medikamentennamen und Medikamentenkategorien in klinischen Notizen
  • Krankheitsextraktion: Identifikation von Krankheiten, Syndromen und pathologischen Zuständen
  • Symptomextraktion: Identifikation von Patientensymptomen und klinischen Manifestationen

Jede Aufgabe verwendet das "Inside-Outside" (IO) Annotationsformat, wobei Wörter innerhalb von Entitäten als "Inside" und andere Wörter als "Outside" gekennzeichnet werden.

Modellarchitektur

Lehrerannotations-Pipeline

  1. LLM-Annotatoren: Bewertung von vier modernsten LLMs als Lehrerannotatoren
    • GPT-4o (Version 2024-08-06)
    • GPT-4o-mini (Version 2024-07-18)
    • o1-mini (Version 2024-09-12)
    • Gemini 1.5 Flash (gemini-1.5-flash-002)
  2. Ontologie-Annotatoren: Nutzung der BioPortal-Annotator-API für den Zugriff auf biomedizinische Ontologien
    • RxNorm: für Medikamentenextraktion
    • SNOMED CT: für Krankheits- und Symptomextraktion
  3. Optimale Lehrerkombination: Bewertung aller 31 möglichen Teilmengenkombinationen von 5 Lehrerannotatoren und Auswahl der Kombination mit dem höchsten F1-Score auf dem Entwicklungssatz.

Modell-Destillationsimplementierung

Für jede NER-Aufgabe werden Trainingslabels mit der optimalen Lehrerannotations-Pipeline generiert und dann separate BERT-Modelle fine-getuned:

  • BERT base: Allgemeines Sprachmodell
  • BioBERT: Auf biomedizinischer Literatur vortrainiert
  • BioClinBERT: Speziell für klinische Texte

Trainingsparameter: Lernrate=2×10⁻⁵, Batch-Größe=8, Gewichtszerfall=0,01, Training über 10 Epochen.

Technische Innovationen

  1. Multi-Lehrer-Fusionsstrategie: Im Gegensatz zu bestehenden Forschungen, die einzelne Lehrermodelle verwenden, bewertet diese Forschung systematisch 31 Kombinationen von LLMs und Ontologien und wählt optimale Kombinationen für verschiedene Aufgaben.
  2. Domänenübergreifende Generalisierungsfähigkeit: Training und Test auf verschiedenen klinischen Notiztypen, einschließlich Entlassungszusammenfassungen, Fortschrittsnotizen und Radiologieberichten.
  3. Kosten-Nutzen-Analyse: Bereitstellung detaillierter Vergleiche von Inferenzzeit und Kosten zur Quantifizierung praktischer Bereitstellungsvorteile des Destillationsmodells.

Experimentelle Einrichtung

Datensätze

Hauptdatensätze

  1. n2c2 2018 Track 2: 505 MIMIC-III-Entlassungszusammenfassungen, von Experten für Medikamentenextraktion annotiert
    • Trainingssatz: 303, Testsatz: 202, Entwicklungssatz: 25
  2. NCBI Disease Corpus: 793 PubMed-Abstracts, von Experten für Krankheitsextraktion annotiert
    • Verwendung der offiziellen Datensatzteilung
  3. CORAL-Datensatz: De-identifizierte Fortschrittsnotizen von 40 Patienten (20 Brustkrebs, 20 Bauchspeicheldrüsenkrebs)
    • Testsatz: 35, Entwicklungssatz: 5

Lehrerannotations-Datensätze

Zusammenführung aller verfügbaren Datensätze, einschließlich 1000 MIMIC-III-Kliniktexten (geschichtete Stichprobe nach Dokumenttyp), mit insgesamt 2096 Dokumenten im Lehrerannotations-Datensatz.

Externe Validierung

Verwendung des MedAlign-Datensatzes für externe Validierung mit 276 Längspatienten-Aufzeichnungen aus Stanford Hospital und Lucile Packard Children's Hospital.

Bewertungsmetriken

Verwendung von Standard-Token-Level-Präzision, Recall und F1-Score mit manuellen Annotationen als Goldstandard.

Vergleichsmethoden

  • Direkte Vorhersage durch Lehrerannotatoren
  • BERT-Modell fine-getuned auf manuellen Labels
  • BERT-Modell durch Destillation mit Lehrerannotationen

Implementierungsdetails

  • Training mit NVIDIA 4xH100 GPU
  • Alle LLMs über HIPAA-konforme API-Endpunkte ausgeführt
  • Standardisierte Parameter: temperature=0,01, top-p=0,9

Experimentelle Ergebnisse

Hauptergebnisse

Leistung der Lehrerannotator-Kombinationen

AufgabeOptimale KombinationF1-Score
Krankheitsextraktiono1-mini0,787
MedikamentenextraktionGemini-1.5-flash + GPT-4o0,881
SymptomextraktionGemini-1.5-flash + GPT-4o0,801

Leistungsvergleich des Destillationsmodells

AufgabeManuelle Labels+BERTLehrerannotations-Labels+BERTNur Lehrerannotator
Krankheitsextraktion0,890,840,82
Medikamentenextraktion0,910,870,84
Symptomextraktion-0,680,73

Effizienzvergleich

ModellInferenzzeit pro Notiz (Sekunden)Kosten pro Notiz (USD)
Destilliertes BioBERT0,140,000187
GPT-4o1,66 (+1086%)0,0159 (+8402%)
o1-mini0,58 (+314%)0,0189 (+1001%)
Gemini Flash1,17 (+736%)0,000460 (+146%)

Externe Validierungsergebnisse

Leistung auf dem MedAlign-Datensatz:

  • Medikamentenextraktion: F1 = 0,883
  • Krankheitsextraktion: F1 = 0,726
  • Symptomextraktion: F1 = 0,699

Fehleranalyse

Durch manuelle Überprüfung wurde festgestellt, dass die meisten falsch positiven Ergebnisse tatsächlich durch Annotationsfehler verursacht wurden:

  • Symptomextraktion: 82,05% der falsch positiven Ergebnisse waren tatsächlich korrekt annotiert
  • Medikamentenextraktion: 62,93% der falsch positiven Ergebnisse waren tatsächlich korrekt annotiert
  • Krankheitsextraktion: 73,33% der falsch positiven Ergebnisse waren tatsächlich korrekt annotiert

Experimentelle Erkenntnisse

  1. Leistungshierarchie: Manuelle Labels Fine-Tuning > Lehrerannotations-Destillation > Direkte Lehrervorhersage
  2. Begrenzte Ontologie-Rolle: Ontologie-Annotatoren sind nicht in den optimalen Kombinationen für Symptomextraktion enthalten
  3. BioBERT-Vorteil: Zeigt in den meisten Aufgaben die beste Leistung
  4. Signifikante Kosteneffizienz: Destillationsmodelle sind 2-101-mal günstiger als LLMs und 4-12-mal schneller

Verwandte Arbeiten

Forschungsrichtungen in klinischer NER

  1. Traditionelle Methoden: Regel- und ontologiebasierte Methoden wie UMLS
  2. Deep-Learning-Methoden: BERT-ähnliche Modelle, einschließlich domänenspezifischer Varianten wie BioBERT und ClinicalBERT
  3. Schwach überwachte Methoden: Wie TROVE, das UMLS-Ontologien zur Generierung schwacher Labels zum Training von BERT-Modellen verwendet

WissensDestillationsforschung

  1. Allgemeine Destillation: Destillation von GPT-4 zu mittleren Modellen wie LLaMA
  2. Medizinische Domänen-Destillation: Erfolgreiche Anwendung von DistilFLERT und destilliertem PubMedBERT in medizinischen Anwendungen

Vorteile dieser Arbeit gegenüber verwandten Arbeiten

  1. Multi-Lehrer-Fusion: Systematische Bewertung von Kombinationen von LLMs und Ontologien
  2. Domänenübergreifende Validierung: Validierung der Generalisierungsfähigkeit über verschiedene Notiztypen und Gesundheitssysteme
  3. Umfassende Bewertung: Einschließlich Kosten-Nutzen-Analyse und detaillierter Fehleranalyse

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Destillierte BERT-Modelle können bei klinischen NER-Aufgaben eine Leistung erreichen, die großen LLMs nahe kommt, bei deutlich niedrigeren Rechenkosten und Inferenzzeiten, und bieten damit eine praktische Lösung für die klinische Informationsextraktion.

Einschränkungen

  1. Ungleiche Lehrerqualität: Besonders große Qualitätsschwankungen bei Symptomannotationen
  2. Begrenzte Entitätstypen: Abdeckung von nur drei Entitätstypen, keine Verfahren oder sozialen Determinanten
  3. Fehlende komplexe Aufgaben: Keine Behandlung von Assertionsstatus (z.B. Negation) oder Beziehungsextraktionsaufgaben
  4. Unzureichendes Prompt-Engineering: Alle LLMs verwenden identische Prompts ohne aufgabenspezifische Optimierung
  5. Testset-Qualität: Vorhandene Annotationsinkonsitenzen

Zukünftige Richtungen

  1. Erweiterung auf mehr Entitätstypen und komplexe NER-Aufgaben
  2. Verbesserung von Prompt-Engineering-Strategien
  3. Erforschung fortgeschrittener Destillationstechniken
  4. Verbesserung der Testset-Annotationsqualität

Tiefgreifende Bewertung

Stärken

  1. Hohe Praktikabilität: Löst das praktische Problem hoher LLM-Bereitstellungskosten
  2. Systematische Methodik: Umfassende Bewertung verschiedener Lehrkombinationsstrategien
  3. Ausreichende Validierung: Einschließlich externer Validierung und detaillierter Fehleranalyse
  4. Offene Transparenz: Bereitstellung von Code und detaillierten Experimenteinstellungen
  5. Kostenquantifizierung: Bereitstellung konkreter Zeit- und Kostenvergleichsdaten

Mängel

  1. Begrenzte Innovativität: WissensDestillation ist keine neue Technologie; Hauptbeitrag liegt auf Anwendungsebene
  2. Unzureichende Benchmark-Vergleiche: Fehlende direkte Vergleiche mit anderen Destillationsmethoden
  3. Mangel an theoretischer Analyse: Keine tiefgreifende Analyse, warum bestimmte Lehrerkombinationen besser funktionieren
  4. Anwendungsbeschränkungen: Hauptsächlich auf englische klinische Texte ausgerichtet; Generalisierungsfähigkeit muss noch überprüft werden

Auswirkungen

  1. Hoher praktischer Wert: Bietet praktikable Lösung für klinische NLP-Bereitstellung
  2. Gute Reproduzierbarkeit: Bereitstellung vollständiger Code- und Datensatzinformationen
  3. Großes Ausbreitungspotenzial: Methode ist auf andere medizinische NLP-Aufgaben übertragbar
  4. Kostenempfindliche Anwendungen: Von großer Bedeutung für ressourcenbegrenzte Umgebungen

Anwendungsszenarien

  1. Krankenhausinformationssysteme: Benötigung der Echtzeitverarbeitung großer Mengen klinischer Notizen
  2. Forschungsinstitutionen: Begrenzte Rechenressourcen, aber Bedarf an hochqualitativer NER
  3. Medizinische KI-Produkte: Notwendigkeit, Leistung und Bereitstellungskosten auszugleichen
  4. Mehrsprachige Erweiterung: Kann als Grundlage für klinische NER in anderen Sprachen dienen

Literaturverzeichnis

Das Papier zitiert 61 verwandte Literaturquellen, hauptsächlich einschließlich:

  • BERT-bezogene Arbeiten: Devlin et al. (2019), Lee et al. (2020) BioBERT
  • WissensDestillation: Hinton et al. (2015), Zhou et al. (2024)
  • Klinische NLP: Henry et al. (2020) n2c2, Fleming et al. (2023) MedAlign
  • Medizinische Ontologien: Bodenreider (2004) UMLS, Liu et al. (2005) RxNorm

Diese Forschung bietet eine praktische und effiziente Lösung für das Gebiet der klinischen Informationsextraktion. Durch WissensDestillationstechniken wird erfolgreich ein Gleichgewicht zwischen Modellleistung und Bereitstellungskosten erreicht, was bedeutenden praktischen Wert und Ausbreitungspotenzial hat.