2025-11-23T03:49:16.478723

Does Biomedical Training Lead to Better Medical Performance?

Dada, Bauer, Contreras et al.
Large Language Models (LLMs) are expected to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs aim to address healthcare-specific challenges, including privacy demands and computational constraints. Assessing the models' suitability for this sensitive application area is of the utmost importance. However, biomedical training has not been systematically evaluated on medical tasks. This study investigates the effect of biomedical training in the context of six practical medical tasks evaluating $25$ models. In contrast to previous evaluations, our results reveal a performance decline in nine out of twelve biomedical models after fine-tuning, particularly on tasks involving hallucinations, ICD10 coding, and instruction adherence. General-domain models like Meta-Llama-3.1-70B-Instruct outperformed their biomedical counterparts, indicating a trade-off between domain-specific fine-tuning and general medical task performance. We open-source all evaluation scripts and datasets at https://github.com/TIO-IKIM/CLUE to support further research in this critical area.
academic

Führt biomedizinisches Training zu besserer medizinischer Leistung?

Grundinformationen

  • Paper-ID: 2404.04067
  • Titel: Does Biomedical Training Lead to Better Medical Performance?
  • Autoren: Amin Dada, Osman Alperen Koraş, Marie Bauer, Jean-Philippe Corbeil, Amanda Butler Contreras, Constantin Marc Seibold, Kaleb E Smith, Julian Friedrich, Jens Kleesiek
  • Klassifizierung: cs.CL cs.AI cs.LG
  • Veröffentlichungsdatum/Konferenz: arXiv preprint (eingereicht April 2024, aktualisiert Oktober 2025)
  • Paper-Link: https://arxiv.org/abs/2404.04067v5

Zusammenfassung

Große Sprachmodelle (LLMs) haben enormes Potenzial in medizinischen Anwendungen, und biomedizinisch adaptierte Modelle versprechen bessere Leistungen bei medizinischen Aufgaben. Die Wirksamkeit biomedizinischer Domänenadaption bei klinischen Aufgaben bleibt jedoch unsicher. Diese Studie führt einen direkten Vergleich von 12 biomedizinisch adaptierten Modellen und ihren allgemeinen Basismodellen bei sechs klinischen Aufgaben durch. Die Ergebnisse zeigen, dass 11 von 12 biomedizinischen Modellen eine Leistungsverschlechterung aufweisen, was frühere Berichte über positive Effekte biomedizinischer Adaption in Frage stellt. Bemerkenswert ist, dass frühere positive Ergebnisse hauptsächlich auf Multiple-Choice-Bewertungen beruhten, die möglicherweise nicht die Leistung in realen klinischen Anwendungen widerspiegeln.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernfrage dieser Studie lautet: Verbessert spezialisiertes Training im biomedizinischen Bereich wirklich die Leistung großer Sprachmodelle bei praktischen klinischen Aufgaben?

Bedeutung

  1. Praktische Anwendungsanforderungen: LLMs im Gesundheitswesen haben enormes Potenzial zur Verbesserung der Patientenversorgungsqualität und -effizienz
  2. Ressourcenüberlegungen: Die Entwicklung biomedizinischer LLMs erfordert erhebliche Rechenressourcen und spezialisierte Daten
  3. Sicherheitsaspekte: Medizinische Anwendungen stellen extreme Anforderungen an Modellgenauigkeit und Zuverlässigkeit

Einschränkungen bestehender Methoden

  1. Bewertungsmethodische Einschränkungen: Frühere Studien stützten sich hauptsächlich auf Multiple-Choice-Fragen (MCQA), ohne echte klinische Dokumente zu testen
  2. Inkonsistente Schlussfolgerungen: Neuere Forschung beginnt, die Wirksamkeit biomedizinischer Domänenadaption in Frage zu stellen
  3. Fehlende systematische Vergleiche: Es fehlen direkte systematische Vergleiche mehrerer biomedizinischer Modelle mit ihren Basismodellen

Forschungsmotivation

Die Autoren möchten durch systematische Bewertung bei echten klinischen Aufgaben die wahren Effekte biomedizinischen Trainings offenlegen und objektive Grundlagen für die Entwicklung dieses Bereichs schaffen.

Kernbeiträge

  1. Systematisches Bewertungsframework: Entwicklung des CLUE-Frameworks (Clinical Language Understanding Evaluation) mit 6 praktischen klinischen Aufgaben
  2. Großflächiger Modellvergleich: Bewertung von 24 Sprachmodellen, einschließlich 12 biomedizinischer Modelle und ihrer Basismodelle
  3. Bahnbrechende Erkenntnisse: Entdeckung, dass 11 von 12 biomedizinischen Modellen bei klinischen Aufgaben schlechter abschneiden, was konventionelle Annahmen in Frage stellt
  4. Open-Source-Beitrag: Veröffentlichung der vollständigen Bewertungs-Pipeline zur Förderung reproduzierbarer Forschung
  5. Tiefgehende Fehleranalyse: Identifikation von Hauptproblemen biomedizinischer Modelle: Halluzinationen, verminderte Befehlsausführungsfähigkeit usw.

Methodische Details

Aufgabendefinition

Das CLUE-Bewertungsframework umfasst 6 klinische Aufgaben, unterteilt in zwei Schwierigkeitsstufen:

Stufe 1 (einfache Aufgaben, kurze Eingaben):

  • MedNLI: Natürlichsprachliches Schlussfolgern basierend auf MIMIC-III-Kliniktexten
  • MeQSum: Zusammenfassung von Verbrauchersundheitsfragen
  • Problem Summary: Extraktion von Patientenproblemen aus SOAP-strukturierten Kliniktexten

Stufe 2 (komplexe Aufgaben, lange Eingaben):

  • LongHealth: Langdokument-Verständnis und Frage-Beantwortung
  • MeDiSumQA: Entlassungszusammenfassung Frage-Beantwortung und Vereinfachung
  • MeDiSumCode: ICD-10-Kodierungsvorhersage

Modellarchitektur

Die bewerteten biomedizinischen Modelle umfassen:

  • Meditron-Serie (7B/70B): Kontinuierliches Pretraining basierend auf Llama-2
  • BioMistral-Serie: Training basierend auf Mistral-7B
  • OpenBioLLM-Serie (8B/70B): Training basierend auf Llama-3 mit SFT+DPO
  • Med42-Serie (8B/70B): Training basierend auf Llama-3
  • Weitere Modelle: Internist.ai, Aloe, Meditron3 usw.

Technische Innovationen

  1. Bewertung echter klinischer Aufgaben: Im Gegensatz zu traditionellem MCQA werden echte Kliniktexte und Aufgaben verwendet
  2. Mehrdimensionale Metriken: Kombination von ROUGE, BERTScore, UMLS-Entitäts-F1 und anderen Indikatoren
  3. Systematischer Vergleich: Jedes biomedizinische Modell wird direkt mit seinem Basismodell verglichen
  4. Fehlermustern-Analyse: Tiefgehende Analyse spezifischer Fehlertypen wie Halluzinationen und Wiederholungsschleifen

Experimentelles Setup

Datensätze

  • MedNLI: 1.425 Proben basierend auf MIMIC-III-Kliniktexten
  • MeQSum: 1.000 Verbrauchersundheitsfragen
  • Problem Summary: 237 SOAP-strukturierte Kliniktexte
  • LongHealth: 400 Langdokument-Frage-Beantwortungen (durchschnittlich 5.537 Wörter)
  • MeDiSumQA: 453 Entlassungszusammenfassungs-Frage-Beantwortungen
  • MeDiSumCode: 500 ICD-10-Kodierungsaufgaben

Bewertungsmetriken

  • Textgenerierungsaufgaben: ROUGE-1/2/L, BERTScore, UMLS-Entitäts-F1
  • Klassifizierungsaufgaben: Genauigkeit, F1-Score
  • Kodierungsaufgaben: Exakte Übereinstimmung, ungefähre Übereinstimmung, gültiger Code-Anteil

Vergleichsmethoden

  • 12 biomedizinische Modelle mit ihren entsprechenden Basismodellen
  • Zusätzliche allgemeine Domänenmodelle als Referenzbenchmarks

Implementierungsdetails

  • Rechenressourcen: NVIDIA DGX A100 640GB-Knoten, ca. 1.536 GPU-Stunden
  • Prompt-Strategie: Stufe 1 verwendet 3-Shot, Stufe 2 verwendet 1-Shot (außer LongHealth)
  • Modellkonfiguration: Verwendung von Hugging Face Standard-Instruktionsvorlagen

Experimentelle Ergebnisse

Hauptergebnisse

ModellkategorieDurchschnittliche Leistungsänderung Stufe 1Durchschnittliche Leistungsänderung Stufe 2Gesamttrend
Meditron-7B-7,08-Rückgang
Meditron-70B-4,59-Rückgang
BioMistral-7B+0,26+0,71Leichte Verbesserung
BioMistral-7B-DARE+2,93+2,70Verbesserung
OpenBioLLM-8B-15,17-13,54Signifikanter Rückgang
Med42-8B+2,51-1,40Gemischt

Schlüsselergebnisse:

  1. Nur BioMistral-7B-DARE übertrifft das Basismodell konsistent bei allen Aufgaben
  2. 11 von 12 Modellen zeigen Leistungsrückgang bei mindestens einer Aufgabe
  3. 4 Modelle zeigen Leistungsrückgang bei allen Aufgaben

Ablationsstudien

Auswirkungen der Aufgabenkomplexität:

  • Stufe-1-Aufgaben: Einige Modelle zeigen leichte Verbesserungen
  • Stufe-2-Aufgaben: Die meisten Modelle zeigen signifikante Rückgänge

Auswirkungen der Modellgröße:

  • 8B-Parameter-Modelle: Leichter Verbesserungen zu erzielen
  • 70B-Parameter-Modelle: Nach dem Training leichter Leistungsrückgang

Fallstudien

Fehlermustern-Beispiele:

  1. Halluzinationsprobleme: In LongHealth-Aufgabe 3 fällt Llama3-OpenBioLLM-8B von 56,25 Punkten des Basismodells auf 1,55 Punkte
  2. Wiederholungsschleifen: Biomedizinische Modelle verfallen häufig in Token-Wiederholungen und erzeugen inkohärente Ausgaben
  3. ICD-10-Kodierungsfehler: Modelle neigen dazu, Zahlen zu inkrementieren statt gültige Codes vorherzusagen

Experimentelle Erkenntnisse

  1. Unterschiede zur MCQA-Bewertung: Traditionelle Multiple-Choice-Bewertungen zeigen positive Effekte, aber echte klinische Aufgaben zeigen Leistungsrückgang
  2. Bedeutung der Basismodellqualität: Neuere allgemeine Modelle (wie Llama-3) sind wichtiger als biomedizinische Adaption
  3. Verminderte Befehlsausführungsfähigkeit: Biomedizinisches Training beeinträchtigt die Befehlsausführungsfähigkeit des Modells

Verwandte Arbeiten

Entwicklung biomedizinischer LLMs

  • Kommerzielle Modelle: Med-PaLM, MedGemini
  • Open-Source-Modelle: Meditron, Biomistral, Internist.ai, Med42

Kritische Stimmen

Neuere Forschung beginnt, die Wirksamkeit biomedizinischer Adaption in Frage zu stellen:

  • Jeong et al. (2024): Keine signifikanten Vorteile biomedizinischer LLMs gefunden
  • Ceballos-Arroyo et al. (2024): Domänenadaption kann Befehlsausführung beeinträchtigen

Positionierung dieses Papers

Dieses Paper liefert durch systematische Bewertung echter klinischer Aufgaben empirische Evidenz für diese Kontroverse.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Biomedizinisches Training ist nicht immer vorteilhaft: Die meisten biomedizinischen Modelle zeigen Leistungsrückgang bei praktischen klinischen Aufgaben
  2. Wettbewerbsfähigkeit allgemeiner Modelle: Allgemeine Modelle wie Meta-Llama-3.1-70B zeigen die beste Leistung
  3. Bedeutung von Bewertungsmethoden: MCQA-Bewertung kann irreführend sein, echte Aufgabenbewertung ist wichtiger
  4. Potenzial der Gewichtsverschmelzung: Der Erfolg von BioMistral-DARE deutet auf vielversprechende Richtungen bei der Gewichtsverschmelzung hin

Einschränkungen

  1. Rechenressourcen-Einschränkungen: Verschiedene Temperatureinstellungen und Chain-of-Thought-Prompting wurden nicht untersucht
  2. Datenverschmutzungsrisiko: Die Verwendung öffentlicher Datensätze kann Datenverschmutzung nicht vollständig vermeiden
  3. Unterschiede in der klinischen Umgebung: Bewertung wurde nicht in echten klinischen Umgebungen durchgeführt
  4. Unzureichende Sicherheitsbewertung: Prospektive klinische Studien zur Sicherheitsvalidierung erforderlich

Zukünftige Richtungen

  1. Verbesserte Trainingsmethoden: Erforschung besserer Domänenadaptationsstrategien
  2. Datenqualitätsverbesserung: Verwendung hochwertiger Trainingsdaten
  3. Gewichtsverschmelzungstechniken: Weitere Erforschung von Gewichtsverschmelzungsmethoden
  4. Klinische Studienvalidierung: Tests in echten klinischen Umgebungen

Tiefgehende Bewertung

Stärken

  1. Strenge Forschungsgestaltung: Systematischer Vergleich von 12 biomedizinischen Modellen mit Basismodellen
  2. Praktische Aufgabengestaltung: Verwendung echter Kliniktexte und Aufgaben, näher an praktischen Anwendungen
  3. Bahnbrechende Erkenntnisse: Herausforderung für Mainstream-Ansichten in der Branche
  4. Hoher Open-Source-Beitragswert: Vollständiges Bewertungsframework fördert nachfolgende Forschung
  5. Tiefgehende Fehleranalyse: Detaillierte Analyse spezifischer Probleme wie Halluzinationen und Wiederholungen

Schwächen

  1. Begrenzte Stichprobengröße: Einige Aufgaben haben relativ kleine Stichprobengrößen (z.B. Problem Summary mit nur 237 Proben)
  2. Begrenzte Bewertungsreichweite: Konzentriert sich hauptsächlich auf Englisch und spezifische Arten klinischer Aufgaben
  3. Fehlende theoretische Analyse: Mangelnde tiefgehende theoretische Erklärung, warum biomedizinisches Training zu Leistungsrückgang führt
  4. Unzureichende Trainingsdetails: Begrenzte Beschreibung der spezifischen Trainingsprozesse verschiedener biomedizinischer Modelle

Auswirkungen

  1. Akademischer Wert: Wichtige Reflexion für biomedizinische LLM-Forschung
  2. Praktische Orientierung: Hilft Praktikern, rationale Modellwahl zu treffen
  3. Methodologischer Beitrag: CLUE-Bewertungsframework kann weit verbreitet angewendet werden
  4. Ressourcenoptimierung: Vermeidung blinder Investitionen in biomedizinische Modellentwicklung

Anwendungsszenarien

  1. Modellwahlentscheidungen: Auswahl geeigneter Basismodelle für medizinische KI-Anwendungen
  2. Forschungsrichtungsleitung: Neue Perspektiven für biomedizinische LLM-Forschung
  3. Bewertungsstandard-Festlegung: Strengere Standards für medizinische KI-Bewertung
  4. Investitionsentscheidungsreferenz: Grundlagen für verwandte Investitionen und Ressourcenallokation

Literaturverzeichnis

  1. Chen, Z. et al. (2023). MEDITRON-70B: Scaling Medical Pretraining for Large Language Models.
  2. Labrak, Y. et al. (2024). BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains.
  3. Jeong, D. P. et al. (2024). Medical adaptation of large language and vision-language models: Are we making progress?
  4. Ceballos-Arroyo, A. M. et al. (2024). Open (clinical) LLMs are sensitive to instruction phrasings.

Zusammenfassung: Dieses Paper offenbart durch strenge experimentelle Gestaltung die Einschränkungen biomedizinischen Trainings bei praktischen klinischen Aufgaben und bietet wichtige Reflexionen für diesen Bereich. Obwohl die Schlussfolgerungen überraschend sein mögen, machen die methodologische Strenge und die Bedeutung der Erkenntnisse es zu einem wichtigen Beitrag im Bereich der medizinischen KI. Die Forschung erinnert uns daran, dass wir die Auswirkungen spezialisierter Trainings kritischer bewerten und den Wert allgemeiner Modelle in medizinischen Anwendungen schätzen müssen.