2025-11-23T03:49:16.478723

Does Biomedical Training Lead to Better Medical Performance?

Dada, Bauer, Contreras et al.

Large Language Models (LLMs) are expected to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs aim to address healthcare-specific challenges, including privacy demands and computational constraints. Assessing the models' suitability for this sensitive application area is of the utmost importance. However, biomedical training has not been systematically evaluated on medical tasks. This study investigates the effect of biomedical training in the context of six practical medical tasks evaluating $25$ models. In contrast to previous evaluations, our results reveal a performance decline in nine out of twelve biomedical models after fine-tuning, particularly on tasks involving hallucinations, ICD10 coding, and instruction adherence. General-domain models like Meta-Llama-3.1-70B-Instruct outperformed their biomedical counterparts, indicating a trade-off between domain-specific fine-tuning and general medical task performance. We open-source all evaluation scripts and datasets at https://github.com/TIO-IKIM/CLUE to support further research in this critical area.

academic

Führt biomedizinisches Training zu besserer medizinischer Leistung?

Grundinformationen

Paper-ID: 2404.04067
Titel: Does Biomedical Training Lead to Better Medical Performance?
Autoren: Amin Dada, Osman Alperen Koraş, Marie Bauer, Jean-Philippe Corbeil, Amanda Butler Contreras, Constantin Marc Seibold, Kaleb E Smith, Julian Friedrich, Jens Kleesiek
Klassifizierung: cs.CL cs.AI cs.LG
Veröffentlichungsdatum/Konferenz: arXiv preprint (eingereicht April 2024, aktualisiert Oktober 2025)
Paper-Link: https://arxiv.org/abs/2404.04067v5

Zusammenfassung

Große Sprachmodelle (LLMs) haben enormes Potenzial in medizinischen Anwendungen, und biomedizinisch adaptierte Modelle versprechen bessere Leistungen bei medizinischen Aufgaben. Die Wirksamkeit biomedizinischer Domänenadaption bei klinischen Aufgaben bleibt jedoch unsicher. Diese Studie führt einen direkten Vergleich von 12 biomedizinisch adaptierten Modellen und ihren allgemeinen Basismodellen bei sechs klinischen Aufgaben durch. Die Ergebnisse zeigen, dass 11 von 12 biomedizinischen Modellen eine Leistungsverschlechterung aufweisen, was frühere Berichte über positive Effekte biomedizinischer Adaption in Frage stellt. Bemerkenswert ist, dass frühere positive Ergebnisse hauptsächlich auf Multiple-Choice-Bewertungen beruhten, die möglicherweise nicht die Leistung in realen klinischen Anwendungen widerspiegeln.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernfrage dieser Studie lautet: Verbessert spezialisiertes Training im biomedizinischen Bereich wirklich die Leistung großer Sprachmodelle bei praktischen klinischen Aufgaben?

Bedeutung

Praktische Anwendungsanforderungen: LLMs im Gesundheitswesen haben enormes Potenzial zur Verbesserung der Patientenversorgungsqualität und -effizienz
Ressourcenüberlegungen: Die Entwicklung biomedizinischer LLMs erfordert erhebliche Rechenressourcen und spezialisierte Daten
Sicherheitsaspekte: Medizinische Anwendungen stellen extreme Anforderungen an Modellgenauigkeit und Zuverlässigkeit

Einschränkungen bestehender Methoden

Bewertungsmethodische Einschränkungen: Frühere Studien stützten sich hauptsächlich auf Multiple-Choice-Fragen (MCQA), ohne echte klinische Dokumente zu testen
Inkonsistente Schlussfolgerungen: Neuere Forschung beginnt, die Wirksamkeit biomedizinischer Domänenadaption in Frage zu stellen
Fehlende systematische Vergleiche: Es fehlen direkte systematische Vergleiche mehrerer biomedizinischer Modelle mit ihren Basismodellen

Forschungsmotivation

Die Autoren möchten durch systematische Bewertung bei echten klinischen Aufgaben die wahren Effekte biomedizinischen Trainings offenlegen und objektive Grundlagen für die Entwicklung dieses Bereichs schaffen.

Kernbeiträge

Systematisches Bewertungsframework: Entwicklung des CLUE-Frameworks (Clinical Language Understanding Evaluation) mit 6 praktischen klinischen Aufgaben
Großflächiger Modellvergleich: Bewertung von 24 Sprachmodellen, einschließlich 12 biomedizinischer Modelle und ihrer Basismodelle
Bahnbrechende Erkenntnisse: Entdeckung, dass 11 von 12 biomedizinischen Modellen bei klinischen Aufgaben schlechter abschneiden, was konventionelle Annahmen in Frage stellt
Open-Source-Beitrag: Veröffentlichung der vollständigen Bewertungs-Pipeline zur Förderung reproduzierbarer Forschung
Tiefgehende Fehleranalyse: Identifikation von Hauptproblemen biomedizinischer Modelle: Halluzinationen, verminderte Befehlsausführungsfähigkeit usw.

Methodische Details

Aufgabendefinition

Das CLUE-Bewertungsframework umfasst 6 klinische Aufgaben, unterteilt in zwei Schwierigkeitsstufen:

Stufe 1 (einfache Aufgaben, kurze Eingaben):

MedNLI: Natürlichsprachliches Schlussfolgern basierend auf MIMIC-III-Kliniktexten
MeQSum: Zusammenfassung von Verbrauchersundheitsfragen
Problem Summary: Extraktion von Patientenproblemen aus SOAP-strukturierten Kliniktexten

Stufe 2 (komplexe Aufgaben, lange Eingaben):

LongHealth: Langdokument-Verständnis und Frage-Beantwortung
MeDiSumQA: Entlassungszusammenfassung Frage-Beantwortung und Vereinfachung
MeDiSumCode: ICD-10-Kodierungsvorhersage

Modellarchitektur

Die bewerteten biomedizinischen Modelle umfassen:

Meditron-Serie (7B/70B): Kontinuierliches Pretraining basierend auf Llama-2
BioMistral-Serie: Training basierend auf Mistral-7B
OpenBioLLM-Serie (8B/70B): Training basierend auf Llama-3 mit SFT+DPO
Med42-Serie (8B/70B): Training basierend auf Llama-3
Weitere Modelle: Internist.ai, Aloe, Meditron3 usw.

Technische Innovationen

Bewertung echter klinischer Aufgaben: Im Gegensatz zu traditionellem MCQA werden echte Kliniktexte und Aufgaben verwendet
Mehrdimensionale Metriken: Kombination von ROUGE, BERTScore, UMLS-Entitäts-F1 und anderen Indikatoren
Systematischer Vergleich: Jedes biomedizinische Modell wird direkt mit seinem Basismodell verglichen
Fehlermustern-Analyse: Tiefgehende Analyse spezifischer Fehlertypen wie Halluzinationen und Wiederholungsschleifen

Experimentelles Setup

Datensätze

MedNLI: 1.425 Proben basierend auf MIMIC-III-Kliniktexten
MeQSum: 1.000 Verbrauchersundheitsfragen
Problem Summary: 237 SOAP-strukturierte Kliniktexte
LongHealth: 400 Langdokument-Frage-Beantwortungen (durchschnittlich 5.537 Wörter)
MeDiSumQA: 453 Entlassungszusammenfassungs-Frage-Beantwortungen
MeDiSumCode: 500 ICD-10-Kodierungsaufgaben

Bewertungsmetriken

Textgenerierungsaufgaben: ROUGE-1/2/L, BERTScore, UMLS-Entitäts-F1
Klassifizierungsaufgaben: Genauigkeit, F1-Score
Kodierungsaufgaben: Exakte Übereinstimmung, ungefähre Übereinstimmung, gültiger Code-Anteil

Vergleichsmethoden

12 biomedizinische Modelle mit ihren entsprechenden Basismodellen
Zusätzliche allgemeine Domänenmodelle als Referenzbenchmarks

Implementierungsdetails

Rechenressourcen: NVIDIA DGX A100 640GB-Knoten, ca. 1.536 GPU-Stunden
Prompt-Strategie: Stufe 1 verwendet 3-Shot, Stufe 2 verwendet 1-Shot (außer LongHealth)
Modellkonfiguration: Verwendung von Hugging Face Standard-Instruktionsvorlagen

Experimentelle Ergebnisse

Hauptergebnisse

Modellkategorie	Durchschnittliche Leistungsänderung Stufe 1	Durchschnittliche Leistungsänderung Stufe 2	Gesamttrend
Meditron-7B	-7,08	-	Rückgang
Meditron-70B	-4,59	-	Rückgang
BioMistral-7B	+0,26	+0,71	Leichte Verbesserung
BioMistral-7B-DARE	+2,93	+2,70	Verbesserung
OpenBioLLM-8B	-15,17	-13,54	Signifikanter Rückgang
Med42-8B	+2,51	-1,40	Gemischt

Schlüsselergebnisse:

Nur BioMistral-7B-DARE übertrifft das Basismodell konsistent bei allen Aufgaben
11 von 12 Modellen zeigen Leistungsrückgang bei mindestens einer Aufgabe
4 Modelle zeigen Leistungsrückgang bei allen Aufgaben

Ablationsstudien

Auswirkungen der Aufgabenkomplexität:

Stufe-1-Aufgaben: Einige Modelle zeigen leichte Verbesserungen
Stufe-2-Aufgaben: Die meisten Modelle zeigen signifikante Rückgänge

Auswirkungen der Modellgröße:

8B-Parameter-Modelle: Leichter Verbesserungen zu erzielen
70B-Parameter-Modelle: Nach dem Training leichter Leistungsrückgang

Fallstudien

Fehlermustern-Beispiele:

Halluzinationsprobleme: In LongHealth-Aufgabe 3 fällt Llama3-OpenBioLLM-8B von 56,25 Punkten des Basismodells auf 1,55 Punkte
Wiederholungsschleifen: Biomedizinische Modelle verfallen häufig in Token-Wiederholungen und erzeugen inkohärente Ausgaben
ICD-10-Kodierungsfehler: Modelle neigen dazu, Zahlen zu inkrementieren statt gültige Codes vorherzusagen

Experimentelle Erkenntnisse

Unterschiede zur MCQA-Bewertung: Traditionelle Multiple-Choice-Bewertungen zeigen positive Effekte, aber echte klinische Aufgaben zeigen Leistungsrückgang
Bedeutung der Basismodellqualität: Neuere allgemeine Modelle (wie Llama-3) sind wichtiger als biomedizinische Adaption
Verminderte Befehlsausführungsfähigkeit: Biomedizinisches Training beeinträchtigt die Befehlsausführungsfähigkeit des Modells

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Biomedizinisches Training ist nicht immer vorteilhaft: Die meisten biomedizinischen Modelle zeigen Leistungsrückgang bei praktischen klinischen Aufgaben
Wettbewerbsfähigkeit allgemeiner Modelle: Allgemeine Modelle wie Meta-Llama-3.1-70B zeigen die beste Leistung
Bedeutung von Bewertungsmethoden: MCQA-Bewertung kann irreführend sein, echte Aufgabenbewertung ist wichtiger
Potenzial der Gewichtsverschmelzung: Der Erfolg von BioMistral-DARE deutet auf vielversprechende Richtungen bei der Gewichtsverschmelzung hin

Einschränkungen

Rechenressourcen-Einschränkungen: Verschiedene Temperatureinstellungen und Chain-of-Thought-Prompting wurden nicht untersucht
Datenverschmutzungsrisiko: Die Verwendung öffentlicher Datensätze kann Datenverschmutzung nicht vollständig vermeiden
Unterschiede in der klinischen Umgebung: Bewertung wurde nicht in echten klinischen Umgebungen durchgeführt
Unzureichende Sicherheitsbewertung: Prospektive klinische Studien zur Sicherheitsvalidierung erforderlich

Zukünftige Richtungen

Verbesserte Trainingsmethoden: Erforschung besserer Domänenadaptationsstrategien
Datenqualitätsverbesserung: Verwendung hochwertiger Trainingsdaten
Gewichtsverschmelzungstechniken: Weitere Erforschung von Gewichtsverschmelzungsmethoden
Klinische Studienvalidierung: Tests in echten klinischen Umgebungen

Tiefgehende Bewertung

Stärken

Strenge Forschungsgestaltung: Systematischer Vergleich von 12 biomedizinischen Modellen mit Basismodellen
Praktische Aufgabengestaltung: Verwendung echter Kliniktexte und Aufgaben, näher an praktischen Anwendungen
Bahnbrechende Erkenntnisse: Herausforderung für Mainstream-Ansichten in der Branche
Hoher Open-Source-Beitragswert: Vollständiges Bewertungsframework fördert nachfolgende Forschung
Tiefgehende Fehleranalyse: Detaillierte Analyse spezifischer Probleme wie Halluzinationen und Wiederholungen

Schwächen

Begrenzte Stichprobengröße: Einige Aufgaben haben relativ kleine Stichprobengrößen (z.B. Problem Summary mit nur 237 Proben)
Begrenzte Bewertungsreichweite: Konzentriert sich hauptsächlich auf Englisch und spezifische Arten klinischer Aufgaben
Fehlende theoretische Analyse: Mangelnde tiefgehende theoretische Erklärung, warum biomedizinisches Training zu Leistungsrückgang führt
Unzureichende Trainingsdetails: Begrenzte Beschreibung der spezifischen Trainingsprozesse verschiedener biomedizinischer Modelle

Auswirkungen

Akademischer Wert: Wichtige Reflexion für biomedizinische LLM-Forschung
Praktische Orientierung: Hilft Praktikern, rationale Modellwahl zu treffen
Methodologischer Beitrag: CLUE-Bewertungsframework kann weit verbreitet angewendet werden
Ressourcenoptimierung: Vermeidung blinder Investitionen in biomedizinische Modellentwicklung

Anwendungsszenarien

Modellwahlentscheidungen: Auswahl geeigneter Basismodelle für medizinische KI-Anwendungen
Forschungsrichtungsleitung: Neue Perspektiven für biomedizinische LLM-Forschung
Bewertungsstandard-Festlegung: Strengere Standards für medizinische KI-Bewertung
Investitionsentscheidungsreferenz: Grundlagen für verwandte Investitionen und Ressourcenallokation

Literaturverzeichnis

Chen, Z. et al. (2023). MEDITRON-70B: Scaling Medical Pretraining for Large Language Models.
Labrak, Y. et al. (2024). BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains.
Jeong, D. P. et al. (2024). Medical adaptation of large language and vision-language models: Are we making progress?
Ceballos-Arroyo, A. M. et al. (2024). Open (clinical) LLMs are sensitive to instruction phrasings.

Zusammenfassung: Dieses Paper offenbart durch strenge experimentelle Gestaltung die Einschränkungen biomedizinischen Trainings bei praktischen klinischen Aufgaben und bietet wichtige Reflexionen für diesen Bereich. Obwohl die Schlussfolgerungen überraschend sein mögen, machen die methodologische Strenge und die Bedeutung der Erkenntnisse es zu einem wichtigen Beitrag im Bereich der medizinischen KI. Die Forschung erinnert uns daran, dass wir die Auswirkungen spezialisierter Trainings kritischer bewerten und den Wert allgemeiner Modelle in medizinischen Anwendungen schätzen müssen.