Large Language Models (LLMs) are expected to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs aim to address healthcare-specific challenges, including privacy demands and computational constraints. Assessing the models' suitability for this sensitive application area is of the utmost importance. However, biomedical training has not been systematically evaluated on medical tasks. This study investigates the effect of biomedical training in the context of six practical medical tasks evaluating $25$ models. In contrast to previous evaluations, our results reveal a performance decline in nine out of twelve biomedical models after fine-tuning, particularly on tasks involving hallucinations, ICD10 coding, and instruction adherence. General-domain models like Meta-Llama-3.1-70B-Instruct outperformed their biomedical counterparts, indicating a trade-off between domain-specific fine-tuning and general medical task performance. We open-source all evaluation scripts and datasets at https://github.com/TIO-IKIM/CLUE to support further research in this critical area.
- Paper-ID: 2404.04067
- Titel: Does Biomedical Training Lead to Better Medical Performance?
- Autoren: Amin Dada, Osman Alperen Koraş, Marie Bauer, Jean-Philippe Corbeil, Amanda Butler Contreras, Constantin Marc Seibold, Kaleb E Smith, Julian Friedrich, Jens Kleesiek
- Klassifizierung: cs.CL cs.AI cs.LG
- Veröffentlichungsdatum/Konferenz: arXiv preprint (eingereicht April 2024, aktualisiert Oktober 2025)
- Paper-Link: https://arxiv.org/abs/2404.04067v5
Große Sprachmodelle (LLMs) haben enormes Potenzial in medizinischen Anwendungen, und biomedizinisch adaptierte Modelle versprechen bessere Leistungen bei medizinischen Aufgaben. Die Wirksamkeit biomedizinischer Domänenadaption bei klinischen Aufgaben bleibt jedoch unsicher. Diese Studie führt einen direkten Vergleich von 12 biomedizinisch adaptierten Modellen und ihren allgemeinen Basismodellen bei sechs klinischen Aufgaben durch. Die Ergebnisse zeigen, dass 11 von 12 biomedizinischen Modellen eine Leistungsverschlechterung aufweisen, was frühere Berichte über positive Effekte biomedizinischer Adaption in Frage stellt. Bemerkenswert ist, dass frühere positive Ergebnisse hauptsächlich auf Multiple-Choice-Bewertungen beruhten, die möglicherweise nicht die Leistung in realen klinischen Anwendungen widerspiegeln.
Die Kernfrage dieser Studie lautet: Verbessert spezialisiertes Training im biomedizinischen Bereich wirklich die Leistung großer Sprachmodelle bei praktischen klinischen Aufgaben?
- Praktische Anwendungsanforderungen: LLMs im Gesundheitswesen haben enormes Potenzial zur Verbesserung der Patientenversorgungsqualität und -effizienz
- Ressourcenüberlegungen: Die Entwicklung biomedizinischer LLMs erfordert erhebliche Rechenressourcen und spezialisierte Daten
- Sicherheitsaspekte: Medizinische Anwendungen stellen extreme Anforderungen an Modellgenauigkeit und Zuverlässigkeit
- Bewertungsmethodische Einschränkungen: Frühere Studien stützten sich hauptsächlich auf Multiple-Choice-Fragen (MCQA), ohne echte klinische Dokumente zu testen
- Inkonsistente Schlussfolgerungen: Neuere Forschung beginnt, die Wirksamkeit biomedizinischer Domänenadaption in Frage zu stellen
- Fehlende systematische Vergleiche: Es fehlen direkte systematische Vergleiche mehrerer biomedizinischer Modelle mit ihren Basismodellen
Die Autoren möchten durch systematische Bewertung bei echten klinischen Aufgaben die wahren Effekte biomedizinischen Trainings offenlegen und objektive Grundlagen für die Entwicklung dieses Bereichs schaffen.
- Systematisches Bewertungsframework: Entwicklung des CLUE-Frameworks (Clinical Language Understanding Evaluation) mit 6 praktischen klinischen Aufgaben
- Großflächiger Modellvergleich: Bewertung von 24 Sprachmodellen, einschließlich 12 biomedizinischer Modelle und ihrer Basismodelle
- Bahnbrechende Erkenntnisse: Entdeckung, dass 11 von 12 biomedizinischen Modellen bei klinischen Aufgaben schlechter abschneiden, was konventionelle Annahmen in Frage stellt
- Open-Source-Beitrag: Veröffentlichung der vollständigen Bewertungs-Pipeline zur Förderung reproduzierbarer Forschung
- Tiefgehende Fehleranalyse: Identifikation von Hauptproblemen biomedizinischer Modelle: Halluzinationen, verminderte Befehlsausführungsfähigkeit usw.
Das CLUE-Bewertungsframework umfasst 6 klinische Aufgaben, unterteilt in zwei Schwierigkeitsstufen:
Stufe 1 (einfache Aufgaben, kurze Eingaben):
- MedNLI: Natürlichsprachliches Schlussfolgern basierend auf MIMIC-III-Kliniktexten
- MeQSum: Zusammenfassung von Verbrauchersundheitsfragen
- Problem Summary: Extraktion von Patientenproblemen aus SOAP-strukturierten Kliniktexten
Stufe 2 (komplexe Aufgaben, lange Eingaben):
- LongHealth: Langdokument-Verständnis und Frage-Beantwortung
- MeDiSumQA: Entlassungszusammenfassung Frage-Beantwortung und Vereinfachung
- MeDiSumCode: ICD-10-Kodierungsvorhersage
Die bewerteten biomedizinischen Modelle umfassen:
- Meditron-Serie (7B/70B): Kontinuierliches Pretraining basierend auf Llama-2
- BioMistral-Serie: Training basierend auf Mistral-7B
- OpenBioLLM-Serie (8B/70B): Training basierend auf Llama-3 mit SFT+DPO
- Med42-Serie (8B/70B): Training basierend auf Llama-3
- Weitere Modelle: Internist.ai, Aloe, Meditron3 usw.
- Bewertung echter klinischer Aufgaben: Im Gegensatz zu traditionellem MCQA werden echte Kliniktexte und Aufgaben verwendet
- Mehrdimensionale Metriken: Kombination von ROUGE, BERTScore, UMLS-Entitäts-F1 und anderen Indikatoren
- Systematischer Vergleich: Jedes biomedizinische Modell wird direkt mit seinem Basismodell verglichen
- Fehlermustern-Analyse: Tiefgehende Analyse spezifischer Fehlertypen wie Halluzinationen und Wiederholungsschleifen
- MedNLI: 1.425 Proben basierend auf MIMIC-III-Kliniktexten
- MeQSum: 1.000 Verbrauchersundheitsfragen
- Problem Summary: 237 SOAP-strukturierte Kliniktexte
- LongHealth: 400 Langdokument-Frage-Beantwortungen (durchschnittlich 5.537 Wörter)
- MeDiSumQA: 453 Entlassungszusammenfassungs-Frage-Beantwortungen
- MeDiSumCode: 500 ICD-10-Kodierungsaufgaben
- Textgenerierungsaufgaben: ROUGE-1/2/L, BERTScore, UMLS-Entitäts-F1
- Klassifizierungsaufgaben: Genauigkeit, F1-Score
- Kodierungsaufgaben: Exakte Übereinstimmung, ungefähre Übereinstimmung, gültiger Code-Anteil
- 12 biomedizinische Modelle mit ihren entsprechenden Basismodellen
- Zusätzliche allgemeine Domänenmodelle als Referenzbenchmarks
- Rechenressourcen: NVIDIA DGX A100 640GB-Knoten, ca. 1.536 GPU-Stunden
- Prompt-Strategie: Stufe 1 verwendet 3-Shot, Stufe 2 verwendet 1-Shot (außer LongHealth)
- Modellkonfiguration: Verwendung von Hugging Face Standard-Instruktionsvorlagen
| Modellkategorie | Durchschnittliche Leistungsänderung Stufe 1 | Durchschnittliche Leistungsänderung Stufe 2 | Gesamttrend |
|---|
| Meditron-7B | -7,08 | - | Rückgang |
| Meditron-70B | -4,59 | - | Rückgang |
| BioMistral-7B | +0,26 | +0,71 | Leichte Verbesserung |
| BioMistral-7B-DARE | +2,93 | +2,70 | Verbesserung |
| OpenBioLLM-8B | -15,17 | -13,54 | Signifikanter Rückgang |
| Med42-8B | +2,51 | -1,40 | Gemischt |
Schlüsselergebnisse:
- Nur BioMistral-7B-DARE übertrifft das Basismodell konsistent bei allen Aufgaben
- 11 von 12 Modellen zeigen Leistungsrückgang bei mindestens einer Aufgabe
- 4 Modelle zeigen Leistungsrückgang bei allen Aufgaben
Auswirkungen der Aufgabenkomplexität:
- Stufe-1-Aufgaben: Einige Modelle zeigen leichte Verbesserungen
- Stufe-2-Aufgaben: Die meisten Modelle zeigen signifikante Rückgänge
Auswirkungen der Modellgröße:
- 8B-Parameter-Modelle: Leichter Verbesserungen zu erzielen
- 70B-Parameter-Modelle: Nach dem Training leichter Leistungsrückgang
Fehlermustern-Beispiele:
- Halluzinationsprobleme: In LongHealth-Aufgabe 3 fällt Llama3-OpenBioLLM-8B von 56,25 Punkten des Basismodells auf 1,55 Punkte
- Wiederholungsschleifen: Biomedizinische Modelle verfallen häufig in Token-Wiederholungen und erzeugen inkohärente Ausgaben
- ICD-10-Kodierungsfehler: Modelle neigen dazu, Zahlen zu inkrementieren statt gültige Codes vorherzusagen
- Unterschiede zur MCQA-Bewertung: Traditionelle Multiple-Choice-Bewertungen zeigen positive Effekte, aber echte klinische Aufgaben zeigen Leistungsrückgang
- Bedeutung der Basismodellqualität: Neuere allgemeine Modelle (wie Llama-3) sind wichtiger als biomedizinische Adaption
- Verminderte Befehlsausführungsfähigkeit: Biomedizinisches Training beeinträchtigt die Befehlsausführungsfähigkeit des Modells
- Kommerzielle Modelle: Med-PaLM, MedGemini
- Open-Source-Modelle: Meditron, Biomistral, Internist.ai, Med42
Neuere Forschung beginnt, die Wirksamkeit biomedizinischer Adaption in Frage zu stellen:
- Jeong et al. (2024): Keine signifikanten Vorteile biomedizinischer LLMs gefunden
- Ceballos-Arroyo et al. (2024): Domänenadaption kann Befehlsausführung beeinträchtigen
Dieses Paper liefert durch systematische Bewertung echter klinischer Aufgaben empirische Evidenz für diese Kontroverse.
- Biomedizinisches Training ist nicht immer vorteilhaft: Die meisten biomedizinischen Modelle zeigen Leistungsrückgang bei praktischen klinischen Aufgaben
- Wettbewerbsfähigkeit allgemeiner Modelle: Allgemeine Modelle wie Meta-Llama-3.1-70B zeigen die beste Leistung
- Bedeutung von Bewertungsmethoden: MCQA-Bewertung kann irreführend sein, echte Aufgabenbewertung ist wichtiger
- Potenzial der Gewichtsverschmelzung: Der Erfolg von BioMistral-DARE deutet auf vielversprechende Richtungen bei der Gewichtsverschmelzung hin
- Rechenressourcen-Einschränkungen: Verschiedene Temperatureinstellungen und Chain-of-Thought-Prompting wurden nicht untersucht
- Datenverschmutzungsrisiko: Die Verwendung öffentlicher Datensätze kann Datenverschmutzung nicht vollständig vermeiden
- Unterschiede in der klinischen Umgebung: Bewertung wurde nicht in echten klinischen Umgebungen durchgeführt
- Unzureichende Sicherheitsbewertung: Prospektive klinische Studien zur Sicherheitsvalidierung erforderlich
- Verbesserte Trainingsmethoden: Erforschung besserer Domänenadaptationsstrategien
- Datenqualitätsverbesserung: Verwendung hochwertiger Trainingsdaten
- Gewichtsverschmelzungstechniken: Weitere Erforschung von Gewichtsverschmelzungsmethoden
- Klinische Studienvalidierung: Tests in echten klinischen Umgebungen
- Strenge Forschungsgestaltung: Systematischer Vergleich von 12 biomedizinischen Modellen mit Basismodellen
- Praktische Aufgabengestaltung: Verwendung echter Kliniktexte und Aufgaben, näher an praktischen Anwendungen
- Bahnbrechende Erkenntnisse: Herausforderung für Mainstream-Ansichten in der Branche
- Hoher Open-Source-Beitragswert: Vollständiges Bewertungsframework fördert nachfolgende Forschung
- Tiefgehende Fehleranalyse: Detaillierte Analyse spezifischer Probleme wie Halluzinationen und Wiederholungen
- Begrenzte Stichprobengröße: Einige Aufgaben haben relativ kleine Stichprobengrößen (z.B. Problem Summary mit nur 237 Proben)
- Begrenzte Bewertungsreichweite: Konzentriert sich hauptsächlich auf Englisch und spezifische Arten klinischer Aufgaben
- Fehlende theoretische Analyse: Mangelnde tiefgehende theoretische Erklärung, warum biomedizinisches Training zu Leistungsrückgang führt
- Unzureichende Trainingsdetails: Begrenzte Beschreibung der spezifischen Trainingsprozesse verschiedener biomedizinischer Modelle
- Akademischer Wert: Wichtige Reflexion für biomedizinische LLM-Forschung
- Praktische Orientierung: Hilft Praktikern, rationale Modellwahl zu treffen
- Methodologischer Beitrag: CLUE-Bewertungsframework kann weit verbreitet angewendet werden
- Ressourcenoptimierung: Vermeidung blinder Investitionen in biomedizinische Modellentwicklung
- Modellwahlentscheidungen: Auswahl geeigneter Basismodelle für medizinische KI-Anwendungen
- Forschungsrichtungsleitung: Neue Perspektiven für biomedizinische LLM-Forschung
- Bewertungsstandard-Festlegung: Strengere Standards für medizinische KI-Bewertung
- Investitionsentscheidungsreferenz: Grundlagen für verwandte Investitionen und Ressourcenallokation
- Chen, Z. et al. (2023). MEDITRON-70B: Scaling Medical Pretraining for Large Language Models.
- Labrak, Y. et al. (2024). BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains.
- Jeong, D. P. et al. (2024). Medical adaptation of large language and vision-language models: Are we making progress?
- Ceballos-Arroyo, A. M. et al. (2024). Open (clinical) LLMs are sensitive to instruction phrasings.
Zusammenfassung: Dieses Paper offenbart durch strenge experimentelle Gestaltung die Einschränkungen biomedizinischen Trainings bei praktischen klinischen Aufgaben und bietet wichtige Reflexionen für diesen Bereich. Obwohl die Schlussfolgerungen überraschend sein mögen, machen die methodologische Strenge und die Bedeutung der Erkenntnisse es zu einem wichtigen Beitrag im Bereich der medizinischen KI. Die Forschung erinnert uns daran, dass wir die Auswirkungen spezialisierter Trainings kritischer bewerten und den Wert allgemeiner Modelle in medizinischen Anwendungen schätzen müssen.