2025-11-23T03:49:16.478723

Does Biomedical Training Lead to Better Medical Performance?

Dada, Bauer, Contreras et al.
Large Language Models (LLMs) are expected to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs aim to address healthcare-specific challenges, including privacy demands and computational constraints. Assessing the models' suitability for this sensitive application area is of the utmost importance. However, biomedical training has not been systematically evaluated on medical tasks. This study investigates the effect of biomedical training in the context of six practical medical tasks evaluating $25$ models. In contrast to previous evaluations, our results reveal a performance decline in nine out of twelve biomedical models after fine-tuning, particularly on tasks involving hallucinations, ICD10 coding, and instruction adherence. General-domain models like Meta-Llama-3.1-70B-Instruct outperformed their biomedical counterparts, indicating a trade-off between domain-specific fine-tuning and general medical task performance. We open-source all evaluation scripts and datasets at https://github.com/TIO-IKIM/CLUE to support further research in this critical area.
academic

L'Addestramento Biomedico Porta a Migliori Prestazioni Mediche?

Informazioni Fondamentali

  • ID Articolo: 2404.04067
  • Titolo: Does Biomedical Training Lead to Better Medical Performance?
  • Autori: Amin Dada, Osman Alperen Koraş, Marie Bauer, Jean-Philippe Corbeil, Amanda Butler Contreras, Constantin Marc Seibold, Kaleb E Smith, Julian Friedrich, Jens Kleesiek
  • Classificazione: cs.CL cs.AI cs.LG
  • Data di Pubblicazione/Conferenza: arXiv preprint (sottomesso ad aprile 2024, aggiornato ad ottobre 2025)
  • Link Articolo: https://arxiv.org/abs/2404.04067v5

Riassunto

I modelli linguistici di grandi dimensioni (LLM) hanno un enorme potenziale nelle applicazioni sanitarie, e i modelli adattati al dominio biomedico promettono prestazioni migliori nei compiti medici. Tuttavia, l'efficacia dell'adattamento del dominio biomedico nei compiti clinici rimane incerta. Questo studio conduce un confronto diretto tra 12 modelli adattati al dominio biomedico e i loro modelli di base di dominio generale su sei compiti clinici. I risultati mostrano che 11 dei 12 modelli biomedici presentano un calo delle prestazioni, il che contraddice i risultati precedenti che riportavano effetti positivi dell'adattamento biomedico. È notevole che i risultati positivi precedenti si basavano principalmente su valutazioni a scelta multipla, che potrebbero non riflettere le prestazioni nelle applicazioni cliniche del mondo reale.

Contesto di Ricerca e Motivazione

Definizione del Problema

La questione centrale affrontata da questo studio è: L'addestramento specializzato nel dominio biomedico migliora veramente le prestazioni dei modelli linguistici di grandi dimensioni nei compiti clinici effettivi?

Importanza

  1. Esigenze di Applicazione Pratica: Gli LLM nell'assistenza sanitaria hanno un enorme potenziale per migliorare la qualità e l'efficienza dell'assistenza ai pazienti
  2. Considerazioni di Investimento di Risorse: Lo sviluppo di LLM biomedici richiede notevoli risorse computazionali e dati specializzati
  3. Considerazioni di Sicurezza: Le applicazioni mediche richiedono standard estremamente elevati di accuratezza e affidabilità del modello

Limitazioni dei Metodi Esistenti

  1. Limitazioni dei Metodi di Valutazione: La ricerca precedente si basava principalmente su valutazioni a scelta multipla (MCQA), mancando di test su documenti clinici reali
  2. Conclusioni Incoerenti: Ricerche recenti hanno iniziato a mettere in discussione l'efficacia dell'adattamento del dominio biomedico
  3. Mancanza di Confronto Sistematico: Assenza di confronti sistematici diretti tra più modelli biomedici e i loro modelli di base

Motivazione della Ricerca

Gli autori mirano a rivelare gli effetti reali dell'addestramento biomedico attraverso una valutazione sistematica su compiti clinici effettivi, fornendo prove obiettive per lo sviluppo del settore.

Contributi Fondamentali

  1. Framework di Valutazione Sistematica: Costruzione del framework CLUE (Clinical Language Understanding Evaluation) contenente 6 compiti clinici effettivi
  2. Confronto su Larga Scala di Modelli: Valutazione di 24 modelli linguistici, inclusi 12 modelli biomedici e i loro modelli di base
  3. Scoperte Dirompenti: Scoperta che 11 su 12 modelli biomedici mostrano calo delle prestazioni nei compiti clinici, sfidando la conoscenza tradizionale
  4. Contributi Open-Source: Rilascio della pipeline di valutazione completa per promuovere la ricerca riproducibile
  5. Analisi Approfondita degli Errori: Identificazione dei principali problemi dei modelli biomedici: allucinazioni, ridotta capacità di seguire istruzioni, ecc.

Spiegazione Dettagliata del Metodo

Definizione dei Compiti

Il framework di valutazione CLUE comprende 6 compiti clinici, divisi in due livelli di difficoltà:

Livello 1 (Compiti Semplici, Input Breve):

  • MedNLI: Inferenza del linguaggio naturale basata su note cliniche MIMIC-III
  • MeQSum: Riassunto di domande sulla salute dei consumatori
  • Problem Summary: Estrazione dei problemi dei pazienti da note cliniche strutturate SOAP

Livello 2 (Compiti Complessi, Input Lungo):

  • LongHealth: Comprensione di documenti lunghi e domande-risposte
  • MeDiSumQA: Domande-risposte e semplificazione di riepiloghi di dimissione
  • MeDiSumCode: Previsione della codifica ICD-10

Architettura del Modello

I modelli biomedici valutati includono:

  • Serie Meditron (7B/70B): Pretraining continuo basato su Llama-2
  • Serie BioMistral: Addestramento basato su Mistral-7B
  • Serie OpenBioLLM (8B/70B): Addestramento basato su Llama-3 utilizzando SFT+DPO
  • Serie Med42 (8B/70B): Addestramento basato su Llama-3
  • Altri Modelli: Internist.ai, Aloe, Meditron3, ecc.

Punti di Innovazione Tecnica

  1. Valutazione su Compiti Clinici Reali: Diversamente dal tradizionale MCQA, utilizza documenti e compiti clinici reali
  2. Metriche Multidimensionali: Combinazione di ROUGE, BERTScore, F1 di entità UMLS e altre metriche
  3. Confronto Sistematico: Ogni modello biomedico viene confrontato direttamente con il suo modello di base
  4. Analisi dei Modelli di Errore: Analisi approfondita di tipi di errore specifici come allucinazioni e cicli ripetitivi

Configurazione Sperimentale

Dataset

  • MedNLI: 1.425 campioni, basati su note cliniche MIMIC-III
  • MeQSum: 1.000 domande sulla salute dei consumatori
  • Problem Summary: 237 note cliniche strutturate SOAP
  • LongHealth: 400 domande-risposte su documenti lunghi (media 5.537 parole)
  • MeDiSumQA: 453 domande-risposte su riepiloghi di dimissione
  • MeDiSumCode: 500 compiti di codifica ICD-10

Metriche di Valutazione

  • Compiti di Generazione di Testo: ROUGE-1/2/L, BERTScore, F1 di entità UMLS
  • Compiti di Classificazione: Accuratezza, punteggio F1
  • Compiti di Codifica: Corrispondenza esatta, corrispondenza approssimativa, percentuale di codice valido

Metodi di Confronto

  • 12 modelli biomedici rispetto ai loro modelli di base corrispondenti
  • Modelli di dominio generale aggiuntivi come benchmark di riferimento

Dettagli di Implementazione

  • Risorse Computazionali: Nodo NVIDIA DGX A100 640GB, circa 1536 ore GPU
  • Strategia di Prompt: 3-shot per il Livello 1, 1-shot per il Livello 2 (eccetto LongHealth)
  • Configurazione del Modello: Utilizzo dei template di istruzioni predefiniti di Hugging Face

Risultati Sperimentali

Risultati Principali

Categoria di ModelloVariazione Media Prestazioni Livello 1Variazione Media Prestazioni Livello 2Tendenza Generale
Meditron-7B-7.08-Calo
Meditron-70B-4.59-Calo
BioMistral-7B+0.26+0.71Leggero Miglioramento
BioMistral-7B-DARE+2.93+2.70Miglioramento
OpenBioLLM-8B-15.17-13.54Calo Significativo
Med42-8B+2.51-1.40Misto

Scoperte Chiave:

  1. Solo BioMistral-7B-DARE supera costantemente il modello di base su tutti i compiti
  2. 11 su 12 modelli mostrano calo delle prestazioni in almeno un compito
  3. 4 modelli mostrano calo delle prestazioni su tutti i compiti

Esperimenti di Ablazione

Impatto della Complessità del Compito:

  • Compiti Livello 1: Alcuni modelli mostrano leggeri miglioramenti
  • Compiti Livello 2: La maggior parte dei modelli mostra calo significativo

Impatto della Dimensione del Modello:

  • Modelli con 8B parametri: Più propensi a ottenere miglioramenti
  • Modelli con 70B parametri: Più propensi a mostrare calo delle prestazioni dopo l'addestramento

Analisi di Casi

Esempi di Modelli di Errore:

  1. Problema di Allucinazione: Nel compito LongHealth 3, Llama3-OpenBioLLM-8B scende da 56.25 punti del modello di base a 1.55 punti
  2. Cicli Ripetitivi: I modelli biomedici spesso rimangono intrappolati nella ripetizione di token, producendo output incoerenti
  3. Errori di Codifica ICD-10: I modelli tendono a incrementare numeri piuttosto che prevedere codici validi

Scoperte Sperimentali

  1. Differenze dalla Valutazione MCQA: La valutazione tradizionale a scelta multipla mostra effetti positivi, ma i compiti clinici effettivi mostrano calo delle prestazioni
  2. Importanza della Qualità del Modello di Base: I modelli generici più recenti (come Llama-3) sono più importanti dell'adattamento biomedico
  3. Calo della Capacità di Seguire Istruzioni: L'addestramento biomedico compromette la capacità del modello di seguire istruzioni

Lavori Correlati

Sviluppo di LLM Biomedici

  • Modelli Commerciali: Med-PaLM, MedGemini
  • Modelli Open-Source: Meditron, Biomistral, Internist.ai, Med42

Voci Critiche

Ricerche recenti hanno iniziato a mettere in discussione l'efficacia dell'adattamento biomedico:

  • Jeong et al. (2024): Scoperta che gli LLM biomedici non mostrano vantaggi evidenti
  • Ceballos-Arroyo et al. (2024): L'adattamento del dominio potrebbe compromettere il seguimento delle istruzioni

Posizionamento di questo Articolo

Questo articolo fornisce prove empiriche per questa controversia attraverso una valutazione sistematica su compiti clinici reali.

Conclusioni e Discussione

Conclusioni Principali

  1. L'Addestramento Biomedico Non è Sempre Vantaggioso: La maggior parte dei modelli biomedici mostra calo delle prestazioni nei compiti clinici effettivi
  2. Competitività dei Modelli Generici: Modelli generici come Meta-Llama-3.1-70B mostrano le migliori prestazioni
  3. Importanza del Metodo di Valutazione: La valutazione MCQA potrebbe essere fuorviante, la valutazione su compiti reali è più importante
  4. Potenziale della Fusione di Pesi: Il successo di BioMistral-DARE suggerisce che la fusione di pesi è una direzione promettente

Limitazioni

  1. Limitazioni di Risorse Computazionali: Non sono state esplorate diverse impostazioni di temperatura, tecniche di catena di pensiero, ecc.
  2. Rischio di Contaminazione dei Dati: L'uso di dataset pubblici non può evitare completamente la contaminazione dei dati
  3. Differenze nell'Ambiente Clinico: La valutazione non è stata condotta in un ambiente clinico reale
  4. Valutazione di Sicurezza Insufficiente: Sono necessarie prove cliniche prospettiche per verificare la sicurezza

Direzioni Future

  1. Miglioramento dei Metodi di Addestramento: Esplorazione di strategie di adattamento del dominio migliori
  2. Miglioramento della Qualità dei Dati: Utilizzo di dati di addestramento di alta qualità
  3. Tecniche di Fusione di Pesi: Ulteriore ricerca sui metodi di fusione di pesi
  4. Verifica Clinica: Test in ambienti clinici reali

Valutazione Approfondita

Punti di Forza

  1. Progettazione della Ricerca Rigorosa: Confronto sistematico di 12 modelli biomedici con i loro modelli di base
  2. Progettazione dei Compiti Pratica: Utilizzo di documenti e compiti clinici reali, più vicini alle applicazioni effettive
  3. Scoperte Dirompenti: Sfida alle opinioni mainstream nel settore
  4. Alto Valore dei Contributi Open-Source: Il framework di valutazione completo promuove la ricerca successiva
  5. Analisi Approfondita degli Errori: Analisi dettagliata di problemi specifici come allucinazioni e ripetizioni

Insufficienze

  1. Dimensione del Campione Limitata: Alcune attività hanno un numero di campioni relativamente piccolo (ad esempio, Problem Summary con solo 237 campioni)
  2. Ambito di Valutazione Limitato: Focalizzazione principalmente su compiti clinici in inglese e di tipo specifico
  3. Mancanza di Analisi Teorica: Mancanza di spiegazione teorica approfondita del perché l'addestramento biomedico porta al calo delle prestazioni
  4. Dettagli di Addestramento Insufficienti: Descrizione limitata del processo di addestramento specifico di ogni modello biomedico

Impatto

  1. Valore Accademico: Fornisce importanti riflessioni per la ricerca su LLM biomedici
  2. Guida Pratica: Aiuta i professionisti a scegliere modelli in modo più razionale
  3. Contributo Metodologico: Il framework di valutazione CLUE può essere ampiamente adottato
  4. Ottimizzazione delle Risorse: Evita investimenti ciechi nello sviluppo di modelli biomedici

Scenari Applicabili

  1. Decisioni di Selezione del Modello: Selezione di modelli di base appropriati per applicazioni di IA medica
  2. Guida della Direzione della Ricerca: Fornisce nuove prospettive per la ricerca su LLM biomedici
  3. Definizione di Standard di Valutazione: Stabilisce standard più rigorosi per la valutazione dell'IA medica
  4. Riferimento per Decisioni di Investimento: Fornisce basi per l'allocazione di investimenti e risorse correlate

Bibliografia

  1. Chen, Z. et al. (2023). MEDITRON-70B: Scaling Medical Pretraining for Large Language Models.
  2. Labrak, Y. et al. (2024). BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains.
  3. Jeong, D. P. et al. (2024). Medical adaptation of large language and vision-language models: Are we making progress?
  4. Ceballos-Arroyo, A. M. et al. (2024). Open (clinical) LLMs are sensitive to instruction phrasings.

Sintesi: Questo articolo rivela le limitazioni dell'addestramento biomedico nei compiti clinici effettivi attraverso una progettazione sperimentale rigorosa, fornendo importanti riflessioni per il settore. Sebbene le conclusioni possano essere sorprendenti, il rigore metodologico e l'importanza delle scoperte lo rendono un contributo significativo nel campo dell'IA medica. La ricerca ci ricorda la necessità di valutare più attentamente l'efficacia dell'addestramento specializzato e di apprezzare il valore dei modelli generici nelle applicazioni mediche.