Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis
Mazor, Hope
Retrieving relevant visual and textual information from medical literature and hospital records can enhance diagnostic accuracy for clinical image interpretation. We develop a multimodal retrieval model jointly optimized with an LVLM for medical diagnosis, unlike standard RAG which doesn't backpropagate LVLM errors to the retriever. Using only general-purpose backbones with lightweight fine-tuning, our model achieves competitive results with medically-pretrained models on clinical classification and VQA tasks. In a novel analysis, we find that different top-retrieved images often yield different predictions for the same target, and that these cases are challenging for all models, even for non-retrieval models. Our joint retrieval optimization significantly improves these cases over standard RAG. However, oracle analysis reveals that while the correct diagnosis is frequently achievable using one of the top retrieved images, in practice there is a large performance gap from the oracle, and rerankers using frontier LVLMs do not close this gap -- leaving ample room for improvement by future methods. Code available at https://github.com/Nirmaz/JOMED.
academic
Ottimizzazione Congiunta Leggera di Modelli Vision-Language Generici e Retriever per Diagnosi Medica Basata su RAG
Questo articolo sviluppa un modello di recupero multimodale ottimizzato congiuntamente con un grande modello vision-language (LVLM) per la diagnosi medica. A differenza del RAG standard, questo approccio retropropaga gli errori dell'LVLM al retriever. Utilizzando solo backbone generici e fine-tuning leggero, il modello raggiunge risultati competitivi con modelli pre-addestrati medici su compiti di classificazione clinica e visual question answering. La ricerca rivela che diverse immagini di recupero top-ranking tendono a produrre predizioni diverse per lo stesso target, e questi casi sono impegnativi per tutti i modelli. L'ottimizzazione congiunta del recupero migliora significativamente questi casi, ma l'analisi oracle mostra ancora ampio spazio per miglioramenti.
La diagnosi di immagini mediche è una fase fondamentale del processo decisionale clinico, e i grandi modelli vision-language (LVLM) sono stati ampiamente esplorati nella diagnosi medica. Per migliorare le prestazioni degli LVLM nel dominio medico, la generazione aumentata da recupero (RAG) è stata adottata e ha mostrato risultati promettenti.
Limitazioni del RAG standard: Nei metodi RAG tradizionali, il retriever e l'LVLM sono ottimizzati indipendentemente, senza retropropagare gli errori dell'LVLM al retriever
Intensità di risorse del pre-addestramento medico: Il processo di pre-addestramento nel dominio medico consuma enormi risorse, richiedendo l'esplorazione di alternative leggere
Problema di incoerenza del recupero: Diversi candidati di recupero possono portare a predizioni diverse per la stessa query, influenzando l'affidabilità del modello
Framework di Ottimizzazione Congiunta: Propone il metodo JOMED, che ottimizza congiuntamente il retriever multimodale e l'LVLM per compiti di classificazione medica e visual question answering
Strategia di Fine-tuning Leggero: Utilizza solo backbone generici, senza pre-addestramento medico, raggiungendo prestazioni competitive attraverso fine-tuning leggero
Ottimizzazione Diretta su Compiti a Valle: A differenza dell'ottimizzazione congiunta precedente che richiedeva pre-addestramento, ottimizza direttamente sui compiti a valle
Analisi dell'Incoerenza del Recupero: Identifica e analizza il problema delle "predizioni di recupero incoerenti", proponendo soluzioni efficaci
Dato un'immagine medica e una domanda diagnostica, il sistema deve recuperare informazioni visive e testuali rilevanti dalla letteratura medica e dai registri ospedalieri, quindi generare una risposta diagnostica accurata basata sulle informazioni recuperate e l'immagine della query.
Scopre il fenomeno delle "predizioni di recupero incoerenti": per la stessa immagine di query, diversi candidati di recupero portano a predizioni diverse. Questi casi rappresentano il 3%-93% in diversi dataset.
L'analisi oracle mostra che la risposta corretta è spesso presente tra le immagini di recupero top-ranking, ma le prestazioni effettive mostrano un divario significativo rispetto all'oracle, lasciando spazio per miglioramenti futuri.
Lavori classici sulla generazione aumentata da recupero (ATLAS, REVEAL, ecc.)
Modelli vision-language medici (LLaVA-Med, BiomedGPT, ecc.)
Metodi di recupero multimodale (PMC-CLIP, BiomedCLIP, ecc.)
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un metodo innovativo di ottimizzazione congiunta leggera nel dominio dell'AI medico. I contributi tecnici dell'articolo sono chiari, la progettazione sperimentale è rigorosa, l'analisi è approfondita e fornisce soluzioni di valore per l'applicazione pratica dell'AI medico. In particolare, la scoperta e l'analisi del problema dell'incoerenza del recupero indicano importanti direzioni per la ricerca futura.