2025-11-12T02:07:28.338293

Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis

Mazor, Hope

Retrieving relevant visual and textual information from medical literature and hospital records can enhance diagnostic accuracy for clinical image interpretation. We develop a multimodal retrieval model jointly optimized with an LVLM for medical diagnosis, unlike standard RAG which doesn't backpropagate LVLM errors to the retriever. Using only general-purpose backbones with lightweight fine-tuning, our model achieves competitive results with medically-pretrained models on clinical classification and VQA tasks. In a novel analysis, we find that different top-retrieved images often yield different predictions for the same target, and that these cases are challenging for all models, even for non-retrieval models. Our joint retrieval optimization significantly improves these cases over standard RAG. However, oracle analysis reveals that while the correct diagnosis is frequently achievable using one of the top retrieved images, in practice there is a large performance gap from the oracle, and rerankers using frontier LVLMs do not close this gap -- leaving ample room for improvement by future methods. Code available at https://github.com/Nirmaz/JOMED.

academic

Ottimizzazione Congiunta Leggera di Modelli Vision-Language Generici e Retriever per Diagnosi Medica Basata su RAG

Informazioni Fondamentali

ID Articolo: 2508.17394
Titolo: Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis
Autori: Nir Mazor, Tom Hope (The Hebrew University of Jerusalem & The Allen Institute for AI)
Categoria: cs.CV
Data di Pubblicazione: 11 ottobre 2025 (arXiv v3)
Link Articolo: https://arxiv.org/abs/2508.17394v3

Riassunto

Questo articolo sviluppa un modello di recupero multimodale ottimizzato congiuntamente con un grande modello vision-language (LVLM) per la diagnosi medica. A differenza del RAG standard, questo approccio retropropaga gli errori dell'LVLM al retriever. Utilizzando solo backbone generici e fine-tuning leggero, il modello raggiunge risultati competitivi con modelli pre-addestrati medici su compiti di classificazione clinica e visual question answering. La ricerca rivela che diverse immagini di recupero top-ranking tendono a produrre predizioni diverse per lo stesso target, e questi casi sono impegnativi per tutti i modelli. L'ottimizzazione congiunta del recupero migliora significativamente questi casi, ma l'analisi oracle mostra ancora ampio spazio per miglioramenti.

Contesto di Ricerca e Motivazione

Definizione del Problema

La diagnosi di immagini mediche è una fase fondamentale del processo decisionale clinico, e i grandi modelli vision-language (LVLM) sono stati ampiamente esplorati nella diagnosi medica. Per migliorare le prestazioni degli LVLM nel dominio medico, la generazione aumentata da recupero (RAG) è stata adottata e ha mostrato risultati promettenti.

Motivazione della Ricerca

Limitazioni del RAG standard: Nei metodi RAG tradizionali, il retriever e l'LVLM sono ottimizzati indipendentemente, senza retropropagare gli errori dell'LVLM al retriever
Intensità di risorse del pre-addestramento medico: Il processo di pre-addestramento nel dominio medico consuma enormi risorse, richiedendo l'esplorazione di alternative leggere
Problema di incoerenza del recupero: Diversi candidati di recupero possono portare a predizioni diverse per la stessa query, influenzando l'affidabilità del modello

Limitazioni dei Metodi Esistenti

Nel setup RAG multimodale tradizionale, retriever e LVLM vengono addestrati separatamente
È necessario il pre-addestramento su larga scala nel dominio medico per ottenere prestazioni competitive
Manca un'analisi sistematica del problema di incoerenza del recupero

Contributi Principali

Framework di Ottimizzazione Congiunta: Propone il metodo JOMED, che ottimizza congiuntamente il retriever multimodale e l'LVLM per compiti di classificazione medica e visual question answering
Strategia di Fine-tuning Leggero: Utilizza solo backbone generici, senza pre-addestramento medico, raggiungendo prestazioni competitive attraverso fine-tuning leggero
Ottimizzazione Diretta su Compiti a Valle: A differenza dell'ottimizzazione congiunta precedente che richiedeva pre-addestramento, ottimizza direttamente sui compiti a valle
Analisi dell'Incoerenza del Recupero: Identifica e analizza il problema delle "predizioni di recupero incoerenti", proponendo soluzioni efficaci

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un'immagine medica e una domanda diagnostica, il sistema deve recuperare informazioni visive e testuali rilevanti dalla letteratura medica e dai registri ospedalieri, quindi generare una risposta diagnostica accurata basata sulle informazioni recuperate e l'immagine della query.

Architettura del Modello

Framework Generale

JOMED contiene due componenti principali:

Retriever Multimodale: Con architettura a doppia testa, includendo testa di recupero testuale e testa di recupero di immagini
Reader (Lettore): Grande modello vision-language, responsabile dell'analisi dei candidati recuperati e della generazione di risposte

Strategia di Addestramento

Adotta addestramento sequenziale in due fasi:

Fase 1: Fine-tuning del Reader Aumentato da Recupero

Obiettivo: Migliorare le prestazioni del reader sul dataset, insegnare al reader a utilizzare efficacemente le coppie (immagine, testo) recuperate
Funzione di perdita: Perdita di log-verosimiglianza negativa

L(θ) = -∑∑ log p_θ(a_d | z_k ◦ q_d)

Fase 2: Fine-tuning Sequenziale del Retriever Multimodale

Mantiene il reader congelato, ottimizza lo spazio di embedding del retriever
Utilizza la minimizzazione della divergenza KL tra la distribuzione posteriore dell'LVLM e la distribuzione del retriever

Punti di Innovazione Tecnica

1. Architettura Retriever a Doppia Testa

Testa di Recupero Testuale: Recupera coppie (immagine, testo) rilevanti basate sulla similarità testuale
Testa di Recupero di Immagini: Recupera coppie rilevanti basate sulla similarità visiva

2. Perdita di Recupero Personalizzata

Per domande aperte, utilizza il modello o3 per convertirle in domande chiuse, migliorando l'efficacia dell'addestramento:

KL(p_LVLM^C || p_RETR) = ∑ p_LVLM^C(z_k) log(p_LVLM^C(z_k) / p_RETR(z_k))

3. Strategia di Fusione al Momento dell'Inferenza

La probabilità di output finale è una fusione ponderata dei candidati recuperati:

p_LVLM(a|q) = ∑ p_LVLM(a|z_k ◦ q) · p_R(z_k|q)

Configurazione Sperimentale

Dataset

Compiti di Classificazione

BreastMNIST: Imaging ecografico mammario, classificazione binaria (546 campioni di addestramento)
DermaMNIST: Lesioni cutanee pigmentate, multi-classe (7.007 campioni di addestramento)
RetinaMNIST: Immagini del fondo retinico, multi-classe (1.080 campioni di addestramento)
VinDr-PCXR: Radiografia toracica pediatrica, multi-etichetta 15 classi (7.728 campioni di addestramento)
BRSET: Dataset oftalmologico brasiliano, multi-etichetta 14 classi (11.386 campioni di addestramento)

Compiti di Visual Question Answering

VQA-RAD: VQA radiologico (1.753 domande di addestramento)
SLAKE-English: Sottoinsieme inglese di VQA medico bilingue (4.920 domande di addestramento)
PathVQA: VQA patologico (19.700 domande di addestramento)

Indice di Recupero

Costruisce indici esterni da PMC-OA, MIMIC-CXR e ROCO, contenenti immagini mediche e didascalie/report corrispondenti.

Metriche di Valutazione

Compiti di Classificazione: Accuratezza (ACC) e punteggio F1 macro
Compiti VQA: Corrispondenza esatta per domande chiuse, token recall per domande aperte

Metodi di Confronto

Baseline RAG: MMed-RAG, RAD, RAG standard con fine-tuning
Modelli Pre-addestrati Medici: BiomedGPT, varianti LLaVA-Med, MedVInT, varianti InternVL
Backbone Generici: Pixtral (12B), Qwen2-VL (7B)

Risultati Sperimentali

Risultati Principali

Prestazioni su Compiti di Classificazione

Su cinque benchmark di classificazione medica, JOMED supera costantemente tutti i metodi di confronto:

Modello	Breast	Derma	Retina	VinDr-PCXR	BRSET	Media
MMed-RAG	85%/84%	75%/30%	63%/46%	55%/11%	42%/30%	64%/40%
FT RAG (Qwen2-VL)	85%/82%	71%/42%	62%/48%	55%/9%	48%/27%	64%/42%
JOMED (Qwen2-VL)	87%/84%	76%/50%	65%/50%	57%/14%	49%/37%	67%/47%
JOMED (Pixtral)	90%/87%	80%/62%	60%/51%	56%/14%	51%/37%	67%/50%

Prestazioni su Compiti VQA

Risultati altrettanto significativi su compiti di visual question answering:

Modello	VQA-RAD	SLAKE	PathVQA	Media
MMed-RAG	74%/39%	87%/81%	90%/31%	84%/50%
JOMED (Qwen2-VL)	79%/48%	90%/84%	93%/38%	87%/57%
JOMED (Pixtral)	76%/45%	90%/84%	90%/36%	85%/55%

Confronto con Modelli Pre-addestrati Medici

JOMED raggiunge prestazioni competitive con modelli pre-addestrati medici su larga scala senza pre-addestramento medico:

Dataset Breast: JOMED (Pixtral) 90% vs GSCo 93%
Dataset Derma: JOMED (Pixtral) 80% vs MedVInT-TD 80%
Compiti VQA: Corrisponde o supera le varianti LLaVA-Med su SLAKE e PathVQA

Esperimenti di Ablazione

Verifica la necessità di ogni componente:

Testa di Recupero Testuale: Miglioramento di 2-3 punti percentuali rispetto a FT RAG
Testa di Recupero di Immagini: Ulteriore miglioramento di 1-2 punti percentuali
Perdita di Recupero Personalizzata: Superiore alla perdita di distillazione della perplessità standard

Analisi delle Predizioni di Recupero Incoerenti

Identificazione del Problema

Scopre il fenomeno delle "predizioni di recupero incoerenti": per la stessa immagine di query, diversi candidati di recupero portano a predizioni diverse. Questi casi rappresentano il 3%-93% in diversi dataset.

Miglioramento delle Prestazioni

JOMED raggiunge miglioramenti significativi nei casi di predizioni incoerenti:

Qwen2-VL: Miglioramento accuratezza +12%, miglioramento F1 +13%
Pixtral: Miglioramento accuratezza e F1 +9%

Analisi Oracle

L'analisi oracle mostra che la risposta corretta è spesso presente tra le immagini di recupero top-ranking, ma le prestazioni effettive mostrano un divario significativo rispetto all'oracle, lasciando spazio per miglioramenti futuri.

Lavori Correlati

Ottimizzazione Congiunta Aumentata da Recupero

ATLAS: Ottimizzazione congiunta su pre-addestramento su larga scala nel dominio generale
REVEAL: Estensione al setting multimodale, richiede ampio pre-addestramento
Questo articolo esplora per la prima volta l'ottimizzazione congiunta diretta su compiti a valle nel dominio medico

Recupero Aumentato Multimodale Medico

RAD: Metodo di classificazione basato su recupero
MMed-RAG: Framework RAG multimodale, utilizza retriever pre-addestrato medico
Serie PMC-VQA: Metodi di instruction tuning visivo medico

Conclusioni e Discussione

Conclusioni Principali

Ottimizzazione Congiunta Leggera Efficace: Raggiunge prestazioni competitive senza pre-addestramento medico
Incoerenza del Recupero Ubiquitaria: È un problema importante ma trascurato
Ottimizzazione Diretta a Valle Fattibile: Dimostra la fattibilità dell'ottimizzazione congiunta efficiente in termini di dati

Limitazioni

Ottimizzazione Sequenziale Anziché End-to-End: I gradienti non possono fluire simultaneamente tra retriever e reader
Ambito di Valutazione Limitato: Si concentra principalmente su classificazione e VQA, non valuta la generazione di report
Copertura Modale Incompleta: Non valutato su modalità specializzate come PET, microscopia, OCT

Direzioni Future

Ottimizzazione Congiunta End-to-End: Sviluppare strategie di addestramento veramente end-to-end
Metodi di Reranking Migliori: Ridurre il divario con le prestazioni oracle
Estensione a Più Compiti: Esplorare applicazioni in generazione di report e altri compiti

Valutazione Approfondita

Punti di Forza

Forte Innovazione Metodologica: Prima ottimizzazione congiunta leggera diretta su compiti a valle nel dominio medico
Progettazione Sperimentale Completa: Copre più dataset, diversi tipi di compiti, confronti esaustivi
Analisi Approfondita: Identifica e analizza sistematicamente il problema dell'incoerenza del recupero
Alto Valore Pratico: Evita il processo di pre-addestramento medico ad alta intensità di risorse

Carenze

Analisi Teorica Insufficiente: Manca spiegazione teorica del perché l'ottimizzazione congiunta sia efficace
Limitazioni dell'Addestramento Sequenziale: Non è vera ottimizzazione end-to-end
Divario Oracle Significativo: Divario evidente tra prestazioni effettive e limite teorico

Impatto

Contributo Accademico: Fornisce nuovo paradigma di addestramento leggero per AI medico
Valore Pratico: Riduce la soglia di distribuzione per sistemi AI medici
Riproducibilità: Fornisce codice completo e dettagli sperimentali

Scenari Applicabili

Distribuzione di sistemi di diagnosi AI in strutture mediche con risorse limitate
Scenari che richiedono rapido adattamento alla distribuzione dati di specifici centri medici
Sviluppo rapido di prototipi nella ricerca su AI medico

Bibliografia

L'articolo cita ampi lavori correlati, inclusi:

Lavori classici sulla generazione aumentata da recupero (ATLAS, REVEAL, ecc.)
Modelli vision-language medici (LLaVA-Med, BiomedGPT, ecc.)
Metodi di recupero multimodale (PMC-CLIP, BiomedCLIP, ecc.)

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un metodo innovativo di ottimizzazione congiunta leggera nel dominio dell'AI medico. I contributi tecnici dell'articolo sono chiari, la progettazione sperimentale è rigorosa, l'analisi è approfondita e fornisce soluzioni di valore per l'applicazione pratica dell'AI medico. In particolare, la scoperta e l'analisi del problema dell'incoerenza del recupero indicano importanti direzioni per la ricerca futura.