2025-11-12T02:07:28.338293

Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis

Mazor, Hope
Retrieving relevant visual and textual information from medical literature and hospital records can enhance diagnostic accuracy for clinical image interpretation. We develop a multimodal retrieval model jointly optimized with an LVLM for medical diagnosis, unlike standard RAG which doesn't backpropagate LVLM errors to the retriever. Using only general-purpose backbones with lightweight fine-tuning, our model achieves competitive results with medically-pretrained models on clinical classification and VQA tasks. In a novel analysis, we find that different top-retrieved images often yield different predictions for the same target, and that these cases are challenging for all models, even for non-retrieval models. Our joint retrieval optimization significantly improves these cases over standard RAG. However, oracle analysis reveals that while the correct diagnosis is frequently achievable using one of the top retrieved images, in practice there is a large performance gap from the oracle, and rerankers using frontier LVLMs do not close this gap -- leaving ample room for improvement by future methods. Code available at https://github.com/Nirmaz/JOMED.
academic

Leichtgewichtige gemeinsame Optimierung von universellen Vision-Language-Modellen und Retrievern für RAG-basierte medizinische Diagnose

Grundlegende Informationen

  • Paper-ID: 2508.17394
  • Titel: Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis
  • Autoren: Nir Mazor, Tom Hope (Hebrew University of Jerusalem & Allen Institute for AI)
  • Klassifizierung: cs.CV
  • Veröffentlichungsdatum: 11. Oktober 2025 (arXiv v3)
  • Paper-Link: https://arxiv.org/abs/2508.17394v3

Zusammenfassung

In diesem Artikel wird ein multimodales Retrieval-Modell entwickelt, das gemeinsam mit großen Vision-Language-Modellen (LVLM) für medizinische Diagnose optimiert wird. Im Gegensatz zum Standard-RAG propagiert dieser Ansatz die Fehler des LVLM rückwärts zum Retriever. Unter Verwendung nur von universellen Backbone-Netzwerken und leichtgewichtiger Feinabstimmung erreicht das Modell wettbewerbsfähige Ergebnisse mit medizinisch vortrainierten Modellen bei klinischen Klassifizierungs- und Visual-Question-Answering-Aufgaben. Die Forschung zeigt, dass unterschiedliche Top-Abruf-Bilder häufig zu unterschiedlichen Vorhersagen für dasselbe Ziel führen, und diese Fälle sind für alle Modelle herausfordernd. Die gemeinsame Retriever-Optimierung verbessert diese Fälle erheblich, aber eine Oracle-Analyse zeigt, dass noch großes Verbesserungspotenzial besteht.

Forschungshintergrund und Motivation

Problemdefinition

Die medizinische Bilddiagnose ist ein grundlegender Schritt in der klinischen Entscheidungsfindung. Große Vision-Language-Modelle (LVLMs) werden in der medizinischen Diagnose weit verbreitet erforscht. Um die Leistung von LVLMs im medizinischen Bereich zu verbessern, wird Retrieval-Augmented Generation (RAG) eingesetzt und zeigt vielversprechende Ergebnisse.

Forschungsmotivation

  1. Einschränkungen von Standard-RAG: In traditionellen RAG-Methoden werden Retriever und LVLM unabhängig optimiert, ohne LVLM-Fehler zum Retriever rückwärts zu propagieren
  2. Ressourcenintensität medizinischen Vortrainings: Der Vortrainingsprozess im medizinischen Bereich ist ressourcenintensiv und erfordert die Erforschung leichtgewichtiger Alternativen
  3. Problem der Retrieval-Inkonsistenz: Unterschiedliche Retrieval-Kandidaten können zu unterschiedlichen Vorhersagen für dieselbe Anfrage führen und beeinflussen die Modellzuverlässigkeit

Einschränkungen bestehender Methoden

  • Retriever und LVLM werden in traditionellen multimodalen RAG-Einstellungen separat trainiert
  • Großflächiges medizinisches Vortraining ist erforderlich, um wettbewerbsfähige Leistung zu erzielen
  • Systematische Analyse des Retrieval-Inkonsistenz-Problems fehlt

Kernbeiträge

  1. Framework für gemeinsame Optimierung: Vorschlag der JOMED-Methode zur gemeinsamen Optimierung von multimodalen Retrievern und LVLM für medizinische Klassifizierungs- und Visual-Question-Answering-Aufgaben
  2. Leichtgewichtige Feinabstimmungsstrategie: Verwendung nur von universellen Backbone-Netzwerken ohne medizinisches Vortraining, Erreichung wettbewerbsfähiger Leistung durch leichtgewichtige Feinabstimmung
  3. Direkte Optimierung nachgelagerter Aufgaben: Im Gegensatz zu früheren Arbeiten, die Vortraining erfordern, direkte gemeinsame Optimierung bei nachgelagerten Aufgaben
  4. Analyse der Retrieval-Inkonsistenz: Identifizierung und Analyse des Problems "inkonsistente Retrieval-Vorhersagen" mit effektiven Lösungsvorschlägen

Methodische Details

Aufgabendefinition

Angesichts eines medizinischen Bildes und einer Diagnosefrage muss das System relevante visuelle und textliche Informationen aus medizinischer Literatur und Krankenhauskenntnissen abrufen und dann basierend auf den abgerufenen Informationen und dem Anfragebild eine genaue Diagnoseantwort generieren.

Modellarchitektur

Gesamtrahmen

JOMED besteht aus zwei Hauptkomponenten:

  1. Multimodaler Retriever: Mit Dual-Head-Architektur, einschließlich Text-Retrieval-Head und Bild-Retrieval-Head
  2. Reader (Leser): Großes Vision-Language-Modell, verantwortlich für die Analyse von Retrieval-Kandidaten und Generierung von Antworten

Trainingsstrategie

Verwendung von zweistufigem sequenziellem Training:

Phase 1: Reader Retrieval-verstärkte Feinabstimmung

  • Ziel: Verbesserung der Reader-Leistung auf dem Datensatz, Lehren des Readers zur effektiven Nutzung abgerufener (Bild, Text)-Paare
  • Verlustfunktion: Negative Log-Likelihood-Verlust
L(θ) = -∑∑ log p_θ(a_d | z_k ◦ q_d)

Phase 2: Sequenzielle multimodale Retriever-Feinabstimmung

  • Reader bleibt eingefroren, Optimierung des Embedding-Raums des Retrievers
  • Verwendung von KL-Divergenz zur Minimierung der Differenz zwischen LVLM-Posterior-Verteilung und Retriever-Verteilung

Technische Innovationspunkte

1. Dual-Head-Retrieval-Architektur

  • Text-Retrieval-Head: Abruf relevanter (Bild, Text)-Paare basierend auf Textähnlichkeit
  • Bild-Retrieval-Head: Abruf relevanter Paare basierend auf visueller Ähnlichkeit

2. Angepasste Retrieval-Verlustfunktion

Für offene Fragen wird das o3-Modell verwendet, um diese in geschlossene Fragen umzuwandeln und die Trainingseffektivität zu verbessern:

KL(p_LVLM^C || p_RETR) = ∑ p_LVLM^C(z_k) log(p_LVLM^C(z_k) / p_RETR(z_k))

3. Fusionsstrategie zur Inferenzzeit

Die endgültige Ausgabewahrscheinlichkeit ist eine gewichtete Fusion von Retrieval-Kandidaten:

p_LVLM(a|q) = ∑ p_LVLM(a|z_k ◦ q) · p_R(z_k|q)

Experimentelle Einrichtung

Datensätze

Klassifizierungsaufgaben

  • BreastMNIST: Brustultraschallbildgebung, binäre Klassifizierung (546 Trainingsmuster)
  • DermaMNIST: Pigmentierte Hautläsionen, Mehrklassen-Klassifizierung (7.007 Trainingsmuster)
  • RetinaMNIST: Retinale Fundusbilder, Mehrklassen-Klassifizierung (1.080 Trainingsmuster)
  • VinDr-PCXR: Pädiatrische Brustkorbröntgenaufnahmen, Multi-Label 15 Klassen (7.728 Trainingsmuster)
  • BRSET: Brasilianischer Augenheilkunde-Datensatz, Multi-Label 14 Klassen (11.386 Trainingsmuster)

Visual-Question-Answering-Aufgaben

  • VQA-RAD: Radiologie-VQA (1.753 Trainingsfragen)
  • SLAKE-English: Zweisprachige medizinische VQA, englische Teilmenge (4.920 Trainingsfragen)
  • PathVQA: Pathologie-VQA (19.700 Trainingsfragen)

Retrieval-Index

Konstruktion eines externen Index aus PMC-OA, MIMIC-CXR und ROCO, enthaltend medizinische Bilder und entsprechende Bildunterschriften/Berichte.

Bewertungsmetriken

  • Klassifizierungsaufgaben: Genauigkeit (ACC) und Makro-F1-Score
  • VQA-Aufgaben: Geschlossene Fragen verwenden exakte Übereinstimmung, offene Fragen verwenden Token-Recall

Vergleichsmethoden

  • RAG-Baselines: MMed-RAG, RAD, Standard-Feinabstimmungs-RAG
  • Medizinisch vortrainierte Modelle: BiomedGPT, LLaVA-Med-Varianten, MedVInT, InternVL-Varianten
  • Universelle Backbones: Pixtral (12B), Qwen2-VL (7B)

Experimentelle Ergebnisse

Hauptergebnisse

Klassifizierungsaufgaben-Leistung

Bei fünf medizinischen Klassifizierungs-Benchmarks übertrifft JOMED konsistent alle Vergleichsmethoden:

ModellBreastDermaRetinaVinDr-PCXRBRSETDurchschnitt
MMed-RAG85%/84%75%/30%63%/46%55%/11%42%/30%64%/40%
FT RAG (Qwen2-VL)85%/82%71%/42%62%/48%55%/9%48%/27%64%/42%
JOMED (Qwen2-VL)87%/84%76%/50%65%/50%57%/14%49%/37%67%/47%
JOMED (Pixtral)90%/87%80%/62%60%/51%56%/14%51%/37%67%/50%

VQA-Aufgaben-Leistung

Bei Visual-Question-Answering-Aufgaben werden ebenfalls signifikante Verbesserungen erzielt:

ModellVQA-RADSLAKEPathVQADurchschnitt
MMed-RAG74%/39%87%/81%90%/31%84%/50%
JOMED (Qwen2-VL)79%/48%90%/84%93%/38%87%/57%
JOMED (Pixtral)76%/45%90%/84%90%/36%85%/55%

Vergleich mit medizinisch vortrainierten Modellen

JOMED erreicht ohne medizinisches Vortraining wettbewerbsfähige Leistung mit großflächig medizinisch vortrainierten Modellen:

  • Breast-Datensatz: JOMED (Pixtral) 90% vs. GSCo 93%
  • Derma-Datensatz: JOMED (Pixtral) 80% vs. MedVInT-TD 80%
  • VQA-Aufgaben: Entspricht oder übertrifft LLaVA-Med-Varianten bei SLAKE und PathVQA

Ablationsstudien

Validierung der Notwendigkeit jeder Komponente:

  1. Text-Retrieval-Head: Verbesserung von 2-3 Prozentpunkten gegenüber FT RAG
  2. Bild-Retrieval-Head: Weitere Verbesserung von 1-2 Prozentpunkten
  3. Angepasste Retrieval-Verlustfunktion: Übertrifft Standard-Perplexitäts-Destillationsverlust

Analyse der inkonsistenten Retrieval-Vorhersagen

Problemidentifikation

Das Phänomen "inkonsistente Retrieval-Vorhersagen" wurde entdeckt: Für dasselbe Anfragebild führen unterschiedliche Retrieval-Kandidaten zu unterschiedlichen Vorhersagen. Diese Fälle machen 3%-93% der Datensätze aus.

Leistungsverbesserung

JOMED erreicht signifikante Verbesserungen bei inkonsistenten Vorhersagefällen:

  • Qwen2-VL: Genauigkeitsverbesserung +12%, F1-Verbesserung +13%
  • Pixtral: Genauigkeit und F1 jeweils +9% Verbesserung

Oracle-Analyse

Die Oracle-Analyse zeigt, dass die richtige Antwort häufig in den Top-Retrieval-Bildern vorhanden ist, aber die tatsächliche Leistung weicht erheblich vom Oracle ab und hinterlässt großes Verbesserungspotenzial für zukünftige Forschung.

Verwandte Arbeiten

Gemeinsame Optimierung mit Retrieval-Verstärkung

  • ATLAS: Gemeinsame Optimierung mit großflächigem Vortraining im universellen Bereich
  • REVEAL: Erweiterung auf multimodale Einstellungen, erfordert umfangreiches Vortraining
  • Diese Arbeit erkundet erstmals direkte Optimierung nachgelagerter Aufgaben im medizinischen Bereich

Medizinische multimodale Retrieval-Verstärkung

  • RAD: Abruf-basierte Klassifizierungsmethode
  • MMed-RAG: Multimodales RAG-Framework mit medizinisch vortrainiertem Retriever
  • PMC-VQA-Serie: Medizinische visuelle Anweisungs-Tuning-Methoden

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Leichtgewichtige gemeinsame Optimierung ist effektiv: Wettbewerbsfähige Leistung ohne medizinisches Vortraining erreichbar
  2. Retrieval-Inkonsistenz ist weit verbreitet: Dies ist ein wichtiges, aber übersehenes Problem
  3. Direkte nachgelagerte Optimierung ist machbar: Beweis für die Machbarkeit dateneffizienter gemeinsamer Optimierung

Einschränkungen

  1. Sequenzielle Optimierung statt End-to-End: Gradienten können nicht gleichzeitig zwischen Retriever und Reader fließen
  2. Begrenzte Bewertungsreichweite: Fokus hauptsächlich auf Klassifizierung und VQA, Berichtsgenerierung nicht bewertet
  3. Unvollständige Modalitätsabdeckung: Nicht auf speziellen Modalitäten wie PET, Mikroskopie, OCT bewertet

Zukünftige Richtungen

  1. End-to-End-Gemeinsame Optimierung: Entwicklung echter End-to-End-Trainingsstrategien
  2. Bessere Reranking-Methoden: Verringerung der Lücke zur Oracle-Leistung
  3. Erweiterung auf mehr Aufgaben: Erkundung von Anwendungen bei Berichtsgenerierung und anderen Aufgaben

Tiefgreifende Bewertung

Stärken

  1. Starke Methodische Innovation: Erstmalige Implementierung leichtgewichtiger gemeinsamer Optimierung nachgelagerter Aufgaben im medizinischen Bereich
  2. Umfassende Experimentelle Gestaltung: Abdeckung mehrerer Datensätze, verschiedener Aufgabentypen, umfassende Vergleichsmethoden
  3. Tiefgreifende Analyse: Identifikation und systematische Analyse des Retrieval-Inkonsistenz-Problems
  4. Hoher praktischer Wert: Vermeidung ressourcenintensiver medizinischer Vortrainingsprozesse

Mängel

  1. Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum gemeinsame Optimierung effektiv ist
  2. Einschränkungen des sequenziellen Trainings: Nicht echte End-to-End-Optimierung
  3. Große Oracle-Lücke: Deutliche Abweichung der tatsächlichen Leistung vom theoretischen Limit

Auswirkungen

  1. Akademischer Beitrag: Bereitstellung eines neuen leichtgewichtigen Trainingsparadigmas für medizinische KI
  2. Praktischer Wert: Senkung der Bereitstellungsschwelle für medizinische KI-Systeme
  3. Reproduzierbarkeit: Bereitstellung vollständiger Code und experimenteller Details

Anwendungsszenarien

  • Bereitstellung von KI-Diagnosesystemen in ressourcenbeschränkten medizinischen Einrichtungen
  • Szenarien, die schnelle Anpassung an spezifische Datenverteilungen medizinischer Zentren erfordern
  • Schnelle Prototypenentwicklung in der medizinischen KI-Forschung

Referenzen

Das Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:

  • Klassische Arbeiten zur Retrieval-Augmented Generation (ATLAS, REVEAL usw.)
  • Medizinische Vision-Language-Modelle (LLaVA-Med, BiomedGPT usw.)
  • Multimodale Retrieval-Methoden (PMC-CLIP, BiomedCLIP usw.)

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative leichtgewichtige gemeinsame Optimierungsmethode im medizinischen KI-Bereich vorschlägt. Der technische Beitrag des Papiers ist klar, das experimentelle Design ist streng, die Analyse ist tiefgreifend und es bietet wertvolle Lösungen für praktische Anwendungen medizinischer KI. Insbesondere die Entdeckung und Analyse des Retrieval-Inkonsistenz-Problems weist wichtige Richtungen für zukünftige Forschung auf.