Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis
Mazor, Hope
Retrieving relevant visual and textual information from medical literature and hospital records can enhance diagnostic accuracy for clinical image interpretation. We develop a multimodal retrieval model jointly optimized with an LVLM for medical diagnosis, unlike standard RAG which doesn't backpropagate LVLM errors to the retriever. Using only general-purpose backbones with lightweight fine-tuning, our model achieves competitive results with medically-pretrained models on clinical classification and VQA tasks. In a novel analysis, we find that different top-retrieved images often yield different predictions for the same target, and that these cases are challenging for all models, even for non-retrieval models. Our joint retrieval optimization significantly improves these cases over standard RAG. However, oracle analysis reveals that while the correct diagnosis is frequently achievable using one of the top retrieved images, in practice there is a large performance gap from the oracle, and rerankers using frontier LVLMs do not close this gap -- leaving ample room for improvement by future methods. Code available at https://github.com/Nirmaz/JOMED.
academic
Leichtgewichtige gemeinsame Optimierung von universellen Vision-Language-Modellen und Retrievern für RAG-basierte medizinische Diagnose
In diesem Artikel wird ein multimodales Retrieval-Modell entwickelt, das gemeinsam mit großen Vision-Language-Modellen (LVLM) für medizinische Diagnose optimiert wird. Im Gegensatz zum Standard-RAG propagiert dieser Ansatz die Fehler des LVLM rückwärts zum Retriever. Unter Verwendung nur von universellen Backbone-Netzwerken und leichtgewichtiger Feinabstimmung erreicht das Modell wettbewerbsfähige Ergebnisse mit medizinisch vortrainierten Modellen bei klinischen Klassifizierungs- und Visual-Question-Answering-Aufgaben. Die Forschung zeigt, dass unterschiedliche Top-Abruf-Bilder häufig zu unterschiedlichen Vorhersagen für dasselbe Ziel führen, und diese Fälle sind für alle Modelle herausfordernd. Die gemeinsame Retriever-Optimierung verbessert diese Fälle erheblich, aber eine Oracle-Analyse zeigt, dass noch großes Verbesserungspotenzial besteht.
Die medizinische Bilddiagnose ist ein grundlegender Schritt in der klinischen Entscheidungsfindung. Große Vision-Language-Modelle (LVLMs) werden in der medizinischen Diagnose weit verbreitet erforscht. Um die Leistung von LVLMs im medizinischen Bereich zu verbessern, wird Retrieval-Augmented Generation (RAG) eingesetzt und zeigt vielversprechende Ergebnisse.
Einschränkungen von Standard-RAG: In traditionellen RAG-Methoden werden Retriever und LVLM unabhängig optimiert, ohne LVLM-Fehler zum Retriever rückwärts zu propagieren
Ressourcenintensität medizinischen Vortrainings: Der Vortrainingsprozess im medizinischen Bereich ist ressourcenintensiv und erfordert die Erforschung leichtgewichtiger Alternativen
Problem der Retrieval-Inkonsistenz: Unterschiedliche Retrieval-Kandidaten können zu unterschiedlichen Vorhersagen für dieselbe Anfrage führen und beeinflussen die Modellzuverlässigkeit
Framework für gemeinsame Optimierung: Vorschlag der JOMED-Methode zur gemeinsamen Optimierung von multimodalen Retrievern und LVLM für medizinische Klassifizierungs- und Visual-Question-Answering-Aufgaben
Leichtgewichtige Feinabstimmungsstrategie: Verwendung nur von universellen Backbone-Netzwerken ohne medizinisches Vortraining, Erreichung wettbewerbsfähiger Leistung durch leichtgewichtige Feinabstimmung
Direkte Optimierung nachgelagerter Aufgaben: Im Gegensatz zu früheren Arbeiten, die Vortraining erfordern, direkte gemeinsame Optimierung bei nachgelagerten Aufgaben
Analyse der Retrieval-Inkonsistenz: Identifizierung und Analyse des Problems "inkonsistente Retrieval-Vorhersagen" mit effektiven Lösungsvorschlägen
Angesichts eines medizinischen Bildes und einer Diagnosefrage muss das System relevante visuelle und textliche Informationen aus medizinischer Literatur und Krankenhauskenntnissen abrufen und dann basierend auf den abgerufenen Informationen und dem Anfragebild eine genaue Diagnoseantwort generieren.
Das Phänomen "inkonsistente Retrieval-Vorhersagen" wurde entdeckt: Für dasselbe Anfragebild führen unterschiedliche Retrieval-Kandidaten zu unterschiedlichen Vorhersagen. Diese Fälle machen 3%-93% der Datensätze aus.
Die Oracle-Analyse zeigt, dass die richtige Antwort häufig in den Top-Retrieval-Bildern vorhanden ist, aber die tatsächliche Leistung weicht erheblich vom Oracle ab und hinterlässt großes Verbesserungspotenzial für zukünftige Forschung.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative leichtgewichtige gemeinsame Optimierungsmethode im medizinischen KI-Bereich vorschlägt. Der technische Beitrag des Papiers ist klar, das experimentelle Design ist streng, die Analyse ist tiefgreifend und es bietet wertvolle Lösungen für praktische Anwendungen medizinischer KI. Insbesondere die Entdeckung und Analyse des Retrieval-Inkonsistenz-Problems weist wichtige Richtungen für zukünftige Forschung auf.