2025-11-12T02:07:28.338293

Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis

Mazor, Hope

Retrieving relevant visual and textual information from medical literature and hospital records can enhance diagnostic accuracy for clinical image interpretation. We develop a multimodal retrieval model jointly optimized with an LVLM for medical diagnosis, unlike standard RAG which doesn't backpropagate LVLM errors to the retriever. Using only general-purpose backbones with lightweight fine-tuning, our model achieves competitive results with medically-pretrained models on clinical classification and VQA tasks. In a novel analysis, we find that different top-retrieved images often yield different predictions for the same target, and that these cases are challenging for all models, even for non-retrieval models. Our joint retrieval optimization significantly improves these cases over standard RAG. However, oracle analysis reveals that while the correct diagnosis is frequently achievable using one of the top retrieved images, in practice there is a large performance gap from the oracle, and rerankers using frontier LVLMs do not close this gap -- leaving ample room for improvement by future methods. Code available at https://github.com/Nirmaz/JOMED.

academic

Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis

基本信息

论文ID: 2508.17394
标题: Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis
作者: Nir Mazor, Tom Hope (The Hebrew University of Jerusalem & The Allen Institute for AI)
分类: cs.CV
发表时间: 2025年10月11日 (arXiv v3)
论文链接: https://arxiv.org/abs/2508.17394v3

摘要

本文开发了一个多模态检索模型，与大型视觉语言模型(LVLM)联合优化用于医学诊断。与标准RAG不同，该方法将LVLM的错误反向传播到检索器。仅使用通用骨干网络和轻量级微调，模型在临床分类和视觉问答任务上达到了与医学预训练模型相竞争的结果。研究发现，不同的顶级检索图像往往对同一目标产生不同的预测，这些案例对所有模型都具有挑战性。联合检索优化显著改善了这些情况，但oracle分析显示仍有很大改进空间。

研究背景与动机

问题定义

医学图像诊断是临床决策的基础环节，大型视觉语言模型(LVLMs)在医学诊断中得到广泛探索。为了提高LVLM在医学领域的性能，检索增强生成(RAG)被采用并显示出有前景的结果。

研究动机

标准RAG的局限性: 传统RAG方法中，检索器和LVLM是独立优化的，没有将LVLM的错误反向传播到检索器
医学预训练的资源密集性: 医学领域的预训练过程资源消耗巨大，需要探索轻量级替代方案
检索不一致性问题: 不同检索候选可能导致相同查询的不同预测，影响模型可靠性

现有方法局限性

传统多模态RAG设置中检索器和LVLM分离训练
需要大规模医学预训练才能获得竞争性能
缺乏对检索不一致性问题的系统分析

核心贡献

联合优化框架: 提出JOMED方法，联合优化多模态检索器和LVLM用于医学分类和视觉问答任务
轻量级微调策略: 仅使用通用骨干网络，无需医学预训练，通过轻量级微调达到竞争性能
直接下游任务优化: 与以往需要预训练的联合优化不同，直接在下游任务上进行联合优化
检索不一致性分析: 识别并分析"不一致检索预测"问题，提出有效解决方案

方法详解

任务定义

给定医学图像和诊断问题，系统需要从医学文献和医院记录中检索相关的视觉和文本信息，然后基于检索到的信息和查询图像生成准确的诊断答案。

模型架构

整体框架

JOMED包含两个主要组件：

多模态检索器: 具有双头架构，包括文本检索头和图像检索头
读取器(Reader): 大型视觉语言模型，负责分析检索候选并生成答案

训练策略

采用两阶段序列训练：

阶段1: 读取器检索增强微调

目标：提高读取器在数据集上的性能，教会读取器有效利用检索到的(图像,文本)对
损失函数：负对数似然损失

L(θ) = -∑∑ log p_θ(a_d | z_k ◦ q_d)

阶段2: 序列多模态检索器微调

保持读取器冻结，优化检索器的嵌入空间
使用KL散度最小化LVLM后验分布和检索器分布之间的差异

技术创新点

1. 双头检索架构

文本检索头: 基于文本相似性检索相关(图像,文本)对
图像检索头: 基于视觉相似性检索相关对

2. 定制化检索损失

对于开放式问题，使用o3模型将其转换为封闭式问题，提高训练效果：

KL(p_LVLM^C || p_RETR) = ∑ p_LVLM^C(z_k) log(p_LVLM^C(z_k) / p_RETR(z_k))

3. 推理时融合策略

最终输出概率为检索候选的加权融合：

p_LVLM(a|q) = ∑ p_LVLM(a|z_k ◦ q) · p_R(z_k|q)

实验设置

数据集

分类任务

BreastMNIST: 乳腺超声成像，二分类 (546训练样本)
DermaMNIST: 色素性皮肤病变，多类别 (7,007训练样本)
RetinaMNIST: 视网膜眼底图像，多类别 (1,080训练样本)
VinDr-PCXR: 儿童胸部X光，多标签15类 (7,728训练样本)
BRSET: 巴西眼科数据集，多标签14类 (11,386训练样本)

视觉问答任务

VQA-RAD: 放射学VQA (1,753训练问题)
SLAKE-English: 双语医学VQA英文子集 (4,920训练问题)
PathVQA: 病理学VQA (19,700训练问题)

检索索引

构建自PMC-OA、MIMIC-CXR和ROCO的外部索引，包含医学图像和对应的标题/报告。

评价指标

分类任务: 准确率(ACC)和宏F1分数
VQA任务: 封闭式问题使用精确匹配，开放式问题使用token召回率

对比方法

RAG基线: MMed-RAG、RAD、标准微调RAG
医学预训练模型: BiomedGPT、LLaVA-Med变体、MedVInT、InternVL变体
通用骨干: Pixtral (12B)、Qwen2-VL (7B)

实验结果

主要结果

分类任务性能

在五个医学分类基准上，JOMED consistently outperforms所有对比方法：

模型	Breast	Derma	Retina	VinDr-PCXR	BRSET	平均
MMed-RAG	85%/84%	75%/30%	63%/46%	55%/11%	42%/30%	64%/40%
FT RAG (Qwen2-VL)	85%/82%	71%/42%	62%/48%	55%/9%	48%/27%	64%/42%
JOMED (Qwen2-VL)	87%/84%	76%/50%	65%/50%	57%/14%	49%/37%	67%/47%
JOMED (Pixtral)	90%/87%	80%/62%	60%/51%	56%/14%	51%/37%	67%/50%

VQA任务性能

在视觉问答任务上同样取得显著提升：

模型	VQA-RAD	SLAKE	PathVQA	平均
MMed-RAG	74%/39%	87%/81%	90%/31%	84%/50%
JOMED (Qwen2-VL)	79%/48%	90%/84%	93%/38%	87%/57%
JOMED (Pixtral)	76%/45%	90%/84%	90%/36%	85%/55%