2025-11-12T02:07:28.338293

Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis

Mazor, Hope
Retrieving relevant visual and textual information from medical literature and hospital records can enhance diagnostic accuracy for clinical image interpretation. We develop a multimodal retrieval model jointly optimized with an LVLM for medical diagnosis, unlike standard RAG which doesn't backpropagate LVLM errors to the retriever. Using only general-purpose backbones with lightweight fine-tuning, our model achieves competitive results with medically-pretrained models on clinical classification and VQA tasks. In a novel analysis, we find that different top-retrieved images often yield different predictions for the same target, and that these cases are challenging for all models, even for non-retrieval models. Our joint retrieval optimization significantly improves these cases over standard RAG. However, oracle analysis reveals that while the correct diagnosis is frequently achievable using one of the top retrieved images, in practice there is a large performance gap from the oracle, and rerankers using frontier LVLMs do not close this gap -- leaving ample room for improvement by future methods. Code available at https://github.com/Nirmaz/JOMED.
academic

Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis

基本信息

  • 论文ID: 2508.17394
  • 标题: Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis
  • 作者: Nir Mazor, Tom Hope (The Hebrew University of Jerusalem & The Allen Institute for AI)
  • 分类: cs.CV
  • 发表时间: 2025年10月11日 (arXiv v3)
  • 论文链接: https://arxiv.org/abs/2508.17394v3

摘要

本文开发了一个多模态检索模型,与大型视觉语言模型(LVLM)联合优化用于医学诊断。与标准RAG不同,该方法将LVLM的错误反向传播到检索器。仅使用通用骨干网络和轻量级微调,模型在临床分类和视觉问答任务上达到了与医学预训练模型相竞争的结果。研究发现,不同的顶级检索图像往往对同一目标产生不同的预测,这些案例对所有模型都具有挑战性。联合检索优化显著改善了这些情况,但oracle分析显示仍有很大改进空间。

研究背景与动机

问题定义

医学图像诊断是临床决策的基础环节,大型视觉语言模型(LVLMs)在医学诊断中得到广泛探索。为了提高LVLM在医学领域的性能,检索增强生成(RAG)被采用并显示出有前景的结果。

研究动机

  1. 标准RAG的局限性: 传统RAG方法中,检索器和LVLM是独立优化的,没有将LVLM的错误反向传播到检索器
  2. 医学预训练的资源密集性: 医学领域的预训练过程资源消耗巨大,需要探索轻量级替代方案
  3. 检索不一致性问题: 不同检索候选可能导致相同查询的不同预测,影响模型可靠性

现有方法局限性

  • 传统多模态RAG设置中检索器和LVLM分离训练
  • 需要大规模医学预训练才能获得竞争性能
  • 缺乏对检索不一致性问题的系统分析

核心贡献

  1. 联合优化框架: 提出JOMED方法,联合优化多模态检索器和LVLM用于医学分类和视觉问答任务
  2. 轻量级微调策略: 仅使用通用骨干网络,无需医学预训练,通过轻量级微调达到竞争性能
  3. 直接下游任务优化: 与以往需要预训练的联合优化不同,直接在下游任务上进行联合优化
  4. 检索不一致性分析: 识别并分析"不一致检索预测"问题,提出有效解决方案

方法详解

任务定义

给定医学图像和诊断问题,系统需要从医学文献和医院记录中检索相关的视觉和文本信息,然后基于检索到的信息和查询图像生成准确的诊断答案。

模型架构

整体框架

JOMED包含两个主要组件:

  1. 多模态检索器: 具有双头架构,包括文本检索头和图像检索头
  2. 读取器(Reader): 大型视觉语言模型,负责分析检索候选并生成答案

训练策略

采用两阶段序列训练:

阶段1: 读取器检索增强微调

  • 目标:提高读取器在数据集上的性能,教会读取器有效利用检索到的(图像,文本)对
  • 损失函数:负对数似然损失
L(θ) = -∑∑ log p_θ(a_d | z_k ◦ q_d)

阶段2: 序列多模态检索器微调

  • 保持读取器冻结,优化检索器的嵌入空间
  • 使用KL散度最小化LVLM后验分布和检索器分布之间的差异

技术创新点

1. 双头检索架构

  • 文本检索头: 基于文本相似性检索相关(图像,文本)对
  • 图像检索头: 基于视觉相似性检索相关对

2. 定制化检索损失

对于开放式问题,使用o3模型将其转换为封闭式问题,提高训练效果:

KL(p_LVLM^C || p_RETR) = ∑ p_LVLM^C(z_k) log(p_LVLM^C(z_k) / p_RETR(z_k))

3. 推理时融合策略

最终输出概率为检索候选的加权融合:

p_LVLM(a|q) = ∑ p_LVLM(a|z_k ◦ q) · p_R(z_k|q)

实验设置

数据集

分类任务

  • BreastMNIST: 乳腺超声成像,二分类 (546训练样本)
  • DermaMNIST: 色素性皮肤病变,多类别 (7,007训练样本)
  • RetinaMNIST: 视网膜眼底图像,多类别 (1,080训练样本)
  • VinDr-PCXR: 儿童胸部X光,多标签15类 (7,728训练样本)
  • BRSET: 巴西眼科数据集,多标签14类 (11,386训练样本)

视觉问答任务

  • VQA-RAD: 放射学VQA (1,753训练问题)
  • SLAKE-English: 双语医学VQA英文子集 (4,920训练问题)
  • PathVQA: 病理学VQA (19,700训练问题)

检索索引

构建自PMC-OA、MIMIC-CXR和ROCO的外部索引,包含医学图像和对应的标题/报告。

评价指标

  • 分类任务: 准确率(ACC)和宏F1分数
  • VQA任务: 封闭式问题使用精确匹配,开放式问题使用token召回率

对比方法

  • RAG基线: MMed-RAG、RAD、标准微调RAG
  • 医学预训练模型: BiomedGPT、LLaVA-Med变体、MedVInT、InternVL变体
  • 通用骨干: Pixtral (12B)、Qwen2-VL (7B)

实验结果

主要结果

分类任务性能

在五个医学分类基准上,JOMED consistently outperforms所有对比方法:

模型BreastDermaRetinaVinDr-PCXRBRSET平均
MMed-RAG85%/84%75%/30%63%/46%55%/11%42%/30%64%/40%
FT RAG (Qwen2-VL)85%/82%71%/42%62%/48%55%/9%48%/27%64%/42%
JOMED (Qwen2-VL)87%/84%76%/50%65%/50%57%/14%49%/37%67%/47%
JOMED (Pixtral)90%/87%80%/62%60%/51%56%/14%51%/37%67%/50%

VQA任务性能

在视觉问答任务上同样取得显著提升:

模型VQA-RADSLAKEPathVQA平均
MMed-RAG74%/39%87%/81%90%/31%84%/50%
JOMED (Qwen2-VL)79%/48%90%/84%93%/38%87%/57%
JOMED (Pixtral)76%/45%90%/84%90%/36%85%/55%

与医学预训练模型对比

JOMED在无医学预训练的情况下达到与大规模医学预训练模型相竞争的性能:

  • Breast数据集: JOMED (Pixtral) 90% vs GSCo 93%
  • Derma数据集: JOMED (Pixtral) 80% vs MedVInT-TD 80%
  • VQA任务: 在SLAKE和PathVQA上匹配或超越LLaVA-Med变体

消融实验

验证了各组件的必要性:

  1. 文本检索头: 相比FT RAG提升2-3个百分点
  2. 图像检索头: 进一步提升1-2个百分点
  3. 定制检索损失: 优于标准困惑度蒸馏损失

不一致检索预测分析

问题识别

发现了"不一致检索预测"现象:对于同一查询图像,不同检索候选导致不同预测。这些案例在各数据集中占比3%-93%不等。

性能改进

JOMED在不一致预测案例上取得显著改进:

  • Qwen2-VL: 准确率提升+12%,F1提升+13%
  • Pixtral: 准确率和F1均提升+9%

Oracle分析

Oracle分析显示正确答案经常存在于顶级检索图像中,但实际性能与oracle存在较大差距,为未来研究留下改进空间。

相关工作

检索增强联合优化

  • ATLAS: 在通用领域进行大规模预训练的联合优化
  • REVEAL: 扩展到多模态设置,需要大量预训练
  • 本文首次在医学领域探索直接下游任务联合优化

医学多模态检索增强

  • RAD: 基于检索的分类方法
  • MMed-RAG: 多模态RAG框架,使用医学预训练检索器
  • PMC-VQA系列: 医学视觉指令调优方法

结论与讨论

主要结论

  1. 轻量级联合优化有效: 无需医学预训练即可达到竞争性能
  2. 检索不一致性普遍存在: 这是一个重要但被忽视的问题
  3. 直接下游优化可行: 证明了数据高效联合优化的可行性

局限性

  1. 序列优化而非端到端: 梯度不能同时在检索器和读取器间流动
  2. 评估范围有限: 主要关注分类和VQA,未评估报告生成
  3. 专业模态覆盖不全: 未在PET、显微镜、OCT等专业模态上评估

未来方向

  1. 端到端联合优化: 开发真正的端到端训练策略
  2. 更好的重排序方法: 缩小与oracle性能的差距
  3. 扩展到更多任务: 探索在报告生成等任务上的应用

深度评价

优点

  1. 方法创新性强: 首次在医学领域实现直接下游任务的轻量级联合优化
  2. 实验设计充分: 涵盖多个数据集、多种任务类型,对比方法全面
  3. 分析深入: 识别并系统分析了检索不一致性问题
  4. 实用价值高: 避免了资源密集的医学预训练过程

不足

  1. 理论分析不足: 缺乏对为什么联合优化有效的理论解释
  2. 序列训练限制: 不是真正的端到端优化
  3. Oracle差距较大: 实际性能与理论上限差距明显

影响力

  1. 学术贡献: 为医学AI提供了新的轻量级训练范式
  2. 实用价值: 降低了医学AI系统的部署门槛
  3. 可复现性: 提供了完整的代码和实验细节

适用场景

  • 资源受限的医疗机构部署AI诊断系统
  • 需要快速适应特定医疗中心数据分布的场景
  • 医学AI研究中的快速原型开发

参考文献

论文引用了大量相关工作,包括:

  • 检索增强生成的经典工作(ATLAS, REVEAL等)
  • 医学视觉语言模型(LLaVA-Med, BiomedGPT等)
  • 多模态检索方法(PMC-CLIP, BiomedCLIP等)

总体评价: 这是一篇高质量的研究论文,在医学AI领域提出了创新的轻量级联合优化方法。论文的技术贡献明确,实验设计严谨,分析深入,为医学AI的实际应用提供了有价值的解决方案。特别是对检索不一致性问题的发现和分析,为未来研究指出了重要方向。