Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis
Mazor, Hope
Retrieving relevant visual and textual information from medical literature and hospital records can enhance diagnostic accuracy for clinical image interpretation. We develop a multimodal retrieval model jointly optimized with an LVLM for medical diagnosis, unlike standard RAG which doesn't backpropagate LVLM errors to the retriever. Using only general-purpose backbones with lightweight fine-tuning, our model achieves competitive results with medically-pretrained models on clinical classification and VQA tasks. In a novel analysis, we find that different top-retrieved images often yield different predictions for the same target, and that these cases are challenging for all models, even for non-retrieval models. Our joint retrieval optimization significantly improves these cases over standard RAG. However, oracle analysis reveals that while the correct diagnosis is frequently achievable using one of the top retrieved images, in practice there is a large performance gap from the oracle, and rerankers using frontier LVLMs do not close this gap -- leaving ample room for improvement by future methods. Code available at https://github.com/Nirmaz/JOMED.
본 논문은 의료 진단을 위해 대규모 비전-언어 모델(LVLM)과 결합 최적화된 다중 모달 검색 모델을 개발했습니다. 표준 RAG와 달리, 본 방법은 LVLM의 오류를 검색기로 역전파합니다. 일반적인 백본 네트워크와 경량 미세 조정만을 사용하여, 모델은 임상 분류 및 시각 질의응답 작업에서 의료 사전학습 모델과 경쟁할 수 있는 결과를 달성했습니다. 연구에서는 상위 검색 이미지가 동일한 대상에 대해 서로 다른 예측을 생성하는 경향이 있으며, 이러한 사례들이 모든 모델에 도전적임을 발견했습니다. 결합 검색 최적화는 이러한 경우들을 크게 개선했지만, 오라클 분석은 여전히 상당한 개선 여지가 있음을 보여줍니다.
종합 평가: 이는 의료 AI 분야에서 혁신적인 경량 결합 최적화 방법을 제시하는 고품질 연구 논문입니다. 논문의 기술적 기여는 명확하고, 실험 설계는 엄밀하며, 분석은 심층적이며, 의료 AI의 실제 응용을 위한 가치 있는 해결책을 제공합니다. 특히 검색 불일치 문제의 발견과 분석은 향후 연구의 중요한 방향을 제시합니다.