Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis
Mazor, Hope
Retrieving relevant visual and textual information from medical literature and hospital records can enhance diagnostic accuracy for clinical image interpretation. We develop a multimodal retrieval model jointly optimized with an LVLM for medical diagnosis, unlike standard RAG which doesn't backpropagate LVLM errors to the retriever. Using only general-purpose backbones with lightweight fine-tuning, our model achieves competitive results with medically-pretrained models on clinical classification and VQA tasks. In a novel analysis, we find that different top-retrieved images often yield different predictions for the same target, and that these cases are challenging for all models, even for non-retrieval models. Our joint retrieval optimization significantly improves these cases over standard RAG. However, oracle analysis reveals that while the correct diagnosis is frequently achievable using one of the top retrieved images, in practice there is a large performance gap from the oracle, and rerankers using frontier LVLMs do not close this gap -- leaving ample room for improvement by future methods. Code available at https://github.com/Nirmaz/JOMED.
academic
تحسين مشترك خفيف الوزن لنماذج الرؤية واللغة متعددة الأغراض والمسترجعات لتشخيص طبي قائم على RAG
تطور هذه الورقة نموذج استرجاع متعدد الأنماط محسّن بشكل مشترك مع نماذج الرؤية واللغة الكبيرة (LVLM) للتشخيص الطبي. بخلاف RAG القياسي، تقوم الطريقة بنشر أخطاء LVLM بشكل عكسي إلى المسترجع. باستخدام العمود الفقري العام فقط والضبط الدقيق الخفيف الوزن، حقق النموذج نتائج منافسة مع نماذج التدريب المسبق الطبية على مهام التصنيف السريري والإجابة على الأسئلة البصرية. كشفت الدراسة أن صور الاسترجاع الأعلى المختلفة تميل إلى إنتاج تنبؤات مختلفة للهدف نفسه، وهذه الحالات تشكل تحديًا لجميع النماذج. يحسّن التحسين المشترك للاسترجاع هذه الحالات بشكل كبير، لكن تحليل Oracle يظهر أن هناك مجالًا كبيرًا للتحسين.
يعتبر تشخيص الصور الطبية خطوة أساسية في صنع القرار السريري، وتم استكشاف نماذج الرؤية واللغة الكبيرة (LVLMs) على نطاق واسع في التشخيص الطبي. لتحسين أداء LVLM في المجال الطبي، تم اعتماد الجيل المعزز بالاسترجاع (RAG) وأظهر نتائج واعدة.
بالنظر إلى صورة طبية وسؤال تشخيصي، يجب على النظام استرجاع معلومات بصرية ونصية ذات صلة من الأدبيات الطبية وسجلات المستشفى، ثم إنشاء إجابة تشخيصية دقيقة بناءً على المعلومات المسترجعة والصورة المستعلم عنها.
اكتشاف ظاهرة "تنبؤات الاسترجاع غير المتسقة": بالنسبة لنفس صورة الاستعلام، تؤدي مرشحات الاسترجاع المختلفة إلى تنبؤات مختلفة. تمثل هذه الحالات 3%-93% من مجموعات البيانات المختلفة.
يظهر تحليل Oracle أن الإجابة الصحيحة موجودة غالبًا في صور الاسترجاع الأعلى، لكن الأداء الفعلي يختلف بشكل كبير عن oracle، مما يترك مجالًا للتحسين في الأبحاث المستقبلية.
تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، بما في ذلك:
الأعمال الكلاسيكية للجيل المعزز بالاسترجاع (ATLAS و REVEAL وغيرها)
نماذج الرؤية واللغة الطبية (LLaVA-Med و BiomedGPT وغيرها)
طرق الاسترجاع متعددة الأنماط (PMC-CLIP و BiomedCLIP وغيرها)
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح طريقة تحسين مشترك خفيفة الوزن مبتكرة في مجال ذكاء المجال الطبي. تتمتع الورقة بمساهمات تقنية واضحة وتصميم تجارب صارم وتحليل عميق، مما يوفر حلاً قيمًا للتطبيقات العملية لذكاء المجال الطبي. وبشكل خاص، فإن اكتشاف وتحليل مشكلة عدم اتساق الاسترجاع يشير إلى اتجاه مهم للأبحاث المستقبلية.