2025-11-12T02:07:28.338293

Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis

Mazor, Hope

Retrieving relevant visual and textual information from medical literature and hospital records can enhance diagnostic accuracy for clinical image interpretation. We develop a multimodal retrieval model jointly optimized with an LVLM for medical diagnosis, unlike standard RAG which doesn't backpropagate LVLM errors to the retriever. Using only general-purpose backbones with lightweight fine-tuning, our model achieves competitive results with medically-pretrained models on clinical classification and VQA tasks. In a novel analysis, we find that different top-retrieved images often yield different predictions for the same target, and that these cases are challenging for all models, even for non-retrieval models. Our joint retrieval optimization significantly improves these cases over standard RAG. However, oracle analysis reveals that while the correct diagnosis is frequently achievable using one of the top retrieved images, in practice there is a large performance gap from the oracle, and rerankers using frontier LVLMs do not close this gap -- leaving ample room for improvement by future methods. Code available at https://github.com/Nirmaz/JOMED.

academic

تحسين مشترك خفيف الوزن لنماذج الرؤية واللغة متعددة الأغراض والمسترجعات لتشخيص طبي قائم على RAG

المعلومات الأساسية

معرّف الورقة: 2508.17394
العنوان: Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis
المؤلفون: Nir Mazor, Tom Hope (جامعة العبرية بالقدس ومعهد Allen للذكاء الاصطناعي)
التصنيف: cs.CV
تاريخ النشر: 11 أكتوبر 2025 (arXiv v3)
رابط الورقة: https://arxiv.org/abs/2508.17394v3

الملخص

تطور هذه الورقة نموذج استرجاع متعدد الأنماط محسّن بشكل مشترك مع نماذج الرؤية واللغة الكبيرة (LVLM) للتشخيص الطبي. بخلاف RAG القياسي، تقوم الطريقة بنشر أخطاء LVLM بشكل عكسي إلى المسترجع. باستخدام العمود الفقري العام فقط والضبط الدقيق الخفيف الوزن، حقق النموذج نتائج منافسة مع نماذج التدريب المسبق الطبية على مهام التصنيف السريري والإجابة على الأسئلة البصرية. كشفت الدراسة أن صور الاسترجاع الأعلى المختلفة تميل إلى إنتاج تنبؤات مختلفة للهدف نفسه، وهذه الحالات تشكل تحديًا لجميع النماذج. يحسّن التحسين المشترك للاسترجاع هذه الحالات بشكل كبير، لكن تحليل Oracle يظهر أن هناك مجالًا كبيرًا للتحسين.

خلفية البحث والدافع

تعريف المشكلة

يعتبر تشخيص الصور الطبية خطوة أساسية في صنع القرار السريري، وتم استكشاف نماذج الرؤية واللغة الكبيرة (LVLMs) على نطاق واسع في التشخيص الطبي. لتحسين أداء LVLM في المجال الطبي، تم اعتماد الجيل المعزز بالاسترجاع (RAG) وأظهر نتائج واعدة.

دافع البحث

قيود RAG القياسي: في طرق RAG التقليدية، يتم تحسين المسترجع و LVLM بشكل مستقل، دون نشر أخطاء LVLM بشكل عكسي إلى المسترجع
كثافة موارد التدريب المسبق الطبي: تستهلك عملية التدريب المسبق في المجال الطبي موارد ضخمة، مما يتطلب استكشاف بدائل خفيفة الوزن
مشكلة عدم اتساق الاسترجاع: قد تؤدي مرشحات الاسترجاع المختلفة إلى تنبؤات مختلفة للاستعلام نفسه، مما يؤثر على موثوقية النموذج

قيود الطرق الموجودة

فصل المسترجع و LVLM في التدريب في إعدادات RAG متعددة الأنماط التقليدية
الحاجة إلى تدريب مسبق واسع النطاق في المجال الطبي للحصول على أداء منافس
نقص التحليل المنهجي لمشكلة عدم اتساق الاسترجاع

المساهمات الأساسية

إطار التحسين المشترك: اقتراح طريقة JOMED لتحسين المسترجع متعدد الأنماط و LVLM بشكل مشترك لمهام التصنيف الطبي والإجابة على الأسئلة البصرية
استراتيجية الضبط الدقيق الخفيفة الوزن: استخدام العمود الفقري العام فقط دون تدريب مسبق طبي، تحقيق أداء منافس من خلال الضبط الدقيق الخفيف الوزن
التحسين المباشر للمهام النهائية: بخلاف التحسين المشترك السابق الذي يتطلب تدريبًا مسبقًا، التحسين المباشر على المهام النهائية
تحليل عدم اتساق الاسترجاع: تحديد وتحليل مشكلة "تنبؤات الاسترجاع غير المتسقة"، واقتراح حل فعال

شرح الطريقة

تعريف المهمة

بالنظر إلى صورة طبية وسؤال تشخيصي، يجب على النظام استرجاع معلومات بصرية ونصية ذات صلة من الأدبيات الطبية وسجلات المستشفى، ثم إنشاء إجابة تشخيصية دقيقة بناءً على المعلومات المسترجعة والصورة المستعلم عنها.

معمارية النموذج

الإطار العام

يتضمن JOMED مكونين رئيسيين:

المسترجع متعدد الأنماط: بمعمارية ثنائية الرأس، تتضمن رأس استرجاع النصوص ورأس استرجاع الصور
القارئ (Reader): نموذج رؤية ولغة كبير، مسؤول عن تحليل مرشحات الاسترجاع وإنشاء الإجابات

استراتيجية التدريب

استخدام التدريب المتسلسل على مرحلتين:

المرحلة 1: الضبط الدقيق للقارئ المعزز بالاسترجاع

الهدف: تحسين أداء القارئ على مجموعة البيانات، تعليم القارئ الاستفادة الفعالة من أزواج (الصورة، النص) المسترجعة
دالة الخسارة: خسارة اللوغاريتم السالب

L(θ) = -∑∑ log p_θ(a_d | z_k ◦ q_d)

المرحلة 2: الضبط الدقيق المتسلسل للمسترجع متعدد الأنماط

إبقاء القارئ مجمدًا، تحسين فضاء التضمين للمسترجع
استخدام تباعد KL لتقليل الفرق بين توزيع LVLM اللاحق وتوزيع المسترجع

نقاط الابتكار التقني

1. معمارية الاسترجاع ثنائية الرأس

رأس استرجاع النصوص: استرجاع أزواج (صورة، نص) ذات صلة بناءً على التشابه النصي
رأس استرجاع الصور: استرجاع أزواج ذات صلة بناءً على التشابه البصري

2. خسارة الاسترجاع المخصصة

بالنسبة للأسئلة المفتوحة، استخدام نموذج o3 لتحويلها إلى أسئلة مغلقة، تحسين فعالية التدريب:

KL(p_LVLM^C || p_RETR) = ∑ p_LVLM^C(z_k) log(p_LVLM^C(z_k) / p_RETR(z_k))

3. استراتيجية الدمج في وقت الاستدلال

يكون الناتج النهائي احتمالًا مرجحًا لمرشحات الاسترجاع:

p_LVLM(a|q) = ∑ p_LVLM(a|z_k ◦ q) · p_R(z_k|q)

إعداد التجارب

مجموعات البيانات

مهام التصنيف

BreastMNIST: التصوير بالموجات فوق الصوتية للثدي، تصنيف ثنائي (546 عينة تدريب)
DermaMNIST: آفات الجلد الصبغية، متعدد الفئات (7,007 عينات تدريب)
RetinaMNIST: صور قاع العين الشبكية، متعدد الفئات (1,080 عينة تدريب)
VinDr-PCXR: أشعة سينية للصدر للأطفال، متعدد التسميات 15 فئة (7,728 عينة تدريب)
BRSET: مجموعة البيانات البرازيلية لطب العيون، متعدد التسميات 14 فئة (11,386 عينة تدريب)

مهام الإجابة على الأسئلة البصرية

VQA-RAD: أسئلة بصرية في الأشعات (1,753 سؤال تدريب)
SLAKE-English: مجموعة فرعية إنجليزية من أسئلة طبية ثنائية اللغة (4,920 سؤال تدريب)
PathVQA: أسئلة بصرية في علم الأمراض (19,700 سؤال تدريب)

فهرس الاسترجاع

بناء فهرس خارجي من PMC-OA و MIMIC-CXR و ROCO، يتضمن صورًا طبية والتسميات التوضيحية/التقارير المقابلة.

مؤشرات التقييم

مهام التصنيف: الدقة (ACC) ودرجة F1 الكلية
مهام VQA: استخدام المطابقة الدقيقة للأسئلة المغلقة واستدعاء الرموز للأسئلة المفتوحة

طرق المقارنة

خطوط أساس RAG: MMed-RAG و RAD و RAG القياسي المضبوط بدقة
نماذج التدريب المسبق الطبية: BiomedGPT و متغيرات LLaVA-Med و MedVInT و متغيرات InternVL
أعمدة فقرية عامة: Pixtral (12B) و Qwen2-VL (7B)

نتائج التجارب

النتائج الرئيسية

أداء مهام التصنيف

على خمس معايير تصنيف طبية، يتفوق JOMED باستمرار على جميع طرق المقارنة:

النموذج	Breast	Derma	Retina	VinDr-PCXR	BRSET	المتوسط
MMed-RAG	85%/84%	75%/30%	63%/46%	55%/11%	42%/30%	64%/40%
FT RAG (Qwen2-VL)	85%/82%	71%/42%	62%/48%	55%/9%	48%/27%	64%/42%
JOMED (Qwen2-VL)	87%/84%	76%/50%	65%/50%	57%/14%	49%/37%	67%/47%
JOMED (Pixtral)	90%/87%	80%/62%	60%/51%	56%/14%	51%/37%	67%/50%

أداء مهام VQA

تحقيق تحسينات كبيرة أيضًا على مهام الإجابة على الأسئلة البصرية:

النموذج	VQA-RAD	SLAKE	PathVQA	المتوسط
MMed-RAG	74%/39%	87%/81%	90%/31%	84%/50%
JOMED (Qwen2-VL)	79%/48%	90%/84%	93%/38%	87%/57%
JOMED (Pixtral)	76%/45%	90%/84%	90%/36%	85%/55%

المقارنة مع نماذج التدريب المسبق الطبية

يحقق JOMED أداءً منافسًا مع نماذج التدريب المسبق الطبي واسعة النطاق دون تدريب مسبق طبي:

مجموعة بيانات Breast: JOMED (Pixtral) 90% مقابل GSCo 93%
مجموعة بيانات Derma: JOMED (Pixtral) 80% مقابل MedVInT-TD 80%
مهام VQA: مطابقة أو تفوق متغيرات LLaVA-Med على SLAKE و PathVQA

تجارب الاستبدال

التحقق من ضرورة كل مكون:

رأس استرجاع النصوص: تحسن 2-3 نقاط مئوية مقارنة بـ FT RAG
رأس استرجاع الصور: تحسن إضافي 1-2 نقطة مئوية
خسارة الاسترجاع المخصصة: أفضل من خسارة تقطير الارتباك القياسية

تحليل تنبؤات الاسترجاع غير المتسقة

تحديد المشكلة

اكتشاف ظاهرة "تنبؤات الاسترجاع غير المتسقة": بالنسبة لنفس صورة الاستعلام، تؤدي مرشحات الاسترجاع المختلفة إلى تنبؤات مختلفة. تمثل هذه الحالات 3%-93% من مجموعات البيانات المختلفة.

تحسن الأداء

يحقق JOMED تحسينات كبيرة على حالات التنبؤ غير المتسقة:

Qwen2-VL: تحسن الدقة +12%، تحسن F1 +13%
Pixtral: تحسن الدقة و F1 بمقدار +9%

تحليل Oracle

يظهر تحليل Oracle أن الإجابة الصحيحة موجودة غالبًا في صور الاسترجاع الأعلى، لكن الأداء الفعلي يختلف بشكل كبير عن oracle، مما يترك مجالًا للتحسين في الأبحاث المستقبلية.

الأعمال ذات الصلة

التحسين المشترك المعزز بالاسترجاع

ATLAS: تحسين مشترك واسع النطاق في المجال العام
REVEAL: التوسع إلى الإعدادات متعددة الأنماط، يتطلب تدريبًا مسبقًا كبيرًا
تستكشف هذه الورقة للمرة الأولى التحسين المشترك المباشر للمهام النهائية في المجال الطبي

الاسترجاع متعدد الأنماط المعزز الطبي

RAD: طريقة تصنيف قائمة على الاسترجاع
MMed-RAG: إطار RAG متعدد الأنماط، باستخدام مسترجع مدرب مسبقًا طبيًا
سلسلة PMC-VQA: طرق ضبط تعليمات بصرية طبية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

التحسين المشترك الخفيف الوزن فعال: تحقيق أداء منافس دون تدريب مسبق طبي
عدم اتساق الاسترجاع منتشر: هذه مشكلة مهمة لكن مهملة
التحسين المباشر للمهام النهائية ممكن: إثبات جدوى التحسين المشترك الفعال من حيث البيانات

القيود

تحسين متسلسل وليس من طرف إلى طرف: لا يمكن للتدرجات أن تتدفق بشكل متزامن بين المسترجع والقارئ
نطاق التقييم محدود: التركيز الأساسي على التصنيف و VQA، عدم تقييم توليد التقارير
تغطية الأنماط المتخصصة غير كاملة: عدم التقييم على الأنماط المتخصصة مثل PET والمجهر و OCT

الاتجاهات المستقبلية

التحسين المشترك من طرف إلى طرف: تطوير استراتيجيات تدريب حقيقية من طرف إلى طرف
طرق إعادة ترتيب أفضل: تقليل الفجوة مع أداء oracle
التوسع إلى مهام أخرى: استكشاف التطبيق على مهام مثل توليد التقارير

التقييم المتعمق

المميزات

ابتكار الطريقة قوي: أول تحسين مشترك خفيف الوزن مباشر للمهام النهائية في المجال الطبي
تصميم التجارب شامل: يغطي مجموعات بيانات متعددة وأنواع مهام متنوعة، مقارنات شاملة
التحليل عميق: تحديد وتحليل منهجي لمشكلة عدم اتساق الاسترجاع
قيمة عملية عالية: تجنب عملية التدريب المسبق الطبي كثيفة الموارد

أوجه القصور

نقص التحليل النظري: غياب التفسير النظري لسبب فعالية التحسين المشترك
قيود التدريب المتسلسل: ليس تحسينًا حقيقيًا من طرف إلى طرف
فجوة Oracle كبيرة: فرق واضح بين الأداء الفعلية والحد الأعلى النظري

التأثير

المساهمة الأكاديمية: توفير نموذج تدريب جديد خفيف الوزن لذكاء المجال الطبي
القيمة العملية: تقليل عتبة نشر أنظمة ذكاء المجال الطبي
قابلية التكرار: توفير تفاصيل كاملة للكود والتجارب

السيناريوهات المناسبة

نشر أنظمة تشخيص ذكاء في المؤسسات الطبية ذات الموارد المحدودة
السيناريوهات التي تتطلب التكيف السريع مع توزيع بيانات مركز طبي محدد
تطوير نماذج أولية سريعة في أبحاث ذكاء المجال الطبي

المراجع

تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، بما في ذلك:

الأعمال الكلاسيكية للجيل المعزز بالاسترجاع (ATLAS و REVEAL وغيرها)
نماذج الرؤية واللغة الطبية (LLaVA-Med و BiomedGPT وغيرها)
طرق الاسترجاع متعددة الأنماط (PMC-CLIP و BiomedCLIP وغيرها)

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح طريقة تحسين مشترك خفيفة الوزن مبتكرة في مجال ذكاء المجال الطبي. تتمتع الورقة بمساهمات تقنية واضحة وتصميم تجارب صارم وتحليل عميق، مما يوفر حلاً قيمًا للتطبيقات العملية لذكاء المجال الطبي. وبشكل خاص، فإن اكتشاف وتحليل مشكلة عدم اتساق الاسترجاع يشير إلى اتجاه مهم للأبحاث المستقبلية.