2025-11-12T02:07:28.338293

Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis

Mazor, Hope

Retrieving relevant visual and textual information from medical literature and hospital records can enhance diagnostic accuracy for clinical image interpretation. We develop a multimodal retrieval model jointly optimized with an LVLM for medical diagnosis, unlike standard RAG which doesn't backpropagate LVLM errors to the retriever. Using only general-purpose backbones with lightweight fine-tuning, our model achieves competitive results with medically-pretrained models on clinical classification and VQA tasks. In a novel analysis, we find that different top-retrieved images often yield different predictions for the same target, and that these cases are challenging for all models, even for non-retrieval models. Our joint retrieval optimization significantly improves these cases over standard RAG. However, oracle analysis reveals that while the correct diagnosis is frequently achievable using one of the top retrieved images, in practice there is a large performance gap from the oracle, and rerankers using frontier LVLMs do not close this gap -- leaving ample room for improvement by future methods. Code available at https://github.com/Nirmaz/JOMED.

academic

Optimisation Conjointe Légère de Modèles de Vision-Langage à Usage Général et de Récupérateurs pour le Diagnostic Médical Basé sur RAG

Informations de Base

ID de l'article: 2508.17394
Titre: Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis
Auteurs: Nir Mazor, Tom Hope (Université Hébraïque de Jérusalem & Allen Institute for AI)
Classification: cs.CV
Date de publication: 11 octobre 2025 (arXiv v3)
Lien de l'article: https://arxiv.org/abs/2508.17394v3

Résumé

Cet article développe un modèle de récupération multimodal optimisé conjointement avec un grand modèle de vision-langage (LVLM) pour le diagnostic médical. Contrairement au RAG standard, cette approche rétropropage les erreurs du LVLM vers le récupérateur. En utilisant uniquement des architectures génériques et un ajustement fin léger, le modèle atteint des résultats compétitifs avec les modèles pré-entraînés médicaux sur les tâches de classification clinique et de réponse à des questions visuelles. L'étude révèle que différentes images de récupération de haut niveau produisent souvent des prédictions différentes pour la même cible, et ces cas posent des défis pour tous les modèles. L'optimisation conjointe de la récupération améliore significativement ces cas, mais l'analyse oracle montre qu'il existe encore une marge d'amélioration considérable.

Contexte et Motivation de la Recherche

Définition du Problème

Le diagnostic des images médicales est une étape fondamentale de la prise de décision clinique. Les grands modèles de vision-langage (LVLMs) sont largement explorés pour le diagnostic médical. Pour améliorer les performances des LVLMs dans le domaine médical, la génération augmentée par récupération (RAG) a été adoptée et montre des résultats prometteurs.

Motivation de la Recherche

Limitations du RAG standard: Dans les méthodes RAG traditionnelles, le récupérateur et le LVLM sont optimisés indépendamment, sans rétropropagation des erreurs du LVLM vers le récupérateur
Intensité en ressources du pré-entraînement médical: Le processus de pré-entraînement dans le domaine médical consomme énormément de ressources, nécessitant l'exploration d'alternatives légères
Problème d'incohérence de récupération: Différents candidats de récupération peuvent conduire à des prédictions différentes pour la même requête, affectant la fiabilité du modèle

Limitations des Méthodes Existantes

Dans les configurations RAG multimodales traditionnelles, le récupérateur et le LVLM sont entraînés séparément
Un pré-entraînement médical à grande échelle est nécessaire pour obtenir des performances compétitives
Absence d'analyse systématique du problème d'incohérence de récupération

Contributions Principales

Cadre d'optimisation conjointe: Proposition de la méthode JOMED, optimisant conjointement le récupérateur multimodal et le LVLM pour les tâches de classification médicale et de réponse à des questions visuelles
Stratégie d'ajustement fin léger: Utilisation uniquement d'architectures génériques, sans pré-entraînement médical, atteignant des performances compétitives par ajustement fin léger
Optimisation directe sur les tâches en aval: Contrairement aux approches antérieures nécessitant un pré-entraînement, optimisation conjointe directe sur les tâches en aval
Analyse de l'incohérence de récupération: Identification et analyse du problème de « prédictions de récupération incohérentes », proposant une solution efficace

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une image médicale et une question diagnostique, le système doit récupérer les informations visuelles et textuelles pertinentes de la littérature médicale et des dossiers hospitaliers, puis générer une réponse diagnostique précise basée sur les informations récupérées et l'image de requête.

Architecture du Modèle

Cadre Global

JOMED comprend deux composants principaux:

Récupérateur multimodal: Architecture à double tête, incluant une tête de récupération textuelle et une tête de récupération d'images
Lecteur (Reader): Grand modèle de vision-langage, responsable de l'analyse des candidats récupérés et de la génération de réponses

Stratégie d'Entraînement

Entraînement séquentiel en deux phases:

Phase 1: Ajustement fin du lecteur augmenté par récupération

Objectif: Améliorer les performances du lecteur sur l'ensemble de données, enseigner au lecteur à utiliser efficacement les paires (image, texte) récupérées
Fonction de perte: Perte de log-vraisemblance négative

L(θ) = -∑∑ log p_θ(a_d | z_k ◦ q_d)

Phase 2: Ajustement fin séquentiel du récupérateur multimodal

Maintien du lecteur gelé, optimisation de l'espace d'intégration du récupérateur
Utilisation de la divergence KL pour minimiser la différence entre la distribution postérieure du LVLM et celle du récupérateur

Points d'Innovation Technique

1. Architecture de Récupération à Double Tête

Tête de récupération textuelle: Récupère les paires (image, texte) pertinentes basées sur la similarité textuelle
Tête de récupération d'images: Récupère les paires pertinentes basées sur la similarité visuelle

2. Perte de Récupération Personnalisée

Pour les questions ouvertes, utilisation du modèle o3 pour les convertir en questions fermées, améliorant l'efficacité de l'entraînement:

KL(p_LVLM^C || p_RETR) = ∑ p_LVLM^C(z_k) log(p_LVLM^C(z_k) / p_RETR(z_k))

3. Stratégie de Fusion au Moment de l'Inférence

La probabilité de sortie finale est une fusion pondérée des candidats récupérés:

p_LVLM(a|q) = ∑ p_LVLM(a|z_k ◦ q) · p_R(z_k|q)

Configuration Expérimentale

Ensembles de Données

Tâches de Classification

BreastMNIST: Imagerie échographique mammaire, classification binaire (546 échantillons d'entraînement)
DermaMNIST: Lésions cutanées pigmentées, multi-classe (7 007 échantillons d'entraînement)
RetinaMNIST: Images du fond rétinien, multi-classe (1 080 échantillons d'entraînement)
VinDr-PCXR: Radiographie thoracique pédiatrique, multi-étiquette 15 classes (7 728 échantillons d'entraînement)
BRSET: Ensemble de données ophtalmologiques brésilien, multi-étiquette 14 classes (11 386 échantillons d'entraînement)

Tâches de Réponse à des Questions Visuelles

VQA-RAD: VQA radiologique (1 753 questions d'entraînement)
SLAKE-English: Sous-ensemble anglais de VQA médical bilingue (4 920 questions d'entraînement)
PathVQA: VQA pathologique (19 700 questions d'entraînement)

Index de Récupération

Construction d'index externes à partir de PMC-OA, MIMIC-CXR et ROCO, contenant des images médicales et leurs légendes/rapports correspondants.

Métriques d'Évaluation

Tâches de classification: Précision (ACC) et score F1 macro
Tâches VQA: Correspondance exacte pour les questions fermées, rappel de tokens pour les questions ouvertes

Méthodes de Comparaison

Lignes de base RAG: MMed-RAG, RAD, RAG standard avec ajustement fin
Modèles pré-entraînés médicaux: BiomedGPT, variantes LLaVA-Med, MedVInT, variantes InternVL
Architectures génériques: Pixtral (12B), Qwen2-VL (7B)

Résultats Expérimentaux

Résultats Principaux

Performance sur les Tâches de Classification

Sur cinq repères de classification médicale, JOMED surpasse systématiquement toutes les méthodes de comparaison:

Modèle	Breast	Derma	Retina	VinDr-PCXR	BRSET	Moyenne
MMed-RAG	85%/84%	75%/30%	63%/46%	55%/11%	42%/30%	64%/40%
FT RAG (Qwen2-VL)	85%/82%	71%/42%	62%/48%	55%/9%	48%/27%	64%/42%
JOMED (Qwen2-VL)	87%/84%	76%/50%	65%/50%	57%/14%	49%/37%	67%/47%
JOMED (Pixtral)	90%/87%	80%/62%	60%/51%	56%/14%	51%/37%	67%/50%

Performance sur les Tâches VQA

Des améliorations significatives sont également obtenues sur les tâches de réponse à des questions visuelles:

Modèle	VQA-RAD	SLAKE	PathVQA	Moyenne
MMed-RAG	74%/39%	87%/81%	90%/31%	84%/50%
JOMED (Qwen2-VL)	79%/48%	90%/84%	93%/38%	87%/57%
JOMED (Pixtral)	76%/45%	90%/84%	90%/36%	85%/55%

Comparaison avec les Modèles Pré-entraînés Médicaux

JOMED atteint des performances compétitives avec les modèles pré-entraînés médicaux à grande échelle sans pré-entraînement médical:

Ensemble Breast: JOMED (Pixtral) 90% vs GSCo 93%
Ensemble Derma: JOMED (Pixtral) 80% vs MedVInT-TD 80%
Tâches VQA: Correspondance ou dépassement des variantes LLaVA-Med sur SLAKE et PathVQA

Études d'Ablation

Validation de la nécessité de chaque composant:

Tête de récupération textuelle: Amélioration de 2-3 points de pourcentage par rapport à FT RAG
Tête de récupération d'images: Amélioration supplémentaire de 1-2 points de pourcentage
Perte de récupération personnalisée: Supérieure à la perte de distillation de perplexité standard

Analyse des Prédictions de Récupération Incohérentes

Identification du Problème

Découverte du phénomène de « prédictions de récupération incohérentes »: pour la même image de requête, différents candidats de récupération conduisent à des prédictions différentes. Ces cas représentent 3%-93% selon les ensembles de données.

Amélioration des Performances

JOMED obtient des améliorations significatives sur les cas de prédictions incohérentes:

Qwen2-VL: Amélioration de précision +12%, amélioration F1 +13%
Pixtral: Amélioration de précision et F1 +9%

Analyse Oracle

L'analyse oracle montre que la réponse correcte se trouve souvent dans les images de récupération de haut niveau, mais il existe un écart considérable entre les performances réelles et oracle, laissant une marge d'amélioration pour les recherches futures.

Travaux Connexes

Optimisation Conjointe Augmentée par Récupération

ATLAS: Optimisation conjointe avec pré-entraînement à grande échelle dans le domaine général
REVEAL: Extension aux paramètres multimodaux, nécessitant un pré-entraînement important
Cet article explore pour la première fois l'optimisation conjointe directe sur les tâches en aval dans le domaine médical

Récupération Augmentée Multimodale Médicale

RAD: Méthode de classification basée sur la récupération
MMed-RAG: Cadre RAG multimodal utilisant un récupérateur pré-entraîné médical
Série PMC-VQA: Méthodes d'ajustement d'instructions visuelles médicales

Conclusion et Discussion

Conclusions Principales

Efficacité de l'optimisation conjointe légère: Atteinte de performances compétitives sans pré-entraînement médical
Ubiquité de l'incohérence de récupération: Problème important mais négligé
Faisabilité de l'optimisation directe en aval: Preuve de la viabilité de l'optimisation conjointe efficace en données

Limitations

Optimisation séquentielle plutôt que bout en bout: Les gradients ne peuvent pas circuler simultanément entre le récupérateur et le lecteur
Portée d'évaluation limitée: Accent principal sur la classification et VQA, pas d'évaluation de la génération de rapports
Couverture modale incomplète: Pas d'évaluation sur les modalités spécialisées comme PET, microscopie, OCT

Directions Futures

Optimisation conjointe bout en bout: Développement de véritables stratégies d'entraînement bout en bout
Meilleures méthodes de réclassement: Réduction de l'écart avec les performances oracle
Extension à davantage de tâches: Exploration d'applications à la génération de rapports et autres tâches

Évaluation Approfondie

Points Forts

Forte innovativité méthodologique: Première réalisation d'une optimisation conjointe légère directe sur les tâches en aval dans le domaine médical
Conception expérimentale complète: Couvrant plusieurs ensembles de données, plusieurs types de tâches, comparaisons exhaustives
Analyse approfondie: Identification et analyse systématique du problème d'incohérence de récupération
Valeur pratique élevée: Évite le processus de pré-entraînement médical intensif en ressources

Insuffisances

Analyse théorique insuffisante: Manque d'explications théoriques sur l'efficacité de l'optimisation conjointe
Limitations de l'entraînement séquentiel: Pas d'optimisation véritablement bout en bout
Écart oracle considérable: Écart manifeste entre les performances réelles et la limite théorique

Impact

Contribution académique: Fourniture d'un nouveau paradigme d'entraînement léger pour l'IA médicale
Valeur pratique: Réduction des obstacles au déploiement des systèmes d'IA médicale
Reproductibilité: Fourniture de code complet et de détails expérimentaux

Scénarios d'Application

Déploiement de systèmes de diagnostic IA dans les établissements de santé aux ressources limitées
Scénarios nécessitant une adaptation rapide à la distribution de données d'un centre médical spécifique
Développement rapide de prototypes dans la recherche en IA médicale

Références

L'article cite de nombreux travaux connexes, notamment:

Travaux classiques en génération augmentée par récupération (ATLAS, REVEAL, etc.)
Modèles de vision-langage médicaux (LLaVA-Med, BiomedGPT, etc.)
Méthodes de récupération multimodale (PMC-CLIP, BiomedCLIP, etc.)

Évaluation Globale: Cet article est un travail de recherche de haute qualité proposant une méthode d'optimisation conjointe légère innovante dans le domaine de l'IA médicale. Les contributions techniques sont claires, la conception expérimentale rigoureuse, l'analyse approfondie, et la solution proposée offre une valeur considérable pour l'application pratique de l'IA médicale. En particulier, la découverte et l'analyse du problème d'incohérence de récupération indiquent une direction importante pour les recherches futures.