Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis
Mazor, Hope
Retrieving relevant visual and textual information from medical literature and hospital records can enhance diagnostic accuracy for clinical image interpretation. We develop a multimodal retrieval model jointly optimized with an LVLM for medical diagnosis, unlike standard RAG which doesn't backpropagate LVLM errors to the retriever. Using only general-purpose backbones with lightweight fine-tuning, our model achieves competitive results with medically-pretrained models on clinical classification and VQA tasks. In a novel analysis, we find that different top-retrieved images often yield different predictions for the same target, and that these cases are challenging for all models, even for non-retrieval models. Our joint retrieval optimization significantly improves these cases over standard RAG. However, oracle analysis reveals that while the correct diagnosis is frequently achievable using one of the top retrieved images, in practice there is a large performance gap from the oracle, and rerankers using frontier LVLMs do not close this gap -- leaving ample room for improvement by future methods. Code available at https://github.com/Nirmaz/JOMED.
academic
Optimisation Conjointe Légère de Modèles de Vision-Langage à Usage Général et de Récupérateurs pour le Diagnostic Médical Basé sur RAG
Cet article développe un modèle de récupération multimodal optimisé conjointement avec un grand modèle de vision-langage (LVLM) pour le diagnostic médical. Contrairement au RAG standard, cette approche rétropropage les erreurs du LVLM vers le récupérateur. En utilisant uniquement des architectures génériques et un ajustement fin léger, le modèle atteint des résultats compétitifs avec les modèles pré-entraînés médicaux sur les tâches de classification clinique et de réponse à des questions visuelles. L'étude révèle que différentes images de récupération de haut niveau produisent souvent des prédictions différentes pour la même cible, et ces cas posent des défis pour tous les modèles. L'optimisation conjointe de la récupération améliore significativement ces cas, mais l'analyse oracle montre qu'il existe encore une marge d'amélioration considérable.
Le diagnostic des images médicales est une étape fondamentale de la prise de décision clinique. Les grands modèles de vision-langage (LVLMs) sont largement explorés pour le diagnostic médical. Pour améliorer les performances des LVLMs dans le domaine médical, la génération augmentée par récupération (RAG) a été adoptée et montre des résultats prometteurs.
Limitations du RAG standard: Dans les méthodes RAG traditionnelles, le récupérateur et le LVLM sont optimisés indépendamment, sans rétropropagation des erreurs du LVLM vers le récupérateur
Intensité en ressources du pré-entraînement médical: Le processus de pré-entraînement dans le domaine médical consomme énormément de ressources, nécessitant l'exploration d'alternatives légères
Problème d'incohérence de récupération: Différents candidats de récupération peuvent conduire à des prédictions différentes pour la même requête, affectant la fiabilité du modèle
Cadre d'optimisation conjointe: Proposition de la méthode JOMED, optimisant conjointement le récupérateur multimodal et le LVLM pour les tâches de classification médicale et de réponse à des questions visuelles
Stratégie d'ajustement fin léger: Utilisation uniquement d'architectures génériques, sans pré-entraînement médical, atteignant des performances compétitives par ajustement fin léger
Optimisation directe sur les tâches en aval: Contrairement aux approches antérieures nécessitant un pré-entraînement, optimisation conjointe directe sur les tâches en aval
Analyse de l'incohérence de récupération: Identification et analyse du problème de « prédictions de récupération incohérentes », proposant une solution efficace
Étant donné une image médicale et une question diagnostique, le système doit récupérer les informations visuelles et textuelles pertinentes de la littérature médicale et des dossiers hospitaliers, puis générer une réponse diagnostique précise basée sur les informations récupérées et l'image de requête.
Phase 1: Ajustement fin du lecteur augmenté par récupération
Objectif: Améliorer les performances du lecteur sur l'ensemble de données, enseigner au lecteur à utiliser efficacement les paires (image, texte) récupérées
Fonction de perte: Perte de log-vraisemblance négative
L(θ) = -∑∑ log p_θ(a_d | z_k ◦ q_d)
Phase 2: Ajustement fin séquentiel du récupérateur multimodal
Maintien du lecteur gelé, optimisation de l'espace d'intégration du récupérateur
Utilisation de la divergence KL pour minimiser la différence entre la distribution postérieure du LVLM et celle du récupérateur
Découverte du phénomène de « prédictions de récupération incohérentes »: pour la même image de requête, différents candidats de récupération conduisent à des prédictions différentes. Ces cas représentent 3%-93% selon les ensembles de données.
L'analyse oracle montre que la réponse correcte se trouve souvent dans les images de récupération de haut niveau, mais il existe un écart considérable entre les performances réelles et oracle, laissant une marge d'amélioration pour les recherches futures.
L'article cite de nombreux travaux connexes, notamment:
Travaux classiques en génération augmentée par récupération (ATLAS, REVEAL, etc.)
Modèles de vision-langage médicaux (LLaVA-Med, BiomedGPT, etc.)
Méthodes de récupération multimodale (PMC-CLIP, BiomedCLIP, etc.)
Évaluation Globale: Cet article est un travail de recherche de haute qualité proposant une méthode d'optimisation conjointe légère innovante dans le domaine de l'IA médicale. Les contributions techniques sont claires, la conception expérimentale rigoureuse, l'analyse approfondie, et la solution proposée offre une valeur considérable pour l'application pratique de l'IA médicale. En particulier, la découverte et l'analyse du problème d'incohérence de récupération indiquent une direction importante pour les recherches futures.