Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis
Mazor, Hope
Retrieving relevant visual and textual information from medical literature and hospital records can enhance diagnostic accuracy for clinical image interpretation. We develop a multimodal retrieval model jointly optimized with an LVLM for medical diagnosis, unlike standard RAG which doesn't backpropagate LVLM errors to the retriever. Using only general-purpose backbones with lightweight fine-tuning, our model achieves competitive results with medically-pretrained models on clinical classification and VQA tasks. In a novel analysis, we find that different top-retrieved images often yield different predictions for the same target, and that these cases are challenging for all models, even for non-retrieval models. Our joint retrieval optimization significantly improves these cases over standard RAG. However, oracle analysis reveals that while the correct diagnosis is frequently achievable using one of the top retrieved images, in practice there is a large performance gap from the oracle, and rerankers using frontier LVLMs do not close this gap -- leaving ample room for improvement by future methods. Code available at https://github.com/Nirmaz/JOMED.
academic
Легкая совместная оптимизация универсальных моделей зрения-языка и поисковых систем для диагностики на основе RAG в медицине
В данной работе разработана мультимодальная модель поиска, совместно оптимизированная с большой моделью зрения-языка (LVLM) для медицинской диагностики. В отличие от стандартного RAG, данный подход распространяет ошибки LVLM обратно на поисковую систему. Используя только универсальные базовые сети и легкую тонкую настройку, модель достигает результатов, конкурентоспособных с медицинскими предварительно обученными моделями на задачах клинической классификации и визуального ответа на вопросы. Исследование показало, что различные топовые извлеченные изображения часто приводят к различным предсказаниям для одной и той же цели, и эти случаи представляют вызов для всех моделей. Совместная оптимизация поиска значительно улучшает эти случаи, однако анализ оракула показывает, что остается значительное пространство для улучшения.
Диагностика медицинских изображений является основным этапом клинического принятия решений. Большие модели зрения-языка (LVLM) широко исследуются в медицинской диагностике. Для повышения производительности LVLM в медицинской области применяется поиск с увеличением генерации (RAG), показывающий многообещающие результаты.
Ограничения стандартного RAG: В традиционных методах RAG поисковая система и LVLM оптимизируются независимо, без распространения ошибок LVLM обратно на поисковую систему
Ресурсоемкость медицинского предварительного обучения: Процесс предварительного обучения в медицинской области требует огромных вычислительных ресурсов, что требует исследования легких альтернатив
Проблема несогласованности поиска: Различные кандидаты поиска могут привести к различным предсказаниям для одного и того же запроса, влияя на надежность модели
Структура совместной оптимизации: Предложен метод JOMED для совместной оптимизации мультимодальной поисковой системы и LVLM для задач медицинской классификации и визуального ответа на вопросы
Стратегия легкой тонкой настройки: Использование только универсальных базовых сетей без медицинского предварительного обучения для достижения конкурентоспособной производительности посредством легкой тонкой настройки
Прямая оптимизация на задачах нижнего уровня: В отличие от предыдущих методов совместной оптимизации, требующих предварительного обучения, прямая оптимизация на задачах нижнего уровня
Анализ несогласованности поиска: Выявление и анализ проблемы "несогласованных предсказаний поиска" с предложением эффективного решения
Учитывая медицинское изображение и диагностический вопрос, система должна извлечь релевантную визуальную и текстовую информацию из медицинской литературы и больничных записей, а затем на основе извлеченной информации и изображения запроса сгенерировать точный диагностический ответ.
JOMED достигает производительности, конкурентоспособной с крупномасштабными медицинскими предварительно обученными моделями без медицинского предварительного обучения:
Набор данных Breast: JOMED (Pixtral) 90% против GSCo 93%
Набор данных Derma: JOMED (Pixtral) 80% против MedVInT-TD 80%
Задачи VQA: Соответствие или превосходство вариантов LLaVA-Med на SLAKE и PathVQA
Обнаружено явление "несогласованных предсказаний поиска": для одного и того же изображения запроса различные кандидаты поиска приводят к различным предсказаниям. Эти случаи составляют 3%-93% в различных наборах данных.
Анализ оракула показывает, что правильный ответ часто присутствует в топовых извлеченных изображениях, однако фактическая производительность значительно отстает от оракула, оставляя место для улучшения в будущих исследованиях.
Статья цитирует большое количество связанных работ, включая:
Классические работы по поиску с увеличением генерации (ATLAS, REVEAL и др.)
Медицинские модели зрения-языка (LLaVA-Med, BiomedGPT и др.)
Методы мультимодального поиска (PMC-CLIP, BiomedCLIP и др.)
Общая оценка: Это высококачественная исследовательская статья, предлагающая инновационный метод легкой совместной оптимизации в области медицинского искусственного интеллекта. Технический вклад статьи ясен, экспериментальный дизайн строг, анализ глубок, и она предоставляет ценное решение для практического применения медицинского искусственного интеллекта. Особенно важны выявление и анализ проблемы несогласованности поиска, которые указывают на важное направление для будущих исследований.