2025-11-12T02:07:28.338293

Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis

Mazor, Hope

Retrieving relevant visual and textual information from medical literature and hospital records can enhance diagnostic accuracy for clinical image interpretation. We develop a multimodal retrieval model jointly optimized with an LVLM for medical diagnosis, unlike standard RAG which doesn't backpropagate LVLM errors to the retriever. Using only general-purpose backbones with lightweight fine-tuning, our model achieves competitive results with medically-pretrained models on clinical classification and VQA tasks. In a novel analysis, we find that different top-retrieved images often yield different predictions for the same target, and that these cases are challenging for all models, even for non-retrieval models. Our joint retrieval optimization significantly improves these cases over standard RAG. However, oracle analysis reveals that while the correct diagnosis is frequently achievable using one of the top retrieved images, in practice there is a large performance gap from the oracle, and rerankers using frontier LVLMs do not close this gap -- leaving ample room for improvement by future methods. Code available at https://github.com/Nirmaz/JOMED.

academic

Легкая совместная оптимизация универсальных моделей зрения-языка и поисковых систем для диагностики на основе RAG в медицине

Основная информация

ID статьи: 2508.17394
Название: Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis
Авторы: Nir Mazor, Tom Hope (Еврейский университет Иерусалима и Институт Аллена для искусственного интеллекта)
Категория: cs.CV
Дата публикации: 11 октября 2025 г. (arXiv v3)
Ссылка на статью: https://arxiv.org/abs/2508.17394v3

Аннотация

В данной работе разработана мультимодальная модель поиска, совместно оптимизированная с большой моделью зрения-языка (LVLM) для медицинской диагностики. В отличие от стандартного RAG, данный подход распространяет ошибки LVLM обратно на поисковую систему. Используя только универсальные базовые сети и легкую тонкую настройку, модель достигает результатов, конкурентоспособных с медицинскими предварительно обученными моделями на задачах клинической классификации и визуального ответа на вопросы. Исследование показало, что различные топовые извлеченные изображения часто приводят к различным предсказаниям для одной и той же цели, и эти случаи представляют вызов для всех моделей. Совместная оптимизация поиска значительно улучшает эти случаи, однако анализ оракула показывает, что остается значительное пространство для улучшения.

Исследовательский контекст и мотивация

Определение проблемы

Диагностика медицинских изображений является основным этапом клинического принятия решений. Большие модели зрения-языка (LVLM) широко исследуются в медицинской диагностике. Для повышения производительности LVLM в медицинской области применяется поиск с увеличением генерации (RAG), показывающий многообещающие результаты.

Исследовательская мотивация

Ограничения стандартного RAG: В традиционных методах RAG поисковая система и LVLM оптимизируются независимо, без распространения ошибок LVLM обратно на поисковую систему
Ресурсоемкость медицинского предварительного обучения: Процесс предварительного обучения в медицинской области требует огромных вычислительных ресурсов, что требует исследования легких альтернатив
Проблема несогласованности поиска: Различные кандидаты поиска могут привести к различным предсказаниям для одного и того же запроса, влияя на надежность модели

Ограничения существующих методов

Разделенное обучение поисковой системы и LVLM в традиционных мультимодальных установках RAG
Требуется крупномасштабное медицинское предварительное обучение для достижения конкурентоспособной производительности
Отсутствует систематический анализ проблемы несогласованности поиска

Основные вклады

Структура совместной оптимизации: Предложен метод JOMED для совместной оптимизации мультимодальной поисковой системы и LVLM для задач медицинской классификации и визуального ответа на вопросы
Стратегия легкой тонкой настройки: Использование только универсальных базовых сетей без медицинского предварительного обучения для достижения конкурентоспособной производительности посредством легкой тонкой настройки
Прямая оптимизация на задачах нижнего уровня: В отличие от предыдущих методов совместной оптимизации, требующих предварительного обучения, прямая оптимизация на задачах нижнего уровня
Анализ несогласованности поиска: Выявление и анализ проблемы "несогласованных предсказаний поиска" с предложением эффективного решения

Подробное описание метода

Определение задачи

Учитывая медицинское изображение и диагностический вопрос, система должна извлечь релевантную визуальную и текстовую информацию из медицинской литературы и больничных записей, а затем на основе извлеченной информации и изображения запроса сгенерировать точный диагностический ответ.

Архитектура модели

Общая структура

JOMED содержит два основных компонента:

Мультимодальная поисковая система: С двухголовой архитектурой, включающей текстовую и изображение головы поиска
Читатель (Reader): Большая модель зрения-языка, отвечающая за анализ кандидатов поиска и генерацию ответов

Стратегия обучения

Применяется двухэтапное последовательное обучение:

Этап 1: Тонкая настройка читателя с увеличением поиска

Цель: Повысить производительность читателя на наборе данных, обучить читателя эффективно использовать извлеченные пары (изображение, текст)
Функция потерь: Отрицательная логарифмическая вероятность

L(θ) = -∑∑ log p_θ(a_d | z_k ◦ q_d)

Этап 2: Последовательная тонкая настройка мультимодальной поисковой системы

Читатель остается замороженным, оптимизируется пространство вложений поисковой системы
Использование минимизации дивергенции Кульбака-Лейблера между апостериорным распределением LVLM и распределением поисковой системы

Технические инновации

1. Двухголовая архитектура поиска

Текстовая голова поиска: Извлечение релевантных пар (изображение, текст) на основе текстовой схожести
Голова поиска изображений: Извлечение релевантных пар на основе визуальной схожести

2. Специализированная функция потерь поиска

Для открытых вопросов используется модель o3 для их преобразования в закрытые вопросы, повышая эффективность обучения:

KL(p_LVLM^C || p_RETR) = ∑ p_LVLM^C(z_k) log(p_LVLM^C(z_k) / p_RETR(z_k))

3. Стратегия слияния при выводе

Итоговая вероятность представляет собой взвешенное слияние кандидатов поиска:

p_LVLM(a|q) = ∑ p_LVLM(a|z_k ◦ q) · p_R(z_k|q)

Экспериментальная установка

Наборы данных

Задачи классификации

BreastMNIST: Ультразвуковая визуализация молочной железы, двоичная классификация (546 обучающих образцов)
DermaMNIST: Пигментные поражения кожи, многоклассовая классификация (7 007 обучающих образцов)
RetinaMNIST: Изображения глазного дна сетчатки, многоклассовая классификация (1 080 обучающих образцов)
VinDr-PCXR: Рентгенография грудной клетки детей, многометочная классификация 15 классов (7 728 обучающих образцов)
BRSET: Бразильский офтальмологический набор данных, многометочная классификация 14 классов (11 386 обучающих образцов)

Задачи визуального ответа на вопросы

VQA-RAD: Радиологический VQA (1 753 обучающих вопроса)
SLAKE-English: Двуязычный медицинский VQA, англоязычное подмножество (4 920 обучающих вопросов)
PathVQA: Патологический VQA (19 700 обучающих вопросов)

Индекс поиска

Построение внешнего индекса из PMC-OA, MIMIC-CXR и ROCO, содержащего медицинские изображения и соответствующие подписи/отчеты.

Метрики оценки

Задачи классификации: Точность (ACC) и макро-F1 оценка
Задачи VQA: Для закрытых вопросов используется точное совпадение, для открытых вопросов используется отзыв токенов

Методы сравнения

Базовые линии RAG: MMed-RAG, RAD, стандартный микротюнированный RAG
Медицинские предварительно обученные модели: BiomedGPT, варианты LLaVA-Med, MedVInT, варианты InternVL
Универсальные базовые сети: Pixtral (12B), Qwen2-VL (7B)

Результаты экспериментов

Основные результаты

Производительность на задачах классификации

На пяти медицинских эталонах классификации JOMED последовательно превосходит все методы сравнения:

Модель	Breast	Derma	Retina	VinDr-PCXR	BRSET	Среднее
MMed-RAG	85%/84%	75%/30%	63%/46%	55%/11%	42%/30%	64%/40%
FT RAG (Qwen2-VL)	85%/82%	71%/42%	62%/48%	55%/9%	48%/27%	64%/42%
JOMED (Qwen2-VL)	87%/84%	76%/50%	65%/50%	57%/14%	49%/37%	67%/47%
JOMED (Pixtral)	90%/87%	80%/62%	60%/51%	56%/14%	51%/37%	67%/50%

Производительность на задачах VQA

На задачах визуального ответа на вопросы также достигнуты значительные улучшения:

Модель	VQA-RAD	SLAKE	PathVQA	Среднее
MMed-RAG	74%/39%	87%/81%	90%/31%	84%/50%
JOMED (Qwen2-VL)	79%/48%	90%/84%	93%/38%	87%/57%
JOMED (Pixtral)	76%/45%	90%/84%	90%/36%	85%/55%

Сравнение с медицинскими предварительно обученными моделями

JOMED достигает производительности, конкурентоспособной с крупномасштабными медицинскими предварительно обученными моделями без медицинского предварительного обучения:

Набор данных Breast: JOMED (Pixtral) 90% против GSCo 93%
Набор данных Derma: JOMED (Pixtral) 80% против MedVInT-TD 80%
Задачи VQA: Соответствие или превосходство вариантов LLaVA-Med на SLAKE и PathVQA

Абляционные исследования

Проверена необходимость каждого компонента:

Текстовая голова поиска: Улучшение на 2-3 процентных пункта по сравнению с FT RAG
Голова поиска изображений: Дальнейшее улучшение на 1-2 процентных пункта
Специализированная функция потерь поиска: Превосходство над стандартной функцией потерь дистилляции замешательства

Анализ несогласованных предсказаний поиска

Выявление проблемы

Обнаружено явление "несогласованных предсказаний поиска": для одного и того же изображения запроса различные кандидаты поиска приводят к различным предсказаниям. Эти случаи составляют 3%-93% в различных наборах данных.

Улучшение производительности

JOMED достигает значительного улучшения на случаях несогласованных предсказаний:

Qwen2-VL: Улучшение точности +12%, улучшение F1 +13%
Pixtral: Улучшение точности и F1 на +9%

Анализ оракула

Анализ оракула показывает, что правильный ответ часто присутствует в топовых извлеченных изображениях, однако фактическая производительность значительно отстает от оракула, оставляя место для улучшения в будущих исследованиях.

Связанные работы

Совместная оптимизация с увеличением поиска

ATLAS: Совместная оптимизация при крупномасштабном предварительном обучении в универсальной области
REVEAL: Расширение на мультимодальные установки, требующее большого объема предварительного обучения
Данная работа впервые исследует совместную оптимизацию прямых задач нижнего уровня в медицинской области

Мультимодальный поиск с увеличением в медицине

RAD: Метод классификации на основе поиска
MMed-RAG: Структура мультимодального RAG с использованием медицинской предварительно обученной поисковой системы
Серия PMC-VQA: Методы медицинской визуальной инструкции по настройке

Заключение и обсуждение

Основные выводы

Эффективность легкой совместной оптимизации: Достижение конкурентоспособной производительности без медицинского предварительного обучения
Повсеместность несогласованности поиска: Это важная, но часто упускаемая из виду проблема
Осуществимость прямой оптимизации нижнего уровня: Доказана осуществимость эффективной по данным совместной оптимизации

Ограничения

Последовательная оптимизация, а не сквозная: Градиенты не могут одновременно течь между поисковой системой и читателем
Ограниченный объем оценки: Основное внимание уделяется классификации и VQA, отсутствует оценка генерации отчетов
Неполное покрытие специализированных модальностей: Отсутствует оценка на ПЭТ, микроскопии, ОКТ и других специализированных модальностях

Будущие направления

Сквозная совместная оптимизация: Разработка истинной сквозной стратегии обучения
Лучшие методы переранжирования: Сокращение разрыва с производительностью оракула
Расширение на больше задач: Исследование применения на генерацию отчетов и другие задачи

Глубокая оценка

Преимущества

Сильная методологическая инновация: Впервые реализована легкая совместная оптимизация прямых задач нижнего уровня в медицинской области
Полный экспериментальный дизайн: Охватывает множество наборов данных, различные типы задач, всесторонние методы сравнения
Глубокий анализ: Выявление и систематический анализ проблемы несогласованности поиска
Высокая практическая ценность: Избежание ресурсоемкого процесса медицинского предварительного обучения

Недостатки

Недостаточный теоретический анализ: Отсутствие теоретического объяснения того, почему совместная оптимизация эффективна
Ограничения последовательного обучения: Не является истинной сквозной оптимизацией
Значительный разрыв с оракулом: Явное расхождение между фактической производительностью и теоретическим пределом

Влияние

Академический вклад: Предоставление новой парадигмы легкого обучения для медицинского искусственного интеллекта
Практическая ценность: Снижение порога развертывания систем медицинского искусственного интеллекта
Воспроизводимость: Предоставление полного кода и деталей экспериментов

Применимые сценарии

Развертывание систем диагностики искусственного интеллекта в медицинских учреждениях с ограниченными ресурсами
Сценарии, требующие быстрой адаптации к распределению данных конкретного медицинского центра
Быстрое прототипирование в исследованиях медицинского искусственного интеллекта

Библиография

Статья цитирует большое количество связанных работ, включая:

Классические работы по поиску с увеличением генерации (ATLAS, REVEAL и др.)
Медицинские модели зрения-языка (LLaVA-Med, BiomedGPT и др.)
Методы мультимодального поиска (PMC-CLIP, BiomedCLIP и др.)

Общая оценка: Это высококачественная исследовательская статья, предлагающая инновационный метод легкой совместной оптимизации в области медицинского искусственного интеллекта. Технический вклад статьи ясен, экспериментальный дизайн строг, анализ глубок, и она предоставляет ценное решение для практического применения медицинского искусственного интеллекта. Особенно важны выявление и анализ проблемы несогласованности поиска, которые указывают на важное направление для будущих исследований.