2025-11-23T04:13:16.733055

ViDRiP-LLaVA: A Dataset and Benchmark for Diagnostic Reasoning from Pathology Videos

Vuong, Kwak

We present ViDRiP-LLaVA, the first large multimodal model (LMM) in computational pathology that integrates three distinct image scenarios, including single patch images, automatically segmented pathology video clips, and manually segmented pathology videos. This integration closely mirrors the natural diagnostic process of pathologists. By generating detailed histological descriptions and culminating in a definitive sign-out diagnosis, ViDRiP-LLaVA bridges visual narratives with diagnostic reasoning. Central to our approach is the ViDRiP-Instruct dataset, comprising 4278 video and diagnosis-specific chain-of-thought instructional pairs sourced from educational histopathology videos on YouTube. Although high-quality data is critical for enhancing diagnostic reasoning, its creation is time-intensive and limited in volume. To overcome this challenge, we transfer knowledge from existing single-image instruction datasets to train on weakly annotated, keyframe-extracted clips, followed by fine-tuning on manually segmented videos. ViDRiP-LLaVA establishes a new benchmark in pathology video analysis and offers a promising foundation for future AI systems that support clinical decision-making through integrated visual and diagnostic reasoning. Our code, data, and model are publicly available at: https://github.com/QuIIL/ViDRiP-LLaVA.

academic

VideoPath-LLaVA: Мультимодальная модель для диагностического рассуждения в патологических видео

Основная информация

ID статьи: 2505.04192
Название: VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning
Авторы: Trinh Vuong, Jin Tae Kwak (Korea University)
Классификация: cs.CV cs.AI cs.CL
Дата публикации: arXiv preprint (2025)
Ссылка на статью: https://arxiv.org/abs/2505.04192v2

Аннотация

VideoPath-LLaVA является первой крупномасштабной мультимодальной моделью (LMM) в области вычислительной патологии, интегрирующей три различных типа изображений: отдельные патч-изображения, автоматически извлеченные ключевые кадры видеофрагментов и вручную сегментированные видеоизображения патологии для имитации естественного диагностического процесса патолога. Путем создания подробных гистологических описаний и окончательного диагностического заключения VideoPath-LLaVA объединяет визуальное повествование с диагностическим рассуждением. Основой метода является набор данных VideoPath-Instruct, содержащий 4278 видео и пар инструкций с цепочкой мышления, специфичных для диагностики, из образовательных видео организационной патологии на YouTube.

Исследовательский контекст и мотивация

Основные проблемы

Ограничения диагностики по одному изображению: Большинство существующих LMM в медицинской области сосредоточены на ответах на вопросы на основе одного изображения, но это создает проблемы в задачах патологической диагностики — изображения при высоком увеличении не содержат информации о глобальной структуре, а изображения при низком увеличении не содержат тонких деталей
Недостаточное использование видеоресурсов: Образовательные видео YouTube имеют структурированный учебный процесс (от обзора при низком увеличении к исследованию при высоком увеличении), но существуют проблемы выравнивания, когда один кадр представляет весь видеосегмент и его транскрипцию, часто выходящие за пределы его визуального содержания
Отсутствие процесса диагностического рассуждения: Отсутствуют системы ИИ, которые могли бы имитировать пошаговый процесс диагностического рассуждения патолога

Исследовательская мотивация

Использование внутренней структуры образовательных видео для построения процесса рассуждения цепочки мышления (CoT)
Решение проблемы выравнивания между видеокадрами и текстовыми описаниями
Создание первой модели понимания патологических видео с интерпретируемым диагностическим рассуждением

Основные вклады

Новаторская модель: Предложена VideoPath-LLaVA, первая крупномасштабная мультимодальная модель для понимания видео в области вычислительной патологии
Высококачественный набор данных: Построен набор данных VideoPath-Instruct, содержащий 4278 тщательно отобранных пар видео с инструкциями для следования вопросам и ответам в патологии
Инновационная стратегия обучения: Разработан четырехэтапный метод обучения, включающий выравнивание, SFT изображений, смешанный SFT и видео SFT
Превосходная производительность: Превосходит передовые модели, такие как GPT-4o, на тестовом наборе VideoPath-Instruct
Вклад в открытый исходный код: Публикация кода, данных и модели для предоставления инфраструктуры сообществу

Подробное описание метода

Определение задачи

Учитывая видеовход патологии, модель должна:

Создавать подробные гистологические описания
Проводить пошаговое диагностическое рассуждение
Предоставлять окончательное патологическое диагностическое заключение

Архитектура модели

VideoPath-LLaVA основана на архитектуре LLaVA-ov и содержит три основных компонента:

Визуальный кодировщик (ViT): Использует кодировщик SigLIP для извлечения признаков изображения $z_v = g(x_v)$
Проектор: 2-слойный MLP проецирует признаки изображения в пространство встраивания слов $h_v = p(z_v)$
Языковой декодер (LLM): Использует Qwen-2.5-7B в качестве LLM, получающей проецируемые визуальные признаки и текстовые инструкции для создания ответов

Стратегия обучения

Используется четырехэтапное прогрессивное обучение:

Этап 0: Этап выравнивания

Предварительное обучение проектора на парах изображение-заголовок
Установление связи между LLM и ViT

Этап 1: SFT изображений

Тонкая настройка всей модели на наборе данных инструкций для изображений
Использование наборов данных Quilt-LLaVA и PathAsst

Этап 2: Смешанный SFT (инновационный момент)

Объединение обучения на наборах данных инструкций изображений и автоматически сегментированных видео
Содействие плавному переходу от статического содержания изображений к динамическому видеоконтенту

Этап 3: Видео SFT

Окончательная тонкая настройка на VideoPath-Instruct
Применение LoRA для тонкой настройки LLM во избежание переобучения

Технические инновационные моменты

Прогрессивная передача визуальных задач: Смешанное обучение на этапе 2 эффективно связывает задачи изображений и видео
Диагностическое рассуждение цепочки мышления: Использование CoT prompting для создания структурированного процесса рассуждения
Многоуровневая сегментация видео: Объединение автоматического извлечения ключевых кадров и ручной тонкой сегментации
Очистка визуальных данных: Обнаружение организации и удаление текста обеспечивают качество данных

Экспериментальная установка

Наборы данных

VideoPath-Instruct: 4036 видео для обучения, 242 видео для тестирования
ClipPath-Instruct: 140k автоматически сегментированных патологических фрагментов
Вспомогательные наборы данных: Quilt-1M, PathAsst, набор данных мочевого пузыря и т.д.

Предварительная обработка данных

Использование Whisper для транскрипции видео
YOLO-Path для обнаружения организации и окклюзии людей
docTR для обнаружения и удаления текста
AutoShot для обнаружения границ кандидатов фрагментов

Метрики оценки

Использование метрик Video-ChatGPT для оценки:

Context (релевантность контекста)
Correctness (правильность)
Detail (уровень детализации)
Диапазон оценок: 0-5, оценка с использованием GPT-3.5-turbo-0613

Методы сравнения

Открытые LMM: LLaVA-OV, LLaVA-Video, InternVL2-8B, Qwen2-VL, Qwen2.5-VL
Проприетарные LMM: GPT-4o, Claude-3.7-Sonnet, Gemini-1.5-Pro, Gemini-2.0-Flash

Результаты экспериментов

Основные результаты

VideoPath-LLaVA достигает превосходной производительности на тестовом наборе VideoPath-Instruct:

Модель	Context	Correct	Detail	Avg	Norm-Avg
GPT-4o	2.69	2.69	2.36	2.58	51.60
VideoPath-LLaVA (полная)	2.82	2.82	2.67	2.77	55.40
VideoPath-LLaVA (без этапа 2)	2.74	2.68	2.69	2.70	54.08
LLaVA-OV (базовая модель)	1.86	1.40	2.03	1.76	35.21

Ключевые выводы

Важность этапа 2: Смешанный SFT значительно повышает производительность (2.70→2.77)
LoRA превосходит полную тонкую настройку: На небольших наборах данных LoRA более эффективен
Эффективность данных: Сохранение сильной производительности при использовании только 50% обучающих данных
Превосходство над проприетарными моделями: Несмотря на меньший размер параметров (7B), превосходит GPT-4o

Анализ примеров

В случае диагностики высокодифференцированной серозной карциномы:

GPT-4o: Правильно идентифицирует серозную карциному, но не хватает описания ключевых признаков
VideoPath-LLaVA: Подробно описывает ядерный плеоморфизм, фиброз стромы и другие ключевые патологические признаки, обеспечивая более точную оценку степени злокачественности

Связанные работы

Медицинские мультимодальные модели

LLaVA-Med: Адаптация архитектуры LLaVA для биомедицинской визуализации
Quilt-LLaVA: Построение пар изображение-заголовок из видео YouTube
CPath-Omni: Расширение до анализа патч-уровня и полного срезового изображения

Модели понимания видео

LLaVA-Video: Расширение LLaVA для понимания видео
Video-ChatGPT: Система видеодиалога

Преимущества данной работы

Первое введение понимания видео в вычислительную патологию
Решение врожденных ограничений диагностики по одному изображению
Предоставление структурированного процесса диагностического рассуждения

Заключение и обсуждение

Основные выводы

VideoPath-LLaVA успешно устанавливает новый эталон для анализа патологических видео
Четырехэтапная стратегия обучения эффективно реализует передачу знаний от изображений к видео
Рассуждение цепочки мышления значительно повышает интерпретируемость и точность диагностики

Ограничения

Ограничения источника данных: Зависимость от образовательных видео YouTube может привести к различиям в качестве
Отсутствие человеческой проверки: Созданные диагнозы не проверены патологическими экспертами
Недостаточное покрытие редких патологий: Ограниченная способность обобщения на редкие патологические типы
Требования к вычислительным ресурсам: Требуется большое количество ресурсов GPU для обучения

Будущие направления

Расширение масштаба и разнообразия набора данных
Усиление сотрудничества с клиническими экспертами для проверки
Повышение диагностической способности при редких патологиях
Исследование более эффективных стратегий обучения

Глубокая оценка

Преимущества

Выдающаяся новизна: Первое введение понимания видео в вычислительную патологию, заполнение важного пробела
Разумное проектирование метода: Четырехэтапная стратегия обучения научна, прогрессивное трансферное обучение эффективно
Полные эксперименты: Комплексные сравнительные эксперименты и исследования абляции доказывают эффективность метода
Высокая практическая ценность: Предоставление интерпретируемого диагностического рассуждения с потенциалом клинического применения
Вклад в открытый исходный код: Полное открытие кода, данных и модели для содействия развитию области

Недостатки

Ограничения оценки: Оценка только на самостоятельно построенном наборе данных, отсутствие стандартизированного эталона
Недостаточная клиническая проверка: Отсутствие проверки в реальной клинической среде и оценки экспертами
Вычислительная эффективность: Больший размер модели и стоимость обучения создают проблемы при практическом развертывании
Неизвестная способность обобщения: Требуется дальнейшая проверка способности обобщения на различные патологические типы и данные больниц

Влияние

Академическая ценность: Открытие нового направления в понимании патологических видео, предоставление основы для последующих исследований
Клинический потенциал: Вероятность помощи в патологической диагностике, повышение эффективности и точности диагностики
Технический вклад: Многоэтапная стратегия обучения может быть распространена на другие задачи понимания медицинских видео
Информационный актив: Набор данных VideoPath-Instruct станет важным исследовательским ресурсом

Применимые сценарии

Медицинское образование: Помощь в преподавании и обучении патологии
Поддержка клинических решений: Предоставление второго мнения для патологов
Удаленная диагностика: Поддержка патологической диагностики в регионах с ограниченными ресурсами
Контроль качества: Помощь в обеспечении качества и согласованности патологической диагностики

Библиография

Статья ссылается на множество важных работ, включая:

Базовую архитектуру серии моделей LLaVA
Методы рассуждения цепочки мышления
Медицинские мультимодальные модели, такие как LLaVA-Med, Quilt-LLaVA
Технологии понимания видео, такие как AutoShot, Video-ChatGPT

Общая оценка: Это высококачественная исследовательская статья с открывающим значением в области вычислительной патологии. Метод статьи новаторский, эксперименты полные, результаты убедительны, открывая новое направление исследований для ИИ-ассистированной патологической диагностики. Несмотря на некоторые ограничения, его академическая ценность и практический потенциал высоки и заслуживают дальнейшего внимания и развития.