2025-11-23T04:13:16.733055

ViDRiP-LLaVA: A Dataset and Benchmark for Diagnostic Reasoning from Pathology Videos

Vuong, Kwak

We present ViDRiP-LLaVA, the first large multimodal model (LMM) in computational pathology that integrates three distinct image scenarios, including single patch images, automatically segmented pathology video clips, and manually segmented pathology videos. This integration closely mirrors the natural diagnostic process of pathologists. By generating detailed histological descriptions and culminating in a definitive sign-out diagnosis, ViDRiP-LLaVA bridges visual narratives with diagnostic reasoning. Central to our approach is the ViDRiP-Instruct dataset, comprising 4278 video and diagnosis-specific chain-of-thought instructional pairs sourced from educational histopathology videos on YouTube. Although high-quality data is critical for enhancing diagnostic reasoning, its creation is time-intensive and limited in volume. To overcome this challenge, we transfer knowledge from existing single-image instruction datasets to train on weakly annotated, keyframe-extracted clips, followed by fine-tuning on manually segmented videos. ViDRiP-LLaVA establishes a new benchmark in pathology video analysis and offers a promising foundation for future AI systems that support clinical decision-making through integrated visual and diagnostic reasoning. Our code, data, and model are publicly available at: https://github.com/QuIIL/ViDRiP-LLaVA.

academic

VideoPath-LLaVA: Modelo Multimodal para el Razonamiento Diagnóstico en Patología de Video

Información Básica

ID del Artículo: 2505.04192
Título: VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning
Autores: Trinh Vuong, Jin Tae Kwak (Korea University)
Clasificación: cs.CV cs.AI cs.CL
Fecha de Publicación: preprint arXiv (2025)
Enlace del Artículo: https://arxiv.org/abs/2505.04192v2

Resumen

VideoPath-LLaVA es el primer modelo multimodal de gran escala (LMM) en el campo de la patología computacional, que integra tres escenarios de imagen diferentes: imágenes de parches individuales, fragmentos con extracción automática de fotogramas clave y imágenes de video patológico segmentadas manualmente, para simular el proceso de diagnóstico natural de los patólogos. Al generar descripciones histológicas detalladas y proporcionar conclusiones diagnósticas explícitas, VideoPath-LLaVA combina la narración visual con el razonamiento diagnóstico. El núcleo de este enfoque es el conjunto de datos VideoPath-Instruct, que contiene 4278 pares de video e instrucciones de cadena de pensamiento específicas del diagnóstico extraídas de videos educativos de patología de tejidos de YouTube.

Antecedentes de Investigación y Motivación

Problemas Centrales

Limitaciones del diagnóstico de imagen única: La mayoría de los LMM existentes en el campo médico se centran en responder preguntas basadas en imágenes individuales, pero presentan problemas en tareas de diagnóstico patológico - las imágenes de alto aumento carecen de información de estructura global, mientras que las imágenes de bajo aumento carecen de detalles finos
Subutilización de recursos de video: Los videos educativos de YouTube poseen un proceso de enseñanza estructurado (desde revisión de bajo aumento hasta examen de alto aumento), pero existen problemas de alineación, donde un solo fotograma representa un segmento de video completo y su transcripción, frecuentemente excediendo su contenido visual
Ausencia de proceso de razonamiento diagnóstico: Falta de sistemas de IA que puedan simular el proceso de razonamiento diagnóstico paso a paso de los patólogos

Motivación de la Investigación

Aprovechar la estructura inherente de los videos educativos para construir procesos de razonamiento de cadena de pensamiento (CoT)
Resolver problemas de alineación entre fotogramas de video y descripciones textuales
Establecer el primer modelo de comprensión de video patológico que proporcione razonamiento diagnóstico interpretable

Contribuciones Principales

Modelo Pionero: Propone VideoPath-LLaVA, el primer modelo multimodal de gran escala para comprensión de video en patología computacional
Conjunto de Datos de Alta Calidad: Construye el conjunto de datos VideoPath-Instruct, que contiene 4278 pares de video e instrucciones de seguimiento de preguntas-respuestas cuidadosamente curados
Estrategia de Entrenamiento Innovadora: Diseña un método de entrenamiento de cuatro etapas, incluyendo alineación, SFT de imagen, SFT mixto y SFT de video
Rendimiento Excepcional: Supera modelos avanzados como GPT-4o en el conjunto de prueba VideoPath-Instruct
Contribución de Código Abierto: Publica código, datos y modelo, proporcionando infraestructura a la comunidad

Detalles del Método

Definición de Tarea

Dado un video patológico como entrada, el modelo debe:

Generar descripciones histológicas detalladas
Realizar razonamiento diagnóstico paso a paso
Proporcionar la conclusión diagnóstica patológica final

Arquitectura del Modelo

VideoPath-LLaVA se basa en la arquitectura LLaVA-ov, que contiene tres componentes principales:

Codificador Visual (ViT): Utiliza el codificador SigLIP para extraer características de imagen $z_v = g(x_v)$
Proyector: MLP de 2 capas que proyecta características de imagen al espacio de incrustación de palabras $h_v = p(z_v)$
Decodificador de Lenguaje (LLM): Utiliza Qwen-2.5-7B como LLM, recibiendo características visuales proyectadas e instrucciones de texto para generar respuestas

Estrategia de Entrenamiento

Adopta entrenamiento progresivo de cuatro etapas:

Etapa 0: Fase de Alineación

Preentrenamiento del proyector en pares imagen-título
Establecer conexión entre LLM y ViT

Etapa 1: SFT de Imagen

Ajuste fino de todo el modelo en conjunto de datos de instrucciones de imagen
Utiliza conjuntos de datos Quilt-LLaVA y PathAsst

Etapa 2: SFT Mixto (Punto de Innovación)

Combina entrenamiento con conjuntos de datos de instrucciones de imagen y video segmentado automáticamente
Facilita transición suave de contenido de imagen estática a contenido de video dinámico

Etapa 3: SFT de Video

Ajuste fino final en VideoPath-Instruct
Aplica ajuste fino LoRA al LLM para evitar sobreajuste

Puntos de Innovación Técnica

Transferencia Progresiva de Tareas Visuales: El entrenamiento mixto de la Etapa 2 efectivamente crea un puente entre tareas de imagen y video
Razonamiento Diagnóstico de Cadena de Pensamiento: Utiliza CoT prompting para generar procesos de razonamiento estructurados
Segmentación de Video Multinivel: Combina extracción automática de fotogramas clave y segmentación manual fina
Refinamiento de Datos Visuales: Detección de tejido y eliminación de texto aseguran calidad de datos

Configuración Experimental

Conjuntos de Datos

VideoPath-Instruct: 4036 videos de entrenamiento, 242 videos de prueba
ClipPath-Instruct: 140k fragmentos patológicos segmentados automáticamente
Conjuntos de Datos Auxiliares: Quilt-1M, PathAsst, conjunto de datos de vejiga, etc.

Preprocesamiento de Datos

Utiliza Whisper para transcripción de video
YOLO-Path para detección de tejido y oclusión de personas
docTR para detección y eliminación de texto
AutoShot para detección de límites de fragmentos candidatos

Métricas de Evaluación

Utiliza métricas de Video-ChatGPT para evaluación:

Context (Relevancia Contextual)
Correctness (Corrección)
Detail (Detalle)
Rango de puntuación: 0-5 puntos, evaluado usando GPT-3.5-turbo-0613

Métodos de Comparación

LMM de Código Abierto: LLaVA-OV, LLaVA-Video, InternVL2-8B, Qwen2-VL, Qwen2.5-VL
LMM Propietarios: GPT-4o, Claude-3.7-Sonnet, Gemini-1.5-Pro, Gemini-2.0-Flash

Resultados Experimentales

Resultados Principales

VideoPath-LLaVA logra rendimiento excepcional en el conjunto de prueba VideoPath-Instruct:

Modelo	Context	Correct	Detail	Avg	Norm-Avg
GPT-4o	2.69	2.69	2.36	2.58	51.60
VideoPath-LLaVA (Completo)	2.82	2.82	2.67	2.77	55.40
VideoPath-LLaVA (sin Etapa 2)	2.74	2.68	2.69	2.70	54.08
LLaVA-OV (Línea Base)	1.86	1.40	2.03	1.76	35.21

Hallazgos Clave

Importancia de la Etapa 2: El SFT mixto mejora significativamente el rendimiento (2.70→2.77)
LoRA Superior al Ajuste Fino Completo: En conjuntos de datos pequeños, el ajuste fino LoRA es más efectivo
Eficiencia de Datos: Mantiene rendimiento sólido utilizando solo el 50% de datos de entrenamiento
Superación de Modelos Propietarios: A pesar de menor cantidad de parámetros (7B), supera a GPT-4o

Análisis de Casos

En caso de diagnóstico de cáncer seroso de alto grado:

GPT-4o: Identifica correctamente cáncer seroso pero carece de descripción de características clave
VideoPath-LLaVA: Describe detalladamente atipia nuclear, fibrosis del estroma y otras características patológicas clave, proporcionando evaluación más precisa del grado de malignidad

Trabajo Relacionado

Modelos Multimodales Médicos

LLaVA-Med: Arquitectura LLaVA adaptada para imágenes biomédicas
Quilt-LLaVA: Construcción de pares imagen-título a partir de videos de YouTube
CPath-Omni: Extensión a análisis de nivel de parche e imagen de corte completo

Modelos de Comprensión de Video

LLaVA-Video: Extensión de LLaVA para comprensión de video
Video-ChatGPT: Sistema de diálogo de video

Ventajas de este Artículo

Primera introducción de comprensión de video en patología computacional
Resolución de limitaciones inherentes del diagnóstico de imagen única
Proporciona proceso de razonamiento diagnóstico estructurado

Conclusiones y Discusión

Conclusiones Principales

VideoPath-LLaVA establece exitosamente un nuevo punto de referencia para análisis de video patológico
La estrategia de entrenamiento de cuatro etapas efectivamente realiza transferencia de conocimiento de imagen a video
El razonamiento de cadena de pensamiento mejora significativamente la interpretabilidad y precisión del diagnóstico

Limitaciones

Limitaciones de Fuente de Datos: Depende de videos educativos de YouTube, que pueden presentar variaciones de calidad
Falta de Validación Humana: Los diagnósticos generados carecen de verificación por expertos patólogos
Cobertura Insuficiente de Patología Rara: Capacidad de generalización limitada para tipos de patología raros
Requisitos de Recursos Computacionales: Requiere recursos GPU significativos para entrenamiento

Direcciones Futuras

Expandir escala y diversidad del conjunto de datos
Fortalecer colaboración y validación con expertos clínicos
Mejorar capacidad de diagnóstico para patología rara
Explorar estrategias de entrenamiento más eficientes

Evaluación Profunda

Fortalezas

Innovación Destacada: Primera introducción de comprensión de video en patología computacional, llenando vacío importante
Diseño de Método Razonable: Estrategia de entrenamiento de cuatro etapas científica, aprendizaje de transferencia progresivo efectivo
Experimentación Completa: Experimentos comparativos exhaustivos y estudios de ablación demuestran efectividad del método
Alto Valor Práctico: Proporciona razonamiento diagnóstico interpretable, con potencial de aplicación clínica
Contribución de Código Abierto: Publicación completa de código, datos y modelo, promoviendo desarrollo del campo

Insuficiencias

Limitaciones de Evaluación: Evaluación solo en conjunto de datos autoconstruido, falta de puntos de referencia estandarizados
Validación Clínica Insuficiente: Falta de verificación en entorno clínico real y evaluación por expertos
Eficiencia Computacional: Tamaño de modelo y costo de entrenamiento relativamente altos, desafíos en implementación práctica
Capacidad de Generalización Desconocida: Capacidad de generalización a diferentes tipos de patología y datos de hospitales requiere verificación adicional

Impacto

Valor Académico: Abre nueva dirección en comprensión de video patológico, proporciona base para investigación posterior
Potencial Clínico: Promete asistir en diagnóstico patológico, mejorando eficiencia y precisión diagnóstica
Contribución Técnica: Estrategia de entrenamiento multietapa generalizable a otras tareas de comprensión de video médico
Activo de Datos: El conjunto de datos VideoPath-Instruct se convertirá en recurso de investigación importante

Escenarios Aplicables

Educación Médica: Asistencia en enseñanza y entrenamiento de patología
Apoyo a Decisiones Clínicas: Proporciona segunda opinión para patólogos
Diagnóstico Remoto: Apoya diagnóstico patológico en regiones con recursos limitados
Control de Calidad: Asiste en garantía de calidad y verificación de consistencia de diagnóstico patológico

Referencias

El artículo cita múltiples trabajos importantes, incluyendo:

Arquitectura base de la serie de modelos LLaVA
Métodos de razonamiento de cadena de pensamiento
Modelos multimodales médicos como LLaVA-Med, Quilt-LLaVA
Tecnologías relacionadas con comprensión de video como AutoShot, Video-ChatGPT

Evaluación General: Este es un artículo de investigación de alta calidad con significado pionero en el campo de la patología computacional. El método es novedoso, la experimentación es completa y los resultados son convincentes, abriendo una nueva dirección de investigación para el diagnóstico patológico asistido por IA. A pesar de algunas limitaciones, su valor académico y potencial práctico son ambos altos, mereciendo atención y desarrollo continuo.