We present ViDRiP-LLaVA, the first large multimodal model (LMM) in computational pathology that integrates three distinct image scenarios, including single patch images, automatically segmented pathology video clips, and manually segmented pathology videos. This integration closely mirrors the natural diagnostic process of pathologists. By generating detailed histological descriptions and culminating in a definitive sign-out diagnosis, ViDRiP-LLaVA bridges visual narratives with diagnostic reasoning. Central to our approach is the ViDRiP-Instruct dataset, comprising 4278 video and diagnosis-specific chain-of-thought instructional pairs sourced from educational histopathology videos on YouTube. Although high-quality data is critical for enhancing diagnostic reasoning, its creation is time-intensive and limited in volume. To overcome this challenge, we transfer knowledge from existing single-image instruction datasets to train on weakly annotated, keyframe-extracted clips, followed by fine-tuning on manually segmented videos. ViDRiP-LLaVA establishes a new benchmark in pathology video analysis and offers a promising foundation for future AI systems that support clinical decision-making through integrated visual and diagnostic reasoning. Our code, data, and model are publicly available at: https://github.com/QuIIL/ViDRiP-LLaVA.
- ID del Artículo: 2505.04192
- Título: VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning
- Autores: Trinh Vuong, Jin Tae Kwak (Korea University)
- Clasificación: cs.CV cs.AI cs.CL
- Fecha de Publicación: preprint arXiv (2025)
- Enlace del Artículo: https://arxiv.org/abs/2505.04192v2
VideoPath-LLaVA es el primer modelo multimodal de gran escala (LMM) en el campo de la patología computacional, que integra tres escenarios de imagen diferentes: imágenes de parches individuales, fragmentos con extracción automática de fotogramas clave y imágenes de video patológico segmentadas manualmente, para simular el proceso de diagnóstico natural de los patólogos. Al generar descripciones histológicas detalladas y proporcionar conclusiones diagnósticas explícitas, VideoPath-LLaVA combina la narración visual con el razonamiento diagnóstico. El núcleo de este enfoque es el conjunto de datos VideoPath-Instruct, que contiene 4278 pares de video e instrucciones de cadena de pensamiento específicas del diagnóstico extraídas de videos educativos de patología de tejidos de YouTube.
- Limitaciones del diagnóstico de imagen única: La mayoría de los LMM existentes en el campo médico se centran en responder preguntas basadas en imágenes individuales, pero presentan problemas en tareas de diagnóstico patológico - las imágenes de alto aumento carecen de información de estructura global, mientras que las imágenes de bajo aumento carecen de detalles finos
- Subutilización de recursos de video: Los videos educativos de YouTube poseen un proceso de enseñanza estructurado (desde revisión de bajo aumento hasta examen de alto aumento), pero existen problemas de alineación, donde un solo fotograma representa un segmento de video completo y su transcripción, frecuentemente excediendo su contenido visual
- Ausencia de proceso de razonamiento diagnóstico: Falta de sistemas de IA que puedan simular el proceso de razonamiento diagnóstico paso a paso de los patólogos
- Aprovechar la estructura inherente de los videos educativos para construir procesos de razonamiento de cadena de pensamiento (CoT)
- Resolver problemas de alineación entre fotogramas de video y descripciones textuales
- Establecer el primer modelo de comprensión de video patológico que proporcione razonamiento diagnóstico interpretable
- Modelo Pionero: Propone VideoPath-LLaVA, el primer modelo multimodal de gran escala para comprensión de video en patología computacional
- Conjunto de Datos de Alta Calidad: Construye el conjunto de datos VideoPath-Instruct, que contiene 4278 pares de video e instrucciones de seguimiento de preguntas-respuestas cuidadosamente curados
- Estrategia de Entrenamiento Innovadora: Diseña un método de entrenamiento de cuatro etapas, incluyendo alineación, SFT de imagen, SFT mixto y SFT de video
- Rendimiento Excepcional: Supera modelos avanzados como GPT-4o en el conjunto de prueba VideoPath-Instruct
- Contribución de Código Abierto: Publica código, datos y modelo, proporcionando infraestructura a la comunidad
Dado un video patológico como entrada, el modelo debe:
- Generar descripciones histológicas detalladas
- Realizar razonamiento diagnóstico paso a paso
- Proporcionar la conclusión diagnóstica patológica final
VideoPath-LLaVA se basa en la arquitectura LLaVA-ov, que contiene tres componentes principales:
- Codificador Visual (ViT): Utiliza el codificador SigLIP para extraer características de imagen zv=g(xv)
- Proyector: MLP de 2 capas que proyecta características de imagen al espacio de incrustación de palabras hv=p(zv)
- Decodificador de Lenguaje (LLM): Utiliza Qwen-2.5-7B como LLM, recibiendo características visuales proyectadas e instrucciones de texto para generar respuestas
Adopta entrenamiento progresivo de cuatro etapas:
Etapa 0: Fase de Alineación
- Preentrenamiento del proyector en pares imagen-título
- Establecer conexión entre LLM y ViT
Etapa 1: SFT de Imagen
- Ajuste fino de todo el modelo en conjunto de datos de instrucciones de imagen
- Utiliza conjuntos de datos Quilt-LLaVA y PathAsst
Etapa 2: SFT Mixto (Punto de Innovación)
- Combina entrenamiento con conjuntos de datos de instrucciones de imagen y video segmentado automáticamente
- Facilita transición suave de contenido de imagen estática a contenido de video dinámico
Etapa 3: SFT de Video
- Ajuste fino final en VideoPath-Instruct
- Aplica ajuste fino LoRA al LLM para evitar sobreajuste
- Transferencia Progresiva de Tareas Visuales: El entrenamiento mixto de la Etapa 2 efectivamente crea un puente entre tareas de imagen y video
- Razonamiento Diagnóstico de Cadena de Pensamiento: Utiliza CoT prompting para generar procesos de razonamiento estructurados
- Segmentación de Video Multinivel: Combina extracción automática de fotogramas clave y segmentación manual fina
- Refinamiento de Datos Visuales: Detección de tejido y eliminación de texto aseguran calidad de datos
- VideoPath-Instruct: 4036 videos de entrenamiento, 242 videos de prueba
- ClipPath-Instruct: 140k fragmentos patológicos segmentados automáticamente
- Conjuntos de Datos Auxiliares: Quilt-1M, PathAsst, conjunto de datos de vejiga, etc.
- Utiliza Whisper para transcripción de video
- YOLO-Path para detección de tejido y oclusión de personas
- docTR para detección y eliminación de texto
- AutoShot para detección de límites de fragmentos candidatos
Utiliza métricas de Video-ChatGPT para evaluación:
- Context (Relevancia Contextual)
- Correctness (Corrección)
- Detail (Detalle)
- Rango de puntuación: 0-5 puntos, evaluado usando GPT-3.5-turbo-0613
- LMM de Código Abierto: LLaVA-OV, LLaVA-Video, InternVL2-8B, Qwen2-VL, Qwen2.5-VL
- LMM Propietarios: GPT-4o, Claude-3.7-Sonnet, Gemini-1.5-Pro, Gemini-2.0-Flash
VideoPath-LLaVA logra rendimiento excepcional en el conjunto de prueba VideoPath-Instruct:
| Modelo | Context | Correct | Detail | Avg | Norm-Avg |
|---|
| GPT-4o | 2.69 | 2.69 | 2.36 | 2.58 | 51.60 |
| VideoPath-LLaVA (Completo) | 2.82 | 2.82 | 2.67 | 2.77 | 55.40 |
| VideoPath-LLaVA (sin Etapa 2) | 2.74 | 2.68 | 2.69 | 2.70 | 54.08 |
| LLaVA-OV (Línea Base) | 1.86 | 1.40 | 2.03 | 1.76 | 35.21 |
- Importancia de la Etapa 2: El SFT mixto mejora significativamente el rendimiento (2.70→2.77)
- LoRA Superior al Ajuste Fino Completo: En conjuntos de datos pequeños, el ajuste fino LoRA es más efectivo
- Eficiencia de Datos: Mantiene rendimiento sólido utilizando solo el 50% de datos de entrenamiento
- Superación de Modelos Propietarios: A pesar de menor cantidad de parámetros (7B), supera a GPT-4o
En caso de diagnóstico de cáncer seroso de alto grado:
- GPT-4o: Identifica correctamente cáncer seroso pero carece de descripción de características clave
- VideoPath-LLaVA: Describe detalladamente atipia nuclear, fibrosis del estroma y otras características patológicas clave, proporcionando evaluación más precisa del grado de malignidad
- LLaVA-Med: Arquitectura LLaVA adaptada para imágenes biomédicas
- Quilt-LLaVA: Construcción de pares imagen-título a partir de videos de YouTube
- CPath-Omni: Extensión a análisis de nivel de parche e imagen de corte completo
- LLaVA-Video: Extensión de LLaVA para comprensión de video
- Video-ChatGPT: Sistema de diálogo de video
- Primera introducción de comprensión de video en patología computacional
- Resolución de limitaciones inherentes del diagnóstico de imagen única
- Proporciona proceso de razonamiento diagnóstico estructurado
- VideoPath-LLaVA establece exitosamente un nuevo punto de referencia para análisis de video patológico
- La estrategia de entrenamiento de cuatro etapas efectivamente realiza transferencia de conocimiento de imagen a video
- El razonamiento de cadena de pensamiento mejora significativamente la interpretabilidad y precisión del diagnóstico
- Limitaciones de Fuente de Datos: Depende de videos educativos de YouTube, que pueden presentar variaciones de calidad
- Falta de Validación Humana: Los diagnósticos generados carecen de verificación por expertos patólogos
- Cobertura Insuficiente de Patología Rara: Capacidad de generalización limitada para tipos de patología raros
- Requisitos de Recursos Computacionales: Requiere recursos GPU significativos para entrenamiento
- Expandir escala y diversidad del conjunto de datos
- Fortalecer colaboración y validación con expertos clínicos
- Mejorar capacidad de diagnóstico para patología rara
- Explorar estrategias de entrenamiento más eficientes
- Innovación Destacada: Primera introducción de comprensión de video en patología computacional, llenando vacío importante
- Diseño de Método Razonable: Estrategia de entrenamiento de cuatro etapas científica, aprendizaje de transferencia progresivo efectivo
- Experimentación Completa: Experimentos comparativos exhaustivos y estudios de ablación demuestran efectividad del método
- Alto Valor Práctico: Proporciona razonamiento diagnóstico interpretable, con potencial de aplicación clínica
- Contribución de Código Abierto: Publicación completa de código, datos y modelo, promoviendo desarrollo del campo
- Limitaciones de Evaluación: Evaluación solo en conjunto de datos autoconstruido, falta de puntos de referencia estandarizados
- Validación Clínica Insuficiente: Falta de verificación en entorno clínico real y evaluación por expertos
- Eficiencia Computacional: Tamaño de modelo y costo de entrenamiento relativamente altos, desafíos en implementación práctica
- Capacidad de Generalización Desconocida: Capacidad de generalización a diferentes tipos de patología y datos de hospitales requiere verificación adicional
- Valor Académico: Abre nueva dirección en comprensión de video patológico, proporciona base para investigación posterior
- Potencial Clínico: Promete asistir en diagnóstico patológico, mejorando eficiencia y precisión diagnóstica
- Contribución Técnica: Estrategia de entrenamiento multietapa generalizable a otras tareas de comprensión de video médico
- Activo de Datos: El conjunto de datos VideoPath-Instruct se convertirá en recurso de investigación importante
- Educación Médica: Asistencia en enseñanza y entrenamiento de patología
- Apoyo a Decisiones Clínicas: Proporciona segunda opinión para patólogos
- Diagnóstico Remoto: Apoya diagnóstico patológico en regiones con recursos limitados
- Control de Calidad: Asiste en garantía de calidad y verificación de consistencia de diagnóstico patológico
El artículo cita múltiples trabajos importantes, incluyendo:
- Arquitectura base de la serie de modelos LLaVA
- Métodos de razonamiento de cadena de pensamiento
- Modelos multimodales médicos como LLaVA-Med, Quilt-LLaVA
- Tecnologías relacionadas con comprensión de video como AutoShot, Video-ChatGPT
Evaluación General: Este es un artículo de investigación de alta calidad con significado pionero en el campo de la patología computacional. El método es novedoso, la experimentación es completa y los resultados son convincentes, abriendo una nueva dirección de investigación para el diagnóstico patológico asistido por IA. A pesar de algunas limitaciones, su valor académico y potencial práctico son ambos altos, mereciendo atención y desarrollo continuo.