We present ViDRiP-LLaVA, the first large multimodal model (LMM) in computational pathology that integrates three distinct image scenarios, including single patch images, automatically segmented pathology video clips, and manually segmented pathology videos. This integration closely mirrors the natural diagnostic process of pathologists. By generating detailed histological descriptions and culminating in a definitive sign-out diagnosis, ViDRiP-LLaVA bridges visual narratives with diagnostic reasoning. Central to our approach is the ViDRiP-Instruct dataset, comprising 4278 video and diagnosis-specific chain-of-thought instructional pairs sourced from educational histopathology videos on YouTube. Although high-quality data is critical for enhancing diagnostic reasoning, its creation is time-intensive and limited in volume. To overcome this challenge, we transfer knowledge from existing single-image instruction datasets to train on weakly annotated, keyframe-extracted clips, followed by fine-tuning on manually segmented videos. ViDRiP-LLaVA establishes a new benchmark in pathology video analysis and offers a promising foundation for future AI systems that support clinical decision-making through integrated visual and diagnostic reasoning. Our code, data, and model are publicly available at: https://github.com/QuIIL/ViDRiP-LLaVA.
- ID Articolo: 2505.04192
- Titolo: VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning
- Autori: Trinh Vuong, Jin Tae Kwak (Korea University)
- Classificazione: cs.CV cs.AI cs.CL
- Data di Pubblicazione: arXiv preprint (2025)
- Link Articolo: https://arxiv.org/abs/2505.04192v2
VideoPath-LLaVA è il primo modello linguistico multimodale di grandi dimensioni (LMM) nel campo della patologia computazionale, che integra tre diversi scenari di imaging: immagini di singole patch, frammenti con estrazione automatica di fotogrammi chiave e immagini video patologiche segmentate manualmente, al fine di simulare il processo diagnostico naturale dei patologi. Combinando narrazioni visive con ragionamento diagnostico attraverso la generazione di descrizioni istologiche dettagliate e conclusioni diagnostiche esplicite, VideoPath-LLaVA rappresenta un approccio innovativo. Il nucleo del metodo è il dataset VideoPath-Instruct, contenente 4278 coppie di video e istruzioni di catena di pensiero specifiche per la diagnosi provenienti da video educativi di patologia organizzata su YouTube.
- Limitazioni della diagnostica su singola immagine: La maggior parte degli LMM nel campo medico si concentra sul rispondere a domande basate su singole immagini, ma presenta problemi nei compiti di diagnosi patologica - le immagini ad alto ingrandimento mancano di informazioni sulla struttura globale, mentre le immagini a basso ingrandimento mancano di dettagli fini
- Sottoutilizzo delle risorse video: I video educativi su YouTube possiedono un processo didattico strutturato (da panoramiche a basso ingrandimento a esami ad alto ingrandimento), ma presentano problemi di allineamento, poiché singoli fotogrammi rappresentano interi segmenti video e le loro trascrizioni, spesso superando il loro contenuto visivo
- Assenza di processo di ragionamento diagnostico: Mancanza di sistemi AI in grado di simulare il processo di ragionamento diagnostico progressivo dei patologi
- Sfruttare la struttura intrinseca dei video educativi per costruire processi di ragionamento a catena di pensiero (CoT)
- Affrontare il problema dell'allineamento tra fotogrammi video e descrizioni testuali
- Stabilire il primo modello di comprensione video patologico che fornisca ragionamento diagnostico interpretabile
- Modello Pioneristico: Propone VideoPath-LLaVA, il primo modello linguistico multimodale di grandi dimensioni per la comprensione video nel campo della patologia computazionale
- Dataset di Alta Qualità: Costruisce il dataset VideoPath-Instruct, contenente 4278 coppie di video patologici accuratamente curati con domande e risposte che seguono istruzioni
- Strategia di Addestramento Innovativa: Progetta un metodo di addestramento in quattro fasi, includendo allineamento, SFT di immagini, SFT misto e SFT video
- Prestazioni Eccellenti: Supera modelli avanzati come GPT-4o sul set di test VideoPath-Instruct
- Contributo Open-Source: Rende pubblici codice, dati e modello, fornendo infrastruttura alla comunità
Dato un input video patologico, il modello deve:
- Generare descrizioni istologiche dettagliate
- Condurre ragionamento diagnostico progressivo
- Fornire la conclusione diagnostica patologica finale
VideoPath-LLaVA si basa sull'architettura LLaVA-ov, contenente tre componenti principali:
- Codificatore Visivo (ViT): Utilizza l'encoder SigLIP per estrarre caratteristiche di immagine zv=g(xv)
- Proiettore: MLP a 2 strati che proietta le caratteristiche di immagine nello spazio di embedding delle parole hv=p(zv)
- Decodificatore Linguistico (LLM): Utilizza Qwen-2.5-7B come LLM, ricevendo caratteristiche visive proiettate e istruzioni testuali per generare risposte
Adotta addestramento progressivo in quattro fasi:
Fase 0: Fase di Allineamento
- Preaddestramento del proiettore su coppie immagine-didascalia
- Stabilisce la connessione tra LLM e ViT
Fase 1: SFT di Immagini
- Messa a punto fine dell'intero modello su dataset di istruzioni di immagini
- Utilizza dataset Quilt-LLaVA e PathAsst
Fase 2: SFT Misto (Punto Innovativo)
- Combina addestramento su dataset di istruzioni di immagini e video segmentati automaticamente
- Promuove transizione fluida da contenuti statici a dinamici
Fase 3: SFT Video
- Messa a punto fine finale su VideoPath-Instruct
- Applica ottimizzazione LoRA all'LLM per evitare overfitting
- Trasferimento Progressivo di Compiti Visivi: L'addestramento misto della Fase 2 colma efficacemente il divario tra compiti di immagini e video
- Ragionamento Diagnostico a Catena di Pensiero: Sfrutta il prompting CoT per generare processi di ragionamento strutturati
- Segmentazione Video Multilivello: Combina estrazione automatica di fotogrammi chiave e segmentazione manuale fine
- Raffinamento Dati Visivi: Rilevamento di tessuti e rimozione di testo garantiscono la qualità dei dati
- VideoPath-Instruct: 4036 video di addestramento, 242 video di test
- ClipPath-Instruct: 140k frammenti patologici segmentati automaticamente
- Dataset Ausiliari: Quilt-1M, PathAsst, dataset della vescica, ecc.
- Utilizzo di Whisper per la trascrizione video
- YOLO-Path per il rilevamento di tessuti e occlusione di persone
- docTR per il rilevamento e la rimozione di testo
- AutoShot per il rilevamento dei confini dei candidati di frammenti
Utilizza metriche Video-ChatGPT per la valutazione:
- Context (Rilevanza Contestuale)
- Correctness (Correttezza)
- Detail (Dettaglio)
- Intervallo di punteggio: 0-5, valutato utilizzando GPT-3.5-turbo-0613
- LMM Open-Source: LLaVA-OV, LLaVA-Video, InternVL2-8B, Qwen2-VL, Qwen2.5-VL
- LMM Proprietari: GPT-4o, Claude-3.7-Sonnet, Gemini-1.5-Pro, Gemini-2.0-Flash
VideoPath-LLaVA ottiene prestazioni eccellenti sul set di test VideoPath-Instruct:
| Modello | Context | Correct | Detail | Avg | Norm-Avg |
|---|
| GPT-4o | 2.69 | 2.69 | 2.36 | 2.58 | 51.60 |
| VideoPath-LLaVA (Completo) | 2.82 | 2.82 | 2.67 | 2.77 | 55.40 |
| VideoPath-LLaVA (senza Fase 2) | 2.74 | 2.68 | 2.69 | 2.70 | 54.08 |
| LLaVA-OV (Baseline) | 1.86 | 1.40 | 2.03 | 1.76 | 35.21 |
- Importanza della Fase 2: L'SFT misto migliora significativamente le prestazioni (2.70→2.77)
- LoRA Superiore alla Messa a Punto Completa: Su dataset piccoli, l'ottimizzazione LoRA è più efficace
- Efficienza dei Dati: Mantenere prestazioni robuste utilizzando solo il 50% dei dati di addestramento
- Superamento di Modelli Proprietari: Nonostante i parametri inferiori (7B), supera GPT-4o
Nel caso di diagnosi di cancro sieroso avanzato:
- GPT-4o: Identifica correttamente il cancro sieroso ma manca di descrizioni di caratteristiche chiave
- VideoPath-LLaVA: Descrive dettagliatamente l'atipia nucleare, la fibrosi stromale e altre caratteristiche patologiche chiave, fornendo una valutazione più precisa del grado di malignità
- LLaVA-Med: Architettura LLaVA adattata per l'imaging biomedico
- Quilt-LLaVA: Costruzione di coppie immagine-didascalia da video YouTube
- CPath-Omni: Estensione all'analisi di immagini a livello di patch e di interi vetrini
- LLaVA-Video: Estensione LLaVA per la comprensione video
- Video-ChatGPT: Sistema di dialogo video
- Prima introduzione della comprensione video nella patologia computazionale
- Risoluzione delle limitazioni intrinseche della diagnostica su singola immagine
- Fornitura di un processo di ragionamento diagnostico strutturato
- VideoPath-LLaVA stabilisce con successo un nuovo benchmark per l'analisi video patologico
- La strategia di addestramento in quattro fasi realizza efficacemente il trasferimento di conoscenze da immagini a video
- Il ragionamento a catena di pensiero migliora significativamente l'interpretabilità e l'accuratezza diagnostica
- Limitazioni della Fonte Dati: Dipendenza da video educativi YouTube, con possibili variazioni di qualità
- Mancanza di Verifica Umana: Le diagnosi generate mancano di verifica da parte di esperti patologi
- Copertura Insufficiente di Patologie Rare: Capacità di generalizzazione limitata per tipi di patologie rare
- Requisiti di Risorse Computazionali: Necessità di risorse GPU significative per l'addestramento
- Espansione della scala e della diversità del dataset
- Rafforzamento della collaborazione con esperti clinici per la verifica
- Miglioramento della capacità diagnostica per patologie rare
- Esplorazione di strategie di addestramento più efficienti
- Innovazione Spiccata: Prima introduzione della comprensione video nella patologia computazionale, colmando un importante vuoto
- Design Metodologico Razionale: La strategia di addestramento in quattro fasi è scientificamente fondata, l'apprendimento per trasferimento progressivo è efficace
- Esperimenti Completi: Esperimenti di confronto completi e studi di ablazione provano l'efficacia del metodo
- Alto Valore Pratico: Fornisce ragionamento diagnostico interpretabile, con potenziale applicazione clinica
- Contributo Open-Source: Apertura completa di codice, dati e modello, promuovendo lo sviluppo del settore
- Limitazioni di Valutazione: Valutazione solo su dataset auto-costruito, mancanza di benchmark standardizzati
- Verifica Clinica Insufficiente: Mancanza di verifica in ambienti clinici reali e valutazione da parte di esperti
- Efficienza Computazionale: Dimensioni del modello e costi di addestramento elevati, sfide nell'implementazione pratica
- Capacità di Generalizzazione Sconosciuta: La capacità di generalizzazione a diversi tipi di patologie e dati ospedalieri richiede ulteriore verifica
- Valore Accademico: Apre una nuova direzione nella comprensione video patologico, fornendo fondamenta per ricerche successive
- Potenziale Clinico: Promette di assistere la diagnosi patologica, migliorando l'efficienza e l'accuratezza diagnostica
- Contributo Tecnologico: La strategia di addestramento multifase può essere generalizzata ad altri compiti di comprensione video medico
- Risorsa Dati: Il dataset VideoPath-Instruct diventerà una risorsa di ricerca importante
- Educazione Medica: Assistenza nell'insegnamento e nella formazione in patologia
- Supporto Decisionale Clinico: Fornitura di secondo parere ai medici patologi
- Diagnostica Remota: Supporto alla diagnosi patologica in aree con risorse limitate
- Controllo di Qualità: Assistenza nell'assicurazione della qualità e nella coerenza della diagnosi patologica
L'articolo cita numerosi lavori importanti, inclusi:
- Architetture fondamentali della serie LLaVA
- Metodi di ragionamento Chain-of-Thought
- Modelli multimodali medici come LLaVA-Med, Quilt-LLaVA
- Tecnologie correlate alla comprensione video come AutoShot, Video-ChatGPT
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità con significato pioneristico nel campo della patologia computazionale. Il metodo è innovativo, gli esperimenti sono completi e i risultati convincenti, aprendo una nuova direzione di ricerca per la diagnosi patologica assistita da AI. Nonostante alcune limitazioni, il suo valore accademico e il suo potenziale pratico sono entrambi elevati e meritano ulteriore attenzione e sviluppo.