We present ViDRiP-LLaVA, the first large multimodal model (LMM) in computational pathology that integrates three distinct image scenarios, including single patch images, automatically segmented pathology video clips, and manually segmented pathology videos. This integration closely mirrors the natural diagnostic process of pathologists. By generating detailed histological descriptions and culminating in a definitive sign-out diagnosis, ViDRiP-LLaVA bridges visual narratives with diagnostic reasoning. Central to our approach is the ViDRiP-Instruct dataset, comprising 4278 video and diagnosis-specific chain-of-thought instructional pairs sourced from educational histopathology videos on YouTube. Although high-quality data is critical for enhancing diagnostic reasoning, its creation is time-intensive and limited in volume. To overcome this challenge, we transfer knowledge from existing single-image instruction datasets to train on weakly annotated, keyframe-extracted clips, followed by fine-tuning on manually segmented videos. ViDRiP-LLaVA establishes a new benchmark in pathology video analysis and offers a promising foundation for future AI systems that support clinical decision-making through integrated visual and diagnostic reasoning. Our code, data, and model are publicly available at: https://github.com/QuIIL/ViDRiP-LLaVA.
- ID de l'article : 2505.04192
- Titre : VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning
- Auteurs : Trinh Vuong, Jin Tae Kwak (Université de Corée)
- Classification : cs.CV cs.AI cs.CL
- Date de publication : Preprint arXiv (2025)
- Lien de l'article : https://arxiv.org/abs/2505.04192v2
VideoPath-LLaVA est le premier grand modèle multimodal (LMM) du domaine de la pathologie computationnelle, intégrant trois scénarios d'imagerie distincts : les images de fragments individuels, les segments avec extraction automatique d'images clés et les images vidéo pathologiques segmentées manuellement, simulant ainsi le processus de diagnostic naturel du pathologiste. En générant des descriptions histologiques détaillées et en fournissant finalement une conclusion diagnostique explicite, VideoPath-LLaVA combine la narration visuelle avec le raisonnement diagnostique. Le cœur de cette approche est l'ensemble de données VideoPath-Instruct, contenant 4278 paires vidéo-instruction de chaîne de pensée diagnostique spécifique provenant de vidéos d'histopathologie éducatives sur YouTube.
- Limitations du diagnostic monoimage : La plupart des LMM du domaine médical se concentrent sur la réponse à des questions basées sur une seule image, mais cela pose problème pour les tâches de diagnostic pathologique - les images à fort grossissement manquent d'informations de structure globale, tandis que les images à faible grossissement manquent de détails fins
- Sous-utilisation des ressources vidéo : Les vidéos éducatives YouTube possèdent un processus d'enseignement structuré (du survol à faible grossissement à l'examen à fort grossissement), mais présentent des problèmes d'alignement, c'est-à-dire qu'une seule image représente un segment vidéo entier et sa transcription, dépassant souvent son contenu visuel
- Absence de processus de raisonnement diagnostique : Manque de systèmes d'IA capable de simuler le processus de raisonnement diagnostique étape par étape du pathologiste
- Exploiter la structure inhérente des vidéos éducatives pour construire un processus de raisonnement par chaîne de pensée (CoT)
- Résoudre les problèmes d'alignement entre les images vidéo et les descriptions textuelles
- Établir le premier modèle de compréhension vidéo pathologique fournissant un raisonnement diagnostique interprétable
- Modèle novateur : Proposition de VideoPath-LLaVA, le premier grand modèle multimodal pour la compréhension vidéo en pathologie computationnelle
- Ensemble de données de haute qualité : Construction de l'ensemble de données VideoPath-Instruct contenant 4278 paires question-réponse d'instruction pathologique soigneusement sélectionnées
- Stratégie d'entraînement innovante : Conception d'une méthode d'entraînement en quatre étapes, incluant l'alignement, l'ajustement supervisé d'images, l'ajustement supervisé mixte et l'ajustement supervisé vidéo
- Performance exceptionnelle : Dépassement des modèles avancés tels que GPT-4o sur l'ensemble de test VideoPath-Instruct
- Contribution open-source : Publication du code, des données et du modèle, fournissant une infrastructure à la communauté
Étant donné une entrée vidéo pathologique, le modèle doit :
- Générer des descriptions histologiques détaillées
- Effectuer un raisonnement diagnostique étape par étape
- Fournir la conclusion diagnostique pathologique finale
VideoPath-LLaVA est basé sur l'architecture LLaVA-ov, contenant trois composants principaux :
- Encodeur visuel (ViT) : Utilise l'encodeur SigLIP pour extraire les caractéristiques d'image zv=g(xv)
- Projecteur : MLP à 2 couches projetant les caractéristiques d'image dans l'espace d'intégration de mots hv=p(zv)
- Décodeur de langage (LLM) : Utilise Qwen-2.5-7B comme LLM, recevant les caractéristiques visuelles projetées et les instructions textuelles pour générer des réponses
Entraînement progressif en quatre étapes :
Étape 0 : Phase d'Alignement
- Préentraînement du projecteur sur des paires image-légende
- Établissement de la connexion entre le LLM et le ViT
Étape 1 : Ajustement Supervisé d'Images
- Ajustement fin du modèle complet sur l'ensemble de données d'instruction d'image
- Utilisation des ensembles de données Quilt-LLaVA et PathAsst
Étape 2 : Ajustement Supervisé Mixte (point innovant)
- Combinaison des ensembles de données d'instruction vidéo d'image et de segmentation automatique pour l'entraînement
- Promotion d'une transition en douceur du contenu statique au contenu vidéo dynamique
Étape 3 : Ajustement Supervisé Vidéo
- Ajustement fin final sur VideoPath-Instruct
- Application de l'ajustement LoRA au LLM pour éviter le surapprentissage
- Transfert de tâche visuelle progressive : L'entraînement mixte de l'Étape 2 relie efficacement les tâches d'image et vidéo
- Raisonnement diagnostique par chaîne de pensée : Utilisation du CoT prompting pour générer un processus de raisonnement structuré
- Segmentation vidéo multicouche : Combinaison de l'extraction automatique d'images clés et de la segmentation fine manuelle
- Raffinage des données visuelles : Détection d'organisation et suppression de texte assurant la qualité des données
- VideoPath-Instruct : 4036 vidéos d'entraînement, 242 vidéos de test
- ClipPath-Instruct : 140k segments pathologiques segmentés automatiquement
- Ensembles de données auxiliaires : Quilt-1M, PathAsst, ensemble de données de la vessie, etc.
- Utilisation de Whisper pour la transcription vidéo
- YOLO-Path pour la détection d'organisation et l'occlusion de personnes
- docTR pour la détection et la suppression de texte
- AutoShot pour la détection des limites de segments candidats
Utilisation des métriques Video-ChatGPT pour l'évaluation :
- Context (pertinence contextuelle)
- Correctness (exactitude)
- Detail (niveau de détail)
- Plage de notation : 0-5 points, évaluation utilisant GPT-3.5-turbo-0613
- LMM open-source : LLaVA-OV, LLaVA-Video, InternVL2-8B, Qwen2-VL, Qwen2.5-VL
- LMM propriétaires : GPT-4o, Claude-3.7-Sonnet, Gemini-1.5-Pro, Gemini-2.0-Flash
VideoPath-LLaVA obtient d'excellentes performances sur l'ensemble de test VideoPath-Instruct :
| Modèle | Context | Correct | Detail | Avg | Norm-Avg |
|---|
| GPT-4o | 2.69 | 2.69 | 2.36 | 2.58 | 51.60 |
| VideoPath-LLaVA (complet) | 2.82 | 2.82 | 2.67 | 2.77 | 55.40 |
| VideoPath-LLaVA (sans Étape 2) | 2.74 | 2.68 | 2.69 | 2.70 | 54.08 |
| LLaVA-OV (baseline) | 1.86 | 1.40 | 2.03 | 1.76 | 35.21 |
- Importance de l'Étape 2 : L'ajustement supervisé mixte améliore significativement les performances (2.70→2.77)
- LoRA supérieur à l'ajustement complet : L'ajustement LoRA est plus efficace sur les petits ensembles de données
- Efficacité des données : Maintien de performances robustes avec seulement 50% des données d'entraînement
- Dépassement des modèles propriétaires : Malgré une taille de paramètres plus petite (7B), surpasse GPT-4o
Dans un cas de diagnostic de cancer séreux avancé :
- GPT-4o : Identification correcte du cancer séreux mais manque de description des caractéristiques clés
- VideoPath-LLaVA : Description détaillée de l'atypie nucléaire, de la fibrose stromale et d'autres caractéristiques pathologiques clés, fournissant une évaluation plus précise du degré de malignité
- LLaVA-Med : Architecture LLaVA adaptée à l'imagerie biomédicale
- Quilt-LLaVA : Construction de paires image-légende à partir de vidéos YouTube
- CPath-Omni : Extension à l'analyse d'images au niveau des fragments et des lames entières
- LLaVA-Video : Extension LLaVA pour la compréhension vidéo
- Video-ChatGPT : Système de dialogue vidéo
- Première introduction de la compréhension vidéo en pathologie computationnelle
- Résolution des limitations inhérentes au diagnostic monoimage
- Fourniture d'un processus de raisonnement diagnostique structuré
- VideoPath-LLaVA établit avec succès un nouveau benchmark pour l'analyse vidéo pathologique
- La stratégie d'entraînement en quatre étapes réalise efficacement le transfert de connaissances de l'image à la vidéo
- Le raisonnement par chaîne de pensée améliore significativement l'interprétabilité et la précision du diagnostic
- Limitations des sources de données : Dépendance aux vidéos éducatives YouTube, pouvant présenter des variations de qualité
- Absence de validation manuelle : Les diagnostics générés manquent de vérification par des experts en pathologie
- Couverture insuffisante des pathologies rares : Capacité de généralisation limitée aux types de pathologies rares
- Exigences en ressources informatiques : Nécessité de ressources GPU importantes pour l'entraînement
- Expansion de l'échelle et de la diversité de l'ensemble de données
- Renforcement de la collaboration avec les experts cliniques pour la validation
- Amélioration de la capacité diagnostique pour les pathologies rares
- Exploration de stratégies d'entraînement plus efficaces
- Innovation remarquable : Première introduction de la compréhension vidéo en pathologie computationnelle, comblant un vide important
- Conception méthodologique solide : Stratégie d'entraînement en quatre étapes scientifique, apprentissage par transfert progressif efficace
- Expérimentation complète : Expériences comparatives exhaustives et études d'ablation prouvant l'efficacité de la méthode
- Valeur pratique élevée : Fourniture de raisonnement diagnostique interprétable avec potentiel d'application clinique
- Contribution open-source : Publication complète du code, des données et du modèle, promouvant le développement du domaine
- Limitations d'évaluation : Évaluation uniquement sur l'ensemble de données auto-construit, manque de benchmarks standardisés
- Validation clinique insuffisante : Absence de vérification en environnement clinique réel et d'évaluation par des experts
- Efficacité informatique : Taille de modèle et coûts d'entraînement élevés, défis de déploiement pratique
- Capacité de généralisation inconnue : La capacité de généralisation à différents types de pathologies et données hospitalières nécessite une vérification supplémentaire
- Valeur académique : Ouverture d'une nouvelle direction pour la compréhension vidéo pathologique, fournissant une base pour les recherches ultérieures
- Potentiel clinique : Promesse d'assister le diagnostic pathologique, améliorant l'efficacité et la précision diagnostiques
- Contribution technologique : La stratégie d'entraînement multiphase peut être généralisée à d'autres tâches de compréhension vidéo médicale
- Actif de données : L'ensemble de données VideoPath-Instruct deviendra une ressource de recherche importante
- Éducation médicale : Assistance à l'enseignement et à la formation en pathologie
- Support aux décisions cliniques : Fourniture d'un deuxième avis aux pathologistes
- Diagnostic à distance : Support du diagnostic pathologique dans les régions aux ressources limitées
- Contrôle de qualité : Assistance à l'assurance qualité et à la vérification de la cohérence du diagnostic pathologique
L'article cite plusieurs travaux importants, notamment :
- Architecture de base de la série de modèles LLaVA
- Méthodes de raisonnement par chaîne de pensée
- Modèles multimodaux médicaux tels que LLaVA-Med, Quilt-LLaVA
- Technologies connexes de compréhension vidéo telles que AutoShot, Video-ChatGPT
Évaluation Globale : Cet article est un travail de recherche de haute qualité possédant une importance pionnière dans le domaine de la pathologie computationnelle. La méthode est novatrice, l'expérimentation complète et les résultats convaincants, ouvrant une nouvelle direction de recherche pour le diagnostic pathologique assisté par IA. Malgré certaines limitations, sa valeur académique et son potentiel pratique sont tous deux élevés, méritant une attention et un développement continus.