We present ViDRiP-LLaVA, the first large multimodal model (LMM) in computational pathology that integrates three distinct image scenarios, including single patch images, automatically segmented pathology video clips, and manually segmented pathology videos. This integration closely mirrors the natural diagnostic process of pathologists. By generating detailed histological descriptions and culminating in a definitive sign-out diagnosis, ViDRiP-LLaVA bridges visual narratives with diagnostic reasoning. Central to our approach is the ViDRiP-Instruct dataset, comprising 4278 video and diagnosis-specific chain-of-thought instructional pairs sourced from educational histopathology videos on YouTube. Although high-quality data is critical for enhancing diagnostic reasoning, its creation is time-intensive and limited in volume. To overcome this challenge, we transfer knowledge from existing single-image instruction datasets to train on weakly annotated, keyframe-extracted clips, followed by fine-tuning on manually segmented videos. ViDRiP-LLaVA establishes a new benchmark in pathology video analysis and offers a promising foundation for future AI systems that support clinical decision-making through integrated visual and diagnostic reasoning. Our code, data, and model are publicly available at: https://github.com/QuIIL/ViDRiP-LLaVA.
- पेपर ID: 2505.04192
- शीर्षक: VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning
- लेखक: Trinh Vuong, Jin Tae Kwak (कोरिया विश्वविद्यालय)
- वर्गीकरण: cs.CV cs.AI cs.CL
- प्रकाशन समय: arXiv preprint (2025)
- पेपर लिंक: https://arxiv.org/abs/2505.04192v2
VideoPath-LLaVA कम्प्यूटेशनल रोगविज्ञान के क्षेत्र में पहला बड़ा बहुविध भाषा मॉडल (LMM) है, जो तीन विभिन्न छवि दृश्यों को एकीकृत करता है: एकल पैच छवियाँ, स्वचालित मुख्य फ्रेम निष्कर्षण के साथ क्लिप, और मैनुअल रूप से विभाजित वीडियो रोगविज्ञान छवियाँ, जो रोगविज्ञानी की प्राकृतिक निदान प्रक्रिया का अनुकरण करती हैं। विस्तृत ऊतक विज्ञान विवरण उत्पन्न करके और अंततः स्पष्ट निदान निष्कर्ष प्रदान करके, VideoPath-LLaVA दृश्य वर्णन को निदान तर्क के साथ जोड़ता है। इस पद्धति का मूल VideoPath-Instruct डेटासेट है, जिसमें YouTube शैक्षणिक संगठनात्मक रोगविज्ञान वीडियो से 4278 वीडियो और निदान-विशिष्ट विचार-श्रृंखला निर्देश जोड़े हैं।
- एकल छवि निदान की सीमाएं: चिकित्सा क्षेत्र में अधिकांश मौजूदा LMM एकल छवि के आधार पर प्रश्नों का उत्तर देने पर केंद्रित हैं, लेकिन रोगविज्ञान निदान कार्यों में समस्याएं हैं - उच्च आवर्धन छवियों में वैश्विक संरचना जानकारी का अभाव है, निम्न आवर्धन छवियों में सूक्ष्म विवरण का अभाव है
- वीडियो संसाधनों का अपर्याप्त उपयोग: शैक्षणिक YouTube वीडियो में संरचित शिक्षण प्रक्रिया है (निम्न आवर्धन अवलोकन से उच्च आवर्धन परीक्षा तक), लेकिन संरेखण समस्याएं हैं, अर्थात् एकल फ्रेम संपूर्ण वीडियो खंड और इसके प्रतिलेखन का प्रतिनिधित्व करता है, अक्सर इसकी दृश्य सामग्री से परे
- निदान तर्क प्रक्रिया का अभाव: ऐसी कोई AI प्रणाली नहीं है जो रोगविज्ञानी की चरणबद्ध निदान तर्क प्रक्रिया का अनुकरण कर सके
- शैक्षणिक वीडियो की अंतर्निहित संरचना का उपयोग करके विचार-श्रृंखला (CoT) तर्क प्रक्रिया का निर्माण
- वीडियो फ्रेम और पाठ विवरण के बीच संरेखण समस्या का समाधान
- पहला रोगविज्ञान वीडियो समझ मॉडल स्थापित करना, जो व्याख्यात्मक निदान तर्क प्रदान करता है
- अग्रणी मॉडल: VideoPath-LLaVA प्रस्तावित करना, जो कम्प्यूटेशनल रोगविज्ञान के क्षेत्र में वीडियो समझ का पहला बड़ा बहुविध मॉडल है
- उच्च गुणवत्ता वाला डेटासेट: VideoPath-Instruct डेटासेट का निर्माण, जिसमें 4278 सावधानीपूर्वक क्यूरेट किए गए रोगविज्ञान वीडियो युग्मित निर्देश-अनुसरण प्रश्नोत्तर हैं
- नवीन प्रशिक्षण रणनीति: चार-चरणीय प्रशिक्षण विधि डिजाइन करना, जिसमें संरेखण, छवि SFT, मिश्रित SFT और वीडियो SFT शामिल हैं
- उत्कृष्ट प्रदर्शन: VideoPath-Instruct परीक्षण सेट पर GPT-4o जैसे उन्नत मॉडलों को पार करना
- ओपन सोर्स योगदान: कोड, डेटा और मॉडल सार्वजनिक करना, समुदाय को बुनियादी ढांचा प्रदान करना
दिए गए रोगविज्ञान वीडियो इनपुट को देखते हुए, मॉडल को निम्नलिखित करने की आवश्यकता है:
- विस्तृत ऊतक विज्ञान विवरण उत्पन्न करना
- चरणबद्ध निदान तर्क करना
- अंतिम रोगविज्ञान निदान निष्कर्ष प्रदान करना
VideoPath-LLaVA LLaVA-ov आर्किटेक्चर पर आधारित है, जिसमें तीन मुख्य घटक हैं:
- दृश्य एनकोडर (ViT): छवि विशेषताएं निकालने के लिए SigLIP एनकोडर का उपयोग करना zv=g(xv)
- प्रोजेक्टर: छवि विशेषताओं को शब्द एम्बेडिंग स्पेस में प्रोजेक्ट करने के लिए 2-परत MLP hv=p(zv)
- भाषा डिकोडर (LLM): Qwen-2.5-7B को LLM के रूप में उपयोग करना, प्रोजेक्ट की गई दृश्य विशेषताओं और पाठ निर्देशों को प्राप्त करके प्रतिक्रिया उत्पन्न करना
चार-चरणीय क्रमिक प्रशिक्षण का उपयोग:
चरण 0: संरेखण चरण
- छवि-कैप्शन जोड़ी पर प्रोजेक्टर को पूर्व-प्रशिक्षित करना
- LLM और ViT के बीच कनेक्शन स्थापित करना
चरण 1: छवि SFT
- छवि निर्देश ट्यूनिंग डेटासेट पर संपूर्ण मॉडल को फाइन-ट्यून करना
- Quilt-LLaVA और PathAsst डेटासेट का उपयोग करना
चरण 2: मिश्रित SFT (नवीन बिंदु)
- छवि और स्वचालित विभाजित वीडियो निर्देश डेटासेट को संयोजित करके प्रशिक्षण
- स्थिर छवि से गतिशील वीडियो सामग्री में सुचारू संक्रमण को बढ़ावा देना
चरण 3: वीडियो SFT
- VideoPath-Instruct पर अंतिम फाइन-ट्यूनिंग
- अधिक-फिटिंग से बचने के लिए LLM को LoRA ट्यूनिंग लागू करना
- क्रमिक दृश्य कार्य स्थानांतरण: चरण 2 मिश्रित प्रशिक्षण छवि और वीडियो कार्यों को प्रभावी ढंग से जोड़ता है
- विचार-श्रृंखला निदान तर्क: संरचित तर्क प्रक्रिया उत्पन्न करने के लिए CoT prompting का उपयोग
- बहु-स्तरीय वीडियो विभाजन: स्वचालित मुख्य फ्रेम निष्कर्षण और मैनुअल सूक्ष्म विभाजन को संयोजित करना
- दृश्य डेटा परिशोधन: संगठन पहचान और पाठ हटाना डेटा गुणवत्ता सुनिश्चित करता है
- VideoPath-Instruct: 4036 प्रशिक्षण वीडियो, 242 परीक्षण वीडियो
- ClipPath-Instruct: 140k स्वचालित विभाजित रोगविज्ञान क्लिप
- सहायक डेटासेट: Quilt-1M, PathAsst, मूत्राशय डेटासेट आदि
- वीडियो प्रतिलेखन के लिए Whisper का उपयोग
- संगठन पहचान और व्यक्ति अवरोधन के लिए YOLO-Path
- पाठ पहचान और हटाने के लिए docTR
- उम्मीदवार क्लिप सीमा पहचान के लिए AutoShot
Video-ChatGPT मेट्रिक्स का उपयोग करके मूल्यांकन:
- Context (संदर्भ प्रासंगिकता)
- Correctness (सटीकता)
- Detail (विस्तार)
- स्कोरिंग रेंज: 0-5 अंक, GPT-3.5-turbo-0613 का उपयोग करके मूल्यांकन
- ओपन सोर्स LMM: LLaVA-OV, LLaVA-Video, InternVL2-8B, Qwen2-VL, Qwen2.5-VL
- मालिकाना LMM: GPT-4o, Claude-3.7-Sonnet, Gemini-1.5-Pro, Gemini-2.0-Flash
VideoPath-LLaVA ने VideoPath-Instruct परीक्षण सेट पर उत्कृष्ट प्रदर्शन प्राप्त किया:
| मॉडल | Context | Correct | Detail | Avg | Norm-Avg |
|---|
| GPT-4o | 2.69 | 2.69 | 2.36 | 2.58 | 51.60 |
| VideoPath-LLaVA (पूर्ण) | 2.82 | 2.82 | 2.67 | 2.77 | 55.40 |
| VideoPath-LLaVA (w/o चरण 2) | 2.74 | 2.68 | 2.69 | 2.70 | 54.08 |
| LLaVA-OV (आधारभूत) | 1.86 | 1.40 | 2.03 | 1.76 | 35.21 |
- चरण 2 का महत्व: मिश्रित SFT ने प्रदर्शन में उल्लेखनीय सुधार किया (2.70→2.77)
- LoRA पूर्ण फाइन-ट्यूनिंग से बेहतर है: छोटे डेटासेट पर LoRA ट्यूनिंग अधिक प्रभावी है
- डेटा दक्षता: केवल 50% प्रशिक्षण डेटा का उपयोग करके भी मजबूत प्रदर्शन बनाए रखना
- मालिकाना मॉडलों को पार करना: कम पैरामीटर (7B) होने के बावजूद, GPT-4o को पार करना
उच्च-ग्रेड सीरस कार्सिनोमा निदान केस में:
- GPT-4o: सीरस कार्सिनोमा की सही पहचान लेकिन मुख्य विशेषताओं का विवरण अधिक नहीं
- VideoPath-LLaVA: परमाणु विषमता, स्ट्रोमल फाइब्रोसिस जैसी मुख्य रोगविज्ञान विशेषताओं का विस्तृत विवरण, अधिक सटीक घातकता मूल्यांकन प्रदान करना
- LLaVA-Med: जैव चिकित्सा इमेजिंग के लिए अनुकूलित LLaVA आर्किटेक्चर
- Quilt-LLaVA: YouTube वीडियो से छवि-कैप्शन जोड़ी का निर्माण
- CPath-Omni: पैच-स्तर और पूर्ण-स्लाइड छवि विश्लेषण तक विस्तार
- LLaVA-Video: वीडियो समझ के लिए LLaVA विस्तार
- Video-ChatGPT: वीडियो संवाद प्रणाली
- कम्प्यूटेशनल रोगविज्ञान में वीडियो समझ का पहला परिचय
- एकल छवि निदान की अंतर्निहित सीमाओं का समाधान
- संरचित निदान तर्क प्रक्रिया प्रदान करना
- VideoPath-LLaVA ने रोगविज्ञान वीडियो विश्लेषण के लिए एक नया मानदंड सफलतापूर्वक स्थापित किया
- चार-चरणीय प्रशिक्षण रणनीति छवि से वीडियो तक ज्ञान स्थानांतरण को प्रभावी ढंग से प्राप्त करती है
- विचार-श्रृंखला तर्क निदान की व्याख्यात्मकता और सटीकता में उल्लेखनीय सुधार करता है
- डेटा स्रोत सीमाएं: YouTube शैक्षणिक वीडियो पर निर्भर, गुणवत्ता में भिन्नता हो सकती है
- मानव सत्यापन की कमी: उत्पन्न निदान में रोगविज्ञान विशेषज्ञ सत्यापन का अभाव
- दुर्लभ रोगविज्ञान कवरेज अपर्याप्त: दुर्लभ रोगविज्ञान प्रकारों के लिए सामान्यीकरण क्षमता सीमित
- कम्प्यूटेशनल संसाधन आवश्यकताएं: प्रशिक्षण के लिए बड़ी GPU संसाधनों की आवश्यकता
- डेटासेट आकार और विविधता का विस्तार
- नैदानिक विशेषज्ञों के साथ सहयोग सत्यापन को मजबूत करना
- दुर्लभ रोगविज्ञान के निदान क्षमता में सुधार
- अधिक कुशल प्रशिक्षण रणनीतियों की खोज
- उत्कृष्ट नवीनता: कम्प्यूटेशनल रोगविज्ञान में वीडियो समझ का पहला परिचय, महत्वपूर्ण अंतराल को भरना
- विधि डिजाइन तर्कसंगत: चार-चरणीय प्रशिक्षण रणनीति वैज्ञानिक है, क्रमिक स्थानांतरण शिक्षा प्रभावी है
- पर्याप्त प्रयोग: व्यापक तुलनात्मक प्रयोग और ablation अध्ययन विधि प्रभावशीलता साबित करते हैं
- उच्च व्यावहारिक मूल्य: व्याख्यात्मक निदान तर्क प्रदान करना, नैदानिक अनुप्रयोग क्षमता है
- ओपन सोर्स योगदान: पूर्ण कोड, डेटा और मॉडल खोलना, क्षेत्र विकास को बढ़ावा देना
- मूल्यांकन सीमाएं: केवल स्व-निर्मित डेटासेट पर मूल्यांकन, मानकीकृत बेंचमार्क की कमी
- नैदानिक सत्यापन अपर्याप्त: वास्तविक नैदानिक वातावरण में सत्यापन और विशेषज्ञ मूल्यांकन की कमी
- कम्प्यूटेशनल दक्षता: मॉडल आकार और प्रशिक्षण लागत अधिक, वास्तविक तैनाती में चुनौतियां
- सामान्यीकरण क्षमता अज्ञात: विभिन्न रोगविज्ञान प्रकारों और अस्पताल डेटा के लिए सामान्यीकरण क्षमता को आगे सत्यापित करने की आवश्यकता
- शैक्षणिक मूल्य: रोगविज्ञान वीडियो समझ की नई दिशा खोलना, बाद के अनुसंधान के लिए आधार प्रदान करना
- नैदानिक संभावना: रोगविज्ञान निदान में सहायता करने की संभावना, निदान दक्षता और सटीकता में सुधार
- तकनीकी योगदान: बहु-चरणीय प्रशिक्षण रणनीति अन्य चिकित्सा वीडियो समझ कार्यों तक विस्तारित की जा सकती है
- डेटा संपत्ति: VideoPath-Instruct डेटासेट महत्वपूर्ण अनुसंधान संसाधन बन जाएगा
- चिकित्सा शिक्षा: रोगविज्ञान शिक्षण और प्रशिक्षण में सहायता
- नैदानिक निर्णय समर्थन: रोगविज्ञान चिकित्सकों को दूसरी राय प्रदान करना
- दूरस्थ निदान: संसाधन-सीमित क्षेत्रों में रोगविज्ञान निदान का समर्थन
- गुणवत्ता नियंत्रण: रोगविज्ञान निदान की गुणवत्ता आश्वासन और सामंजस्य जांच में सहायता
पेपर में कई महत्वपूर्ण कार्यों का उद्धरण है, जिनमें शामिल हैं:
- LLaVA श्रृंखला मॉडलों की बुनियादी आर्किटेक्चर
- Chain-of-Thought तर्क विधि
- चिकित्सा बहुविध मॉडल जैसे LLaVA-Med, Quilt-LLaVA
- वीडियो समझ संबंधित तकनीकें जैसे AutoShot, Video-ChatGPT
समग्र मूल्यांकन: यह कम्प्यूटेशनल रोगविज्ञान के क्षेत्र में ऐतिहासिक महत्व का एक उच्च गुणवत्ता वाला अनुसंधान पेपर है। पेपर विधि नवीन है, प्रयोग पर्याप्त हैं, परिणाम प्रेरक हैं, और AI-सहायक रोगविज्ञान निदान के लिए अनुसंधान की नई दिशा खोलते हैं। कुछ सीमाओं के बावजूद, इसका शैक्षणिक मूल्य और व्यावहारिक संभावना दोनों अधिक हैं, आगे के ध्यान और विकास के योग्य हैं।