2025-11-23T04:13:16.733055

ViDRiP-LLaVA: A Dataset and Benchmark for Diagnostic Reasoning from Pathology Videos

Vuong, Kwak

We present ViDRiP-LLaVA, the first large multimodal model (LMM) in computational pathology that integrates three distinct image scenarios, including single patch images, automatically segmented pathology video clips, and manually segmented pathology videos. This integration closely mirrors the natural diagnostic process of pathologists. By generating detailed histological descriptions and culminating in a definitive sign-out diagnosis, ViDRiP-LLaVA bridges visual narratives with diagnostic reasoning. Central to our approach is the ViDRiP-Instruct dataset, comprising 4278 video and diagnosis-specific chain-of-thought instructional pairs sourced from educational histopathology videos on YouTube. Although high-quality data is critical for enhancing diagnostic reasoning, its creation is time-intensive and limited in volume. To overcome this challenge, we transfer knowledge from existing single-image instruction datasets to train on weakly annotated, keyframe-extracted clips, followed by fine-tuning on manually segmented videos. ViDRiP-LLaVA establishes a new benchmark in pathology video analysis and offers a promising foundation for future AI systems that support clinical decision-making through integrated visual and diagnostic reasoning. Our code, data, and model are publicly available at: https://github.com/QuIIL/ViDRiP-LLaVA.

academic

VideoPath-LLaVA: रोगविज्ञान वीडियो निदान तर्क के लिए बहुविध मॉडल

बुनियादी जानकारी

पेपर ID: 2505.04192
शीर्षक: VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning
लेखक: Trinh Vuong, Jin Tae Kwak (कोरिया विश्वविद्यालय)
वर्गीकरण: cs.CV cs.AI cs.CL
प्रकाशन समय: arXiv preprint (2025)
पेपर लिंक: https://arxiv.org/abs/2505.04192v2

सारांश

VideoPath-LLaVA कम्प्यूटेशनल रोगविज्ञान के क्षेत्र में पहला बड़ा बहुविध भाषा मॉडल (LMM) है, जो तीन विभिन्न छवि दृश्यों को एकीकृत करता है: एकल पैच छवियाँ, स्वचालित मुख्य फ्रेम निष्कर्षण के साथ क्लिप, और मैनुअल रूप से विभाजित वीडियो रोगविज्ञान छवियाँ, जो रोगविज्ञानी की प्राकृतिक निदान प्रक्रिया का अनुकरण करती हैं। विस्तृत ऊतक विज्ञान विवरण उत्पन्न करके और अंततः स्पष्ट निदान निष्कर्ष प्रदान करके, VideoPath-LLaVA दृश्य वर्णन को निदान तर्क के साथ जोड़ता है। इस पद्धति का मूल VideoPath-Instruct डेटासेट है, जिसमें YouTube शैक्षणिक संगठनात्मक रोगविज्ञान वीडियो से 4278 वीडियो और निदान-विशिष्ट विचार-श्रृंखला निर्देश जोड़े हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्याएं

एकल छवि निदान की सीमाएं: चिकित्सा क्षेत्र में अधिकांश मौजूदा LMM एकल छवि के आधार पर प्रश्नों का उत्तर देने पर केंद्रित हैं, लेकिन रोगविज्ञान निदान कार्यों में समस्याएं हैं - उच्च आवर्धन छवियों में वैश्विक संरचना जानकारी का अभाव है, निम्न आवर्धन छवियों में सूक्ष्म विवरण का अभाव है
वीडियो संसाधनों का अपर्याप्त उपयोग: शैक्षणिक YouTube वीडियो में संरचित शिक्षण प्रक्रिया है (निम्न आवर्धन अवलोकन से उच्च आवर्धन परीक्षा तक), लेकिन संरेखण समस्याएं हैं, अर्थात् एकल फ्रेम संपूर्ण वीडियो खंड और इसके प्रतिलेखन का प्रतिनिधित्व करता है, अक्सर इसकी दृश्य सामग्री से परे
निदान तर्क प्रक्रिया का अभाव: ऐसी कोई AI प्रणाली नहीं है जो रोगविज्ञानी की चरणबद्ध निदान तर्क प्रक्रिया का अनुकरण कर सके

अनुसंधान प्रेरणा

शैक्षणिक वीडियो की अंतर्निहित संरचना का उपयोग करके विचार-श्रृंखला (CoT) तर्क प्रक्रिया का निर्माण
वीडियो फ्रेम और पाठ विवरण के बीच संरेखण समस्या का समाधान
पहला रोगविज्ञान वीडियो समझ मॉडल स्थापित करना, जो व्याख्यात्मक निदान तर्क प्रदान करता है

मुख्य योगदान

अग्रणी मॉडल: VideoPath-LLaVA प्रस्तावित करना, जो कम्प्यूटेशनल रोगविज्ञान के क्षेत्र में वीडियो समझ का पहला बड़ा बहुविध मॉडल है
उच्च गुणवत्ता वाला डेटासेट: VideoPath-Instruct डेटासेट का निर्माण, जिसमें 4278 सावधानीपूर्वक क्यूरेट किए गए रोगविज्ञान वीडियो युग्मित निर्देश-अनुसरण प्रश्नोत्तर हैं
नवीन प्रशिक्षण रणनीति: चार-चरणीय प्रशिक्षण विधि डिजाइन करना, जिसमें संरेखण, छवि SFT, मिश्रित SFT और वीडियो SFT शामिल हैं
उत्कृष्ट प्रदर्शन: VideoPath-Instruct परीक्षण सेट पर GPT-4o जैसे उन्नत मॉडलों को पार करना
ओपन सोर्स योगदान: कोड, डेटा और मॉडल सार्वजनिक करना, समुदाय को बुनियादी ढांचा प्रदान करना

विधि विवरण

कार्य परिभाषा

दिए गए रोगविज्ञान वीडियो इनपुट को देखते हुए, मॉडल को निम्नलिखित करने की आवश्यकता है:

विस्तृत ऊतक विज्ञान विवरण उत्पन्न करना
चरणबद्ध निदान तर्क करना
अंतिम रोगविज्ञान निदान निष्कर्ष प्रदान करना

मॉडल आर्किटेक्चर

VideoPath-LLaVA LLaVA-ov आर्किटेक्चर पर आधारित है, जिसमें तीन मुख्य घटक हैं:

दृश्य एनकोडर (ViT): छवि विशेषताएं निकालने के लिए SigLIP एनकोडर का उपयोग करना $z_v = g(x_v)$
प्रोजेक्टर: छवि विशेषताओं को शब्द एम्बेडिंग स्पेस में प्रोजेक्ट करने के लिए 2-परत MLP $h_v = p(z_v)$
भाषा डिकोडर (LLM): Qwen-2.5-7B को LLM के रूप में उपयोग करना, प्रोजेक्ट की गई दृश्य विशेषताओं और पाठ निर्देशों को प्राप्त करके प्रतिक्रिया उत्पन्न करना

प्रशिक्षण रणनीति

चार-चरणीय क्रमिक प्रशिक्षण का उपयोग:

चरण 0: संरेखण चरण

छवि-कैप्शन जोड़ी पर प्रोजेक्टर को पूर्व-प्रशिक्षित करना
LLM और ViT के बीच कनेक्शन स्थापित करना

चरण 1: छवि SFT

छवि निर्देश ट्यूनिंग डेटासेट पर संपूर्ण मॉडल को फाइन-ट्यून करना
Quilt-LLaVA और PathAsst डेटासेट का उपयोग करना

चरण 2: मिश्रित SFT (नवीन बिंदु)

छवि और स्वचालित विभाजित वीडियो निर्देश डेटासेट को संयोजित करके प्रशिक्षण
स्थिर छवि से गतिशील वीडियो सामग्री में सुचारू संक्रमण को बढ़ावा देना

चरण 3: वीडियो SFT

VideoPath-Instruct पर अंतिम फाइन-ट्यूनिंग
अधिक-फिटिंग से बचने के लिए LLM को LoRA ट्यूनिंग लागू करना

तकनीकी नवीन बिंदु

क्रमिक दृश्य कार्य स्थानांतरण: चरण 2 मिश्रित प्रशिक्षण छवि और वीडियो कार्यों को प्रभावी ढंग से जोड़ता है
विचार-श्रृंखला निदान तर्क: संरचित तर्क प्रक्रिया उत्पन्न करने के लिए CoT prompting का उपयोग
बहु-स्तरीय वीडियो विभाजन: स्वचालित मुख्य फ्रेम निष्कर्षण और मैनुअल सूक्ष्म विभाजन को संयोजित करना
दृश्य डेटा परिशोधन: संगठन पहचान और पाठ हटाना डेटा गुणवत्ता सुनिश्चित करता है

प्रायोगिक सेटअप

डेटासेट

VideoPath-Instruct: 4036 प्रशिक्षण वीडियो, 242 परीक्षण वीडियो
ClipPath-Instruct: 140k स्वचालित विभाजित रोगविज्ञान क्लिप
सहायक डेटासेट: Quilt-1M, PathAsst, मूत्राशय डेटासेट आदि

डेटा पूर्व-प्रसंस्करण

वीडियो प्रतिलेखन के लिए Whisper का उपयोग
संगठन पहचान और व्यक्ति अवरोधन के लिए YOLO-Path
पाठ पहचान और हटाने के लिए docTR
उम्मीदवार क्लिप सीमा पहचान के लिए AutoShot

मूल्यांकन मेट्रिक्स

Video-ChatGPT मेट्रिक्स का उपयोग करके मूल्यांकन:

Context (संदर्भ प्रासंगिकता)
Correctness (सटीकता)
Detail (विस्तार)
स्कोरिंग रेंज: 0-5 अंक, GPT-3.5-turbo-0613 का उपयोग करके मूल्यांकन

तुलनात्मक विधियां

ओपन सोर्स LMM: LLaVA-OV, LLaVA-Video, InternVL2-8B, Qwen2-VL, Qwen2.5-VL
मालिकाना LMM: GPT-4o, Claude-3.7-Sonnet, Gemini-1.5-Pro, Gemini-2.0-Flash

प्रायोगिक परिणाम

मुख्य परिणाम

VideoPath-LLaVA ने VideoPath-Instruct परीक्षण सेट पर उत्कृष्ट प्रदर्शन प्राप्त किया:

मॉडल	Context	Correct	Detail	Avg	Norm-Avg
GPT-4o	2.69	2.69	2.36	2.58	51.60
VideoPath-LLaVA (पूर्ण)	2.82	2.82	2.67	2.77	55.40
VideoPath-LLaVA (w/o चरण 2)	2.74	2.68	2.69	2.70	54.08
LLaVA-OV (आधारभूत)	1.86	1.40	2.03	1.76	35.21

मुख्य निष्कर्ष

चरण 2 का महत्व: मिश्रित SFT ने प्रदर्शन में उल्लेखनीय सुधार किया (2.70→2.77)
LoRA पूर्ण फाइन-ट्यूनिंग से बेहतर है: छोटे डेटासेट पर LoRA ट्यूनिंग अधिक प्रभावी है
डेटा दक्षता: केवल 50% प्रशिक्षण डेटा का उपयोग करके भी मजबूत प्रदर्शन बनाए रखना
मालिकाना मॉडलों को पार करना: कम पैरामीटर (7B) होने के बावजूद, GPT-4o को पार करना

केस विश्लेषण

उच्च-ग्रेड सीरस कार्सिनोमा निदान केस में:

GPT-4o: सीरस कार्सिनोमा की सही पहचान लेकिन मुख्य विशेषताओं का विवरण अधिक नहीं
VideoPath-LLaVA: परमाणु विषमता, स्ट्रोमल फाइब्रोसिस जैसी मुख्य रोगविज्ञान विशेषताओं का विस्तृत विवरण, अधिक सटीक घातकता मूल्यांकन प्रदान करना

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

VideoPath-LLaVA ने रोगविज्ञान वीडियो विश्लेषण के लिए एक नया मानदंड सफलतापूर्वक स्थापित किया
चार-चरणीय प्रशिक्षण रणनीति छवि से वीडियो तक ज्ञान स्थानांतरण को प्रभावी ढंग से प्राप्त करती है
विचार-श्रृंखला तर्क निदान की व्याख्यात्मकता और सटीकता में उल्लेखनीय सुधार करता है

सीमाएं

डेटा स्रोत सीमाएं: YouTube शैक्षणिक वीडियो पर निर्भर, गुणवत्ता में भिन्नता हो सकती है
मानव सत्यापन की कमी: उत्पन्न निदान में रोगविज्ञान विशेषज्ञ सत्यापन का अभाव
दुर्लभ रोगविज्ञान कवरेज अपर्याप्त: दुर्लभ रोगविज्ञान प्रकारों के लिए सामान्यीकरण क्षमता सीमित
कम्प्यूटेशनल संसाधन आवश्यकताएं: प्रशिक्षण के लिए बड़ी GPU संसाधनों की आवश्यकता

भविष्य की दिशाएं

डेटासेट आकार और विविधता का विस्तार
नैदानिक विशेषज्ञों के साथ सहयोग सत्यापन को मजबूत करना
दुर्लभ रोगविज्ञान के निदान क्षमता में सुधार
अधिक कुशल प्रशिक्षण रणनीतियों की खोज

गहन मूल्यांकन

लाभ

उत्कृष्ट नवीनता: कम्प्यूटेशनल रोगविज्ञान में वीडियो समझ का पहला परिचय, महत्वपूर्ण अंतराल को भरना
विधि डिजाइन तर्कसंगत: चार-चरणीय प्रशिक्षण रणनीति वैज्ञानिक है, क्रमिक स्थानांतरण शिक्षा प्रभावी है
पर्याप्त प्रयोग: व्यापक तुलनात्मक प्रयोग और ablation अध्ययन विधि प्रभावशीलता साबित करते हैं
उच्च व्यावहारिक मूल्य: व्याख्यात्मक निदान तर्क प्रदान करना, नैदानिक अनुप्रयोग क्षमता है
ओपन सोर्स योगदान: पूर्ण कोड, डेटा और मॉडल खोलना, क्षेत्र विकास को बढ़ावा देना

कमियां

मूल्यांकन सीमाएं: केवल स्व-निर्मित डेटासेट पर मूल्यांकन, मानकीकृत बेंचमार्क की कमी
नैदानिक सत्यापन अपर्याप्त: वास्तविक नैदानिक वातावरण में सत्यापन और विशेषज्ञ मूल्यांकन की कमी
कम्प्यूटेशनल दक्षता: मॉडल आकार और प्रशिक्षण लागत अधिक, वास्तविक तैनाती में चुनौतियां
सामान्यीकरण क्षमता अज्ञात: विभिन्न रोगविज्ञान प्रकारों और अस्पताल डेटा के लिए सामान्यीकरण क्षमता को आगे सत्यापित करने की आवश्यकता

प्रभाव

शैक्षणिक मूल्य: रोगविज्ञान वीडियो समझ की नई दिशा खोलना, बाद के अनुसंधान के लिए आधार प्रदान करना
नैदानिक संभावना: रोगविज्ञान निदान में सहायता करने की संभावना, निदान दक्षता और सटीकता में सुधार
तकनीकी योगदान: बहु-चरणीय प्रशिक्षण रणनीति अन्य चिकित्सा वीडियो समझ कार्यों तक विस्तारित की जा सकती है
डेटा संपत्ति: VideoPath-Instruct डेटासेट महत्वपूर्ण अनुसंधान संसाधन बन जाएगा

लागू दृश्य

चिकित्सा शिक्षा: रोगविज्ञान शिक्षण और प्रशिक्षण में सहायता
नैदानिक निर्णय समर्थन: रोगविज्ञान चिकित्सकों को दूसरी राय प्रदान करना
दूरस्थ निदान: संसाधन-सीमित क्षेत्रों में रोगविज्ञान निदान का समर्थन
गुणवत्ता नियंत्रण: रोगविज्ञान निदान की गुणवत्ता आश्वासन और सामंजस्य जांच में सहायता

संदर्भ

पेपर में कई महत्वपूर्ण कार्यों का उद्धरण है, जिनमें शामिल हैं:

LLaVA श्रृंखला मॉडलों की बुनियादी आर्किटेक्चर
Chain-of-Thought तर्क विधि
चिकित्सा बहुविध मॉडल जैसे LLaVA-Med, Quilt-LLaVA
वीडियो समझ संबंधित तकनीकें जैसे AutoShot, Video-ChatGPT

समग्र मूल्यांकन: यह कम्प्यूटेशनल रोगविज्ञान के क्षेत्र में ऐतिहासिक महत्व का एक उच्च गुणवत्ता वाला अनुसंधान पेपर है। पेपर विधि नवीन है, प्रयोग पर्याप्त हैं, परिणाम प्रेरक हैं, और AI-सहायक रोगविज्ञान निदान के लिए अनुसंधान की नई दिशा खोलते हैं। कुछ सीमाओं के बावजूद, इसका शैक्षणिक मूल्य और व्यावहारिक संभावना दोनों अधिक हैं, आगे के ध्यान और विकास के योग्य हैं।

ViDRiP-LLaVA: A Dataset and Benchmark for Diagnostic Reasoning from Pathology Videos

VideoPath-LLaVA: रोगविज्ञान वीडियो निदान तर्क के लिए बहुविध मॉडल

बुनियादी जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्याएं

अनुसंधान प्रेरणा

मुख्य योगदान

विधि विवरण

कार्य परिभाषा

मॉडल आर्किटेक्चर

प्रशिक्षण रणनीति

तकनीकी नवीन बिंदु

प्रायोगिक सेटअप

डेटासेट

डेटा पूर्व-प्रसंस्करण

मूल्यांकन मेट्रिक्स

तुलनात्मक विधियां

प्रायोगिक परिणाम

मुख्य परिणाम

मुख्य निष्कर्ष

केस विश्लेषण

संबंधित कार्य

चिकित्सा बहुविध मॉडल

वीडियो समझ मॉडल

इस पेपर के लाभ

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

लाभ

कमियां

प्रभाव

लागू दृश्य

संदर्भ