We present ViDRiP-LLaVA, the first large multimodal model (LMM) in computational pathology that integrates three distinct image scenarios, including single patch images, automatically segmented pathology video clips, and manually segmented pathology videos. This integration closely mirrors the natural diagnostic process of pathologists. By generating detailed histological descriptions and culminating in a definitive sign-out diagnosis, ViDRiP-LLaVA bridges visual narratives with diagnostic reasoning. Central to our approach is the ViDRiP-Instruct dataset, comprising 4278 video and diagnosis-specific chain-of-thought instructional pairs sourced from educational histopathology videos on YouTube. Although high-quality data is critical for enhancing diagnostic reasoning, its creation is time-intensive and limited in volume. To overcome this challenge, we transfer knowledge from existing single-image instruction datasets to train on weakly annotated, keyframe-extracted clips, followed by fine-tuning on manually segmented videos. ViDRiP-LLaVA establishes a new benchmark in pathology video analysis and offers a promising foundation for future AI systems that support clinical decision-making through integrated visual and diagnostic reasoning. Our code, data, and model are publicly available at: https://github.com/QuIIL/ViDRiP-LLaVA.
- معرّف الورقة: 2505.04192
- العنوان: VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning
- المؤلفون: Trinh Vuong, Jin Tae Kwak (جامعة كوريا)
- التصنيف: cs.CV cs.AI cs.CL
- تاريخ النشر: طبعة arXiv (2025)
- رابط الورقة: https://arxiv.org/abs/2505.04192v2
VideoPath-LLaVA هو أول نموذج لغة متعدد الأنماط كبير (LMM) في مجال الأمراض الحاسوبية، يدمج ثلاث سيناريوهات صور مختلفة: صور الرقع الفردية، والمقاطع ذات الإطارات الرئيسية المستخرجة تلقائياً، وصور الفيديو المرضية المقسمة يدويًا، لمحاكاة عملية التشخيص الطبيعية للأطباء المتخصصين. يجمع VideoPath-LLaVA بين السرد البصري والاستدلال التشخيصي من خلال إنشاء وصفات نسيجية مفصلة وتقديم استنتاجات تشخيصية واضحة. يكمن جوهر هذا النهج في مجموعة بيانات VideoPath-Instruct، التي تحتوي على 4278 زوج من الفيديوهات والتعليمات التشخيصية المتسلسلة من فيديوهات علم الأمراض التنظيمية التعليمية على YouTube.
- قيود التشخيص من صورة واحدة: تركز معظم نماذج اللغة المتعددة الأنماط الحالية في المجال الطبي على الإجابة عن الأسئلة بناءً على صورة واحدة، لكن هذا يشكل مشكلة في مهام التشخيص المرضي - الصور بالتكبير العالي تفتقر إلى معلومات البنية الكلية، والصور بالتكبير المنخفض تفتقر إلى التفاصيل الدقيقة
- الاستخدام غير الكافي لموارد الفيديو: تحتوي فيديوهات YouTube التعليمية على عملية تدريسية منظمة (من نظرة عامة بتكبير منخفض إلى فحص بتكبير عالي)، لكن توجد مشاكل في المحاذاة، حيث يمثل الإطار الواحد قطاع الفيديو بأكمله والنسخة المكتوبة له، والتي غالباً ما تتجاوز محتواه البصري
- غياب عملية الاستدلال التشخيصي: نقص الأنظمة الذكية التي يمكنها محاكاة عملية الاستدلال التشخيصي التدريجي للطبيب المتخصص
- الاستفادة من البنية الكامنة في الفيديوهات التعليمية لبناء عملية استدلال متسلسلة (CoT)
- حل مشكلة المحاذاة بين إطارات الفيديو والأوصاف النصية
- إنشاء أول نموذج لفهم الفيديو المرضي يوفر استدلالاً تشخيصياً قابلاً للتفسير
- نموذج رائد: تقديم VideoPath-LLaVA، أول نموذج لغة متعدد الأنماط كبير لفهم الفيديو في مجال الأمراض الحاسوبية
- مجموعة بيانات عالية الجودة: بناء مجموعة بيانات VideoPath-Instruct تحتوي على 4278 زوج من أسئلة وأجوبة متابعة التعليمات المرضية المختارة بعناية
- استراتيجية تدريب مبتكرة: تصميم طريقة تدريب رباعية المراحل تشمل المحاذاة وتعديل الصور وتعديل مختلط وتعديل الفيديو
- أداء متفوق: تجاوز نماذج متقدمة مثل GPT-4o على مجموعة اختبار VideoPath-Instruct
- مساهمة مفتوحة المصدر: نشر الكود والبيانات والنموذج لتوفير البنية التحتية للمجتمع
بالنظر إلى إدخال فيديو مرضي، يجب على النموذج:
- إنشاء وصفات نسيجية مفصلة
- إجراء استدلال تشخيصي خطوة بخطوة
- تقديم استنتاج تشخيصي مرضي نهائي
يعتمد VideoPath-LLaVA على معمارية LLaVA-ov ويتضمن ثلاثة مكونات رئيسية:
- مشفر الرؤية (ViT): يستخدم مشفر SigLIP لاستخراج ميزات الصور zv=g(xv)
- المسقط: شبكة MLP ذات طبقتين تسقط ميزات الصور إلى فضاء التضمين الكلمي hv=p(zv)
- فك التشفير اللغوي (LLM): يستخدم Qwen-2.5-7B كـ LLM، يستقبل الميزات البصرية المسقطة والتعليمات النصية لإنشاء الاستجابات
تستخدم تدريباً تدريجياً رباعي المراحل:
المرحلة 0: مرحلة المحاذاة
- التدريب المسبق للمسقط على أزواج الصور والتسميات التوضيحية
- إنشاء اتصال بين LLM و ViT
المرحلة 1: تعديل الصور (SFT)
- ضبط دقيق للنموذج الكامل على مجموعة بيانات تعليمات الصور
- استخدام مجموعات بيانات Quilt-LLaVA و PathAsst
المرحلة 2: تعديل مختلط (SFT) (نقطة الابتكار)
- دمج مجموعات بيانات تعليمات الصور والفيديو المقسمة تلقائياً للتدريب
- تعزيز الانتقال السلس من المحتوى الثابت إلى المحتوى الديناميكي
المرحلة 3: تعديل الفيديو (SFT)
- الضبط الدقيق النهائي على VideoPath-Instruct
- تطبيق ضبط LoRA على LLM لتجنب الإفراط في التدريب
- الانتقال التدريجي للمهام البصرية: يعمل التدريب المختلط في المرحلة 2 على سد الفجوة بين مهام الصور والفيديو بفعالية
- استدلال التشخيص المتسلسل: استخدام CoT prompting لإنشاء عملية استدلال منظمة
- تقسيم الفيديو متعدد المستويات: دمج استخراج الإطارات الرئيسية التلقائي والتقسيم الدقيق اليدوي
- تنقية البيانات البصرية: كشف الأنسجة وإزالة النصوص لضمان جودة البيانات
- VideoPath-Instruct: 4036 فيديو تدريب، 242 فيديو اختبار
- ClipPath-Instruct: 140 ألف مقطع مرضي مقسم تلقائياً
- مجموعات بيانات مساعدة: Quilt-1M و PathAsst ومجموعة بيانات المثانة وغيرها
- استخدام Whisper لنسخ الفيديو
- YOLO-Path لكشف الأنسجة وإخفاء الأشخاص
- docTR لكشف النصوص وإزالتها
- AutoShot لكشف حدود المقاطع المرشحة
استخدام مقاييس Video-ChatGPT للتقييم:
- السياق (Context): الملاءمة السياقية
- الصحة (Correctness): الدقة
- التفاصيل (Detail): مستوى التفصيل
- نطاق الدرجات: 0-5، باستخدام GPT-3.5-turbo-0613 للتقييم
- نماذج مفتوحة المصدر: LLaVA-OV و LLaVA-Video و InternVL2-8B و Qwen2-VL و Qwen2.5-VL
- نماذج ملكية: GPT-4o و Claude-3.7-Sonnet و Gemini-1.5-Pro و Gemini-2.0-Flash
حقق VideoPath-LLaVA أداءً متفوقاً على مجموعة اختبار VideoPath-Instruct:
| النموذج | السياق | الصحة | التفاصيل | المتوسط | المتوسط المعياري |
|---|
| GPT-4o | 2.69 | 2.69 | 2.36 | 2.58 | 51.60 |
| VideoPath-LLaVA (كامل) | 2.82 | 2.82 | 2.67 | 2.77 | 55.40 |
| VideoPath-LLaVA (بدون المرحلة 2) | 2.74 | 2.68 | 2.69 | 2.70 | 54.08 |
| LLaVA-OV (الأساس) | 1.86 | 1.40 | 2.03 | 1.76 | 35.21 |
- أهمية المرحلة 2: يحسن التعديل المختلط الأداء بشكل كبير (2.70→2.77)
- LoRA أفضل من الضبط الكامل: يكون ضبط LoRA أكثر فعالية على مجموعات البيانات الصغيرة
- كفاءة البيانات: الحفاظ على أداء قوية باستخدام 50% فقط من بيانات التدريب
- تجاوز النماذج الملكية: رغم حجم معاملات أصغر (7B)، يتجاوز GPT-4o
في حالة تشخيص السرطان المصلي المتقدم:
- GPT-4o: يحدد بشكل صحيح السرطان المصلي لكن يفتقر إلى وصف الميزات الرئيسية
- VideoPath-LLaVA: يصف بالتفصيل الشذوذ النووي والتليف الخلالي والميزات المرضية الرئيسية الأخرى، مما يوفر تقييماً أكثر دقة لدرجة الخباثة
- LLaVA-Med: معمارية LLaVA المكيفة للتصوير الطبي الحيوي
- Quilt-LLaVA: بناء أزواج الصور والتسميات التوضيحية من فيديوهات YouTube
- CPath-Omni: التوسع إلى تحليل الرقع والصور الكاملة للشرائح
- LLaVA-Video: توسيع LLaVA لفهم الفيديو
- Video-ChatGPT: نظام الحوار بالفيديو
- أول إدخال لفهم الفيديو في الأمراض الحاسوبية
- حل القيود الكامنة في التشخيص من صورة واحدة
- توفير عملية استدلال تشخيصي منظمة
- أنشأ VideoPath-LLaVA معياراً جديداً بنجاح لتحليل الفيديو المرضي
- استراتيجية التدريب رباعية المراحل تحقق بفعالية نقل المعرفة من الصور إلى الفيديو
- يحسن الاستدلال المتسلسل بشكل كبير من قابلية تفسير التشخيص ودقته
- قيود مصدر البيانات: يعتمد على فيديوهات YouTube التعليمية، قد يكون هناك اختلافات في الجودة
- نقص التحقق اليدوي: التشخيصات المولدة تفتقر إلى التحقق من قبل متخصصي الأمراض
- تغطية غير كافية للأمراض النادرة: القدرة على التعميم على أنواع مرضية نادرة محدودة
- متطلبات الموارد الحسابية: يتطلب موارد GPU كبيرة للتدريب
- توسيع حجم ومتنوعية مجموعة البيانات
- تعزيز التعاون مع الخبراء السريريين للتحقق
- تحسين القدرة التشخيصية للأمراض النادرة
- استكشاف استراتيجيات تدريب أكثر كفاءة
- الابتكار البارز: أول إدخال لفهم الفيديو في الأمراض الحاسوبية، ملء فجوة مهمة
- تصميم الطريقة معقول: استراتيجية التدريب رباعية المراحل سليمة علمياً، نقل التعلم التدريجي فعال
- التجارب شاملة: تجارب مقارنة شاملة ودراسات استئصالية تثبت فعالية الطريقة
- قيمة عملية عالية: توفير استدلال تشخيصي قابل للتفسير، إمكانية تطبيق سريري
- مساهمة مفتوحة المصدر: نشر كامل للكود والبيانات والنموذج، تعزيز تطور المجال
- قيود التقييم: التقييم فقط على مجموعة البيانات المبنية ذاتياً، نقص المعايير الموحدة
- التحقق السريري غير كافٍ: نقص التحقق في بيئة سريرية حقيقية والتقييم من قبل الخبراء
- كفاءة حسابية: حجم النموذج وتكاليف التدريب مرتفعة، تحديات النشر العملي
- القدرة على التعميم غير معروفة: تحتاج إلى التحقق الإضافي من القدرة على التعميم على أنواع مرضية مختلفة وبيانات المستشفيات
- القيمة الأكاديمية: فتح اتجاه جديد لفهم الفيديو المرضي، توفير أساس للأبحاث اللاحقة
- الإمكانات السريرية: من المتوقع أن تساعد في التشخيص المرضي، تحسين كفاءة ودقة التشخيص
- المساهمة التقنية: يمكن تعميم استراتيجية التدريب متعددة المراحل على مهام فهم الفيديو الطبي الأخرى
- الأصول البيانية: ستصبح مجموعة بيانات VideoPath-Instruct مورداً بحثياً مهماً
- التعليم الطبي: مساعدة التدريس والتدريب في علم الأمراض
- دعم القرار السريري: توفير رأي ثانٍ للأطباء المتخصصين
- التشخيص عن بعد: دعم التشخيص المرضي في المناطق التي تفتقر إلى الموارد
- ضمان الجودة: مساعدة ضمان الجودة والتحقق من اتساق التشخيص المرضي
تستشهد الورقة بأعمال مهمة متعددة، بما في ذلك:
- معمارية نماذج سلسلة LLaVA
- طرق استدلال Chain-of-Thought
- نماذج متعددة الأنماط طبية مثل LLaVA-Med و Quilt-LLaVA
- تقنيات فهم الفيديو مثل AutoShot و Video-ChatGPT
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة ذات أهمية رائدة في مجال الأمراض الحاسوبية. الطريقة مبتكرة، والتجارب شاملة، والنتائج مقنعة، مما يفتح اتجاهاً بحثياً جديداً لدعم التشخيص المرضي بالذكاء الاصطناعي. على الرغم من وجود بعض القيود، فإن قيمتها الأكاديمية وإمكاناتها العملية عالية جداً، وتستحق المزيد من الاهتمام والتطوير.