2025-11-23T04:13:16.733055

ViDRiP-LLaVA: A Dataset and Benchmark for Diagnostic Reasoning from Pathology Videos

Vuong, Kwak

We present ViDRiP-LLaVA, the first large multimodal model (LMM) in computational pathology that integrates three distinct image scenarios, including single patch images, automatically segmented pathology video clips, and manually segmented pathology videos. This integration closely mirrors the natural diagnostic process of pathologists. By generating detailed histological descriptions and culminating in a definitive sign-out diagnosis, ViDRiP-LLaVA bridges visual narratives with diagnostic reasoning. Central to our approach is the ViDRiP-Instruct dataset, comprising 4278 video and diagnosis-specific chain-of-thought instructional pairs sourced from educational histopathology videos on YouTube. Although high-quality data is critical for enhancing diagnostic reasoning, its creation is time-intensive and limited in volume. To overcome this challenge, we transfer knowledge from existing single-image instruction datasets to train on weakly annotated, keyframe-extracted clips, followed by fine-tuning on manually segmented videos. ViDRiP-LLaVA establishes a new benchmark in pathology video analysis and offers a promising foundation for future AI systems that support clinical decision-making through integrated visual and diagnostic reasoning. Our code, data, and model are publicly available at: https://github.com/QuIIL/ViDRiP-LLaVA.

academic

VideoPath-LLaVA: نموذج متعدد الأنماط للاستدلال التشخيصي في الفيديوهات المرضية

المعلومات الأساسية

معرّف الورقة: 2505.04192
العنوان: VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning
المؤلفون: Trinh Vuong, Jin Tae Kwak (جامعة كوريا)
التصنيف: cs.CV cs.AI cs.CL
تاريخ النشر: طبعة arXiv (2025)
رابط الورقة: https://arxiv.org/abs/2505.04192v2

الملخص

VideoPath-LLaVA هو أول نموذج لغة متعدد الأنماط كبير (LMM) في مجال الأمراض الحاسوبية، يدمج ثلاث سيناريوهات صور مختلفة: صور الرقع الفردية، والمقاطع ذات الإطارات الرئيسية المستخرجة تلقائياً، وصور الفيديو المرضية المقسمة يدويًا، لمحاكاة عملية التشخيص الطبيعية للأطباء المتخصصين. يجمع VideoPath-LLaVA بين السرد البصري والاستدلال التشخيصي من خلال إنشاء وصفات نسيجية مفصلة وتقديم استنتاجات تشخيصية واضحة. يكمن جوهر هذا النهج في مجموعة بيانات VideoPath-Instruct، التي تحتوي على 4278 زوج من الفيديوهات والتعليمات التشخيصية المتسلسلة من فيديوهات علم الأمراض التنظيمية التعليمية على YouTube.

خلفية البحث والدافع

المشاكل الأساسية

قيود التشخيص من صورة واحدة: تركز معظم نماذج اللغة المتعددة الأنماط الحالية في المجال الطبي على الإجابة عن الأسئلة بناءً على صورة واحدة، لكن هذا يشكل مشكلة في مهام التشخيص المرضي - الصور بالتكبير العالي تفتقر إلى معلومات البنية الكلية، والصور بالتكبير المنخفض تفتقر إلى التفاصيل الدقيقة
الاستخدام غير الكافي لموارد الفيديو: تحتوي فيديوهات YouTube التعليمية على عملية تدريسية منظمة (من نظرة عامة بتكبير منخفض إلى فحص بتكبير عالي)، لكن توجد مشاكل في المحاذاة، حيث يمثل الإطار الواحد قطاع الفيديو بأكمله والنسخة المكتوبة له، والتي غالباً ما تتجاوز محتواه البصري
غياب عملية الاستدلال التشخيصي: نقص الأنظمة الذكية التي يمكنها محاكاة عملية الاستدلال التشخيصي التدريجي للطبيب المتخصص

دافع البحث

الاستفادة من البنية الكامنة في الفيديوهات التعليمية لبناء عملية استدلال متسلسلة (CoT)
حل مشكلة المحاذاة بين إطارات الفيديو والأوصاف النصية
إنشاء أول نموذج لفهم الفيديو المرضي يوفر استدلالاً تشخيصياً قابلاً للتفسير

المساهمات الأساسية

نموذج رائد: تقديم VideoPath-LLaVA، أول نموذج لغة متعدد الأنماط كبير لفهم الفيديو في مجال الأمراض الحاسوبية
مجموعة بيانات عالية الجودة: بناء مجموعة بيانات VideoPath-Instruct تحتوي على 4278 زوج من أسئلة وأجوبة متابعة التعليمات المرضية المختارة بعناية
استراتيجية تدريب مبتكرة: تصميم طريقة تدريب رباعية المراحل تشمل المحاذاة وتعديل الصور وتعديل مختلط وتعديل الفيديو
أداء متفوق: تجاوز نماذج متقدمة مثل GPT-4o على مجموعة اختبار VideoPath-Instruct
مساهمة مفتوحة المصدر: نشر الكود والبيانات والنموذج لتوفير البنية التحتية للمجتمع

شرح الطريقة

تعريف المهمة

بالنظر إلى إدخال فيديو مرضي، يجب على النموذج:

إنشاء وصفات نسيجية مفصلة
إجراء استدلال تشخيصي خطوة بخطوة
تقديم استنتاج تشخيصي مرضي نهائي

معمارية النموذج

يعتمد VideoPath-LLaVA على معمارية LLaVA-ov ويتضمن ثلاثة مكونات رئيسية:

مشفر الرؤية (ViT): يستخدم مشفر SigLIP لاستخراج ميزات الصور $z_v = g(x_v)$
المسقط: شبكة MLP ذات طبقتين تسقط ميزات الصور إلى فضاء التضمين الكلمي $h_v = p(z_v)$
فك التشفير اللغوي (LLM): يستخدم Qwen-2.5-7B كـ LLM، يستقبل الميزات البصرية المسقطة والتعليمات النصية لإنشاء الاستجابات

استراتيجية التدريب

تستخدم تدريباً تدريجياً رباعي المراحل:

المرحلة 0: مرحلة المحاذاة

التدريب المسبق للمسقط على أزواج الصور والتسميات التوضيحية
إنشاء اتصال بين LLM و ViT

المرحلة 1: تعديل الصور (SFT)

ضبط دقيق للنموذج الكامل على مجموعة بيانات تعليمات الصور
استخدام مجموعات بيانات Quilt-LLaVA و PathAsst

المرحلة 2: تعديل مختلط (SFT) (نقطة الابتكار)

دمج مجموعات بيانات تعليمات الصور والفيديو المقسمة تلقائياً للتدريب
تعزيز الانتقال السلس من المحتوى الثابت إلى المحتوى الديناميكي

المرحلة 3: تعديل الفيديو (SFT)

الضبط الدقيق النهائي على VideoPath-Instruct
تطبيق ضبط LoRA على LLM لتجنب الإفراط في التدريب

نقاط الابتكار التقني

الانتقال التدريجي للمهام البصرية: يعمل التدريب المختلط في المرحلة 2 على سد الفجوة بين مهام الصور والفيديو بفعالية
استدلال التشخيص المتسلسل: استخدام CoT prompting لإنشاء عملية استدلال منظمة
تقسيم الفيديو متعدد المستويات: دمج استخراج الإطارات الرئيسية التلقائي والتقسيم الدقيق اليدوي
تنقية البيانات البصرية: كشف الأنسجة وإزالة النصوص لضمان جودة البيانات

إعداد التجارب

مجموعات البيانات

VideoPath-Instruct: 4036 فيديو تدريب، 242 فيديو اختبار
ClipPath-Instruct: 140 ألف مقطع مرضي مقسم تلقائياً
مجموعات بيانات مساعدة: Quilt-1M و PathAsst ومجموعة بيانات المثانة وغيرها

معالجة البيانات المسبقة

استخدام Whisper لنسخ الفيديو
YOLO-Path لكشف الأنسجة وإخفاء الأشخاص
docTR لكشف النصوص وإزالتها
AutoShot لكشف حدود المقاطع المرشحة

مقاييس التقييم

استخدام مقاييس Video-ChatGPT للتقييم:

السياق (Context): الملاءمة السياقية
الصحة (Correctness): الدقة
التفاصيل (Detail): مستوى التفصيل
نطاق الدرجات: 0-5، باستخدام GPT-3.5-turbo-0613 للتقييم

طرق المقارنة

نماذج مفتوحة المصدر: LLaVA-OV و LLaVA-Video و InternVL2-8B و Qwen2-VL و Qwen2.5-VL
نماذج ملكية: GPT-4o و Claude-3.7-Sonnet و Gemini-1.5-Pro و Gemini-2.0-Flash

نتائج التجارب

النتائج الرئيسية

حقق VideoPath-LLaVA أداءً متفوقاً على مجموعة اختبار VideoPath-Instruct:

النموذج	السياق	الصحة	التفاصيل	المتوسط	المتوسط المعياري
GPT-4o	2.69	2.69	2.36	2.58	51.60
VideoPath-LLaVA (كامل)	2.82	2.82	2.67	2.77	55.40
VideoPath-LLaVA (بدون المرحلة 2)	2.74	2.68	2.69	2.70	54.08
LLaVA-OV (الأساس)	1.86	1.40	2.03	1.76	35.21

النتائج الرئيسية

أهمية المرحلة 2: يحسن التعديل المختلط الأداء بشكل كبير (2.70→2.77)
LoRA أفضل من الضبط الكامل: يكون ضبط LoRA أكثر فعالية على مجموعات البيانات الصغيرة
كفاءة البيانات: الحفاظ على أداء قوية باستخدام 50% فقط من بيانات التدريب
تجاوز النماذج الملكية: رغم حجم معاملات أصغر (7B)، يتجاوز GPT-4o

تحليل الحالات

في حالة تشخيص السرطان المصلي المتقدم:

GPT-4o: يحدد بشكل صحيح السرطان المصلي لكن يفتقر إلى وصف الميزات الرئيسية
VideoPath-LLaVA: يصف بالتفصيل الشذوذ النووي والتليف الخلالي والميزات المرضية الرئيسية الأخرى، مما يوفر تقييماً أكثر دقة لدرجة الخباثة

الأعمال ذات الصلة

نماذج متعددة الأنماط الطبية

LLaVA-Med: معمارية LLaVA المكيفة للتصوير الطبي الحيوي
Quilt-LLaVA: بناء أزواج الصور والتسميات التوضيحية من فيديوهات YouTube
CPath-Omni: التوسع إلى تحليل الرقع والصور الكاملة للشرائح

نماذج فهم الفيديو

LLaVA-Video: توسيع LLaVA لفهم الفيديو
Video-ChatGPT: نظام الحوار بالفيديو

مزايا هذه الورقة

أول إدخال لفهم الفيديو في الأمراض الحاسوبية
حل القيود الكامنة في التشخيص من صورة واحدة
توفير عملية استدلال تشخيصي منظمة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

أنشأ VideoPath-LLaVA معياراً جديداً بنجاح لتحليل الفيديو المرضي
استراتيجية التدريب رباعية المراحل تحقق بفعالية نقل المعرفة من الصور إلى الفيديو
يحسن الاستدلال المتسلسل بشكل كبير من قابلية تفسير التشخيص ودقته

القيود

قيود مصدر البيانات: يعتمد على فيديوهات YouTube التعليمية، قد يكون هناك اختلافات في الجودة
نقص التحقق اليدوي: التشخيصات المولدة تفتقر إلى التحقق من قبل متخصصي الأمراض
تغطية غير كافية للأمراض النادرة: القدرة على التعميم على أنواع مرضية نادرة محدودة
متطلبات الموارد الحسابية: يتطلب موارد GPU كبيرة للتدريب

الاتجاهات المستقبلية

توسيع حجم ومتنوعية مجموعة البيانات
تعزيز التعاون مع الخبراء السريريين للتحقق
تحسين القدرة التشخيصية للأمراض النادرة
استكشاف استراتيجيات تدريب أكثر كفاءة

التقييم المتعمق

المزايا

الابتكار البارز: أول إدخال لفهم الفيديو في الأمراض الحاسوبية، ملء فجوة مهمة
تصميم الطريقة معقول: استراتيجية التدريب رباعية المراحل سليمة علمياً، نقل التعلم التدريجي فعال
التجارب شاملة: تجارب مقارنة شاملة ودراسات استئصالية تثبت فعالية الطريقة
قيمة عملية عالية: توفير استدلال تشخيصي قابل للتفسير، إمكانية تطبيق سريري
مساهمة مفتوحة المصدر: نشر كامل للكود والبيانات والنموذج، تعزيز تطور المجال

أوجه القصور

قيود التقييم: التقييم فقط على مجموعة البيانات المبنية ذاتياً، نقص المعايير الموحدة
التحقق السريري غير كافٍ: نقص التحقق في بيئة سريرية حقيقية والتقييم من قبل الخبراء
كفاءة حسابية: حجم النموذج وتكاليف التدريب مرتفعة، تحديات النشر العملي
القدرة على التعميم غير معروفة: تحتاج إلى التحقق الإضافي من القدرة على التعميم على أنواع مرضية مختلفة وبيانات المستشفيات

التأثير

القيمة الأكاديمية: فتح اتجاه جديد لفهم الفيديو المرضي، توفير أساس للأبحاث اللاحقة
الإمكانات السريرية: من المتوقع أن تساعد في التشخيص المرضي، تحسين كفاءة ودقة التشخيص
المساهمة التقنية: يمكن تعميم استراتيجية التدريب متعددة المراحل على مهام فهم الفيديو الطبي الأخرى
الأصول البيانية: ستصبح مجموعة بيانات VideoPath-Instruct مورداً بحثياً مهماً

السيناريوهات المعمول بها

التعليم الطبي: مساعدة التدريس والتدريب في علم الأمراض
دعم القرار السريري: توفير رأي ثانٍ للأطباء المتخصصين
التشخيص عن بعد: دعم التشخيص المرضي في المناطق التي تفتقر إلى الموارد
ضمان الجودة: مساعدة ضمان الجودة والتحقق من اتساق التشخيص المرضي

المراجع

تستشهد الورقة بأعمال مهمة متعددة، بما في ذلك:

معمارية نماذج سلسلة LLaVA
طرق استدلال Chain-of-Thought
نماذج متعددة الأنماط طبية مثل LLaVA-Med و Quilt-LLaVA
تقنيات فهم الفيديو مثل AutoShot و Video-ChatGPT

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة ذات أهمية رائدة في مجال الأمراض الحاسوبية. الطريقة مبتكرة، والتجارب شاملة، والنتائج مقنعة، مما يفتح اتجاهاً بحثياً جديداً لدعم التشخيص المرضي بالذكاء الاصطناعي. على الرغم من وجود بعض القيود، فإن قيمتها الأكاديمية وإمكاناتها العملية عالية جداً، وتستحق المزيد من الاهتمام والتطوير.