Recently, Multi-modal Large Language Models (MLLMs) have demonstrated significant performance across various video understanding tasks. However, their robustness, particularly when faced with manipulated video content, remains largely unexplored. In this paper, we introduce Ro-Bench, the first benchmark for evaluating MLLMs on dynamic out-of-distribution (OOD) counterfactual video test sets. Ro-Bench incorporates high-quality, diverse and temporally relevant video data, by editing Style, Object, Background and their compositions. We evaluated eight recent video MLLMs and found that current models exhibit substantial performance degradation on Ro-Bench when exposed to counterfactual video content. Furthermore, we demonstrate that fine-tuning MLLMs with counterfactual data enhances robustness, achieving a 21.73% performance increase on Ro-Bench and a 12.78% improvement across 20 tasks in the MVBench dataset. These findings underscore the effectiveness of counterfactual data in enhancing the video understanding ability of MLLMs. The code and data will be released shortly.
- معرّف الورقة: 2510.08936
- العنوان: RO-Bench: تقييم واسع النطاق لقوة نماذج اللغة متعددة الأنماط (MLLMs) مع مقاطع فيديو مضادة للواقع مدفوعة بالنصوص
- المؤلفون: Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang (جامعة بكين للبريد والاتصالات)
- التصنيف: cs.CV cs.AI
- وقت النشر: 2025 (نسخة أولية)
- رابط الورقة: https://arxiv.org/abs/2510.08936
في السنوات الأخيرة، أظهرت نماذج اللغة الكبيرة متعددة الأنماط (MLLMs) أداءً متميزاً في مختلف مهام فهم الفيديو. ومع ذلك، لا تزال قوتها في مواجهة محتوى الفيديو المعدَّل تفتقر إلى الاستكشاف الكافي. تقدم هذه الورقة Ro-Bench، وهي أول معيار لتقييم أداء نماذج اللغة متعددة الأنماط على مجموعات اختبار الفيديو المضادة للواقع خارج التوزيع الديناميكي (OOD). يدمج Ro-Bench بيانات فيديو عالية الجودة ومتنوعة وذات صلة زمنية من خلال تحرير الأسلوب والكائنات والخلفيات ومجموعاتها. قيّم المؤلفون 8 نماذج فيديو متقدمة من نماذج اللغة متعددة الأنماط، وكشفوا أن النماذج الحالية تظهر انخفاضاً كبيراً في الأداء عند مواجهة محتوى فيديو مضاد للواقع. علاوة على ذلك، تُظهر الدراسة أن ضبط نماذج اللغة متعددة الأنماط باستخدام بيانات مضادة للواقع يعزز القوة، محققاً تحسناً في الأداء بنسبة 21.73% على Ro-Bench وتحسناً متوسطاً بنسبة 12.78% عبر 20 مهمة في مجموعة بيانات MVBench.
مع الانتشار الواسع لنماذج اللغة الكبيرة متعددة الأنماط في مهام فهم الفيديو، خاصة في النشر في المجالات عالية المخاطر مثل مراجعة محتوى الفيديو والقيادة الذاتية والمراقبة في الوقت الفعلي، أصبح ضمان قوة النموذج أمراً حاسماً.
- متطلبات التطبيق العملي: يجب أن تحافظ النماذج على أداء مستقرة تجاه مختلف التغييرات البصرية في سيناريوهات التطبيق عالية المخاطر
- الاعتبارات الأمنية: قد يحاول المهاجمون الخبيثون خداع النموذج من خلال تحرير الفيديو، مما يسبب مخاطر أمنية
- الفجوة في التقييم: يركز التقييم الحالي للقوة بشكل أساسي على الصور الثابتة، مع نقص التقييم المنهجي في مجال الفيديو
- قيود الصور الثابتة: تركز المعايير الموجودة مثل LANCE بشكل أساسي على توليد الصور المضادة للواقع الثابتة
- الاضطرابات البسيطة: يعتمد معظم تقييم قوة الفيديو الحالي على اختبارات الضوضاء أو التلف، متجاهلاً الديناميكيات الزمنية الغنية للفيديو في العالم الحقيقي
- نقص المنهجية: غياب إطار عمل شامل لتقييم القوة لنماذج اللغة متعددة الأنماط للفيديو
تهدف هذه الورقة إلى الإجابة على سؤالي بحث أساسيين:
- السؤال 1: كيف يكون أداء نماذج اللغة متعددة الأنماط على الفيديو المضاد للواقع، وما التحديات المحددة التي تواجهها عند فهم محتوى الفيديو المعدَّل؟
- السؤال 2: كيف يؤثر استخدام الفيديو المضاد للواقع على أداء نماذج اللغة متعددة الأنماط، وهل يمكن أن يعزز قدرتها على فهم وتفسير محتوى الفيديو المعقد؟
- أول معيار قوة للفيديو: تقديم Ro-Bench، أول مجموعة اختبار فيديو مضادة للواقع مصممة خصيصاً لتقييم قوة نماذج اللغة متعددة الأنماط للفيديو
- مؤشرات تقييم مبتكرة: إدخال أربعة مؤشرات تقييم مبتكرة لتقييم تأثير المطالبات النصية والفيديو الأصلي على نتائج التحرير، مما يضمن جودة البيانات العالية
- تقييم قوة شامل: إجراء تقييم شامل لنماذج اللغة متعددة الأنماط للفيديو السائدة، كاشفاً عن نقص القوة في فهم الفيديو
- التحقق من استراتيجية التدريب: إثبات أن التدريب باستخدام بيانات مضادة للواقع يمكن أن يحسن أداء Ro-Bench والأداء العام على معايير أخرى
يهدف Ro-Bench إلى تقييم قوة نماذج اللغة متعددة الأنماط للفيديو عند مواجهة محتوى فيديو مضاد للواقع. تتضمن المهام:
- المدخلات: الفيديو الأصلي والفيديو المعدَّل المضاد للواقع المقابل
- المخرجات: إجابات الأسئلة متعددة الخيارات لأربع مهام فهم فيديو (التعرف على الإجراءات، التعرف على الكائنات، الحكم على وجود الكائنات، وصف الفيديو)
- التقييم: مقارنة الفروقات في أداء النموذج على الفيديو الأصلي والمعدَّل
- مصادر مجموعات البيانات: DAVIS و TGVE و MSR-VTT و BalanceCC وغيرها من مجموعات البيانات العامة والإنترنت
- تصنيف المحتوى: أربعة أنواع موضوعية (بشر، حيوانات، مناظر طبيعية، كائنات)
- أنواع المهام: التعرف على الإجراءات (AR)، التعرف على الكائنات (OR)، وجود الكائنات (OE)، وصف الفيديو (VC)
استراتيجية تحرير التسميات التوضيحية:
- تحليل تسميات الفيديو إلى مكونات منظمة: خصائص الكائنات، إجراءات الكائنات، الخلفية، الأسلوب
- تحرير التسميات التوضيحية بناءً على هذه العوامل البصرية الأربعة
عملية تحرير الفيديو:
- استخدام نماذج تحرير الفيديو المدفوعة بالنصوص المتقدمة
- اقتراح أربعة مؤشرات تقييم رئيسية: مستوى الهلوسة (FL)، تعقيد المشهد (SC)، حركة الكاميرا (CM)، حركة الكائن (OM)
- اختيار أفضل ثلاثة نماذج تحرير بناءً على نتائج التقييم
- إجراء فحص يدوي صارم لضمان جودة الفيديو
توليد الأسئلة الآلي:
- الاستفادة من GPT-4o لتوليد أسئلة لكل فيديو بناءً على تعريف المهمة
- بناء خيارات الإجابة المقابلة وفقاً لأنواع المهام المختلفة
استراتيجية توليد الخيارات:
- الاعتماد على التعليقات التوضيحية: استخراج الإجابات الصحيحة مباشرة من التعليقات التوضيحية الحقيقية
- التوليد القائم على نموذج اللغة: توفير خيارات "نعم" و "لا" و "غير مؤكد" لمهام الحكم على وجود الكائنات
- تصميم الخيارات المشتتة: ضمان عدم كونها بسيطة جداً أو صعبة جداً، مع الحفاظ على الصلة والتنوع
- استراتيجية التحرير متعددة الأبعاد: تحرير الفيديو بشكل منهجي من ثلاثة أبعاد: الأسلوب والكائنات والخلفية
- نظام تقييم الجودة: اقتراح أربعة مؤشرات كمية لتقييم جودة التحرير، مما يضمن توليد فيديو مضاد للواقع عالي الجودة
- تنوع المهام: تغطية أربع مهام فهم فيديو أساسية، مما يقيّم قدرات النموذج بشكل شامل
- خط أنابيب مؤتمت: بناء خط أنابيب توليد وتقييم بيانات مؤتمت من البداية إلى النهاية
- بيانات الفيديو: 2.1 ألف زوج فيديو-تسمية توضيحية عالي الجودة
- أزواج الأسئلة والإجابات: 8.6 ألف أسئلة متعددة الخيارات
- مجموعة التدريب: 332 فيديو أصلي، 1328 عينة فيديو مضادة للواقع، 6640 زوج أسئلة وإجابات
- الأصلي (Origin): دقة الاختبار على الفيديو الأصلي
- المعدَّل (Edit): دقة الاختبار على الفيديو المعدَّل
- الانخفاض (Drop): مقدار انخفاض الأداء (الأصلي - المعدَّل)
تقييم 8 نماذج فيديو متقدمة من نماذج اللغة متعددة الأنماط:
- محرفات الفيديو الكبيرة أو المضبوطة: VideoChat و VideoChat2 و VideoLLaMA2 و VideoLLaVA و VideoLLaMA3
- محرفات CLIP ViT/L-14: VideoChatGPT و mPLUG-Owl3 و LLaVA-Next
- استخدام LLaVA-Next كنموذج أساسي للضبط الدقيق
- بناء LLaVA-NextRo (التدريب باستخدام بيانات مضادة للواقع) و LLaVA-Nextori (التدريب باستخدام بيانات أصلية) للمقارنة
من الجدول 1، يمكن ملاحظة أن جميع النماذج تظهر انخفاضاً كبيراً في الأداء على الفيديو المضاد للواقع:
- متوسط انخفاض الأداء: 17.57%
- أفضل قوة: VideoChat2 (انخفاض بنسبة 10.34%)
- أسوأ قوة: LLaVA-Nextori (انخفاض بنسبة 30.85%)
- اختلافات حساسية المهام: تتأثر مهمة التعرف على الإجراءات بشكل أكبر (انخفاض بنسبة 23.99%)، بينما تتأثر مهمة الحكم على وجود الكائنات بشكل أقل (انخفاض بنسبة 11.54%)
- تأثير عوامل التحرير: تغييرات الكائنات لها تأثير أكبر على النموذج من تغييرات الأسلوب والخلفية
- تأثير البنية المعمارية: تُظهر النماذج التي تستخدم محرفات فيديو أكبر أو مضبوطة أداءً أفضل من تلك التي تستخدم CLIP ViT/L-14 المجمد
- LLaVA-NextRo: تحقق أفضل أداء في تقييم القوة، مع انخفاض في الدقة بنسبة 4.83% فقط
- مقارنة بـ LLaVA-Next: تحسن كبير في مؤشرات القوة بنسبة 21.73%
- مقارنة بـ LLaVA-Nextori: إظهار مزايا التدريب باستخدام بيانات مضادة للواقع
في 20 مهمة نزولية في MVBench:
- متوسط تحسن الأداء: 12.78%
- المهام المتعلقة بالإجراءات والكائنات: إظهار تحسنات أكثر وضوحاً
- أفضل تحسن في المهام: تحقيق أفضل أداء في عدة مهام
- تحليل عوامل التحرير: لتحرير الكائنات التأثير الأكبر على أداء النموذج، يليه تحرير الأسلوب والخلفية
- مقارنة البنية المعمارية: محرفات الفيديو الأقوى ضرورية لتحسين القوة
- الخصوصية المتعلقة بالمهام: مهام الاستدلال الزمني (مثل التعرف على الإجراءات) أكثر عرضة للاضطرابات البصرية
حققت نماذج اللغة الكبيرة متعددة الأنماط تقدماً كبيراً في مهام فهم الفيديو في السنوات الأخيرة، لكن تقييم القوة متأخر نسبياً.
- مجال الصور: تستخدم أعمال مثل LANCE توليد صور مضادة للواقع لتقييم أداء النموذج
- مجال الفيديو: تركز الأعمال الموجودة بشكل أساسي على اختبارات الضوضاء والتلف، مع نقص التقييم المنهجي المضاد للواقع
أظهرت البيانات المضادة للواقع إمكانية في تحسين قدرة النموذج على التعميم، لكن تطبيقها في نماذج اللغة متعددة الأنماط للفيديو لا يزال قيد الاستكشاف.
- نقص القوة: تظهر نماذج اللغة متعددة الأنماط الحالية للفيديو انخفاضاً كبيراً في الأداء عند مواجهة محتوى فيديو مضاد للواقع
- اختلافات المهام: توجد اختلافات في حساسية المهام المختلفة للتغييرات البصرية، مع كون المهام المتعلقة بالزمن أكثر عرضة للتأثر
- أهمية البنية المعمارية: محرفات الفيديو الأقوى ضرورية لتحسين القوة
- فعالية التدريب: يمكن للضبط الدقيق باستخدام بيانات مضادة للواقع أن يحسن بشكل فعال قوة النموذج والأداء العام
- حجم البيانات: حجم مجموعة البيانات الحالية نسبياً صغير، مما قد يحد من شمول التقييم
- جودة التحرير: على الرغم من التحكم في الجودة، قد يكون الفيديو المضاد للواقع المولد لا يزال غير طبيعي بدرجة كافية
- نطاق التقييم: يركز بشكل أساسي على التحرير البصري، دون تغطية أنواع أخرى من الاضطرابات (مثل الصوت واضطرابات الزمن)
- تغطية النموذج: عدد النماذج المقيمة محدود، قد لا يمثل بشكل كامل مستوى التكنولوجيا الحالي
- توسيع أنواع التحرير: استكشاف المزيد من أنواع تحرير الفيديو وطرق الاضطراب
- مجموعات بيانات واسعة النطاق: بناء مجموعات بيانات فيديو مضادة للواقع أكبر وأكثر تنوعاً
- التحليل النظري: تحليل عميق للأسباب الجذرية لنقص قوة نماذج اللغة متعددة الأنماط
- آليات الدفاع: تطوير استراتيجيات دفاع متخصصة لتحسين قوة النموذج
- ابتكار قوي: أول اقتراح منهجي لمعيار تقييم قوة نماذج اللغة متعددة الأنماط للفيديو، ملء فجوة بحثية مهمة
- طريقة شاملة: بناء إطار عمل تقييم كامل من توليد البيانات والتحكم في الجودة إلى مؤشرات التقييم
- تجارب كافية: تقييم نماذج رئيسية متعددة، توفير تحليل مقارنة أداء شامل
- قيمة عملية عالية: لا توفر معيار تقييم فحسب، بل تثبت أيضاً فعالية البيانات المضادة للواقع في تحسين أداء النموذج
- تقنية متينة: استخدام تقنيات تحرير الفيديو المتقدمة، ضمان توليد فيديو مضاد للواقع عالي الجودة
- قيود حجم البيانات: حجم Ro-Bench نسبياً صغير مقارنة بمعايير واسعة النطاق أخرى
- محدودية أبعاد التحرير: التركيز الأساسي على ثلاثة أبعاد (الأسلوب والكائنات والخلفية)، قد يفوت أنواع اضطراب مهمة أخرى
- مؤشرات تقييم موحدة: استخدام الدقة بشكل أساسي كمؤشر تقييم، مع نقص مؤشرات تحليل أكثر دقة
- نقص التحليل النظري: افتقار إلى تحليل عميق للأسباب الجذرية لنقص قوة النموذج
- المساهمة الأكاديمية: توفير معيار مهم وإطار عمل بحثي لتقييم قوة نماذج اللغة متعددة الأنماط للفيديو
- القيمة العملية: توجيه مهم لنشر نماذج اللغة متعددة الأنماط للفيديو في الصناعة
- الإلهام البحثي: توفير أساس مهم ومرجع للأبحاث المستقبلية ذات الصلة
- قابلية التكرار: الالتزام بفتح الكود والبيانات، مما يفيد تطور مجتمع البحث
- تقييم النموذج: مناسب لتقييم قوة مختلف نماذج اللغة متعددة الأنماط للفيديو
- تحسين النموذج: يمكن استخدامه لتوجيه تصميم البنية المعمارية وتحسين استراتيجيات التدريب
- نشر التطبيقات: توفير تقييم الأمان لنشر النموذج في سيناريوهات التطبيق عالية المخاطر
- معيار البحث: يمكن أن يكون بمثابة معيار تقييم قياسي للأبحاث المستقبلية ذات الصلة
تستشهد هذه الورقة بعدة أعمال مهمة ذات صلة، بما في ذلك:
- نماذج اللغة متعددة الأنماط للفيديو: VideoChat و VideoLLaMA و LLaVA-Next وغيرها
- تقييم القوة: LANCE و OOD-CV وغيرها
- تحرير الفيديو: Tune-a-Video و CCEdit وغيرها
- معايير التقييم: MVBench و DAVIS وغيرها
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تعالج لأول مرة بشكل منهجي مشكلة مهمة في تقييم قوة نماذج اللغة متعددة الأنماط للفيديو. تظهر الورقة أداءً ممتازاً من حيث الابتكار التقني وتصميم التجارب والقيمة العملية، مما يساهم بشكل كبير في تطور هذا المجال. على الرغم من وجود مجال للتحسين في حجم البيانات والتحليل النظري، فإن العمل بشكل عام ذو قيمة بحثية كبيرة جداً.