Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection
Basnet, Farabi, Ranasinghe et al.
Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.
academic
تقييم نماذج الرؤية واللغة مفتوحة المصدر لكشف السخرية متعددة الأنماط
تقيّم هذه الدراسة أداء سبعة نماذج رؤية-لغة متقدمة مفتوحة المصدر (VLMs) في مهمة كشف السخرية متعددة الأنماط، بما في ذلك BLIP2 و InstructBLIP و OpenFlamingo و LLaVA و PaliGemma و Gemma3 و Qwen-VL. تستخدم الدراسة استراتيجيات الإشارات بدون عينات وعينة واحدة وعينات قليلة، وتقيّم قدرة النماذج على توليد تفسيرات للسخرية. تُجرى التجارب على ثلاث مجموعات بيانات معيارية (Muse و MMSD2.0 و SarcNet). تُظهر النتائج أنه على الرغم من تحقيق النماذج الحالية نجاحاً متوسطاً في كشف السخرية الثنائي، إلا أنها لا تزال غير قادرة على توليد تفسيرات عالية الجودة دون الضبط الدقيق الخاص بالمهمة.
المشكلة الأساسية: تقييم قدرة نماذج الرؤية واللغة مفتوحة المصدر على مهام كشف السخرية متعددة الأنماط (MSD)، بما في ذلك الكشف والتفسير
التحديات: السخرية ظاهرة لغوية معقدة حيث تتعارض النية الحقيقية مع التعبير الحرفي، وفي البيئات متعددة الأنماط، غالباً ما تنشأ السخرية من عدم التطابق بين المحتوى البصري والنصي
انتشار وسائل التواصل الاجتماعي: على المنصات الاجتماعية، غالباً ما يتم تحقيق السخرية من خلال أزواج الصور والنصوص، وفهم هذا عدم التطابق عبر الأنماط حاسم لتحليل المشاعر وفهم المحتوى
التطور التكنولوجي: يوفر تطور نماذج الرؤية واللغة الكبيرة فرصاً جديدة لفهم الظواهر متعددة الأنماط المعقدة والذاتية
القيمة التطبيقية: ذات أهمية كبيرة لمهام مثل إشراف محتوى وسائل التواصل الاجتماعي وتحليل المشاعر والكشف عن اللغة المسيئة
إطار عمل تقييم موحد: يوفر إطار عمل موحد للتعلم السياقي يتضمن قوالب إشارات متكاملة للصور وأمثلة قليلة الطلقات وبذور التفسير، قابلة للتطبيق على سبعة VLMs مختلفة
اختبار معياري منهجي: إجراء تقييم منهجي بدون عينات وعينة واحدة وعينات قليلة على ثلاث مجموعات بيانات MSD
تقييم توليد التفسيرات: تقييم قدرة كل نموذج على توليد تفسيرات حرة الشكل للسخرية، ملء فجوة بحثية في هذا المجال
تحليل متعمق: الكشف عن ظاهرة الانفصال بين أداء التصنيف وجودة التفسير، مما يوفر رؤى مهمة للبحث المستقبلي
تستشهد الورقة بـ 46 مرجعاً ذا صلة، تغطي أعمالاً مهمة في مجالات متعددة بما في ذلك كشف السخرية والتعلم متعدد الأنماط ونماذج الرؤية واللغة، مما يوفر أساساً نظرياً قوياً للبحث.
التقييم الإجمالي: هذه ورقة بحثية تجريبية عالية الجودة تملأ فجوة في تقييم VLMs مفتوحة المصدر على مهام كشف السخرية متعددة الأنماط. يتميز التصميم البحثي بالمنطقية والتجارب الشاملة والاستنتاجات ذات القيمة العملية. على الرغم من وجود مجال للتحسين في التحليل العميق ومقاييس التقييم، إلا أن البحث قدم مساهمة مهمة لتطور هذا المجال.