2025-11-14T23:01:10.895550

Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection

Basnet, Farabi, Ranasinghe et al.

Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.

academic

تقييم نماذج الرؤية واللغة مفتوحة المصدر لكشف السخرية متعددة الأنماط

المعلومات الأساسية

معرّف الورقة: 2510.11852
العنوان: تقييم نماذج الرؤية واللغة مفتوحة المصدر لكشف السخرية متعددة الأنماط
المؤلفون: سارودج باسنيت (جامعة جورج ميسون)، شفقت فارابي (جامعة فيرجينيا للتكنولوجيا)، ثارندو رانسينغ (جامعة لانكستر)، ديبتيش كانوجيا (جامعة سري)، ماركوس زامبييري (جامعة جورج ميسون)
التصنيف: cs.LG (التعلم الآلي)
تاريخ النشر: 13 أكتوبر 2025 (طبعة arXiv)
رابط الورقة: https://arxiv.org/abs/2510.11852v1

الملخص

تقيّم هذه الدراسة أداء سبعة نماذج رؤية-لغة متقدمة مفتوحة المصدر (VLMs) في مهمة كشف السخرية متعددة الأنماط، بما في ذلك BLIP2 و InstructBLIP و OpenFlamingo و LLaVA و PaliGemma و Gemma3 و Qwen-VL. تستخدم الدراسة استراتيجيات الإشارات بدون عينات وعينة واحدة وعينات قليلة، وتقيّم قدرة النماذج على توليد تفسيرات للسخرية. تُجرى التجارب على ثلاث مجموعات بيانات معيارية (Muse و MMSD2.0 و SarcNet). تُظهر النتائج أنه على الرغم من تحقيق النماذج الحالية نجاحاً متوسطاً في كشف السخرية الثنائي، إلا أنها لا تزال غير قادرة على توليد تفسيرات عالية الجودة دون الضبط الدقيق الخاص بالمهمة.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية: تقييم قدرة نماذج الرؤية واللغة مفتوحة المصدر على مهام كشف السخرية متعددة الأنماط (MSD)، بما في ذلك الكشف والتفسير
التحديات: السخرية ظاهرة لغوية معقدة حيث تتعارض النية الحقيقية مع التعبير الحرفي، وفي البيئات متعددة الأنماط، غالباً ما تنشأ السخرية من عدم التطابق بين المحتوى البصري والنصي

الأهمية

انتشار وسائل التواصل الاجتماعي: على المنصات الاجتماعية، غالباً ما يتم تحقيق السخرية من خلال أزواج الصور والنصوص، وفهم هذا عدم التطابق عبر الأنماط حاسم لتحليل المشاعر وفهم المحتوى
التطور التكنولوجي: يوفر تطور نماذج الرؤية واللغة الكبيرة فرصاً جديدة لفهم الظواهر متعددة الأنماط المعقدة والذاتية
القيمة التطبيقية: ذات أهمية كبيرة لمهام مثل إشراف محتوى وسائل التواصل الاجتماعي وتحليل المشاعر والكشف عن اللغة المسيئة

قيود الطرق الموجودة

نقص البحث: على الرغم من أداء VLMs الممتازة في مهام متعددة، لم يتم استكشاف أدائها بشكل كافٍ في مهام MSD
قيود الطريقة: يعتمد البحث المبكر في MSD بشكل أساسي على مستخلصات الميزات المنفصلة وتقنيات تجميع الميزات، وتفتقر إلى فهم متعدد الأنماط من طرف إلى طرف
القدرة على التفسير: تركز النماذج الموجودة بشكل أساسي على دقة التصنيف، مع بحث محدود عن القدرة على توليد تفسيرات بجودة بشرية

المساهمات الأساسية

إطار عمل تقييم موحد: يوفر إطار عمل موحد للتعلم السياقي يتضمن قوالب إشارات متكاملة للصور وأمثلة قليلة الطلقات وبذور التفسير، قابلة للتطبيق على سبعة VLMs مختلفة
اختبار معياري منهجي: إجراء تقييم منهجي بدون عينات وعينة واحدة وعينات قليلة على ثلاث مجموعات بيانات MSD
تقييم توليد التفسيرات: تقييم قدرة كل نموذج على توليد تفسيرات حرة الشكل للسخرية، ملء فجوة بحثية في هذا المجال
تحليل متعمق: الكشف عن ظاهرة الانفصال بين أداء التصنيف وجودة التفسير، مما يوفر رؤى مهمة للبحث المستقبلي

شرح الطريقة

تعريف المهمة

الإدخال: أزواج الصور والنصوص (I, C)، حيث I هي الصورة و C هي نص التسمية التوضيحية الإخراج:

التصنيف الثنائي: تحديد ما إذا كان الزوج يحتوي على سخرية (نعم/لا)
توليد التفسير: بالنسبة لحالات السخرية، توليد وصف باللغة الطبيعية يشرح عدم التطابق البصري-النصي

وصف مجموعات البيانات

مجموعة البيانات	الأمثلة الإيجابية	الأمثلة السلبية	التفسيرات	متعددة اللغات
MuSE	3,510	0	✓	×
MMSD2.0	11,651	12,980	×	×
SarcNet	1,875	1,460	×	✓

معمارية النموذج

سبعة VLMs مفتوحة المصدر تم تقييمها:

InstructBLIP: نموذج معدل للتعليمات بناءً على FlanT5
BLIP2 2.7B: مشفر صور مجمد + Q-former + نموذج لغة كبير
OpenFlamingo 3B: تكيف خفيف الوزن مفتوح المصدر من Flamingo
LLaVA 7B: محاذاة رؤية-لغة من خلال الضبط الدقيق الخصومي
PaliGemma 3B: نموذج خليط متعدد الأنماط
Qwen-VL 7B: معمارية مشفر-فك تشفير مدركة للأسئلة
Gemma3 27B: نموذج متعدد الأنماط معدل للتعليمات

استراتيجيات الإشارات

هيكل إشارات مهمة التصنيف:

*<global_instruction>*
مثال: (بدون عينات، عينة واحدة، عينات قليلة)
*<image>*
*التسمية التوضيحية:<caption> الإجابة: نعم/لا*
*<image>*
**السياق:** {caption}
هل هذا ساخر؟

هيكل إشارات توليد التفسير:

*<السياق>:*
*<image>*
**التسمية التوضيحية الأصلية**: {caption}
**التفسير المقدم**: {explanation}
**تعليمات المهمة**

نقاط الابتكار التقني

إطار عمل إشارات موحد: تصميم قوالب إشارات موحدة قابلة للتطبيق على معماريات VLM المختلفة
تقييم متعدد الحبيبات: دمج دقة التصنيف وجودة التفسير في تقييم مزدوج
تقييم محاذاة عبر الأنماط: إدخال Δ-CLIPScore لقياس درجة تحسن محاذاة الصور والنصوص

إعداد التجارب

معالجة البيانات

أخذ عينات عشوائية من 3,000 زوج صورة-تسمية توضيحية من MMSD2.0 و SarcNet لكل منهما للتقييم
استخدام مجموعة بيانات MuSE لتوفير أمثلة تفسيرية ومعايير التقييم
أخذ عينات قليلة الطلقات من MuSE (أمثلة إيجابية) و MMSD2.0 (أمثلة سلبية)

مقاييس التقييم

دقة التصنيف: دقة التصنيف الثنائي
Δ-CLIPScore: قياس تحسن محاذاة الصور والنصوص للتفسير بالنسبة للتسمية التوضيحية الأصلية
```
ΔCLIP = CLIP(IMG, G_exp) - CLIP(IMG, B_exp)
```
حيث G_exp هو التفسير المُولّد و B_exp هو التفسير الأساسي

تفاصيل التنفيذ

تحميل جميع النماذج بدقة 8 بت مع تفعيل تحسينات FlashAttention
حجم الدفعة 1، أقصى عدد رموز توليد 100-256
استخدام البحث الشعاعي (حجم الشعاع=3)
معامل درجة الحرارة 0.7

نتائج التجارب

أداء التصنيف

مجموعة البيانات	أفضل نموذج	الإعداد	الدقة
SarcNet	Gemma3	عينة واحدة	0.67
SarcNet	InstructBLIP	بدون عينات	0.67
MMSD2.0	Gemma3	عينة واحدة	0.73
MMSD2.0	InstructBLIP	بدون عينات	0.64

النتائج الرئيسية

مزايا النماذج المعدلة للتعليمات: يُظهر Gemma3 و InstructBLIP أفضل أداء في إعدادات بدون عينات وعينة واحدة
تأثير محدود للعينات القليلة: لم يؤدِ زيادة عدد الأمثلة إلى تحسن الأداء، وأحياناً أدخلت ضوضاء
اختلافات مجموعات البيانات: أداء النماذج على MMSD2.0 أفضل بشكل عام من SarcNet

نتائج توليد التفسيرات

النموذج	متوسط Δ-CLIPScore	التباين
LLaVA	1.966	27.315
BLIP2	0.831	25.532
PaliGemma	0.757	16.234
InstructBLIP	0.583	27.749
Gemma3	-2.063	46.481
OpenFlamingo	-1.750	11.526
Qwen	-7.143	25.515

النتائج المهمة

انفصال الأداء: النموذج ذو أفضل أداء تصنيف (Gemma3) يُظهر أسوأ أداء في توليد التفسيرات
تأثير المعمارية: المعماريات على غرار VQA (BLIP2 و LLaVA) أكثر ملاءمة لتوليد تفسيرات عالية الجودة
اختلافات أهداف التدريب: النماذج المدربة بشكل تمييزي تتفوق في التصنيف، والنماذج المدربة بشكل توليدي أكثر ملاءمة للتفسيرات

الأعمال ذات الصلة

أبحاث كشف السخرية

كشف السخرية النصية: يركز البحث التقليدي بشكل أساسي على التعرف على السخرية في البيئات النصية البحتة
كشف السخرية متعددة الأنماط: أثبت Schifanella وآخرون لأول مرة أن الأنماط البصرية تحتوي على أدلة تساعد في تحديد نية السخرية
طرق تجميع الميزات: استخدمت الأعمال المبكرة مشفرات منفصلة لاستخراج الميزات، ثم صممت تقنيات التجميع

نماذج الرؤية واللغة

النماذج المدربة مسبقاً: أظهرت نماذج مثل Flamingo و VILA قدرات التعلم بدون عينات وعينات قليلة
الفهم متعدد الأنماط: بدأت النماذج الحديثة في التركيز على النمذجة المبكرة للتفاعلات عبر الأنماط
الضبط الدقيق للتعليمات: حسّنت نماذج مثل InstructBLIP الأداء متعددة المهام من خلال الضبط الدقيق للتعليمات

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

النجاح المتوسط: حققت VLMs مفتوحة المصدر نجاحاً متوسطاً في كشف السخرية الثنائي، لكن لا تزال هناك مجالات للتحسين
تحديات التفسير: تواجه النماذج الموجودة صعوبات كبيرة في توليد تفسيرات عالية الجودة
أهمية المعمارية: تؤثر معمارية النموذج وأهداف التدريب بشكل كبير على أداء المهام المحددة

القيود

حجم العينة: حجم العينات المقيّمة نسبياً محدود (3,000 عينة لكل مجموعة بيانات)
التغطية اللغوية: يركز بشكل أساسي على اللغة الإنجليزية، مع تقييم محدود متعدد اللغات
تقييم التفسيرات: يعتمد تقييم جودة التفسيرات بشكل أساسي على المقاييس الآلية، مع نقص التقييم البشري

الاتجاهات المستقبلية

أهداف التدريب المختلطة: تطوير طرق التعلم متعدد المهام التي تحسّن التصنيف وتوليد التفسيرات في نفس الوقت
إشارات سلسلة الفكر: استكشاف CoT والإشارات متعددة المراحل لتحفيز المزيد من التفكير الغني للنموذج
التعزيز بالمعرفة: دمج تقنيات RAG أو المعرفة الخارجية لتعزيز فهم السياق للنموذج
التوسع متعدد اللغات: التوسع إلى المزيد من اللغات والخلفيات الثقافية لكشف السخرية

التقييم المتعمق

المزايا

التقييم المنهجي: أول تقييم منهجي لعدة VLMs مفتوحة المصدر على مهام MSD
المهام المزدوجة: تقييم القدرات على التصنيف والتفسير معاً، مما يوفر منظوراً شاملاً
القيمة العملية: توفير مرجع مهم لاختيار VLM مناسب للباحثين
الانفتاح: الالتزام بفتح المصدر للأكواد والبيانات، مما يعزز البحث القابل للتكرار

أوجه القصور

نقص التحليل العميق: تحليل نوعي محدود لحالات فشل النموذج
قيود مقاييس التقييم: يعتمد تقييم جودة التفسيرات بشكل أساسي على محاذاة CLIP، قد لا يكون شاملاً بما يكفي
تحديثات النموذج: بعض إصدارات النموذج نسبياً قديمة، قد لا تمثل أحدث مستويات التكنولوجيا

التأثير

دور المعيار: توفير تقييم معياري مهم لمجال MSD
الإلهام المنهجي: يمكن تعميم إطار العمل الموحد للتقييم على مهام متعددة الأنماط أخرى
التوجيه العملي: توفير مرجع لاختيار النموذج المناسب في التطبيقات العملية

السيناريوهات القابلة للتطبيق

تحليل وسائل التواصل الاجتماعي: قابل للتطبيق على فهم محتوى المنصات مثل Twitter و Facebook
تحليل المشاعر: يمكن أن يكون بمثابة مكون في أنظمة تحليل المشاعر الأوسع
إشراف المحتوى: يساعد في تحديد المحتوى الساخر والمسيء المحتمل

المراجع

تستشهد الورقة بـ 46 مرجعاً ذا صلة، تغطي أعمالاً مهمة في مجالات متعددة بما في ذلك كشف السخرية والتعلم متعدد الأنماط ونماذج الرؤية واللغة، مما يوفر أساساً نظرياً قوياً للبحث.

التقييم الإجمالي: هذه ورقة بحثية تجريبية عالية الجودة تملأ فجوة في تقييم VLMs مفتوحة المصدر على مهام كشف السخرية متعددة الأنماط. يتميز التصميم البحثي بالمنطقية والتجارب الشاملة والاستنتاجات ذات القيمة العملية. على الرغم من وجود مجال للتحسين في التحليل العميق ومقاييس التقييم، إلا أن البحث قدم مساهمة مهمة لتطور هذا المجال.