2025-11-14T23:01:10.895550

Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection

Basnet, Farabi, Ranasinghe et al.
Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.
academic

تقييم نماذج الرؤية واللغة مفتوحة المصدر لكشف السخرية متعددة الأنماط

المعلومات الأساسية

  • معرّف الورقة: 2510.11852
  • العنوان: تقييم نماذج الرؤية واللغة مفتوحة المصدر لكشف السخرية متعددة الأنماط
  • المؤلفون: سارودج باسنيت (جامعة جورج ميسون)، شفقت فارابي (جامعة فيرجينيا للتكنولوجيا)، ثارندو رانسينغ (جامعة لانكستر)، ديبتيش كانوجيا (جامعة سري)، ماركوس زامبييري (جامعة جورج ميسون)
  • التصنيف: cs.LG (التعلم الآلي)
  • تاريخ النشر: 13 أكتوبر 2025 (طبعة arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.11852v1

الملخص

تقيّم هذه الدراسة أداء سبعة نماذج رؤية-لغة متقدمة مفتوحة المصدر (VLMs) في مهمة كشف السخرية متعددة الأنماط، بما في ذلك BLIP2 و InstructBLIP و OpenFlamingo و LLaVA و PaliGemma و Gemma3 و Qwen-VL. تستخدم الدراسة استراتيجيات الإشارات بدون عينات وعينة واحدة وعينات قليلة، وتقيّم قدرة النماذج على توليد تفسيرات للسخرية. تُجرى التجارب على ثلاث مجموعات بيانات معيارية (Muse و MMSD2.0 و SarcNet). تُظهر النتائج أنه على الرغم من تحقيق النماذج الحالية نجاحاً متوسطاً في كشف السخرية الثنائي، إلا أنها لا تزال غير قادرة على توليد تفسيرات عالية الجودة دون الضبط الدقيق الخاص بالمهمة.

خلفية البحث والدافع

تعريف المشكلة

  1. المشكلة الأساسية: تقييم قدرة نماذج الرؤية واللغة مفتوحة المصدر على مهام كشف السخرية متعددة الأنماط (MSD)، بما في ذلك الكشف والتفسير
  2. التحديات: السخرية ظاهرة لغوية معقدة حيث تتعارض النية الحقيقية مع التعبير الحرفي، وفي البيئات متعددة الأنماط، غالباً ما تنشأ السخرية من عدم التطابق بين المحتوى البصري والنصي

الأهمية

  1. انتشار وسائل التواصل الاجتماعي: على المنصات الاجتماعية، غالباً ما يتم تحقيق السخرية من خلال أزواج الصور والنصوص، وفهم هذا عدم التطابق عبر الأنماط حاسم لتحليل المشاعر وفهم المحتوى
  2. التطور التكنولوجي: يوفر تطور نماذج الرؤية واللغة الكبيرة فرصاً جديدة لفهم الظواهر متعددة الأنماط المعقدة والذاتية
  3. القيمة التطبيقية: ذات أهمية كبيرة لمهام مثل إشراف محتوى وسائل التواصل الاجتماعي وتحليل المشاعر والكشف عن اللغة المسيئة

قيود الطرق الموجودة

  1. نقص البحث: على الرغم من أداء VLMs الممتازة في مهام متعددة، لم يتم استكشاف أدائها بشكل كافٍ في مهام MSD
  2. قيود الطريقة: يعتمد البحث المبكر في MSD بشكل أساسي على مستخلصات الميزات المنفصلة وتقنيات تجميع الميزات، وتفتقر إلى فهم متعدد الأنماط من طرف إلى طرف
  3. القدرة على التفسير: تركز النماذج الموجودة بشكل أساسي على دقة التصنيف، مع بحث محدود عن القدرة على توليد تفسيرات بجودة بشرية

المساهمات الأساسية

  1. إطار عمل تقييم موحد: يوفر إطار عمل موحد للتعلم السياقي يتضمن قوالب إشارات متكاملة للصور وأمثلة قليلة الطلقات وبذور التفسير، قابلة للتطبيق على سبعة VLMs مختلفة
  2. اختبار معياري منهجي: إجراء تقييم منهجي بدون عينات وعينة واحدة وعينات قليلة على ثلاث مجموعات بيانات MSD
  3. تقييم توليد التفسيرات: تقييم قدرة كل نموذج على توليد تفسيرات حرة الشكل للسخرية، ملء فجوة بحثية في هذا المجال
  4. تحليل متعمق: الكشف عن ظاهرة الانفصال بين أداء التصنيف وجودة التفسير، مما يوفر رؤى مهمة للبحث المستقبلي

شرح الطريقة

تعريف المهمة

الإدخال: أزواج الصور والنصوص (I, C)، حيث I هي الصورة و C هي نص التسمية التوضيحية الإخراج:

  1. التصنيف الثنائي: تحديد ما إذا كان الزوج يحتوي على سخرية (نعم/لا)
  2. توليد التفسير: بالنسبة لحالات السخرية، توليد وصف باللغة الطبيعية يشرح عدم التطابق البصري-النصي

وصف مجموعات البيانات

مجموعة البياناتالأمثلة الإيجابيةالأمثلة السلبيةالتفسيراتمتعددة اللغات
MuSE3,5100×
MMSD2.011,65112,980××
SarcNet1,8751,460×

معمارية النموذج

سبعة VLMs مفتوحة المصدر تم تقييمها:

  1. InstructBLIP: نموذج معدل للتعليمات بناءً على FlanT5
  2. BLIP2 2.7B: مشفر صور مجمد + Q-former + نموذج لغة كبير
  3. OpenFlamingo 3B: تكيف خفيف الوزن مفتوح المصدر من Flamingo
  4. LLaVA 7B: محاذاة رؤية-لغة من خلال الضبط الدقيق الخصومي
  5. PaliGemma 3B: نموذج خليط متعدد الأنماط
  6. Qwen-VL 7B: معمارية مشفر-فك تشفير مدركة للأسئلة
  7. Gemma3 27B: نموذج متعدد الأنماط معدل للتعليمات

استراتيجيات الإشارات

هيكل إشارات مهمة التصنيف:

*<global_instruction>*
مثال: (بدون عينات، عينة واحدة، عينات قليلة)
*<image>*
*التسمية التوضيحية:<caption> الإجابة: نعم/لا*
*<image>*
**السياق:** {caption}
هل هذا ساخر؟

هيكل إشارات توليد التفسير:

*<السياق>:*
*<image>*
**التسمية التوضيحية الأصلية**: {caption}
**التفسير المقدم**: {explanation}
**تعليمات المهمة**

نقاط الابتكار التقني

  1. إطار عمل إشارات موحد: تصميم قوالب إشارات موحدة قابلة للتطبيق على معماريات VLM المختلفة
  2. تقييم متعدد الحبيبات: دمج دقة التصنيف وجودة التفسير في تقييم مزدوج
  3. تقييم محاذاة عبر الأنماط: إدخال Δ-CLIPScore لقياس درجة تحسن محاذاة الصور والنصوص

إعداد التجارب

معالجة البيانات

  • أخذ عينات عشوائية من 3,000 زوج صورة-تسمية توضيحية من MMSD2.0 و SarcNet لكل منهما للتقييم
  • استخدام مجموعة بيانات MuSE لتوفير أمثلة تفسيرية ومعايير التقييم
  • أخذ عينات قليلة الطلقات من MuSE (أمثلة إيجابية) و MMSD2.0 (أمثلة سلبية)

مقاييس التقييم

  1. دقة التصنيف: دقة التصنيف الثنائي
  2. Δ-CLIPScore: قياس تحسن محاذاة الصور والنصوص للتفسير بالنسبة للتسمية التوضيحية الأصلية
    ΔCLIP = CLIP(IMG, G_exp) - CLIP(IMG, B_exp)
    
    حيث G_exp هو التفسير المُولّد و B_exp هو التفسير الأساسي

تفاصيل التنفيذ

  • تحميل جميع النماذج بدقة 8 بت مع تفعيل تحسينات FlashAttention
  • حجم الدفعة 1، أقصى عدد رموز توليد 100-256
  • استخدام البحث الشعاعي (حجم الشعاع=3)
  • معامل درجة الحرارة 0.7

نتائج التجارب

أداء التصنيف

مجموعة البياناتأفضل نموذجالإعدادالدقة
SarcNetGemma3عينة واحدة0.67
SarcNetInstructBLIPبدون عينات0.67
MMSD2.0Gemma3عينة واحدة0.73
MMSD2.0InstructBLIPبدون عينات0.64

النتائج الرئيسية

  1. مزايا النماذج المعدلة للتعليمات: يُظهر Gemma3 و InstructBLIP أفضل أداء في إعدادات بدون عينات وعينة واحدة
  2. تأثير محدود للعينات القليلة: لم يؤدِ زيادة عدد الأمثلة إلى تحسن الأداء، وأحياناً أدخلت ضوضاء
  3. اختلافات مجموعات البيانات: أداء النماذج على MMSD2.0 أفضل بشكل عام من SarcNet

نتائج توليد التفسيرات

النموذجمتوسط Δ-CLIPScoreالتباين
LLaVA1.96627.315
BLIP20.83125.532
PaliGemma0.75716.234
InstructBLIP0.58327.749
Gemma3-2.06346.481
OpenFlamingo-1.75011.526
Qwen-7.14325.515

النتائج المهمة

  1. انفصال الأداء: النموذج ذو أفضل أداء تصنيف (Gemma3) يُظهر أسوأ أداء في توليد التفسيرات
  2. تأثير المعمارية: المعماريات على غرار VQA (BLIP2 و LLaVA) أكثر ملاءمة لتوليد تفسيرات عالية الجودة
  3. اختلافات أهداف التدريب: النماذج المدربة بشكل تمييزي تتفوق في التصنيف، والنماذج المدربة بشكل توليدي أكثر ملاءمة للتفسيرات

الأعمال ذات الصلة

أبحاث كشف السخرية

  1. كشف السخرية النصية: يركز البحث التقليدي بشكل أساسي على التعرف على السخرية في البيئات النصية البحتة
  2. كشف السخرية متعددة الأنماط: أثبت Schifanella وآخرون لأول مرة أن الأنماط البصرية تحتوي على أدلة تساعد في تحديد نية السخرية
  3. طرق تجميع الميزات: استخدمت الأعمال المبكرة مشفرات منفصلة لاستخراج الميزات، ثم صممت تقنيات التجميع

نماذج الرؤية واللغة

  1. النماذج المدربة مسبقاً: أظهرت نماذج مثل Flamingo و VILA قدرات التعلم بدون عينات وعينات قليلة
  2. الفهم متعدد الأنماط: بدأت النماذج الحديثة في التركيز على النمذجة المبكرة للتفاعلات عبر الأنماط
  3. الضبط الدقيق للتعليمات: حسّنت نماذج مثل InstructBLIP الأداء متعددة المهام من خلال الضبط الدقيق للتعليمات

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

  1. النجاح المتوسط: حققت VLMs مفتوحة المصدر نجاحاً متوسطاً في كشف السخرية الثنائي، لكن لا تزال هناك مجالات للتحسين
  2. تحديات التفسير: تواجه النماذج الموجودة صعوبات كبيرة في توليد تفسيرات عالية الجودة
  3. أهمية المعمارية: تؤثر معمارية النموذج وأهداف التدريب بشكل كبير على أداء المهام المحددة

القيود

  1. حجم العينة: حجم العينات المقيّمة نسبياً محدود (3,000 عينة لكل مجموعة بيانات)
  2. التغطية اللغوية: يركز بشكل أساسي على اللغة الإنجليزية، مع تقييم محدود متعدد اللغات
  3. تقييم التفسيرات: يعتمد تقييم جودة التفسيرات بشكل أساسي على المقاييس الآلية، مع نقص التقييم البشري

الاتجاهات المستقبلية

  1. أهداف التدريب المختلطة: تطوير طرق التعلم متعدد المهام التي تحسّن التصنيف وتوليد التفسيرات في نفس الوقت
  2. إشارات سلسلة الفكر: استكشاف CoT والإشارات متعددة المراحل لتحفيز المزيد من التفكير الغني للنموذج
  3. التعزيز بالمعرفة: دمج تقنيات RAG أو المعرفة الخارجية لتعزيز فهم السياق للنموذج
  4. التوسع متعدد اللغات: التوسع إلى المزيد من اللغات والخلفيات الثقافية لكشف السخرية

التقييم المتعمق

المزايا

  1. التقييم المنهجي: أول تقييم منهجي لعدة VLMs مفتوحة المصدر على مهام MSD
  2. المهام المزدوجة: تقييم القدرات على التصنيف والتفسير معاً، مما يوفر منظوراً شاملاً
  3. القيمة العملية: توفير مرجع مهم لاختيار VLM مناسب للباحثين
  4. الانفتاح: الالتزام بفتح المصدر للأكواد والبيانات، مما يعزز البحث القابل للتكرار

أوجه القصور

  1. نقص التحليل العميق: تحليل نوعي محدود لحالات فشل النموذج
  2. قيود مقاييس التقييم: يعتمد تقييم جودة التفسيرات بشكل أساسي على محاذاة CLIP، قد لا يكون شاملاً بما يكفي
  3. تحديثات النموذج: بعض إصدارات النموذج نسبياً قديمة، قد لا تمثل أحدث مستويات التكنولوجيا

التأثير

  1. دور المعيار: توفير تقييم معياري مهم لمجال MSD
  2. الإلهام المنهجي: يمكن تعميم إطار العمل الموحد للتقييم على مهام متعددة الأنماط أخرى
  3. التوجيه العملي: توفير مرجع لاختيار النموذج المناسب في التطبيقات العملية

السيناريوهات القابلة للتطبيق

  1. تحليل وسائل التواصل الاجتماعي: قابل للتطبيق على فهم محتوى المنصات مثل Twitter و Facebook
  2. تحليل المشاعر: يمكن أن يكون بمثابة مكون في أنظمة تحليل المشاعر الأوسع
  3. إشراف المحتوى: يساعد في تحديد المحتوى الساخر والمسيء المحتمل

المراجع

تستشهد الورقة بـ 46 مرجعاً ذا صلة، تغطي أعمالاً مهمة في مجالات متعددة بما في ذلك كشف السخرية والتعلم متعدد الأنماط ونماذج الرؤية واللغة، مما يوفر أساساً نظرياً قوياً للبحث.


التقييم الإجمالي: هذه ورقة بحثية تجريبية عالية الجودة تملأ فجوة في تقييم VLMs مفتوحة المصدر على مهام كشف السخرية متعددة الأنماط. يتميز التصميم البحثي بالمنطقية والتجارب الشاملة والاستنتاجات ذات القيمة العملية. على الرغم من وجود مجال للتحسين في التحليل العميق ومقاييس التقييم، إلا أن البحث قدم مساهمة مهمة لتطور هذا المجال.