2025-11-14T23:01:10.895550

Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection

Basnet, Farabi, Ranasinghe et al.
Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.
academic

बहुविध व्यंग्य पहचान के लिए ओपन-सोर्स विजन-लैंग्वेज मॉडल का मूल्यांकन

मूल जानकारी

  • पेपर ID: 2510.11852
  • शीर्षक: Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection
  • लेखक: Saroj Basnet (George Mason University), Shafkat Farabi (Virginia Tech), Tharindu Ranasinghe (Lancaster University), Diptesh Kanojia (University of Surrey), Marcos Zampieri (George Mason University)
  • वर्गीकरण: cs.LG (मशीन लर्निंग)
  • प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv preprint)
  • पेपर लिंक: https://arxiv.org/abs/2510.11852v1

सारांश

यह अनुसंधान सात अत्याधुनिक ओपन-सोर्स विजन-लैंग्वेज मॉडल (VLMs) के बहुविध व्यंग्य पहचान कार्य पर प्रदर्शन का मूल्यांकन करता है, जिसमें BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3 और Qwen-VL शामिल हैं। अनुसंधान शून्य-शॉट, एक-शॉट और कम-शॉट प्रॉम्पटिंग रणनीतियों का उपयोग करता है, और मॉडल द्वारा व्यंग्य व्याख्या उत्पन्न करने की क्षमता का मूल्यांकन करता है। प्रयोग तीन बेंचमार्क डेटासेट (Muse, MMSD2.0 और SarcNet) पर किए गए हैं। परिणाम दर्शाते हैं कि हालांकि वर्तमान मॉडल द्विआधारी व्यंग्य पहचान में मध्यम सफलता प्राप्त करते हैं, लेकिन कार्य-विशिष्ट सूक्ष्म-समायोजन के बिना उच्च गुणवत्ता की व्याख्या उत्पन्न करने में असमर्थ हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. मूल समस्या: बहुविध व्यंग्य पहचान (MSD) कार्य पर ओपन-सोर्स विजन-लैंग्वेज मॉडल की क्षमता का मूल्यांकन, जिसमें व्यंग्य सामग्री का पहचान और व्याख्या शामिल है
  2. चुनौतीपूर्ण: व्यंग्य एक जटिल भाषाई घटना है जिसका आशय अर्थ शाब्दिक अभिव्यक्ति के विपरीत है, बहुविध वातावरण में, व्यंग्य प्रभाव अक्सर दृश्य और पाठ सामग्री के बीच असंगति से आता है

महत्व

  1. सोशल मीडिया प्रसार: सोशल प्लेटफॉर्म पर, व्यंग्य अक्सर चित्र-पाठ युग्मों के माध्यम से प्राप्त होता है, इस क्रॉस-मोडल असंगति को समझना भावनात्मक विश्लेषण और सामग्री समझ के लिए महत्वपूर्ण है
  2. तकनीकी विकास: बड़े विजन-लैंग्वेज मॉडल के विकास ने जटिल व्यक्तिपरक बहुविध घटनाओं को समझने के लिए नई संभावनाएं प्रदान की हैं
  3. अनुप्रयोग मूल्य: सोशल मीडिया सामग्री संयम, भावनात्मक विश्लेषण, आक्रामक भाषा पहचान आदि कार्यों के लिए महत्वपूर्ण है

मौजूदा विधियों की सीमाएं

  1. अपर्याप्त अनुसंधान: हालांकि VLMs विभिन्न कार्यों पर उत्कृष्ट प्रदर्शन करते हैं, लेकिन MSD कार्य पर उनके प्रदर्शन का पर्याप्त अन्वेषण नहीं किया गया है
  2. विधि सीमाएं: प्रारंभिक MSD अनुसंधान मुख्य रूप से अलग-अलग विशेषता निष्कर्षकों और विशेषता एकत्रीकरण तकनीकों पर निर्भर करते हैं, अंत-से-अंत बहुविध समझ की कमी है
  3. व्याख्या क्षमता: मौजूदा मॉडल मुख्य रूप से वर्गीकरण सटीकता पर ध्यान केंद्रित करते हैं, मानव गुणवत्ता की व्याख्या उत्पन्न करने की क्षमता का अनुसंधान अपर्याप्त है

मूल योगदान

  1. एकीकृत मूल्यांकन ढांचा: एक एकीकृत संदर्भ सीखने का ढांचा प्रदान करता है, जिसमें एकीकृत छवि, कम-शॉट उदाहरण और व्याख्या बीज शामिल हैं, जो सात विभिन्न VLMs के लिए उपयुक्त है
  2. व्यवस्थित बेंचमार्किंग: तीन MSD बेंचमार्क डेटासेट पर व्यवस्थित शून्य-शॉट, एक-शॉट और कम-शॉट मूल्यांकन
  3. व्याख्या पीढ़ी मूल्यांकन: प्रत्येक मॉडल द्वारा मुक्त-रूप व्यंग्य व्याख्या उत्पन्न करने की क्षमता का मूल्यांकन, इस क्षेत्र में अनुसंधान अंतराल को भरता है
  4. गहन विश्लेषण: वर्गीकरण प्रदर्शन और व्याख्या गुणवत्ता के बीच अलगाव घटना को प्रकट करता है, भविष्य के अनुसंधान के लिए महत्वपूर्ण अंतर्दृष्टि प्रदान करता है

विधि विवरण

कार्य परिभाषा

इनपुट: छवि-पाठ युग्म (I, C), जहां I छवि है, C कैप्शन पाठ है आउटपुट:

  1. द्विआधारी वर्गीकरण: यह निर्धारित करें कि क्या युग्म में व्यंग्य है (हां/नहीं)
  2. व्याख्या पीढ़ी: व्यंग्य उदाहरणों के लिए, दृश्य-पाठ असंगति की व्याख्या करने वाली प्राकृतिक भाषा विवरण उत्पन्न करें

डेटासेट विवरण

डेटासेटसकारात्मकनकारात्मकव्याख्याबहुभाषी
MuSE3,5100×
MMSD2.011,65112,980××
SarcNet1,8751,460×

मॉडल आर्किटेक्चर

मूल्यांकन किए गए सात ओपन-सोर्स VLMs:

  1. InstructBLIP: FlanT5 पर आधारित निर्देश-ट्यून किया गया मॉडल
  2. BLIP2 2.7B: जमी हुई छवि एनकोडर + Q-former + बड़ा भाषा मॉडल
  3. OpenFlamingo 3B: Flamingo का हल्का-फुल्का ओपन-सोर्स अनुकूलन
  4. LLaVA 7B: प्रतिकूल सूक्ष्म-समायोजन के माध्यम से दृश्य-भाषा संरेखण
  5. PaliGemma 3B: बहुविध विशेषज्ञ मिश्रण मॉडल
  6. Qwen-VL 7B: Q-जागरूक एनकोडर-डिकोडर आर्किटेक्चर
  7. Gemma3 27B: निर्देश-ट्यून किया गया बहुविध मॉडल

प्रॉम्पटिंग रणनीति

वर्गीकरण कार्य प्रॉम्पट संरचना:

*<global_instruction>*
उदाहरण: (शून्य-, एक-, कम-शॉट)
*<image>*
*कैप्शन:<caption> उत्तर: हां/नहीं*
*<image>*
**संदर्भ:** {caption}
क्या यह व्यंग्यात्मक है?

व्याख्या पीढ़ी प्रॉम्पट संरचना:

*<संदर्भ>:*
*<image>*
**मूल कैप्शन**: {caption}
**प्रदान की गई व्याख्या**: {explanation}
**कार्य निर्देश**

तकनीकी नवाचार बिंदु

  1. एकीकृत प्रॉम्पटिंग ढांचा: विभिन्न VLM आर्किटेक्चर के लिए उपयुक्त एकीकृत प्रॉम्पट टेम्पलेट डिजाइन किया गया
  2. बहु-दानेदार मूल्यांकन: वर्गीकरण सटीकता और व्याख्या गुणवत्ता का दोहरा मूल्यांकन
  3. क्रॉस-मोडल संरेखण मूल्यांकन: Δ-CLIPScore पेश किया गया जो छवि-पाठ संरेखण सुधार को परिमाणित करता है

प्रयोगात्मक सेटअप

डेटा प्रसंस्करण

  • MMSD2.0 और SarcNet से प्रत्येक से 3,000 छवि-कैप्शन युग्मों का यादृच्छिक नमूना मूल्यांकन के लिए
  • व्याख्या उदाहरण और मूल्यांकन बेंचमार्क प्रदान करने के लिए MuSE डेटासेट का उपयोग
  • कम-शॉट उदाहरण MuSE (सकारात्मक) और MMSD2.0 (नकारात्मक) से नमूना किए गए

मूल्यांकन मेट्रिक्स

  1. वर्गीकरण सटीकता: द्विआधारी वर्गीकरण की सटीकता
  2. Δ-CLIPScore: मूल कैप्शन के सापेक्ष व्याख्या द्वारा छवि-पाठ संरेखण सुधार को परिमाणित करता है
    ΔCLIP = CLIP(IMG, G_exp) - CLIP(IMG, B_exp)
    
    जहां G_exp उत्पन्न व्याख्या है, B_exp आधार व्याख्या है

कार्यान्वयन विवरण

  • सभी मॉडल 8-बिट सटीकता के साथ लोड किए गए, FlashAttention अनुकूलन सक्षम
  • बैच आकार 1, अधिकतम पीढ़ी टोकन 100-256
  • बीम सर्च का उपयोग (बीम आकार=3)
  • तापमान पैरामीटर 0.7 पर सेट

प्रयोगात्मक परिणाम

वर्गीकरण प्रदर्शन

डेटासेटसर्वश्रेष्ठ मॉडलसेटिंगसटीकता
SarcNetGemma3एक-शॉट0.67
SarcNetInstructBLIPशून्य-शॉट0.67
MMSD2.0Gemma3एक-शॉट0.73
MMSD2.0InstructBLIPशून्य-शॉट0.64

मुख्य निष्कर्ष

  1. निर्देश-ट्यून किए गए मॉडल का लाभ: Gemma3 और InstructBLIP शून्य-शॉट और एक-शॉट सेटिंग में सर्वश्रेष्ठ प्रदर्शन करते हैं
  2. कम-शॉट प्रभाव सीमित: उदाहरणों की संख्या बढ़ाने से प्रदर्शन में सुधार नहीं हुआ, कभी-कभी शोर भी पेश किया
  3. डेटासेट अंतर: मॉडल SarcNet की तुलना में MMSD2.0 पर बेहतर प्रदर्शन करते हैं

व्याख्या पीढ़ी परिणाम

मॉडलΔ-CLIPScore माध्यविचरण
LLaVA1.96627.315
BLIP20.83125.532
PaliGemma0.75716.234
InstructBLIP0.58327.749
Gemma3-2.06346.481
OpenFlamingo-1.75011.526
Qwen-7.14325.515

महत्वपूर्ण निष्कर्ष

  1. प्रदर्शन अलगाव: वर्गीकरण प्रदर्शन में सर्वश्रेष्ठ मॉडल (Gemma3) व्याख्या पीढ़ी में सबसे खराब प्रदर्शन करता है
  2. आर्किटेक्चर प्रभाव: VQA शैली के आर्किटेक्चर (BLIP2, LLaVA) उच्च गुणवत्ता की व्याख्या उत्पन्न करने के लिए अधिक उपयुक्त हैं
  3. प्रशिक्षण उद्देश्य अंतर: विभेदक प्रशिक्षण वाले मॉडल वर्गीकरण में माहिर हैं, जनरेटिव प्रशिक्षण वाले मॉडल व्याख्या के लिए अधिक उपयुक्त हैं

संबंधित कार्य

व्यंग्य पहचान अनुसंधान

  1. पाठ व्यंग्य पहचान: पारंपरिक अनुसंधान मुख्य रूप से शुद्ध पाठ वातावरण में व्यंग्य पहचान पर केंद्रित है
  2. बहुविध व्यंग्य पहचान: Schifanella आदि ने पहली बार साबित किया कि दृश्य मोडल व्यंग्य इरादे की पहचान में सहायता करने वाले सुराग रखता है
  3. विशेषता एकत्रीकरण विधि: प्रारंभिक कार्य विशेषता निष्कर्षण के लिए अलग-अलग एनकोडर का उपयोग करते हैं, फिर एकत्रीकरण तकनीकें डिजाइन करते हैं

विजन-लैंग्वेज मॉडल

  1. पूर्व-प्रशिक्षित मॉडल: Flamingo, VILA आदि मॉडल शून्य-शॉट और कम-शॉट सीखने की क्षमता प्रदर्शित करते हैं
  2. बहुविध समझ: हाल के वर्षों में मॉडल क्रॉस-मोडल इंटरैक्शन की प्रारंभिक मॉडलिंग पर ध्यान केंद्रित करने लगे हैं
  3. निर्देश-ट्यूनिंग: InstructBLIP जैसे मॉडल निर्देश-ट्यूनिंग के माध्यम से बहु-कार्य प्रदर्शन में सुधार करते हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. मध्यम सफलता: ओपन-सोर्स VLMs द्विआधारी व्यंग्य पहचान में मध्यम सफलता प्राप्त करते हैं, लेकिन अभी भी सुधार की गुंजाइश है
  2. व्याख्या चुनौती: मौजूदा मॉडल उच्च गुणवत्ता की व्याख्या उत्पन्न करने में महत्वपूर्ण कठिनाई का सामना करते हैं
  3. आर्किटेक्चर महत्व: मॉडल आर्किटेक्चर और प्रशिक्षण उद्देश्य विशिष्ट कार्य प्रदर्शन पर महत्वपूर्ण प्रभाव डालते हैं

सीमाएं

  1. नमूना आकार: मूल्यांकन नमूना अपेक्षाकृत सीमित है (प्रत्येक डेटासेट 3,000 नमूने)
  2. भाषा कवरेज: मुख्य रूप से अंग्रेजी पर केंद्रित, बहुभाषी मूल्यांकन सीमित है
  3. व्याख्या मूल्यांकन: व्याख्या गुणवत्ता मूल्यांकन मुख्य रूप से स्वचालित मेट्रिक्स पर निर्भर करता है, मानव मूल्यांकन की कमी है

भविष्य की दिशा

  1. मिश्रित प्रशिक्षण उद्देश्य: वर्गीकरण और व्याख्या पीढ़ी दोनों को अनुकूलित करने वाली बहु-कार्य सीखने की विधि विकसित करें
  2. विचार श्रृंखला प्रॉम्पटिंग: CoT और बहु-चरणीय प्रॉम्पटिंग की खोज करें जो समृद्ध मॉडल तर्क को प्रेरित करे
  3. ज्ञान वृद्धि: RAG तकनीक या बाहरी ज्ञान को एकीकृत करें मॉडल के संदर्भ समझ को बढ़ाने के लिए
  4. बहुभाषी विस्तार: अधिक भाषाओं और सांस्कृतिक पृष्ठभूमि के व्यंग्य पहचान तक विस्तार करें

गहन मूल्यांकन

शक्तियां

  1. व्यवस्थित मूल्यांकन: MSD कार्य पर कई ओपन-सोर्स VLMs का पहला व्यवस्थित मूल्यांकन
  2. दोहरा कार्य: वर्गीकरण और व्याख्या क्षमता दोनों का मूल्यांकन, व्यापक दृष्टिकोण प्रदान करता है
  3. व्यावहारिक मूल्य: शोधकर्ताओं को उपयुक्त VLM चुनने के लिए महत्वपूर्ण संदर्भ प्रदान करता है
  4. खुलापन: कोड और डेटा को ओपन-सोर्स करने का वचन, पुनरुत्पादनीय अनुसंधान को बढ़ावा देता है

कमजोरियां

  1. अपर्याप्त गहन विश्लेषण: मॉडल विफलता के मामलों का गुणात्मक विश्लेषण कम है
  2. मूल्यांकन मेट्रिक्स सीमाएं: व्याख्या गुणवत्ता मूल्यांकन मुख्य रूप से CLIP संरेखण पर निर्भर करता है, संभवतः पूर्ण नहीं है
  3. मॉडल अपडेट: कुछ मॉडल संस्करण अपेक्षाकृत पुराने हैं, नवीनतम तकनीकी स्तर का प्रतिनिधित्व नहीं कर सकते हैं

प्रभाव

  1. बेंचमार्क भूमिका: MSD क्षेत्र के लिए महत्वपूर्ण बेंचमार्क मूल्यांकन प्रदान करता है
  2. विधि प्रेरणा: एकीकृत मूल्यांकन ढांचा अन्य बहुविध कार्यों तक विस्तारित किया जा सकता है
  3. व्यावहारिक मार्गदर्शन: व्यावहारिक अनुप्रयोगों में उपयुक्त मॉडल चुनने के लिए संदर्भ प्रदान करता है

लागू परिदृश्य

  1. सोशल मीडिया विश्लेषण: Twitter, Facebook आदि प्लेटफॉर्म पर सामग्री समझ के लिए उपयुक्त
  2. भावनात्मक विश्लेषण: व्यापक भावनात्मक विश्लेषण प्रणाली के घटक के रूप में कार्य कर सकता है
  3. सामग्री संयम: संभावित व्यंग्य और व्यंग्य सामग्री की पहचान में सहायता करता है

संदर्भ

पेपर व्यंग्य पहचान, बहुविध सीखने, विजन-लैंग्वेज मॉडल आदि कई अनुसंधान क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हुए 46 संबंधित संदर्भों का हवाला देता है, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करता है।


समग्र मूल्यांकन: यह एक उच्च गुणवत्ता का अनुभवजन्य अनुसंधान पेपर है जो बहुविध व्यंग्य पहचान कार्य पर ओपन-सोर्स VLMs के मूल्यांकन में अंतराल को भरता है। अनुसंधान डिजाइन तर्कसंगत है, प्रयोग व्यापक हैं, और निष्कर्ष व्यावहारिक मूल्य रखते हैं। हालांकि गहन विश्लेषण और मूल्यांकन मेट्रिक्स में सुधार की गुंजाइश है, लेकिन यह इस क्षेत्र के विकास में महत्वपूर्ण योगदान देता है।