2025-11-14T23:01:10.895550

Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection

Basnet, Farabi, Ranasinghe et al.

Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.

academic

बहुविध व्यंग्य पहचान के लिए ओपन-सोर्स विजन-लैंग्वेज मॉडल का मूल्यांकन

मूल जानकारी

पेपर ID: 2510.11852
शीर्षक: Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection
लेखक: Saroj Basnet (George Mason University), Shafkat Farabi (Virginia Tech), Tharindu Ranasinghe (Lancaster University), Diptesh Kanojia (University of Surrey), Marcos Zampieri (George Mason University)
वर्गीकरण: cs.LG (मशीन लर्निंग)
प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv preprint)
पेपर लिंक: https://arxiv.org/abs/2510.11852v1

सारांश

यह अनुसंधान सात अत्याधुनिक ओपन-सोर्स विजन-लैंग्वेज मॉडल (VLMs) के बहुविध व्यंग्य पहचान कार्य पर प्रदर्शन का मूल्यांकन करता है, जिसमें BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3 और Qwen-VL शामिल हैं। अनुसंधान शून्य-शॉट, एक-शॉट और कम-शॉट प्रॉम्पटिंग रणनीतियों का उपयोग करता है, और मॉडल द्वारा व्यंग्य व्याख्या उत्पन्न करने की क्षमता का मूल्यांकन करता है। प्रयोग तीन बेंचमार्क डेटासेट (Muse, MMSD2.0 और SarcNet) पर किए गए हैं। परिणाम दर्शाते हैं कि हालांकि वर्तमान मॉडल द्विआधारी व्यंग्य पहचान में मध्यम सफलता प्राप्त करते हैं, लेकिन कार्य-विशिष्ट सूक्ष्म-समायोजन के बिना उच्च गुणवत्ता की व्याख्या उत्पन्न करने में असमर्थ हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मूल समस्या: बहुविध व्यंग्य पहचान (MSD) कार्य पर ओपन-सोर्स विजन-लैंग्वेज मॉडल की क्षमता का मूल्यांकन, जिसमें व्यंग्य सामग्री का पहचान और व्याख्या शामिल है
चुनौतीपूर्ण: व्यंग्य एक जटिल भाषाई घटना है जिसका आशय अर्थ शाब्दिक अभिव्यक्ति के विपरीत है, बहुविध वातावरण में, व्यंग्य प्रभाव अक्सर दृश्य और पाठ सामग्री के बीच असंगति से आता है

महत्व

सोशल मीडिया प्रसार: सोशल प्लेटफॉर्म पर, व्यंग्य अक्सर चित्र-पाठ युग्मों के माध्यम से प्राप्त होता है, इस क्रॉस-मोडल असंगति को समझना भावनात्मक विश्लेषण और सामग्री समझ के लिए महत्वपूर्ण है
तकनीकी विकास: बड़े विजन-लैंग्वेज मॉडल के विकास ने जटिल व्यक्तिपरक बहुविध घटनाओं को समझने के लिए नई संभावनाएं प्रदान की हैं
अनुप्रयोग मूल्य: सोशल मीडिया सामग्री संयम, भावनात्मक विश्लेषण, आक्रामक भाषा पहचान आदि कार्यों के लिए महत्वपूर्ण है

मौजूदा विधियों की सीमाएं

अपर्याप्त अनुसंधान: हालांकि VLMs विभिन्न कार्यों पर उत्कृष्ट प्रदर्शन करते हैं, लेकिन MSD कार्य पर उनके प्रदर्शन का पर्याप्त अन्वेषण नहीं किया गया है
विधि सीमाएं: प्रारंभिक MSD अनुसंधान मुख्य रूप से अलग-अलग विशेषता निष्कर्षकों और विशेषता एकत्रीकरण तकनीकों पर निर्भर करते हैं, अंत-से-अंत बहुविध समझ की कमी है
व्याख्या क्षमता: मौजूदा मॉडल मुख्य रूप से वर्गीकरण सटीकता पर ध्यान केंद्रित करते हैं, मानव गुणवत्ता की व्याख्या उत्पन्न करने की क्षमता का अनुसंधान अपर्याप्त है

मूल योगदान

एकीकृत मूल्यांकन ढांचा: एक एकीकृत संदर्भ सीखने का ढांचा प्रदान करता है, जिसमें एकीकृत छवि, कम-शॉट उदाहरण और व्याख्या बीज शामिल हैं, जो सात विभिन्न VLMs के लिए उपयुक्त है
व्यवस्थित बेंचमार्किंग: तीन MSD बेंचमार्क डेटासेट पर व्यवस्थित शून्य-शॉट, एक-शॉट और कम-शॉट मूल्यांकन
व्याख्या पीढ़ी मूल्यांकन: प्रत्येक मॉडल द्वारा मुक्त-रूप व्यंग्य व्याख्या उत्पन्न करने की क्षमता का मूल्यांकन, इस क्षेत्र में अनुसंधान अंतराल को भरता है
गहन विश्लेषण: वर्गीकरण प्रदर्शन और व्याख्या गुणवत्ता के बीच अलगाव घटना को प्रकट करता है, भविष्य के अनुसंधान के लिए महत्वपूर्ण अंतर्दृष्टि प्रदान करता है

विधि विवरण

कार्य परिभाषा

इनपुट: छवि-पाठ युग्म (I, C), जहां I छवि है, C कैप्शन पाठ है आउटपुट:

द्विआधारी वर्गीकरण: यह निर्धारित करें कि क्या युग्म में व्यंग्य है (हां/नहीं)
व्याख्या पीढ़ी: व्यंग्य उदाहरणों के लिए, दृश्य-पाठ असंगति की व्याख्या करने वाली प्राकृतिक भाषा विवरण उत्पन्न करें

डेटासेट विवरण

डेटासेट	सकारात्मक	नकारात्मक	व्याख्या	बहुभाषी
MuSE	3,510	0	✓	×
MMSD2.0	11,651	12,980	×	×
SarcNet	1,875	1,460	×	✓

मॉडल आर्किटेक्चर

मूल्यांकन किए गए सात ओपन-सोर्स VLMs:

InstructBLIP: FlanT5 पर आधारित निर्देश-ट्यून किया गया मॉडल
BLIP2 2.7B: जमी हुई छवि एनकोडर + Q-former + बड़ा भाषा मॉडल
OpenFlamingo 3B: Flamingo का हल्का-फुल्का ओपन-सोर्स अनुकूलन
LLaVA 7B: प्रतिकूल सूक्ष्म-समायोजन के माध्यम से दृश्य-भाषा संरेखण
PaliGemma 3B: बहुविध विशेषज्ञ मिश्रण मॉडल
Qwen-VL 7B: Q-जागरूक एनकोडर-डिकोडर आर्किटेक्चर
Gemma3 27B: निर्देश-ट्यून किया गया बहुविध मॉडल

प्रॉम्पटिंग रणनीति

वर्गीकरण कार्य प्रॉम्पट संरचना:

*<global_instruction>*
उदाहरण: (शून्य-, एक-, कम-शॉट)
*<image>*
*कैप्शन:<caption> उत्तर: हां/नहीं*
*<image>*
**संदर्भ:** {caption}
क्या यह व्यंग्यात्मक है?

व्याख्या पीढ़ी प्रॉम्पट संरचना:

*<संदर्भ>:*
*<image>*
**मूल कैप्शन**: {caption}
**प्रदान की गई व्याख्या**: {explanation}
**कार्य निर्देश**

तकनीकी नवाचार बिंदु

एकीकृत प्रॉम्पटिंग ढांचा: विभिन्न VLM आर्किटेक्चर के लिए उपयुक्त एकीकृत प्रॉम्पट टेम्पलेट डिजाइन किया गया
बहु-दानेदार मूल्यांकन: वर्गीकरण सटीकता और व्याख्या गुणवत्ता का दोहरा मूल्यांकन
क्रॉस-मोडल संरेखण मूल्यांकन: Δ-CLIPScore पेश किया गया जो छवि-पाठ संरेखण सुधार को परिमाणित करता है

प्रयोगात्मक सेटअप

डेटा प्रसंस्करण

MMSD2.0 और SarcNet से प्रत्येक से 3,000 छवि-कैप्शन युग्मों का यादृच्छिक नमूना मूल्यांकन के लिए
व्याख्या उदाहरण और मूल्यांकन बेंचमार्क प्रदान करने के लिए MuSE डेटासेट का उपयोग
कम-शॉट उदाहरण MuSE (सकारात्मक) और MMSD2.0 (नकारात्मक) से नमूना किए गए

मूल्यांकन मेट्रिक्स

वर्गीकरण सटीकता: द्विआधारी वर्गीकरण की सटीकता
Δ-CLIPScore: मूल कैप्शन के सापेक्ष व्याख्या द्वारा छवि-पाठ संरेखण सुधार को परिमाणित करता है
```
ΔCLIP = CLIP(IMG, G_exp) - CLIP(IMG, B_exp)
```
जहां G_exp उत्पन्न व्याख्या है, B_exp आधार व्याख्या है

कार्यान्वयन विवरण

सभी मॉडल 8-बिट सटीकता के साथ लोड किए गए, FlashAttention अनुकूलन सक्षम
बैच आकार 1, अधिकतम पीढ़ी टोकन 100-256
बीम सर्च का उपयोग (बीम आकार=3)
तापमान पैरामीटर 0.7 पर सेट

प्रयोगात्मक परिणाम

वर्गीकरण प्रदर्शन

डेटासेट	सर्वश्रेष्ठ मॉडल	सेटिंग	सटीकता
SarcNet	Gemma3	एक-शॉट	0.67
SarcNet	InstructBLIP	शून्य-शॉट	0.67
MMSD2.0	Gemma3	एक-शॉट	0.73
MMSD2.0	InstructBLIP	शून्य-शॉट	0.64

मुख्य निष्कर्ष

निर्देश-ट्यून किए गए मॉडल का लाभ: Gemma3 और InstructBLIP शून्य-शॉट और एक-शॉट सेटिंग में सर्वश्रेष्ठ प्रदर्शन करते हैं
कम-शॉट प्रभाव सीमित: उदाहरणों की संख्या बढ़ाने से प्रदर्शन में सुधार नहीं हुआ, कभी-कभी शोर भी पेश किया
डेटासेट अंतर: मॉडल SarcNet की तुलना में MMSD2.0 पर बेहतर प्रदर्शन करते हैं

व्याख्या पीढ़ी परिणाम

मॉडल	Δ-CLIPScore माध्य	विचरण
LLaVA	1.966	27.315
BLIP2	0.831	25.532
PaliGemma	0.757	16.234
InstructBLIP	0.583	27.749
Gemma3	-2.063	46.481
OpenFlamingo	-1.750	11.526
Qwen	-7.143	25.515

महत्वपूर्ण निष्कर्ष

प्रदर्शन अलगाव: वर्गीकरण प्रदर्शन में सर्वश्रेष्ठ मॉडल (Gemma3) व्याख्या पीढ़ी में सबसे खराब प्रदर्शन करता है
आर्किटेक्चर प्रभाव: VQA शैली के आर्किटेक्चर (BLIP2, LLaVA) उच्च गुणवत्ता की व्याख्या उत्पन्न करने के लिए अधिक उपयुक्त हैं
प्रशिक्षण उद्देश्य अंतर: विभेदक प्रशिक्षण वाले मॉडल वर्गीकरण में माहिर हैं, जनरेटिव प्रशिक्षण वाले मॉडल व्याख्या के लिए अधिक उपयुक्त हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

मध्यम सफलता: ओपन-सोर्स VLMs द्विआधारी व्यंग्य पहचान में मध्यम सफलता प्राप्त करते हैं, लेकिन अभी भी सुधार की गुंजाइश है
व्याख्या चुनौती: मौजूदा मॉडल उच्च गुणवत्ता की व्याख्या उत्पन्न करने में महत्वपूर्ण कठिनाई का सामना करते हैं
आर्किटेक्चर महत्व: मॉडल आर्किटेक्चर और प्रशिक्षण उद्देश्य विशिष्ट कार्य प्रदर्शन पर महत्वपूर्ण प्रभाव डालते हैं

सीमाएं

नमूना आकार: मूल्यांकन नमूना अपेक्षाकृत सीमित है (प्रत्येक डेटासेट 3,000 नमूने)
भाषा कवरेज: मुख्य रूप से अंग्रेजी पर केंद्रित, बहुभाषी मूल्यांकन सीमित है
व्याख्या मूल्यांकन: व्याख्या गुणवत्ता मूल्यांकन मुख्य रूप से स्वचालित मेट्रिक्स पर निर्भर करता है, मानव मूल्यांकन की कमी है

भविष्य की दिशा

मिश्रित प्रशिक्षण उद्देश्य: वर्गीकरण और व्याख्या पीढ़ी दोनों को अनुकूलित करने वाली बहु-कार्य सीखने की विधि विकसित करें
विचार श्रृंखला प्रॉम्पटिंग: CoT और बहु-चरणीय प्रॉम्पटिंग की खोज करें जो समृद्ध मॉडल तर्क को प्रेरित करे
ज्ञान वृद्धि: RAG तकनीक या बाहरी ज्ञान को एकीकृत करें मॉडल के संदर्भ समझ को बढ़ाने के लिए
बहुभाषी विस्तार: अधिक भाषाओं और सांस्कृतिक पृष्ठभूमि के व्यंग्य पहचान तक विस्तार करें

गहन मूल्यांकन

शक्तियां

व्यवस्थित मूल्यांकन: MSD कार्य पर कई ओपन-सोर्स VLMs का पहला व्यवस्थित मूल्यांकन
दोहरा कार्य: वर्गीकरण और व्याख्या क्षमता दोनों का मूल्यांकन, व्यापक दृष्टिकोण प्रदान करता है
व्यावहारिक मूल्य: शोधकर्ताओं को उपयुक्त VLM चुनने के लिए महत्वपूर्ण संदर्भ प्रदान करता है
खुलापन: कोड और डेटा को ओपन-सोर्स करने का वचन, पुनरुत्पादनीय अनुसंधान को बढ़ावा देता है

कमजोरियां

अपर्याप्त गहन विश्लेषण: मॉडल विफलता के मामलों का गुणात्मक विश्लेषण कम है
मूल्यांकन मेट्रिक्स सीमाएं: व्याख्या गुणवत्ता मूल्यांकन मुख्य रूप से CLIP संरेखण पर निर्भर करता है, संभवतः पूर्ण नहीं है
मॉडल अपडेट: कुछ मॉडल संस्करण अपेक्षाकृत पुराने हैं, नवीनतम तकनीकी स्तर का प्रतिनिधित्व नहीं कर सकते हैं

प्रभाव

बेंचमार्क भूमिका: MSD क्षेत्र के लिए महत्वपूर्ण बेंचमार्क मूल्यांकन प्रदान करता है
विधि प्रेरणा: एकीकृत मूल्यांकन ढांचा अन्य बहुविध कार्यों तक विस्तारित किया जा सकता है
व्यावहारिक मार्गदर्शन: व्यावहारिक अनुप्रयोगों में उपयुक्त मॉडल चुनने के लिए संदर्भ प्रदान करता है

लागू परिदृश्य

सोशल मीडिया विश्लेषण: Twitter, Facebook आदि प्लेटफॉर्म पर सामग्री समझ के लिए उपयुक्त
भावनात्मक विश्लेषण: व्यापक भावनात्मक विश्लेषण प्रणाली के घटक के रूप में कार्य कर सकता है
सामग्री संयम: संभावित व्यंग्य और व्यंग्य सामग्री की पहचान में सहायता करता है

संदर्भ

पेपर व्यंग्य पहचान, बहुविध सीखने, विजन-लैंग्वेज मॉडल आदि कई अनुसंधान क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हुए 46 संबंधित संदर्भों का हवाला देता है, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करता है।

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता का अनुभवजन्य अनुसंधान पेपर है जो बहुविध व्यंग्य पहचान कार्य पर ओपन-सोर्स VLMs के मूल्यांकन में अंतराल को भरता है। अनुसंधान डिजाइन तर्कसंगत है, प्रयोग व्यापक हैं, और निष्कर्ष व्यावहारिक मूल्य रखते हैं। हालांकि गहन विश्लेषण और मूल्यांकन मेट्रिक्स में सुधार की गुंजाइश है, लेकिन यह इस क्षेत्र के विकास में महत्वपूर्ण योगदान देता है।

Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection

बहुविध व्यंग्य पहचान के लिए ओपन-सोर्स विजन-लैंग्वेज मॉडल का मूल्यांकन

मूल जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

महत्व

मौजूदा विधियों की सीमाएं

मूल योगदान

विधि विवरण

कार्य परिभाषा

डेटासेट विवरण

मॉडल आर्किटेक्चर

प्रॉम्पटिंग रणनीति

वर्गीकरण कार्य प्रॉम्पट संरचना:

व्याख्या पीढ़ी प्रॉम्पट संरचना:

तकनीकी नवाचार बिंदु

प्रयोगात्मक सेटअप

डेटा प्रसंस्करण

मूल्यांकन मेट्रिक्स

कार्यान्वयन विवरण

प्रयोगात्मक परिणाम

वर्गीकरण प्रदर्शन

मुख्य निष्कर्ष

व्याख्या पीढ़ी परिणाम

महत्वपूर्ण निष्कर्ष

संबंधित कार्य

व्यंग्य पहचान अनुसंधान

विजन-लैंग्वेज मॉडल

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशा

गहन मूल्यांकन

शक्तियां

कमजोरियां

प्रभाव

लागू परिदृश्य

संदर्भ