Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection
Basnet, Farabi, Ranasinghe et al.
Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.
본 연구는 BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, Qwen-VL을 포함한 7개의 최첨단 오픈소스 비전-언어 모델(VLMs)의 다중모달 풍자 감지 작업 성능을 평가합니다. 본 연구는 영샷, 원샷, 퓨샷 프롬프팅 전략을 사용하며, 모델의 풍자 설명 생성 능력을 평가합니다. 실험은 세 개의 벤치마크 데이터셋(Muse, MMSD2.0, SarcNet)에서 수행됩니다. 결과는 현재 모델들이 이진 풍자 감지에서 중간 정도의 성공을 거두었지만, 작업별 미세조정 없이는 고품질 설명을 생성할 수 없음을 보여줍니다.
논문은 풍자 감지, 다중모달 학습, 비전-언어 모델 등 여러 연구 분야의 중요한 작업을 포함한 46개의 관련 문헌을 인용하며, 연구에 견고한 이론적 기초를 제공합니다.
전체 평가: 이는 오픈소스 VLMs의 다중모달 풍자 감지 작업 평가 공백을 채우는 고품질의 실증 연구 논문입니다. 연구 설계가 합리적이고 실험이 포괄적이며 결론이 실용적 가치를 가집니다. 심층 분석 및 평가 지표 측면에서 개선 여지가 있지만, 해당 분야의 발전에 중요한 기여를 했습니다.