2025-11-14T23:01:10.895550

Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection

Basnet, Farabi, Ranasinghe et al.

Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.

academic

Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection

基本信息

论文ID: 2510.11852
标题: Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection
作者: Saroj Basnet (George Mason University), Shafkat Farabi (Virginia Tech), Tharindu Ranasinghe (Lancaster University), Diptesh Kanojia (University of Surrey), Marcos Zampieri (George Mason University)
分类: cs.LG (Machine Learning)
发表时间: 2025年10月13日 (arXiv preprint)
论文链接: https://arxiv.org/abs/2510.11852v1

摘要

本研究评估了七个最先进的开源视觉-语言模型(VLMs)在多模态讽刺检测任务上的表现，包括BLIP2、InstructBLIP、OpenFlamingo、LLaVA、PaliGemma、Gemma3和Qwen-VL。研究使用零样本、单样本和少样本提示策略，并评估模型生成讽刺解释的能力。实验在三个基准数据集(Muse、MMSD2.0和SarcNet)上进行。结果显示，虽然当前模型在二元讽刺检测上取得了中等成功，但在不进行任务特定微调的情况下，仍无法生成高质量的解释。

研究背景与动机

问题定义

核心问题: 评估开源视觉-语言模型在多模态讽刺检测(MSD)任务上的能力，包括检测和解释讽刺内容
挑战性: 讽刺是一种复杂的语言现象，其意图含义与字面表达相反，在多模态环境下，讽刺效果往往来自视觉和文本内容之间的不匹配

重要性

社交媒体普及: 在社交平台上，讽刺经常通过图文配对实现，理解这种跨模态不一致性对情感分析和内容理解至关重要
技术发展: 大型视觉-语言模型的发展为理解复杂的主观多模态现象提供了新机遇
应用价值: 对社交媒体内容审核、情感分析、攻击性语言识别等任务具有重要意义

现有方法局限性

研究不足: 虽然VLMs在多种任务上表现出色，但在MSD任务上的表现仍未得到充分探索
方法局限: 早期MSD研究主要依赖分离的特征提取器和特征聚合技术，缺乏端到端的多模态理解
解释能力: 现有模型主要关注分类准确性，对生成人类质量解释的能力研究不足

核心贡献

统一评估框架: 提供了一个统一的上下文学习框架，包含集成图像、少样本示例和解释种子的提示模板，适用于七个不同的VLMs
系统性基准测试: 在三个MSD基准数据集上进行了系统的零样本、单样本和少样本评估
解释生成评估: 评估了每个模型生成自由形式讽刺解释的能力，填补了该领域的研究空白
深入分析: 揭示了分类性能与解释质量之间的分离现象，为未来研究提供了重要洞察

方法详解

任务定义

输入: 图像-文本对 (I, C)，其中I为图像，C为标题文本输出:

二元分类：判断该对是否包含讽刺 (Yes/No)
解释生成：对于讽刺实例，生成解释视觉-文本不一致性的自然语言描述

数据集描述

数据集	正例	负例	解释	多语言
MuSE	3,510	0	✓	×
MMSD2.0	11,651	12,980	×	×
SarcNet	1,875	1,460	×	✓

模型架构

评估的七个开源VLMs：

InstructBLIP: 基于FlanT5的指令调优模型
BLIP2 2.7B: 冻结图像编码器 + Q-former + 大语言模型
OpenFlamingo 3B: Flamingo的轻量级开源适配
LLaVA 7B: 通过对抗性微调实现视觉-语言对齐
PaliGemma 3B: 多模态专家混合模型
Qwen-VL 7B: Q-aware编码器-解码器架构
Gemma3 27B: 指令调优的多模态模型

提示策略

分类任务提示结构：

*<global_instruction>*
Example: (zero-, one-, few-shots)
*<image>*
*Caption:<caption> Answer: Yes/No*
*<image>*
**Context:** {caption}
Is this sarcastic?

解释生成提示结构：

*<Context>:*
*<image>*
**Original Caption**: {caption}
**Provided Explanation**: {explanation}
**Task Instruction**

技术创新点

统一提示框架: 设计了适用于不同VLM架构的统一提示模板
多粒度评估: 结合分类准确性和解释质量的双重评估
跨模态对齐评估: 引入Δ-CLIPScore量化图像-文本对齐改善程度

实验设置

数据处理

从MMSD2.0和SarcNet各随机采样3,000个图像-标题对进行评估
使用MuSE数据集提供解释示例和评估基准
少样本示例从MuSE(正例)和MMSD2.0(负例)中采样

评价指标

分类准确率: 二元分类的准确性
Δ-CLIPScore: 量化解释相对于原标题的图像-文本对齐改善
```
ΔCLIP = CLIP(IMG, G_exp) - CLIP(IMG, B_exp)
```
其中G_exp为生成解释，B_exp为基准解释

实现细节

所有模型使用8位精度加载，启用FlashAttention优化
批量大小为1，最大生成token数100-256
使用beam search (beam size=3)
温度参数设为0.7

实验结果

分类性能

数据集	最佳模型	设置	准确率
SarcNet	Gemma3	One-shot	0.67
SarcNet	InstructBLIP	Zero-shot	0.67
MMSD2.0	Gemma3	One-shot	0.73
MMSD2.0	InstructBLIP	Zero-shot	0.64

关键发现

指令调优模型优势: Gemma3和InstructBLIP在零样本和单样本设置下表现最佳
少样本效果有限: 增加示例数量并未带来性能提升，有时甚至引入噪声
数据集差异: 模型在MMSD2.0上的表现普遍优于SarcNet

解释生成结果

模型	Δ-CLIPScore均值	方差
LLaVA	1.966	27.315
BLIP2	0.831	25.532
PaliGemma	0.757	16.234
InstructBLIP	0.583	27.749
Gemma3	-2.063	46.481
OpenFlamingo	-1.750	11.526
Qwen	-7.143	25.515

重要发现

性能分离: 分类性能最佳的模型(Gemma3)在解释生成上表现最差
架构影响: VQA风格的架构(BLIP2、LLaVA)更适合生成高质量解释
训练目标差异: 判别式训练的模型擅长分类，生成式训练的模型更适合解释

结论与讨论

主要结论

适度成功: 开源VLMs在二元讽刺检测上取得了适度成功，但仍有改进空间
解释挑战: 现有模型在生成高质量解释方面存在显著困难
架构重要性: 模型架构和训练目标对特定任务性能有重要影响

局限性

样本规模: 评估样本相对有限(每个数据集3,000样本)
语言覆盖: 主要关注英语，多语言评估有限
解释评估: 解释质量评估主要依赖自动化指标，缺乏人工评估

未来方向

混合训练目标: 开发同时优化分类和解释生成的多任务学习方法
思维链提示: 探索CoT和多阶段提示以激发更丰富的模型推理
知识增强: 集成RAG技术或外部知识以增强模型的上下文理解能力
多语言扩展: 扩展到更多语言和文化背景的讽刺检测

深度评价

优点

系统性评估: 首次对多个开源VLMs在MSD任务上进行系统评估
双重任务: 同时评估分类和解释能力，提供全面视角
实用价值: 为研究者选择合适的VLM提供了重要参考
开放性: 承诺开源代码和数据，促进可复现研究

不足

深度分析不足: 对模型失败案例的定性分析较少
评估指标局限: 解释质量评估主要依赖CLIP对齐，可能不够全面
模型更新: 部分模型版本相对较旧，可能不代表最新技术水平

影响力

基准作用: 为MSD领域提供了重要的基准评估
方法启发: 统一的评估框架可推广到其他多模态任务
实践指导: 为实际应用中选择合适模型提供了参考

适用场景

社交媒体分析: 适用于Twitter、Facebook等平台的内容理解
情感分析: 可作为更广泛情感分析系统的组件
内容审核: 有助于识别潜在的讽刺和挖苦内容

参考文献

论文引用了46篇相关文献，涵盖了讽刺检测、多模态学习、视觉-语言模型等多个研究领域的重要工作，为研究提供了坚实的理论基础。

总体评价: 这是一篇高质量的实证研究论文，填补了开源VLMs在多模态讽刺检测任务上的评估空白。研究设计合理，实验全面，结论具有实用价值。虽然在深度分析和评估指标方面还有改进空间，但为该领域的发展做出了重要贡献。

Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection

Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection

基本信息

摘要

研究背景与动机

问题定义

重要性

现有方法局限性

核心贡献

方法详解

任务定义

数据集描述

模型架构

提示策略

分类任务提示结构：

解释生成提示结构：

技术创新点

实验设置

数据处理

评价指标

实现细节

实验结果

分类性能

关键发现

解释生成结果

重要发现

相关工作

讽刺检测研究

视觉-语言模型

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献