2025-11-14T23:01:10.895550

Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection

Basnet, Farabi, Ranasinghe et al.

Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.

academic

오픈소스 비전-언어 모델의 다중모달 풍자 감지 평가

기본 정보

논문 ID: 2510.11852
제목: Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection
저자: Saroj Basnet (George Mason University), Shafkat Farabi (Virginia Tech), Tharindu Ranasinghe (Lancaster University), Diptesh Kanojia (University of Surrey), Marcos Zampieri (George Mason University)
분류: cs.LG (기계학습)
발표일: 2025년 10월 13일 (arXiv preprint)
논문 링크: https://arxiv.org/abs/2510.11852v1

초록

본 연구는 BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, Qwen-VL을 포함한 7개의 최첨단 오픈소스 비전-언어 모델(VLMs)의 다중모달 풍자 감지 작업 성능을 평가합니다. 본 연구는 영샷, 원샷, 퓨샷 프롬프팅 전략을 사용하며, 모델의 풍자 설명 생성 능력을 평가합니다. 실험은 세 개의 벤치마크 데이터셋(Muse, MMSD2.0, SarcNet)에서 수행됩니다. 결과는 현재 모델들이 이진 풍자 감지에서 중간 정도의 성공을 거두었지만, 작업별 미세조정 없이는 고품질 설명을 생성할 수 없음을 보여줍니다.

연구 배경 및 동기

문제 정의

핵심 문제: 다중모달 풍자 감지(MSD) 작업에서 오픈소스 비전-언어 모델의 능력 평가, 풍자 감지 및 설명 포함
도전 과제: 풍자는 의도된 의미가 문자 그대로의 표현과 반대인 복잡한 언어 현상이며, 다중모달 환경에서 풍자 효과는 종종 시각 및 텍스트 콘텐츠 간의 불일치에서 비롯됩니다

중요성

소셜 미디어 확산: 소셜 플랫폼에서 풍자는 종종 이미지-텍스트 쌍을 통해 실현되며, 이러한 교차 모달 불일치를 이해하는 것은 감정 분석 및 콘텐츠 이해에 필수적입니다
기술 발전: 대규모 비전-언어 모델의 발전은 복잡한 주관적 다중모달 현상을 이해할 새로운 기회를 제공합니다
응용 가치: 소셜 미디어 콘텐츠 중재, 감정 분석, 공격적 언어 식별 등의 작업에 중요한 의미가 있습니다

기존 방법의 한계

연구 부족: VLMs이 다양한 작업에서 우수한 성능을 보였지만, MSD 작업에서의 성능은 아직 충분히 탐구되지 않았습니다
방법론적 한계: 초기 MSD 연구는 주로 분리된 특징 추출기 및 특징 집계 기술에 의존하며, 엔드-투-엔드 다중모달 이해가 부족합니다
설명 능력: 기존 모델은 주로 분류 정확도에 초점을 맞추고 있으며, 인간 수준의 설명 생성 능력에 대한 연구가 부족합니다

핵심 기여

통합 평가 프레임워크: 이미지 통합, 퓨샷 예제, 설명 시드를 포함하는 프롬프트 템플릿을 포함한 통합 문맥 학습 프레임워크를 제공하며, 7개의 서로 다른 VLMs에 적용 가능합니다
체계적 벤치마킹: 3개의 MSD 벤치마크 데이터셋에서 영샷, 원샷, 퓨샷 평가를 체계적으로 수행합니다
설명 생성 평가: 각 모델의 자유형식 풍자 설명 생성 능력을 평가하여 이 분야의 연구 공백을 채웁니다
심층 분석: 분류 성능과 설명 품질 간의 분리 현상을 드러내며, 향후 연구를 위한 중요한 통찰력을 제공합니다

방법론 상세 설명

작업 정의

입력: 이미지-텍스트 쌍 (I, C), 여기서 I는 이미지, C는 캡션 텍스트 출력:

이진 분류: 해당 쌍이 풍자를 포함하는지 판단 (Yes/No)
설명 생성: 풍자 인스턴스의 경우, 시각-텍스트 불일치를 설명하는 자연어 설명 생성

데이터셋 설명

데이터셋	긍정 예제	부정 예제	설명	다언어
MuSE	3,510	0	✓	×
MMSD2.0	11,651	12,980	×	×
SarcNet	1,875	1,460	×	✓

모델 아키텍처

평가된 7개의 오픈소스 VLMs:

InstructBLIP: FlanT5 기반 명령어 조정 모델
BLIP2 2.7B: 동결된 이미지 인코더 + Q-former + 대규모 언어 모델
OpenFlamingo 3B: Flamingo의 경량 오픈소스 적응
LLaVA 7B: 적대적 미세조정을 통한 시각-언어 정렬
PaliGemma 3B: 다중모달 전문가 혼합 모델
Qwen-VL 7B: Q-인식 인코더-디코더 아키텍처
Gemma3 27B: 명령어 조정된 다중모달 모델

프롬프팅 전략

분류 작업 프롬프트 구조:

*<global_instruction>*
Example: (zero-, one-, few-shots)
*<image>*
*Caption:<caption> Answer: Yes/No*
*<image>*
**Context:** {caption}
Is this sarcastic?

설명 생성 프롬프트 구조:

*<Context>:*
*<image>*
**Original Caption**: {caption}
**Provided Explanation**: {explanation}
**Task Instruction**

기술적 혁신 포인트

통합 프롬프트 프레임워크: 서로 다른 VLM 아키텍처에 적용 가능한 통합 프롬프트 템플릿 설계
다중 입도 평가: 분류 정확도와 설명 품질의 이중 평가 결합
교차 모달 정렬 평가: Δ-CLIPScore를 도입하여 이미지-텍스트 정렬 개선 정도 정량화

실험 설정

데이터 처리

MMSD2.0 및 SarcNet에서 각각 3,000개의 이미지-캡션 쌍을 무작위로 샘플링하여 평가
MuSE 데이터셋을 사용하여 설명 예제 및 평가 벤치마크 제공
퓨샷 예제는 MuSE(긍정 예제) 및 MMSD2.0(부정 예제)에서 샘플링

평가 지표

분류 정확도: 이진 분류의 정확성
Δ-CLIPScore: 원본 캡션에 대한 설명의 이미지-텍스트 정렬 개선 정량화
```
ΔCLIP = CLIP(IMG, G_exp) - CLIP(IMG, B_exp)
```
여기서 G_exp는 생성된 설명, B_exp는 기준 설명

구현 세부사항

모든 모델은 8비트 정밀도로 로드되며, FlashAttention 최적화 활성화
배치 크기 1, 최대 생성 토큰 수 100-256
Beam search 사용 (beam size=3)
온도 매개변수 0.7

실험 결과

분류 성능

데이터셋	최고 성능 모델	설정	정확도
SarcNet	Gemma3	One-shot	0.67
SarcNet	InstructBLIP	Zero-shot	0.67
MMSD2.0	Gemma3	One-shot	0.73
MMSD2.0	InstructBLIP	Zero-shot	0.64

주요 발견

명령어 조정 모델의 우위: Gemma3 및 InstructBLIP이 영샷 및 원샷 설정에서 최고 성능 달성
퓨샷 효과 제한: 예제 수 증가가 성능 향상을 가져오지 못했으며, 때로는 노이즈 도입
데이터셋 차이: 모델이 SarcNet보다 MMSD2.0에서 일반적으로 더 나은 성능 발휘

설명 생성 결과

모델	Δ-CLIPScore 평균	분산
LLaVA	1.966	27.315
BLIP2	0.831	25.532
PaliGemma	0.757	16.234
InstructBLIP	0.583	27.749
Gemma3	-2.063	46.481
OpenFlamingo	-1.750	11.526
Qwen	-7.143	25.515

중요한 발견

성능 분리: 분류 성능이 최고인 모델(Gemma3)이 설명 생성에서 최악의 성능 발휘
아키텍처 영향: VQA 스타일 아키텍처(BLIP2, LLaVA)가 고품질 설명 생성에 더 적합
훈련 목표 차이: 판별식 훈련 모델은 분류에 능숙하고, 생성식 훈련 모델은 설명에 더 적합

결론 및 논의

주요 결론

적당한 성공: 오픈소스 VLMs이 이진 풍자 감지에서 적당한 성공을 거두었으나 개선 여지 있음
설명 도전: 현재 모델들이 고품질 설명 생성에서 상당한 어려움 겪음
아키텍처 중요성: 모델 아키텍처 및 훈련 목표가 특정 작업 성능에 중요한 영향

한계

샘플 규모: 평가 샘플 상대적으로 제한적(각 데이터셋 3,000개 샘플)
언어 범위: 주로 영어에 초점, 다언어 평가 제한적
설명 평가: 설명 품질 평가가 주로 자동화 지표에 의존, 인간 평가 부족

향후 방향

혼합 훈련 목표: 분류 및 설명 생성을 동시에 최적화하는 다중 작업 학습 방법 개발
사고의 연쇄 프롬프팅: CoT 및 다단계 프롬프팅을 탐색하여 더 풍부한 모델 추론 자극
지식 강화: RAG 기술 또는 외부 지식 통합으로 모델의 문맥 이해 능력 향상
다언어 확장: 더 많은 언어 및 문화 배경의 풍자 감지로 확장

심층 평가

장점

체계적 평가: MSD 작업에서 여러 오픈소스 VLMs의 첫 체계적 평가
이중 작업: 분류 및 설명 능력을 동시에 평가하여 포괄적 관점 제공
실용적 가치: 연구자들이 적절한 VLM 선택에 중요한 참고 자료 제공
개방성: 코드 및 데이터 오픈소스 약속으로 재현 가능한 연구 촉진

부족한 점

심층 분석 부족: 모델 실패 사례에 대한 정성적 분석 부족
평가 지표 한계: 설명 품질 평가가 주로 CLIP 정렬에 의존하여 불완전할 수 있음
모델 업데이트: 일부 모델 버전이 상대적으로 오래되어 최신 기술 수준을 대표하지 못할 수 있음

영향력

벤치마크 역할: MSD 분야에 중요한 벤치마크 평가 제공
방법론적 영감: 통합 평가 프레임워크를 다른 다중모달 작업으로 확대 가능
실무 지침: 실제 응용에서 적절한 모델 선택을 위한 참고 자료

적용 시나리오

소셜 미디어 분석: Twitter, Facebook 등 플랫폼의 콘텐츠 이해에 적용
감정 분석: 더 광범위한 감정 분석 시스템의 구성 요소로 활용
콘텐츠 중재: 잠재적 풍자 및 비꼬는 콘텐츠 식별에 도움

참고문헌

논문은 풍자 감지, 다중모달 학습, 비전-언어 모델 등 여러 연구 분야의 중요한 작업을 포함한 46개의 관련 문헌을 인용하며, 연구에 견고한 이론적 기초를 제공합니다.

전체 평가: 이는 오픈소스 VLMs의 다중모달 풍자 감지 작업 평가 공백을 채우는 고품질의 실증 연구 논문입니다. 연구 설계가 합리적이고 실험이 포괄적이며 결론이 실용적 가치를 가집니다. 심층 분석 및 평가 지표 측면에서 개선 여지가 있지만, 해당 분야의 발전에 중요한 기여를 했습니다.