2025-11-14T23:01:10.895550

Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection

Basnet, Farabi, Ranasinghe et al.

Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.

academic

Оценка открытых моделей Vision-Language для обнаружения многомодального сарказма

Основная информация

ID статьи: 2510.11852
Название: Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection
Авторы: Saroj Basnet (George Mason University), Shafkat Farabi (Virginia Tech), Tharindu Ranasinghe (Lancaster University), Diptesh Kanojia (University of Surrey), Marcos Zampieri (George Mason University)
Классификация: cs.LG (Машинное обучение)
Дата публикации: 13 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.11852v1

Аннотация

В данном исследовании оценивается производительность семи передовых открытых моделей Vision-Language (VLM) при решении задачи многомодального обнаружения сарказма, включая BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3 и Qwen-VL. Исследование использует стратегии нулевого, одного и нескольких примеров, а также оценивает способность моделей генерировать объяснения сарказма. Эксперименты проводятся на трёх эталонных наборах данных (Muse, MMSD2.0 и SarcNet). Результаты показывают, что, хотя текущие модели достигают умеренного успеха в бинарном обнаружении сарказма, они не могут генерировать объяснения высокого качества без специализированной настройки задачи.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Оценка способности открытых моделей Vision-Language выполнять задачи многомодального обнаружения сарказма (MSD), включая обнаружение и объяснение сарказма
Сложность: Сарказм — это сложное языковое явление, при котором предполагаемое значение противоположно буквальному выражению. В многомодальной среде сарказм часто возникает из несоответствия между визуальным и текстовым содержимым

Значимость

Распространённость в социальных сетях: На социальных платформах сарказм часто реализуется через пары изображений и текста. Понимание такого кросс-модального несоответствия критически важно для анализа настроений и понимания содержимого
Развитие технологии: Развитие больших моделей Vision-Language открывает новые возможности для понимания сложных субъективных многомодальных явлений
Практическая ценность: Имеет важное значение для модерации контента в социальных сетях, анализа настроений и выявления оскорбительного языка

Ограничения существующих методов

Недостаточность исследований: Хотя VLM показывают отличные результаты на различных задачах, их производительность на задачах MSD остаётся недостаточно изученной
Методологические ограничения: Ранние исследования MSD в основном полагались на отдельные извлекатели признаков и методы агрегации признаков, не обеспечивая сквозное многомодальное понимание
Способность к объяснению: Существующие модели в основном сосредоточены на точности классификации, а способность генерировать объяснения человеческого качества остаётся недостаточно изученной

Основные вклады

Унифицированная структура оценки: Предоставляет унифицированную структуру контекстного обучения, включающую интегрированные изображения, примеры с несколькими примерами и семена объяснений, применимые к семи различным VLM
Систематическое тестирование: Проводит систематическую оценку нулевого, одного и нескольких примеров на трёх эталонных наборах данных MSD
Оценка генерации объяснений: Оценивает способность каждой модели генерировать объяснения сарказма в свободной форме, заполняя пробел в исследованиях этой области
Углубленный анализ: Выявляет разделение между производительностью классификации и качеством объяснений, предоставляя важные идеи для будущих исследований

Подробное описание методологии

Определение задачи

Входные данные: Пары изображение-текст (I, C), где I — изображение, C — текст подписи Выходные данные:

Бинарная классификация: определение наличия сарказма в паре (Да/Нет)
Генерация объяснений: для экземпляров сарказма генерирование описания на естественном языке, объясняющего визуально-текстовое несоответствие

Описание наборов данных

Набор данных	Положительные примеры	Отрицательные примеры	Объяснения	Многоязычность
MuSE	3,510	0	✓	×
MMSD2.0	11,651	12,980	×	×
SarcNet	1,875	1,460	×	✓

Архитектура моделей

Семь оцениваемых открытых VLM:

InstructBLIP: Модель с инструкционной настройкой на основе FlanT5
BLIP2 2.7B: Замороженный кодировщик изображений + Q-former + большая языковая модель
OpenFlamingo 3B: Облегчённая открытая адаптация Flamingo
LLaVA 7B: Визуально-языковое выравнивание через состязательную настройку
PaliGemma 3B: Многомодальная модель смеси экспертов
Qwen-VL 7B: Архитектура кодировщик-декодировщик с Q-aware
Gemma3 27B: Инструкционно-настроенная многомодальная модель

Стратегии подсказок

Структура подсказки для задачи классификации:

*<глобальная_инструкция>*
Пример: (нулевой, один, несколько примеров)
*<изображение>*
*Подпись:<подпись> Ответ: Да/Нет*
*<изображение>*
**Контекст:** {подпись}
Это сарказм?

Структура подсказки для генерации объяснений:

*<Контекст>:*
*<изображение>*
**Исходная подпись**: {подпись}
**Предоставленное объяснение**: {объяснение}
**Инструкция задачи**

Технологические инновации

Унифицированная структура подсказок: Разработаны унифицированные шаблоны подсказок, применимые к различным архитектурам VLM
Многоуровневая оценка: Комбинированная оценка точности классификации и качества объяснений
Оценка кросс-модального выравнивания: Введение Δ-CLIPScore для количественной оценки улучшения выравнивания изображение-текст

Экспериментальная установка

Обработка данных

Случайная выборка 3,000 пар изображение-подпись из MMSD2.0 и SarcNet для оценки
Использование набора данных MuSE для предоставления примеров объяснений и оценки эталонов
Примеры с несколькими примерами отбираются из MuSE (положительные примеры) и MMSD2.0 (отрицательные примеры)

Метрики оценки

Точность классификации: Точность бинарной классификации
Δ-CLIPScore: Количественная оценка улучшения выравнивания изображение-текст сгенерированного объяснения относительно исходной подписи
```
ΔCLIP = CLIP(IMG, G_exp) - CLIP(IMG, B_exp)
```
где G_exp — сгенерированное объяснение, B_exp — базовое объяснение

Детали реализации

Все модели загружаются с 8-битной точностью с включённой оптимизацией FlashAttention
Размер пакета = 1, максимальное количество генерируемых токенов 100-256
Использование поиска луча (размер луча = 3)
Параметр температуры = 0.7

Результаты экспериментов

Производительность классификации

Набор данных	Лучшая модель	Параметр	Точность
SarcNet	Gemma3	Один пример	0.67
SarcNet	InstructBLIP	Нулевой пример	0.67
MMSD2.0	Gemma3	Один пример	0.73
MMSD2.0	InstructBLIP	Нулевой пример	0.64

Ключевые выводы

Преимущество инструкционно-настроенных моделей: Gemma3 и InstructBLIP показывают лучшие результаты при нулевом и одном примере
Ограниченный эффект нескольких примеров: Увеличение количества примеров не привело к улучшению производительности, иногда даже вводя шум
Различия между наборами данных: Модели обычно показывают лучшую производительность на MMSD2.0, чем на SarcNet

Результаты генерации объяснений

Модель	Среднее Δ-CLIPScore	Дисперсия
LLaVA	1.966	27.315
BLIP2	0.831	25.532
PaliGemma	0.757	16.234
InstructBLIP	0.583	27.749
Gemma3	-2.063	46.481
OpenFlamingo	-1.750	11.526
Qwen	-7.143	25.515

Важные открытия

Разделение производительности: Модель с лучшей производительностью классификации (Gemma3) показывает худшие результаты при генерации объяснений
Влияние архитектуры: Архитектуры в стиле VQA (BLIP2, LLaVA) лучше подходят для генерации высококачественных объяснений
Различия в целях обучения: Модели с дискриминативным обучением преуспевают в классификации, модели с генеративным обучением лучше подходят для объяснений

Связанные работы

Исследования обнаружения сарказма

Обнаружение текстового сарказма: Традиционные исследования в основном сосредоточены на распознавании сарказма в чистой текстовой среде
Многомодальное обнаружение сарказма: Schifanella и др. впервые доказали, что визуальная модальность содержит подсказки, помогающие выявить намерение сарказма
Методы агрегации признаков: Ранние работы использовали отдельные кодировщики для извлечения признаков, а затем разработали методы агрегации

Модели Vision-Language

Предварительно обученные модели: Flamingo, VILA и другие модели демонстрируют способности нулевого и нескольких примеров
Многомодальное понимание: В последнее время модели начали сосредоточиваться на раннем моделировании кросс-модального взаимодействия
Инструкционная настройка: Модели типа InstructBLIP повышают многозадачную производительность через инструкционную настройку

Заключение и обсуждение

Основные выводы

Умеренный успех: Открытые VLM достигают умеренного успеха в бинарном обнаружении сарказма, но остаётся место для улучшения
Вызовы объяснения: Существующие модели испытывают значительные трудности при генерировании объяснений высокого качества
Важность архитектуры: Архитектура модели и цели обучения оказывают важное влияние на производительность конкретной задачи

Ограничения

Размер выборки: Размер оценочной выборки относительно ограничен (3,000 примеров на набор данных)
Языковое покрытие: В основном сосредоточено на английском языке, многоязычная оценка ограничена
Оценка объяснений: Оценка качества объяснений в основном полагается на автоматизированные метрики, отсутствует человеческая оценка

Будущие направления

Гибридные цели обучения: Разработка методов многозадачного обучения, одновременно оптимизирующих классификацию и генерацию объяснений
Подсказки цепочки мышления: Исследование CoT и многоэтапных подсказок для стимулирования более богатого рассуждения модели
Расширение знаний: Интеграция технологии RAG или внешних знаний для улучшения понимания контекста моделью
Многоязычное расширение: Расширение на больше языков и культурных контекстов обнаружения сарказма

Глубокая оценка

Преимущества

Систематическая оценка: Первая систематическая оценка нескольких открытых VLM на задачах MSD
Двойная задача: Одновременная оценка способностей классификации и объяснения обеспечивает комплексную перспективу
Практическая ценность: Предоставляет важный справочник для исследователей при выборе подходящей VLM
Открытость: Обещание открытого исходного кода и данных способствует воспроизводимым исследованиям

Недостатки

Недостаточность глубокого анализа: Качественный анализ случаев отказа моделей относительно ограничен
Ограничения метрик оценки: Оценка качества объяснений в основном полагается на выравнивание CLIP, что может быть недостаточно полным
Обновление моделей: Некоторые версии моделей относительно старые и могут не представлять последний уровень технологии

Влияние

Роль эталона: Предоставляет важную эталонную оценку для области MSD
Методологическое вдохновение: Унифицированная структура оценки может быть распространена на другие многомодальные задачи
Практическое руководство: Предоставляет справочник для выбора подходящих моделей в практических приложениях

Применимые сценарии

Анализ социальных сетей: Применимо к пониманию содержимого на платформах Twitter, Facebook и т.д.
Анализ настроений: Может служить компонентом более широкой системы анализа настроений
Модерация контента: Помогает выявлять потенциальный сарказм и язвительные комментарии

Библиография

Статья цитирует 46 связанных работ, охватывающих важные исследования в нескольких областях, включая обнаружение сарказма, многомодальное обучение и модели Vision-Language, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это высококачественная эмпирическая исследовательская работа, заполняющая пробел в оценке открытых VLM на задачах многомодального обнаружения сарказма. Исследование хорошо спроектировано, эксперименты всеобъемлющи, выводы имеют практическую ценность. Хотя есть место для улучшения в глубоком анализе и метриках оценки, работа вносит важный вклад в развитие этой области.