Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection
Basnet, Farabi, Ranasinghe et al.
Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.
academic
Оценка открытых моделей Vision-Language для обнаружения многомодального сарказма
В данном исследовании оценивается производительность семи передовых открытых моделей Vision-Language (VLM) при решении задачи многомодального обнаружения сарказма, включая BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3 и Qwen-VL. Исследование использует стратегии нулевого, одного и нескольких примеров, а также оценивает способность моделей генерировать объяснения сарказма. Эксперименты проводятся на трёх эталонных наборах данных (Muse, MMSD2.0 и SarcNet). Результаты показывают, что, хотя текущие модели достигают умеренного успеха в бинарном обнаружении сарказма, они не могут генерировать объяснения высокого качества без специализированной настройки задачи.
Основная проблема: Оценка способности открытых моделей Vision-Language выполнять задачи многомодального обнаружения сарказма (MSD), включая обнаружение и объяснение сарказма
Сложность: Сарказм — это сложное языковое явление, при котором предполагаемое значение противоположно буквальному выражению. В многомодальной среде сарказм часто возникает из несоответствия между визуальным и текстовым содержимым
Распространённость в социальных сетях: На социальных платформах сарказм часто реализуется через пары изображений и текста. Понимание такого кросс-модального несоответствия критически важно для анализа настроений и понимания содержимого
Развитие технологии: Развитие больших моделей Vision-Language открывает новые возможности для понимания сложных субъективных многомодальных явлений
Практическая ценность: Имеет важное значение для модерации контента в социальных сетях, анализа настроений и выявления оскорбительного языка
Недостаточность исследований: Хотя VLM показывают отличные результаты на различных задачах, их производительность на задачах MSD остаётся недостаточно изученной
Методологические ограничения: Ранние исследования MSD в основном полагались на отдельные извлекатели признаков и методы агрегации признаков, не обеспечивая сквозное многомодальное понимание
Способность к объяснению: Существующие модели в основном сосредоточены на точности классификации, а способность генерировать объяснения человеческого качества остаётся недостаточно изученной
Унифицированная структура оценки: Предоставляет унифицированную структуру контекстного обучения, включающую интегрированные изображения, примеры с несколькими примерами и семена объяснений, применимые к семи различным VLM
Систематическое тестирование: Проводит систематическую оценку нулевого, одного и нескольких примеров на трёх эталонных наборах данных MSD
Оценка генерации объяснений: Оценивает способность каждой модели генерировать объяснения сарказма в свободной форме, заполняя пробел в исследованиях этой области
Углубленный анализ: Выявляет разделение между производительностью классификации и качеством объяснений, предоставляя важные идеи для будущих исследований
Разделение производительности: Модель с лучшей производительностью классификации (Gemma3) показывает худшие результаты при генерации объяснений
Влияние архитектуры: Архитектуры в стиле VQA (BLIP2, LLaVA) лучше подходят для генерации высококачественных объяснений
Различия в целях обучения: Модели с дискриминативным обучением преуспевают в классификации, модели с генеративным обучением лучше подходят для объяснений
Обнаружение текстового сарказма: Традиционные исследования в основном сосредоточены на распознавании сарказма в чистой текстовой среде
Многомодальное обнаружение сарказма: Schifanella и др. впервые доказали, что визуальная модальность содержит подсказки, помогающие выявить намерение сарказма
Методы агрегации признаков: Ранние работы использовали отдельные кодировщики для извлечения признаков, а затем разработали методы агрегации
Статья цитирует 46 связанных работ, охватывающих важные исследования в нескольких областях, включая обнаружение сарказма, многомодальное обучение и модели Vision-Language, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Это высококачественная эмпирическая исследовательская работа, заполняющая пробел в оценке открытых VLM на задачах многомодального обнаружения сарказма. Исследование хорошо спроектировано, эксперименты всеобъемлющи, выводы имеют практическую ценность. Хотя есть место для улучшения в глубоком анализе и метриках оценки, работа вносит важный вклад в развитие этой области.