Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection
Basnet, Farabi, Ranasinghe et al.
Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.
academic
Evaluación de Modelos de Visión-Lenguaje de Código Abierto para Detección de Sarcasmo Multimodal
Este estudio evalúa el desempeño de siete modelos de visión-lenguaje (VLMs) de última generación y código abierto en la tarea de detección de sarcasmo multimodal, incluyendo BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3 y Qwen-VL. La investigación utiliza estrategias de indicaciones de cero ejemplos, un ejemplo y pocos ejemplos, y evalúa la capacidad de los modelos para generar explicaciones de sarcasmo. Los experimentos se realizan en tres conjuntos de datos de referencia (Muse, MMSD2.0 y SarcNet). Los resultados muestran que, aunque los modelos actuales logran un éxito moderado en la detección binaria de sarcasmo, aún no pueden generar explicaciones de alta calidad sin ajuste fino específico de la tarea.
Problema Central: Evaluar la capacidad de modelos de visión-lenguaje de código abierto en la tarea de detección de sarcasmo multimodal (MSD), incluyendo la detección y explicación de contenido sarcástico
Desafíos: El sarcasmo es un fenómeno lingüístico complejo cuyo significado intencional es contrario a la expresión literal. En entornos multimodales, el efecto sarcástico a menudo proviene de la incongruencia entre el contenido visual y textual
Prevalencia en Redes Sociales: En plataformas de redes sociales, el sarcasmo se realiza frecuentemente a través de pares imagen-texto. Comprender esta incongruencia transmodal es crucial para el análisis de sentimientos y la comprensión de contenido
Desarrollo Tecnológico: El desarrollo de grandes modelos de visión-lenguaje proporciona nuevas oportunidades para comprender fenómenos multimodales complejos y subjetivos
Valor de Aplicación: Tiene importancia significativa para tareas como moderación de contenido en redes sociales, análisis de sentimientos e identificación de lenguaje ofensivo
Investigación Insuficiente: Aunque los VLMs muestran un desempeño excelente en diversas tareas, su desempeño en la tarea MSD aún no ha sido explorado adecuadamente
Limitaciones Metodológicas: La investigación temprana en MSD se basaba principalmente en extractores de características separados y técnicas de agregación de características, careciendo de comprensión multimodal de extremo a extremo
Capacidad de Explicación: Los modelos existentes se enfocaban principalmente en la precisión de clasificación, con investigación insuficiente sobre la capacidad de generar explicaciones de calidad humana
Marco de Evaluación Unificado: Proporciona un marco de aprendizaje contextual unificado que incluye plantillas de indicaciones que integran imágenes, ejemplos de pocos ejemplos y semillas de explicación, aplicable a siete VLMs diferentes
Evaluación Comparativa Sistemática: Realiza evaluación sistemática de cero ejemplos, un ejemplo y pocos ejemplos en tres conjuntos de datos de referencia MSD
Evaluación de Generación de Explicaciones: Evalúa la capacidad de cada modelo para generar explicaciones de sarcasmo en forma libre, llenando un vacío de investigación en el campo
Análisis Profundo: Revela el fenómeno de separación entre el desempeño de clasificación y la calidad de la explicación, proporcionando información importante para investigaciones futuras
Separación de Desempeño: El modelo con mejor desempeño en clasificación (Gemma3) muestra el peor desempeño en generación de explicación
Impacto de Arquitectura: Las arquitecturas de estilo VQA (BLIP2, LLaVA) son más adecuadas para generar explicaciones de alta calidad
Diferencias en Objetivos de Entrenamiento: Los modelos entrenados discriminativamente excelen en clasificación, mientras que los modelos entrenados generativamente son más adecuados para explicación
Detección de Sarcasmo en Texto: La investigación tradicional se enfocaba principalmente en el reconocimiento de sarcasmo en entornos de texto puro
Detección de Sarcasmo Multimodal: Schifanella et al. fueron los primeros en demostrar que la modalidad visual contiene pistas que ayudan a identificar la intención sarcástica
Métodos de Agregación de Características: Los trabajos tempranos utilizaban codificadores separados para extraer características, luego diseñaban técnicas de agregación
Éxito Moderado: Los VLMs de código abierto logran un éxito moderado en la detección binaria de sarcasmo, pero aún hay espacio para mejora
Desafío de Explicación: Los modelos existentes enfrentan dificultades significativas en la generación de explicaciones de alta calidad
Importancia de la Arquitectura: La arquitectura del modelo y los objetivos de entrenamiento tienen una influencia importante en el desempeño de tareas específicas
Objetivos de Entrenamiento Híbrido: Desarrollar métodos de aprendizaje multitarea que optimicen simultáneamente la clasificación y la generación de explicación
Indicación de Cadena de Pensamiento: Explorar CoT e indicación multietapa para evocar razonamiento más rico del modelo
Mejora del Conocimiento: Integrar tecnología RAG o conocimiento externo para mejorar la comprensión contextual del modelo
Expansión Multilingüe: Extender a detección de sarcasmo en más idiomas y contextos culturales
Análisis Profundo Insuficiente: Análisis cualitativo limitado de casos de fallo del modelo
Limitaciones de Métricas de Evaluación: La evaluación de calidad de explicación se basa principalmente en alineación CLIP, que puede no ser suficientemente completa
Actualización de Modelos: Algunas versiones de modelos son relativamente antiguas, que pueden no representar el nivel tecnológico más reciente
El artículo cita 46 referencias relacionadas, cubriendo trabajos importantes en múltiples campos de investigación incluyendo detección de sarcasmo, aprendizaje multimodal y modelos de visión-lenguaje, proporcionando una base teórica sólida para la investigación.
Evaluación General: Este es un artículo de investigación empírica de alta calidad que llena el vacío en la evaluación de VLMs de código abierto en la tarea de detección de sarcasmo multimodal. El diseño de investigación es razonable, los experimentos son completos y las conclusiones tienen valor práctico. Aunque hay espacio para mejora en análisis profundo y métricas de evaluación, ha hecho contribuciones importantes al desarrollo del campo.