2025-11-14T23:01:10.895550

Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection

Basnet, Farabi, Ranasinghe et al.

Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.

academic

Evaluación de Modelos de Visión-Lenguaje de Código Abierto para Detección de Sarcasmo Multimodal

Información Básica

ID del Artículo: 2510.11852
Título: Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection
Autores: Saroj Basnet (George Mason University), Shafkat Farabi (Virginia Tech), Tharindu Ranasinghe (Lancaster University), Diptesh Kanojia (University of Surrey), Marcos Zampieri (George Mason University)
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: 13 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.11852v1

Resumen

Este estudio evalúa el desempeño de siete modelos de visión-lenguaje (VLMs) de última generación y código abierto en la tarea de detección de sarcasmo multimodal, incluyendo BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3 y Qwen-VL. La investigación utiliza estrategias de indicaciones de cero ejemplos, un ejemplo y pocos ejemplos, y evalúa la capacidad de los modelos para generar explicaciones de sarcasmo. Los experimentos se realizan en tres conjuntos de datos de referencia (Muse, MMSD2.0 y SarcNet). Los resultados muestran que, aunque los modelos actuales logran un éxito moderado en la detección binaria de sarcasmo, aún no pueden generar explicaciones de alta calidad sin ajuste fino específico de la tarea.

Contexto de Investigación y Motivación

Definición del Problema

Problema Central: Evaluar la capacidad de modelos de visión-lenguaje de código abierto en la tarea de detección de sarcasmo multimodal (MSD), incluyendo la detección y explicación de contenido sarcástico
Desafíos: El sarcasmo es un fenómeno lingüístico complejo cuyo significado intencional es contrario a la expresión literal. En entornos multimodales, el efecto sarcástico a menudo proviene de la incongruencia entre el contenido visual y textual

Importancia

Prevalencia en Redes Sociales: En plataformas de redes sociales, el sarcasmo se realiza frecuentemente a través de pares imagen-texto. Comprender esta incongruencia transmodal es crucial para el análisis de sentimientos y la comprensión de contenido
Desarrollo Tecnológico: El desarrollo de grandes modelos de visión-lenguaje proporciona nuevas oportunidades para comprender fenómenos multimodales complejos y subjetivos
Valor de Aplicación: Tiene importancia significativa para tareas como moderación de contenido en redes sociales, análisis de sentimientos e identificación de lenguaje ofensivo

Limitaciones de Métodos Existentes

Investigación Insuficiente: Aunque los VLMs muestran un desempeño excelente en diversas tareas, su desempeño en la tarea MSD aún no ha sido explorado adecuadamente
Limitaciones Metodológicas: La investigación temprana en MSD se basaba principalmente en extractores de características separados y técnicas de agregación de características, careciendo de comprensión multimodal de extremo a extremo
Capacidad de Explicación: Los modelos existentes se enfocaban principalmente en la precisión de clasificación, con investigación insuficiente sobre la capacidad de generar explicaciones de calidad humana

Contribuciones Principales

Marco de Evaluación Unificado: Proporciona un marco de aprendizaje contextual unificado que incluye plantillas de indicaciones que integran imágenes, ejemplos de pocos ejemplos y semillas de explicación, aplicable a siete VLMs diferentes
Evaluación Comparativa Sistemática: Realiza evaluación sistemática de cero ejemplos, un ejemplo y pocos ejemplos en tres conjuntos de datos de referencia MSD
Evaluación de Generación de Explicaciones: Evalúa la capacidad de cada modelo para generar explicaciones de sarcasmo en forma libre, llenando un vacío de investigación en el campo
Análisis Profundo: Revela el fenómeno de separación entre el desempeño de clasificación y la calidad de la explicación, proporcionando información importante para investigaciones futuras

Explicación Detallada del Método

Definición de la Tarea

Entrada: Pares imagen-texto (I, C), donde I es la imagen y C es el texto del título Salida:

Clasificación binaria: Determinar si el par contiene sarcasmo (Sí/No)
Generación de explicación: Para instancias sarcásticas, generar una descripción en lenguaje natural que explique la incongruencia visual-textual

Descripción de Conjuntos de Datos

Conjunto de Datos	Ejemplos Positivos	Ejemplos Negativos	Explicaciones	Multilingüe
MuSE	3,510	0	✓	×
MMSD2.0	11,651	12,980	×	×
SarcNet	1,875	1,460	×	✓

Arquitectura de Modelos

Los siete VLMs de código abierto evaluados:

InstructBLIP: Modelo ajustado por instrucciones basado en FlanT5
BLIP2 2.7B: Codificador de imagen congelado + Q-former + modelo de lenguaje grande
OpenFlamingo 3B: Adaptación de código abierto ligera de Flamingo
LLaVA 7B: Alineación visión-lenguaje lograda mediante ajuste fino adversarial
PaliGemma 3B: Modelo de mezcla de expertos multimodal
Qwen-VL 7B: Arquitectura codificador-decodificador con codificador consciente de Q
Gemma3 27B: Modelo multimodal ajustado por instrucciones

Estrategias de Indicación

Estructura de Indicación para Tarea de Clasificación:

*<instrucción_global>*
Ejemplo: (cero, uno, pocos ejemplos)
*<imagen>*
*Título:<título> Respuesta: Sí/No*
*<imagen>*
**Contexto:** {título}
¿Es esto sarcástico?

Estructura de Indicación para Generación de Explicación:

*<Contexto>:*
*<imagen>*
**Título Original**: {título}
**Explicación Proporcionada**: {explicación}
**Instrucción de Tarea**

Puntos de Innovación Técnica

Marco de Indicación Unificado: Diseña plantillas de indicación unificadas aplicables a diferentes arquitecturas VLM
Evaluación Multigranular: Combina evaluación dual de precisión de clasificación y calidad de explicación
Evaluación de Alineación Transmodal: Introduce Δ-CLIPScore para cuantificar el grado de mejora en la alineación imagen-texto

Configuración Experimental

Procesamiento de Datos

Se muestrean aleatoriamente 3,000 pares imagen-título de MMSD2.0 y SarcNet respectivamente para evaluación
Se utiliza el conjunto de datos MuSE para proporcionar ejemplos de explicación y referencia de evaluación
Los ejemplos de pocos ejemplos se muestrean de MuSE (ejemplos positivos) y MMSD2.0 (ejemplos negativos)

Métricas de Evaluación

Precisión de Clasificación: Precisión de la clasificación binaria
Δ-CLIPScore: Cuantifica la mejora en la alineación imagen-texto de la explicación generada en relación con el título de referencia
```
ΔCLIP = CLIP(IMG, G_exp) - CLIP(IMG, B_exp)
```
donde G_exp es la explicación generada y B_exp es la explicación de referencia

Detalles de Implementación

Todos los modelos se cargan con precisión de 8 bits con optimización FlashAttention habilitada
Tamaño de lote de 1, número máximo de tokens generados 100-256
Se utiliza búsqueda de haz (tamaño de haz=3)
Parámetro de temperatura establecido en 0.7

Resultados Experimentales

Desempeño de Clasificación

Conjunto de Datos	Mejor Modelo	Configuración	Precisión
SarcNet	Gemma3	Un ejemplo	0.67
SarcNet	InstructBLIP	Cero ejemplos	0.67
MMSD2.0	Gemma3	Un ejemplo	0.73
MMSD2.0	InstructBLIP	Cero ejemplos	0.64

Hallazgos Clave

Ventaja de Modelos Ajustados por Instrucciones: Gemma3 e InstructBLIP muestran el mejor desempeño en configuraciones de cero ejemplos y un ejemplo
Efecto Limitado de Pocos Ejemplos: Aumentar el número de ejemplos no resultó en mejora de desempeño, a veces incluso introduciendo ruido
Diferencias entre Conjuntos de Datos: El desempeño de los modelos en MMSD2.0 es generalmente superior al de SarcNet

Resultados de Generación de Explicación

Modelo	Media Δ-CLIPScore	Varianza
LLaVA	1.966	27.315
BLIP2	0.831	25.532
PaliGemma	0.757	16.234
InstructBLIP	0.583	27.749
Gemma3	-2.063	46.481
OpenFlamingo	-1.750	11.526
Qwen	-7.143	25.515

Hallazgos Importantes

Separación de Desempeño: El modelo con mejor desempeño en clasificación (Gemma3) muestra el peor desempeño en generación de explicación
Impacto de Arquitectura: Las arquitecturas de estilo VQA (BLIP2, LLaVA) son más adecuadas para generar explicaciones de alta calidad
Diferencias en Objetivos de Entrenamiento: Los modelos entrenados discriminativamente excelen en clasificación, mientras que los modelos entrenados generativamente son más adecuados para explicación

Trabajo Relacionado

Investigación en Detección de Sarcasmo

Detección de Sarcasmo en Texto: La investigación tradicional se enfocaba principalmente en el reconocimiento de sarcasmo en entornos de texto puro
Detección de Sarcasmo Multimodal: Schifanella et al. fueron los primeros en demostrar que la modalidad visual contiene pistas que ayudan a identificar la intención sarcástica
Métodos de Agregación de Características: Los trabajos tempranos utilizaban codificadores separados para extraer características, luego diseñaban técnicas de agregación

Modelos de Visión-Lenguaje

Modelos Preentrenados: Modelos como Flamingo y VILA demostraron capacidades de aprendizaje de cero ejemplos y pocos ejemplos
Comprensión Multimodal: Recientemente, los modelos han comenzado a enfocarse en el modelado temprano de interacciones transmodales
Ajuste por Instrucciones: Modelos como InstructBLIP mejoran el desempeño multitarea mediante ajuste por instrucciones

Conclusiones y Discusión

Conclusiones Principales

Éxito Moderado: Los VLMs de código abierto logran un éxito moderado en la detección binaria de sarcasmo, pero aún hay espacio para mejora
Desafío de Explicación: Los modelos existentes enfrentan dificultades significativas en la generación de explicaciones de alta calidad
Importancia de la Arquitectura: La arquitectura del modelo y los objetivos de entrenamiento tienen una influencia importante en el desempeño de tareas específicas

Limitaciones

Escala de Muestra: La escala de evaluación es relativamente limitada (3,000 muestras por conjunto de datos)
Cobertura Lingüística: Se enfoca principalmente en inglés, con evaluación multilingüe limitada
Evaluación de Explicación: La evaluación de calidad de explicación se basa principalmente en métricas automatizadas, careciendo de evaluación humana

Direcciones Futuras

Objetivos de Entrenamiento Híbrido: Desarrollar métodos de aprendizaje multitarea que optimicen simultáneamente la clasificación y la generación de explicación
Indicación de Cadena de Pensamiento: Explorar CoT e indicación multietapa para evocar razonamiento más rico del modelo
Mejora del Conocimiento: Integrar tecnología RAG o conocimiento externo para mejorar la comprensión contextual del modelo
Expansión Multilingüe: Extender a detección de sarcasmo en más idiomas y contextos culturales

Evaluación Profunda

Fortalezas

Evaluación Sistemática: Primera evaluación sistemática de múltiples VLMs de código abierto en la tarea MSD
Tarea Dual: Evalúa simultáneamente capacidades de clasificación y explicación, proporcionando una perspectiva integral
Valor Práctico: Proporciona referencia importante para que los investigadores seleccionen VLMs apropiados
Apertura: Se compromete a abrir el código y los datos, promoviendo investigación reproducible

Deficiencias

Análisis Profundo Insuficiente: Análisis cualitativo limitado de casos de fallo del modelo
Limitaciones de Métricas de Evaluación: La evaluación de calidad de explicación se basa principalmente en alineación CLIP, que puede no ser suficientemente completa
Actualización de Modelos: Algunas versiones de modelos son relativamente antiguas, que pueden no representar el nivel tecnológico más reciente

Impacto

Función de Referencia: Proporciona evaluación de referencia importante para el campo MSD
Inspiración Metodológica: El marco de evaluación unificado puede generalizarse a otras tareas multimodales
Orientación Práctica: Proporciona referencia para seleccionar modelos apropiados en aplicaciones prácticas

Escenarios Aplicables

Análisis de Redes Sociales: Aplicable a comprensión de contenido en plataformas como Twitter y Facebook
Análisis de Sentimientos: Puede servir como componente de sistemas de análisis de sentimientos más amplios
Moderación de Contenido: Ayuda a identificar contenido potencialmente sarcástico e irónico

Referencias

El artículo cita 46 referencias relacionadas, cubriendo trabajos importantes en múltiples campos de investigación incluyendo detección de sarcasmo, aprendizaje multimodal y modelos de visión-lenguaje, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de investigación empírica de alta calidad que llena el vacío en la evaluación de VLMs de código abierto en la tarea de detección de sarcasmo multimodal. El diseño de investigación es razonable, los experimentos son completos y las conclusiones tienen valor práctico. Aunque hay espacio para mejora en análisis profundo y métricas de evaluación, ha hecho contribuciones importantes al desarrollo del campo.