2025-11-14T23:01:10.895550

Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection

Basnet, Farabi, Ranasinghe et al.
Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.
academic

Evaluación de Modelos de Visión-Lenguaje de Código Abierto para Detección de Sarcasmo Multimodal

Información Básica

  • ID del Artículo: 2510.11852
  • Título: Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection
  • Autores: Saroj Basnet (George Mason University), Shafkat Farabi (Virginia Tech), Tharindu Ranasinghe (Lancaster University), Diptesh Kanojia (University of Surrey), Marcos Zampieri (George Mason University)
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 13 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.11852v1

Resumen

Este estudio evalúa el desempeño de siete modelos de visión-lenguaje (VLMs) de última generación y código abierto en la tarea de detección de sarcasmo multimodal, incluyendo BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3 y Qwen-VL. La investigación utiliza estrategias de indicaciones de cero ejemplos, un ejemplo y pocos ejemplos, y evalúa la capacidad de los modelos para generar explicaciones de sarcasmo. Los experimentos se realizan en tres conjuntos de datos de referencia (Muse, MMSD2.0 y SarcNet). Los resultados muestran que, aunque los modelos actuales logran un éxito moderado en la detección binaria de sarcasmo, aún no pueden generar explicaciones de alta calidad sin ajuste fino específico de la tarea.

Contexto de Investigación y Motivación

Definición del Problema

  1. Problema Central: Evaluar la capacidad de modelos de visión-lenguaje de código abierto en la tarea de detección de sarcasmo multimodal (MSD), incluyendo la detección y explicación de contenido sarcástico
  2. Desafíos: El sarcasmo es un fenómeno lingüístico complejo cuyo significado intencional es contrario a la expresión literal. En entornos multimodales, el efecto sarcástico a menudo proviene de la incongruencia entre el contenido visual y textual

Importancia

  1. Prevalencia en Redes Sociales: En plataformas de redes sociales, el sarcasmo se realiza frecuentemente a través de pares imagen-texto. Comprender esta incongruencia transmodal es crucial para el análisis de sentimientos y la comprensión de contenido
  2. Desarrollo Tecnológico: El desarrollo de grandes modelos de visión-lenguaje proporciona nuevas oportunidades para comprender fenómenos multimodales complejos y subjetivos
  3. Valor de Aplicación: Tiene importancia significativa para tareas como moderación de contenido en redes sociales, análisis de sentimientos e identificación de lenguaje ofensivo

Limitaciones de Métodos Existentes

  1. Investigación Insuficiente: Aunque los VLMs muestran un desempeño excelente en diversas tareas, su desempeño en la tarea MSD aún no ha sido explorado adecuadamente
  2. Limitaciones Metodológicas: La investigación temprana en MSD se basaba principalmente en extractores de características separados y técnicas de agregación de características, careciendo de comprensión multimodal de extremo a extremo
  3. Capacidad de Explicación: Los modelos existentes se enfocaban principalmente en la precisión de clasificación, con investigación insuficiente sobre la capacidad de generar explicaciones de calidad humana

Contribuciones Principales

  1. Marco de Evaluación Unificado: Proporciona un marco de aprendizaje contextual unificado que incluye plantillas de indicaciones que integran imágenes, ejemplos de pocos ejemplos y semillas de explicación, aplicable a siete VLMs diferentes
  2. Evaluación Comparativa Sistemática: Realiza evaluación sistemática de cero ejemplos, un ejemplo y pocos ejemplos en tres conjuntos de datos de referencia MSD
  3. Evaluación de Generación de Explicaciones: Evalúa la capacidad de cada modelo para generar explicaciones de sarcasmo en forma libre, llenando un vacío de investigación en el campo
  4. Análisis Profundo: Revela el fenómeno de separación entre el desempeño de clasificación y la calidad de la explicación, proporcionando información importante para investigaciones futuras

Explicación Detallada del Método

Definición de la Tarea

Entrada: Pares imagen-texto (I, C), donde I es la imagen y C es el texto del título Salida:

  1. Clasificación binaria: Determinar si el par contiene sarcasmo (Sí/No)
  2. Generación de explicación: Para instancias sarcásticas, generar una descripción en lenguaje natural que explique la incongruencia visual-textual

Descripción de Conjuntos de Datos

Conjunto de DatosEjemplos PositivosEjemplos NegativosExplicacionesMultilingüe
MuSE3,5100×
MMSD2.011,65112,980××
SarcNet1,8751,460×

Arquitectura de Modelos

Los siete VLMs de código abierto evaluados:

  1. InstructBLIP: Modelo ajustado por instrucciones basado en FlanT5
  2. BLIP2 2.7B: Codificador de imagen congelado + Q-former + modelo de lenguaje grande
  3. OpenFlamingo 3B: Adaptación de código abierto ligera de Flamingo
  4. LLaVA 7B: Alineación visión-lenguaje lograda mediante ajuste fino adversarial
  5. PaliGemma 3B: Modelo de mezcla de expertos multimodal
  6. Qwen-VL 7B: Arquitectura codificador-decodificador con codificador consciente de Q
  7. Gemma3 27B: Modelo multimodal ajustado por instrucciones

Estrategias de Indicación

Estructura de Indicación para Tarea de Clasificación:

*<instrucción_global>*
Ejemplo: (cero, uno, pocos ejemplos)
*<imagen>*
*Título:<título> Respuesta: Sí/No*
*<imagen>*
**Contexto:** {título}
¿Es esto sarcástico?

Estructura de Indicación para Generación de Explicación:

*<Contexto>:*
*<imagen>*
**Título Original**: {título}
**Explicación Proporcionada**: {explicación}
**Instrucción de Tarea**

Puntos de Innovación Técnica

  1. Marco de Indicación Unificado: Diseña plantillas de indicación unificadas aplicables a diferentes arquitecturas VLM
  2. Evaluación Multigranular: Combina evaluación dual de precisión de clasificación y calidad de explicación
  3. Evaluación de Alineación Transmodal: Introduce Δ-CLIPScore para cuantificar el grado de mejora en la alineación imagen-texto

Configuración Experimental

Procesamiento de Datos

  • Se muestrean aleatoriamente 3,000 pares imagen-título de MMSD2.0 y SarcNet respectivamente para evaluación
  • Se utiliza el conjunto de datos MuSE para proporcionar ejemplos de explicación y referencia de evaluación
  • Los ejemplos de pocos ejemplos se muestrean de MuSE (ejemplos positivos) y MMSD2.0 (ejemplos negativos)

Métricas de Evaluación

  1. Precisión de Clasificación: Precisión de la clasificación binaria
  2. Δ-CLIPScore: Cuantifica la mejora en la alineación imagen-texto de la explicación generada en relación con el título de referencia
    ΔCLIP = CLIP(IMG, G_exp) - CLIP(IMG, B_exp)
    
    donde G_exp es la explicación generada y B_exp es la explicación de referencia

Detalles de Implementación

  • Todos los modelos se cargan con precisión de 8 bits con optimización FlashAttention habilitada
  • Tamaño de lote de 1, número máximo de tokens generados 100-256
  • Se utiliza búsqueda de haz (tamaño de haz=3)
  • Parámetro de temperatura establecido en 0.7

Resultados Experimentales

Desempeño de Clasificación

Conjunto de DatosMejor ModeloConfiguraciónPrecisión
SarcNetGemma3Un ejemplo0.67
SarcNetInstructBLIPCero ejemplos0.67
MMSD2.0Gemma3Un ejemplo0.73
MMSD2.0InstructBLIPCero ejemplos0.64

Hallazgos Clave

  1. Ventaja de Modelos Ajustados por Instrucciones: Gemma3 e InstructBLIP muestran el mejor desempeño en configuraciones de cero ejemplos y un ejemplo
  2. Efecto Limitado de Pocos Ejemplos: Aumentar el número de ejemplos no resultó en mejora de desempeño, a veces incluso introduciendo ruido
  3. Diferencias entre Conjuntos de Datos: El desempeño de los modelos en MMSD2.0 es generalmente superior al de SarcNet

Resultados de Generación de Explicación

ModeloMedia Δ-CLIPScoreVarianza
LLaVA1.96627.315
BLIP20.83125.532
PaliGemma0.75716.234
InstructBLIP0.58327.749
Gemma3-2.06346.481
OpenFlamingo-1.75011.526
Qwen-7.14325.515

Hallazgos Importantes

  1. Separación de Desempeño: El modelo con mejor desempeño en clasificación (Gemma3) muestra el peor desempeño en generación de explicación
  2. Impacto de Arquitectura: Las arquitecturas de estilo VQA (BLIP2, LLaVA) son más adecuadas para generar explicaciones de alta calidad
  3. Diferencias en Objetivos de Entrenamiento: Los modelos entrenados discriminativamente excelen en clasificación, mientras que los modelos entrenados generativamente son más adecuados para explicación

Trabajo Relacionado

Investigación en Detección de Sarcasmo

  1. Detección de Sarcasmo en Texto: La investigación tradicional se enfocaba principalmente en el reconocimiento de sarcasmo en entornos de texto puro
  2. Detección de Sarcasmo Multimodal: Schifanella et al. fueron los primeros en demostrar que la modalidad visual contiene pistas que ayudan a identificar la intención sarcástica
  3. Métodos de Agregación de Características: Los trabajos tempranos utilizaban codificadores separados para extraer características, luego diseñaban técnicas de agregación

Modelos de Visión-Lenguaje

  1. Modelos Preentrenados: Modelos como Flamingo y VILA demostraron capacidades de aprendizaje de cero ejemplos y pocos ejemplos
  2. Comprensión Multimodal: Recientemente, los modelos han comenzado a enfocarse en el modelado temprano de interacciones transmodales
  3. Ajuste por Instrucciones: Modelos como InstructBLIP mejoran el desempeño multitarea mediante ajuste por instrucciones

Conclusiones y Discusión

Conclusiones Principales

  1. Éxito Moderado: Los VLMs de código abierto logran un éxito moderado en la detección binaria de sarcasmo, pero aún hay espacio para mejora
  2. Desafío de Explicación: Los modelos existentes enfrentan dificultades significativas en la generación de explicaciones de alta calidad
  3. Importancia de la Arquitectura: La arquitectura del modelo y los objetivos de entrenamiento tienen una influencia importante en el desempeño de tareas específicas

Limitaciones

  1. Escala de Muestra: La escala de evaluación es relativamente limitada (3,000 muestras por conjunto de datos)
  2. Cobertura Lingüística: Se enfoca principalmente en inglés, con evaluación multilingüe limitada
  3. Evaluación de Explicación: La evaluación de calidad de explicación se basa principalmente en métricas automatizadas, careciendo de evaluación humana

Direcciones Futuras

  1. Objetivos de Entrenamiento Híbrido: Desarrollar métodos de aprendizaje multitarea que optimicen simultáneamente la clasificación y la generación de explicación
  2. Indicación de Cadena de Pensamiento: Explorar CoT e indicación multietapa para evocar razonamiento más rico del modelo
  3. Mejora del Conocimiento: Integrar tecnología RAG o conocimiento externo para mejorar la comprensión contextual del modelo
  4. Expansión Multilingüe: Extender a detección de sarcasmo en más idiomas y contextos culturales

Evaluación Profunda

Fortalezas

  1. Evaluación Sistemática: Primera evaluación sistemática de múltiples VLMs de código abierto en la tarea MSD
  2. Tarea Dual: Evalúa simultáneamente capacidades de clasificación y explicación, proporcionando una perspectiva integral
  3. Valor Práctico: Proporciona referencia importante para que los investigadores seleccionen VLMs apropiados
  4. Apertura: Se compromete a abrir el código y los datos, promoviendo investigación reproducible

Deficiencias

  1. Análisis Profundo Insuficiente: Análisis cualitativo limitado de casos de fallo del modelo
  2. Limitaciones de Métricas de Evaluación: La evaluación de calidad de explicación se basa principalmente en alineación CLIP, que puede no ser suficientemente completa
  3. Actualización de Modelos: Algunas versiones de modelos son relativamente antiguas, que pueden no representar el nivel tecnológico más reciente

Impacto

  1. Función de Referencia: Proporciona evaluación de referencia importante para el campo MSD
  2. Inspiración Metodológica: El marco de evaluación unificado puede generalizarse a otras tareas multimodales
  3. Orientación Práctica: Proporciona referencia para seleccionar modelos apropiados en aplicaciones prácticas

Escenarios Aplicables

  1. Análisis de Redes Sociales: Aplicable a comprensión de contenido en plataformas como Twitter y Facebook
  2. Análisis de Sentimientos: Puede servir como componente de sistemas de análisis de sentimientos más amplios
  3. Moderación de Contenido: Ayuda a identificar contenido potencialmente sarcástico e irónico

Referencias

El artículo cita 46 referencias relacionadas, cubriendo trabajos importantes en múltiples campos de investigación incluyendo detección de sarcasmo, aprendizaje multimodal y modelos de visión-lenguaje, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de investigación empírica de alta calidad que llena el vacío en la evaluación de VLMs de código abierto en la tarea de detección de sarcasmo multimodal. El diseño de investigación es razonable, los experimentos son completos y las conclusiones tienen valor práctico. Aunque hay espacio para mejora en análisis profundo y métricas de evaluación, ha hecho contribuciones importantes al desarrollo del campo.