2025-11-21T10:07:15.918989

RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos

Yang, Li, Diao et al.

Recently, Multi-modal Large Language Models (MLLMs) have demonstrated significant performance across various video understanding tasks. However, their robustness, particularly when faced with manipulated video content, remains largely unexplored. In this paper, we introduce Ro-Bench, the first benchmark for evaluating MLLMs on dynamic out-of-distribution (OOD) counterfactual video test sets. Ro-Bench incorporates high-quality, diverse and temporally relevant video data, by editing Style, Object, Background and their compositions. We evaluated eight recent video MLLMs and found that current models exhibit substantial performance degradation on Ro-Bench when exposed to counterfactual video content. Furthermore, we demonstrate that fine-tuning MLLMs with counterfactual data enhances robustness, achieving a 21.73% performance increase on Ro-Bench and a 12.78% improvement across 20 tasks in the MVBench dataset. These findings underscore the effectiveness of counterfactual data in enhancing the video understanding ability of MLLMs. The code and data will be released shortly.

academic

RO-Bench: Evaluación a gran escala de la robustez de MLLMs con videos contrafácticos impulsados por texto

Información Básica

ID del Artículo: 2510.08936
Título: RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos
Autores: Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang (Universidad de Correos y Telecomunicaciones de Beijing)
Clasificación: cs.CV cs.AI
Fecha de Publicación: 2025 (preimpresión)
Enlace del Artículo: https://arxiv.org/abs/2510.08936

Resumen

En años recientes, los modelos de lenguaje grandes multimodales (MLLMs) han demostrado un desempeño excepcional en diversas tareas de comprensión de video. Sin embargo, su robustez ante contenido de video manipulado sigue siendo insuficientemente explorada. Este artículo presenta RO-Bench, el primer conjunto de pruebas de videos contrafácticos fuera de distribución (OOD) dinámicos diseñado para evaluar el desempeño de MLLMs. RO-Bench integra datos de video de alta calidad, diversos y temporalmente relevantes mediante ediciones de estilo, objetos, fondos y sus combinaciones. Los autores evaluaron 8 MLLMs de video de última generación, descubriendo que los modelos actuales exhiben una degradación significativa del desempeño ante contenido de video contrafáctico. Además, el estudio demuestra que el ajuste fino de MLLMs con datos contrafácticos mejora la robustez, logrando una mejora del desempeño del 21.73% en RO-Bench y una mejora promedio del 12.78% en las 20 tareas del conjunto de datos MVBench.

Antecedentes y Motivación de la Investigación

Definición del Problema

Con la aplicación generalizada de modelos de lenguaje grandes multimodales en tareas de comprensión de video, particularmente en el despliegue en dominios de alto riesgo como moderación de contenido de video, conducción autónoma y vigilancia en tiempo real, garantizar la robustez del modelo se ha vuelto crítico. Aunque los modelos existentes funcionan bien en entornos controlados, sigue siendo desconocido si pueden mantener su desempeño ante entradas manipuladas u alteradas.

Importancia de la Investigación

Necesidades de Aplicación Práctica: En escenarios de aplicación de alto riesgo, los modelos deben mantener un desempeño estable ante diversas variaciones visuales
Consideraciones de Seguridad: Los atacantes malintencionados podrían engañar a los modelos mediante edición de video, creando riesgos de seguridad
Vacío en la Evaluación: Las evaluaciones de robustez existentes se concentran principalmente en imágenes estáticas, faltando evaluaciones sistemáticas en el dominio de video

Limitaciones de Métodos Existentes

Limitaciones de Imágenes Estáticas: Puntos de referencia como LANCE se enfocaban principalmente en la generación contrafáctica de imágenes estáticas
Perturbaciones Simples: Las evaluaciones de robustez de video existentes empleaban principalmente pruebas de ruido o corrupción, ignorando la dinámica temporal rica de videos del mundo real
Falta de Sistematicidad: Ausencia de un marco de evaluación de robustez integral para MLLMs de video

Motivación de la Investigación

Este artículo tiene como objetivo responder dos preguntas de investigación fundamentales:

RQ1: ¿Cómo se desempeñan los MLLMs en videos contrafácticos y qué desafíos específicos enfrentan al comprender contenido de video editado?
RQ2: ¿Cómo afecta el uso de videos contrafácticos al desempeño de MLLMs y puede mejorar su capacidad de comprender e interpretar contenido de video complejo?

Contribuciones Principales

Primer Punto de Referencia de Robustez de Video: Propone RO-Bench, el primer conjunto de pruebas de videos contrafácticos diseñado específicamente para evaluar la robustez de MLLMs de video
Métricas de Evaluación Innovadoras: Introduce cuatro métricas de evaluación innovadoras para evaluar el impacto de indicaciones de texto y videos originales en resultados editados, asegurando datos de alta calidad
Evaluación Integral de Robustez: Realiza una evaluación exhaustiva de MLLMs de video convencionales, revelando insuficiencias de robustez en la comprensión de video
Validación de Estrategias de Entrenamiento: Demuestra que el entrenamiento con datos contrafácticos puede mejorar el desempeño en RO-Bench y el desempeño general en otras tareas de referencia

Explicación Detallada del Método

Definición de la Tarea

RO-Bench tiene como objetivo evaluar la robustez de MLLMs de video ante contenido de video contrafáctico. Las tareas incluyen:

Entrada: Video original y video editado contrafáctico correspondiente
Salida: Respuestas de opción múltiple para cuatro tareas de comprensión de video (reconocimiento de acciones, reconocimiento de objetos, juicio de existencia de objetos, descripción de video)
Evaluación: Comparación de diferencias de desempeño del modelo entre videos originales y editados

Proceso de Construcción de Datos

1. Recopilación de Fuentes de Datos

Fuentes de Conjuntos de Datos: Conjuntos de datos públicos como DAVIS, TGVE, MSR-VTT, BalanceCC e Internet
Clasificación de Contenido: Cuatro tipos de sujetos (humanos, animales, paisajes, objetos)
Tipos de Tareas: Reconocimiento de Acciones (AR), Reconocimiento de Objetos (OR), Existencia de Objetos (OE), Descripción de Video (VC)

2. Generación de Videos Contrafácticos

Estrategias de Edición de Subtítulos:

Descomposición de subtítulos de video en componentes estructurados: atributos de objetos, acciones de objetos, fondos, estilos
Edición de subtítulos basada en estos cuatro factores visuales

Proceso de Edición de Video:

Utilización de modelos de edición de video impulsados por texto de última generación
Propuesta de cuatro métricas de evaluación clave: Nivel de Alucinación (FL), Complejidad de Escena (SC), Movimiento de Cámara (CM), Movimiento de Objeto (OM)
Selección de los tres mejores modelos de edición basada en resultados de evaluación
Realización de filtrado manual riguroso para asegurar calidad de video

3. Generación de Pares de Preguntas y Respuestas

Generación Automática de Preguntas:

Utilización de GPT-4o para generar preguntas para cada video basadas en definiciones de tareas
Construcción de opciones de respuesta correspondientes según tipos de tareas

Estrategia de Generación de Opciones:

Adopción de anotaciones: Extracción directa de respuestas correctas de anotaciones reales
Generación basada en LLM: Provisión de opciones "sí", "no", "incierto" para tareas de existencia de objetos
Diseño de Distractores: Aseguramiento de que ni sean demasiado simples ni demasiado difíciles, manteniendo relevancia y diversidad

Puntos de Innovación Técnica

Estrategia de Edición Multidimensional: Edición sistemática de video desde tres dimensiones: estilo, objetos y fondos
Sistema de Evaluación de Calidad: Propuesta de cuatro métricas cuantitativas para evaluar calidad de edición, asegurando generación de videos contrafácticos de alta calidad
Diversidad de Tareas: Cobertura de cuatro tareas principales de comprensión de video, evaluación integral de capacidades del modelo
Tubería Automatizada: Construcción de tubería de generación y evaluación de datos automatizada de extremo a extremo

Configuración Experimental

Escala del Conjunto de Datos

Datos de Video: 2.1k pares de video-subtítulo de alta calidad
Pares de Preguntas y Respuestas: 8.6k preguntas de opción múltiple
Conjunto de Entrenamiento: 332 videos originales, 1328 muestras de video contrafáctico, 6640 pares de preguntas y respuestas

Métricas de Evaluación

Origin: Precisión de prueba en videos originales
Edit: Precisión de prueba en videos editados
Drop: Magnitud de degradación del desempeño (Origin - Edit)

Métodos de Comparación

Evaluación de 8 MLLMs de video convencionales:

Codificadores de Video Grandes o Ajustados: VideoChat, VideoChat2, VideoLLaMA2, VideoLLaVA, VideoLLaMA3
Codificador CLIP ViT/L-14: VideoChatGPT, mPLUG-Owl3, LLaVA-Next

Detalles de Implementación

Utilización de LLaVA-Next como modelo base para ajuste fino
Construcción de LLaVA-NextRo (entrenado con datos contrafácticos) y LLaVA-Nextori (entrenado con datos originales) para comparación

Resultados Experimentales

Resultados Principales

Evaluación Integral de Robustez

Como se puede ver en la Tabla 1, todos los modelos exhiben degradación significativa del desempeño en videos contrafácticos:

Degradación Promedio de Desempeño: 17.57%
Mejor Robustez: VideoChat2 (degradación del 10.34%)
Peor Robustez: LLaVA-Nextori (degradación del 30.85%)

Impacto de Factores de Edición en el Desempeño del Modelo

Diferencias en Sensibilidad de Tareas: La tarea de reconocimiento de acciones se ve más afectada (degradación del 23.99%), mientras que la tarea de existencia de objetos se ve menos afectada (degradación del 11.54%)
Impacto de Factores de Edición: Los cambios de objetos tienen mayor impacto en modelos que cambios de estilo y fondo
Impacto de Arquitectura: Los modelos con codificadores de video más grandes o ajustados funcionan mejor que aquellos con ViT/L-14 de CLIP congelado

Resultados del Modelo Ajustado

Mejora de Desempeño en RO-Bench

LLaVA-NextRo: Logra el mejor desempeño en evaluación de robustez, con degradación de precisión de solo 4.83%
Relativo a LLaVA-Next: Mejora significativa del 21.73% en métricas de robustez
Relativo a LLaVA-Nextori: Demuestra las ventajas del entrenamiento con datos contrafácticos

Mejora de Capacidades Generales de Comprensión de Video

En las 20 tareas descendentes de MVBench:

Mejora Promedio de Desempeño: 12.78%
Tareas Relacionadas con Acciones y Objetos: Exhiben mejoras más significativas
Mejora Máxima de Tareas: Logra el mejor desempeño en múltiples tareas

Hallazgos de Estudios de Ablación

Análisis de Factores de Edición: La edición de objetos tiene el mayor impacto en el desempeño del modelo, seguida por estilo y fondo
Comparación de Arquitecturas: Codificadores de video más potentes son cruciales para mejorar la robustez
Especificidad de Tareas: Las tareas de razonamiento temporal (como reconocimiento de acciones) son más susceptibles a perturbaciones visuales

Trabajo Relacionado

Modelos de Lenguaje Grandes Multimodales

En años recientes, los MLLMs han logrado avances significativos en tareas de comprensión de video, pero la evaluación de robustez se ha rezagado.

Evaluación de Robustez

Dominio de Imágenes: Trabajos como LANCE utilizan generación de imágenes contrafácticas para evaluar desempeño del modelo
Dominio de Video: Los trabajos existentes se enfocaban principalmente en pruebas de ruido y corrupción, careciendo de evaluación contrafáctica sistemática

Aumento de Datos Contrafácticos

Los datos contrafácticos han mostrado potencial en mejorar la capacidad de generalización del modelo, pero su aplicación en MLLMs de video sigue siendo por explorar.

Conclusiones y Discusión

Conclusiones Principales

Insuficiencia de Robustez: Los MLLMs de video actuales exhiben degradación significativa del desempeño ante contenido de video contrafáctico
Diferencias de Tareas: Existen diferencias en la sensibilidad de diferentes tareas a variaciones visuales, siendo las tareas relacionadas con lo temporal más susceptibles
Importancia de Arquitectura: Codificadores de video más potentes son cruciales para mejorar la robustez
Efectividad del Entrenamiento: El ajuste fino con datos contrafácticos puede mejorar efectivamente la robustez del modelo y el desempeño general

Limitaciones

Escala de Datos: La escala actual del conjunto de datos es relativamente pequeña, lo que puede limitar la exhaustividad de la evaluación
Calidad de Edición: A pesar del control de calidad, los videos contrafácticos generados pueden carecer de naturalidad
Alcance de Evaluación: Se enfoca principalmente en edición visual, sin cubrir otros tipos de perturbaciones (como audio, perturbaciones temporales)
Cobertura de Modelos: El número de modelos evaluados es limitado, lo que puede no representar completamente el nivel tecnológico actual

Direcciones Futuras

Extensión de Tipos de Edición: Exploración de más tipos de edición de video y métodos de perturbación
Conjunto de Datos a Gran Escala: Construcción de conjunto de datos de videos contrafácticos más grande y diverso
Análisis Teórico: Análisis profundo de las causas fundamentales de insuficiencia de robustez en MLLMs
Mecanismos de Defensa: Desarrollo de estrategias de defensa especializadas para mejorar la robustez del modelo

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera propuesta sistemática de punto de referencia de evaluación de robustez para MLLMs de video, llenando un vacío de investigación importante
Método Completo: Construcción de marco de evaluación integral desde generación de datos, control de calidad hasta métricas de evaluación
Experimentación Exhaustiva: Evaluación de múltiples modelos convencionales, proporcionando análisis comparativo de desempeño integral
Valor Práctico Alto: No solo proporciona punto de referencia de evaluación, sino que también demuestra la efectividad de datos contrafácticos en mejorar desempeño del modelo
Técnica Sólida: Utilización de tecnología de edición de video de última generación, asegurando generación de videos contrafácticos de alta calidad

Deficiencias

Limitación de Escala de Datos: La escala de datos de RO-Bench es relativamente pequeña en comparación con otros puntos de referencia a gran escala
Limitación de Dimensiones de Edición: Se enfoca principalmente en tres dimensiones (estilo, objetos, fondos), lo que puede omitir otros tipos de perturbaciones importantes
Métricas de Evaluación Simples: Utiliza principalmente precisión como métrica de evaluación, careciendo de análisis de indicadores más granulares
Análisis Teórico Insuficiente: Falta análisis teórico profundo de las causas fundamentales de insuficiencia de robustez del modelo

Impacto

Contribución Académica: Proporciona punto de referencia importante y marco de investigación para evaluación de robustez de MLLMs de video
Valor Práctico: Tiene importancia significativa para guiar despliegue de MLLMs de video en escenarios de aplicación de alto riesgo
Inspiración para Investigación: Proporciona base importante y referencia para investigación relacionada posterior
Reproducibilidad: Compromiso de código abierto y datos, beneficiando desarrollo de comunidad de investigación

Escenarios Aplicables

Evaluación de Modelos: Aplicable a evaluación de robustez de diversos MLLMs de video
Mejora de Modelos: Puede utilizarse para guiar diseño de arquitectura de modelos y optimización de estrategias de entrenamiento
Despliegue de Aplicaciones: Proporciona evaluación de seguridad para despliegue de modelos en escenarios de aplicación de alto riesgo
Punto de Referencia de Investigación: Puede servir como punto de referencia de evaluación estándar para investigación relacionada futura

Referencias

Este artículo cita múltiples trabajos relacionados importantes, incluyendo:

MLLMs de Video: VideoChat, VideoLLaMA, LLaVA-Next, etc.
Evaluación de Robustez: LANCE, OOD-CV, etc.
Edición de Video: Tune-a-Video, CCEdit, etc.
Puntos de Referencia de Evaluación: MVBench, DAVIS, etc.

Evaluación General: Este es un artículo de investigación de alta calidad que aborda sistemáticamente por primera vez el importante problema de evaluación de robustez de MLLMs de video. El artículo demuestra un desempeño excepcional en innovación técnica, diseño experimental y valor práctico, realizando contribuciones importantes al desarrollo del campo. Aunque hay espacio para mejora en escala de datos y análisis teórico, en general es un trabajo de investigación muy valioso.