Recently, Multi-modal Large Language Models (MLLMs) have demonstrated significant performance across various video understanding tasks. However, their robustness, particularly when faced with manipulated video content, remains largely unexplored. In this paper, we introduce Ro-Bench, the first benchmark for evaluating MLLMs on dynamic out-of-distribution (OOD) counterfactual video test sets. Ro-Bench incorporates high-quality, diverse and temporally relevant video data, by editing Style, Object, Background and their compositions. We evaluated eight recent video MLLMs and found that current models exhibit substantial performance degradation on Ro-Bench when exposed to counterfactual video content. Furthermore, we demonstrate that fine-tuning MLLMs with counterfactual data enhances robustness, achieving a 21.73% performance increase on Ro-Bench and a 12.78% improvement across 20 tasks in the MVBench dataset. These findings underscore the effectiveness of counterfactual data in enhancing the video understanding ability of MLLMs. The code and data will be released shortly.
- ID del Artículo: 2510.08936
- Título: RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos
- Autores: Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang (Universidad de Correos y Telecomunicaciones de Beijing)
- Clasificación: cs.CV cs.AI
- Fecha de Publicación: 2025 (preimpresión)
- Enlace del Artículo: https://arxiv.org/abs/2510.08936
En años recientes, los modelos de lenguaje grandes multimodales (MLLMs) han demostrado un desempeño excepcional en diversas tareas de comprensión de video. Sin embargo, su robustez ante contenido de video manipulado sigue siendo insuficientemente explorada. Este artículo presenta RO-Bench, el primer conjunto de pruebas de videos contrafácticos fuera de distribución (OOD) dinámicos diseñado para evaluar el desempeño de MLLMs. RO-Bench integra datos de video de alta calidad, diversos y temporalmente relevantes mediante ediciones de estilo, objetos, fondos y sus combinaciones. Los autores evaluaron 8 MLLMs de video de última generación, descubriendo que los modelos actuales exhiben una degradación significativa del desempeño ante contenido de video contrafáctico. Además, el estudio demuestra que el ajuste fino de MLLMs con datos contrafácticos mejora la robustez, logrando una mejora del desempeño del 21.73% en RO-Bench y una mejora promedio del 12.78% en las 20 tareas del conjunto de datos MVBench.
Con la aplicación generalizada de modelos de lenguaje grandes multimodales en tareas de comprensión de video, particularmente en el despliegue en dominios de alto riesgo como moderación de contenido de video, conducción autónoma y vigilancia en tiempo real, garantizar la robustez del modelo se ha vuelto crítico. Aunque los modelos existentes funcionan bien en entornos controlados, sigue siendo desconocido si pueden mantener su desempeño ante entradas manipuladas u alteradas.
- Necesidades de Aplicación Práctica: En escenarios de aplicación de alto riesgo, los modelos deben mantener un desempeño estable ante diversas variaciones visuales
- Consideraciones de Seguridad: Los atacantes malintencionados podrían engañar a los modelos mediante edición de video, creando riesgos de seguridad
- Vacío en la Evaluación: Las evaluaciones de robustez existentes se concentran principalmente en imágenes estáticas, faltando evaluaciones sistemáticas en el dominio de video
- Limitaciones de Imágenes Estáticas: Puntos de referencia como LANCE se enfocaban principalmente en la generación contrafáctica de imágenes estáticas
- Perturbaciones Simples: Las evaluaciones de robustez de video existentes empleaban principalmente pruebas de ruido o corrupción, ignorando la dinámica temporal rica de videos del mundo real
- Falta de Sistematicidad: Ausencia de un marco de evaluación de robustez integral para MLLMs de video
Este artículo tiene como objetivo responder dos preguntas de investigación fundamentales:
- RQ1: ¿Cómo se desempeñan los MLLMs en videos contrafácticos y qué desafíos específicos enfrentan al comprender contenido de video editado?
- RQ2: ¿Cómo afecta el uso de videos contrafácticos al desempeño de MLLMs y puede mejorar su capacidad de comprender e interpretar contenido de video complejo?
- Primer Punto de Referencia de Robustez de Video: Propone RO-Bench, el primer conjunto de pruebas de videos contrafácticos diseñado específicamente para evaluar la robustez de MLLMs de video
- Métricas de Evaluación Innovadoras: Introduce cuatro métricas de evaluación innovadoras para evaluar el impacto de indicaciones de texto y videos originales en resultados editados, asegurando datos de alta calidad
- Evaluación Integral de Robustez: Realiza una evaluación exhaustiva de MLLMs de video convencionales, revelando insuficiencias de robustez en la comprensión de video
- Validación de Estrategias de Entrenamiento: Demuestra que el entrenamiento con datos contrafácticos puede mejorar el desempeño en RO-Bench y el desempeño general en otras tareas de referencia
RO-Bench tiene como objetivo evaluar la robustez de MLLMs de video ante contenido de video contrafáctico. Las tareas incluyen:
- Entrada: Video original y video editado contrafáctico correspondiente
- Salida: Respuestas de opción múltiple para cuatro tareas de comprensión de video (reconocimiento de acciones, reconocimiento de objetos, juicio de existencia de objetos, descripción de video)
- Evaluación: Comparación de diferencias de desempeño del modelo entre videos originales y editados
- Fuentes de Conjuntos de Datos: Conjuntos de datos públicos como DAVIS, TGVE, MSR-VTT, BalanceCC e Internet
- Clasificación de Contenido: Cuatro tipos de sujetos (humanos, animales, paisajes, objetos)
- Tipos de Tareas: Reconocimiento de Acciones (AR), Reconocimiento de Objetos (OR), Existencia de Objetos (OE), Descripción de Video (VC)
Estrategias de Edición de Subtítulos:
- Descomposición de subtítulos de video en componentes estructurados: atributos de objetos, acciones de objetos, fondos, estilos
- Edición de subtítulos basada en estos cuatro factores visuales
Proceso de Edición de Video:
- Utilización de modelos de edición de video impulsados por texto de última generación
- Propuesta de cuatro métricas de evaluación clave: Nivel de Alucinación (FL), Complejidad de Escena (SC), Movimiento de Cámara (CM), Movimiento de Objeto (OM)
- Selección de los tres mejores modelos de edición basada en resultados de evaluación
- Realización de filtrado manual riguroso para asegurar calidad de video
Generación Automática de Preguntas:
- Utilización de GPT-4o para generar preguntas para cada video basadas en definiciones de tareas
- Construcción de opciones de respuesta correspondientes según tipos de tareas
Estrategia de Generación de Opciones:
- Adopción de anotaciones: Extracción directa de respuestas correctas de anotaciones reales
- Generación basada en LLM: Provisión de opciones "sí", "no", "incierto" para tareas de existencia de objetos
- Diseño de Distractores: Aseguramiento de que ni sean demasiado simples ni demasiado difíciles, manteniendo relevancia y diversidad
- Estrategia de Edición Multidimensional: Edición sistemática de video desde tres dimensiones: estilo, objetos y fondos
- Sistema de Evaluación de Calidad: Propuesta de cuatro métricas cuantitativas para evaluar calidad de edición, asegurando generación de videos contrafácticos de alta calidad
- Diversidad de Tareas: Cobertura de cuatro tareas principales de comprensión de video, evaluación integral de capacidades del modelo
- Tubería Automatizada: Construcción de tubería de generación y evaluación de datos automatizada de extremo a extremo
- Datos de Video: 2.1k pares de video-subtítulo de alta calidad
- Pares de Preguntas y Respuestas: 8.6k preguntas de opción múltiple
- Conjunto de Entrenamiento: 332 videos originales, 1328 muestras de video contrafáctico, 6640 pares de preguntas y respuestas
- Origin: Precisión de prueba en videos originales
- Edit: Precisión de prueba en videos editados
- Drop: Magnitud de degradación del desempeño (Origin - Edit)
Evaluación de 8 MLLMs de video convencionales:
- Codificadores de Video Grandes o Ajustados: VideoChat, VideoChat2, VideoLLaMA2, VideoLLaVA, VideoLLaMA3
- Codificador CLIP ViT/L-14: VideoChatGPT, mPLUG-Owl3, LLaVA-Next
- Utilización de LLaVA-Next como modelo base para ajuste fino
- Construcción de LLaVA-NextRo (entrenado con datos contrafácticos) y LLaVA-Nextori (entrenado con datos originales) para comparación
Como se puede ver en la Tabla 1, todos los modelos exhiben degradación significativa del desempeño en videos contrafácticos:
- Degradación Promedio de Desempeño: 17.57%
- Mejor Robustez: VideoChat2 (degradación del 10.34%)
- Peor Robustez: LLaVA-Nextori (degradación del 30.85%)
- Diferencias en Sensibilidad de Tareas: La tarea de reconocimiento de acciones se ve más afectada (degradación del 23.99%), mientras que la tarea de existencia de objetos se ve menos afectada (degradación del 11.54%)
- Impacto de Factores de Edición: Los cambios de objetos tienen mayor impacto en modelos que cambios de estilo y fondo
- Impacto de Arquitectura: Los modelos con codificadores de video más grandes o ajustados funcionan mejor que aquellos con ViT/L-14 de CLIP congelado
- LLaVA-NextRo: Logra el mejor desempeño en evaluación de robustez, con degradación de precisión de solo 4.83%
- Relativo a LLaVA-Next: Mejora significativa del 21.73% en métricas de robustez
- Relativo a LLaVA-Nextori: Demuestra las ventajas del entrenamiento con datos contrafácticos
En las 20 tareas descendentes de MVBench:
- Mejora Promedio de Desempeño: 12.78%
- Tareas Relacionadas con Acciones y Objetos: Exhiben mejoras más significativas
- Mejora Máxima de Tareas: Logra el mejor desempeño en múltiples tareas
- Análisis de Factores de Edición: La edición de objetos tiene el mayor impacto en el desempeño del modelo, seguida por estilo y fondo
- Comparación de Arquitecturas: Codificadores de video más potentes son cruciales para mejorar la robustez
- Especificidad de Tareas: Las tareas de razonamiento temporal (como reconocimiento de acciones) son más susceptibles a perturbaciones visuales
En años recientes, los MLLMs han logrado avances significativos en tareas de comprensión de video, pero la evaluación de robustez se ha rezagado.
- Dominio de Imágenes: Trabajos como LANCE utilizan generación de imágenes contrafácticas para evaluar desempeño del modelo
- Dominio de Video: Los trabajos existentes se enfocaban principalmente en pruebas de ruido y corrupción, careciendo de evaluación contrafáctica sistemática
Los datos contrafácticos han mostrado potencial en mejorar la capacidad de generalización del modelo, pero su aplicación en MLLMs de video sigue siendo por explorar.
- Insuficiencia de Robustez: Los MLLMs de video actuales exhiben degradación significativa del desempeño ante contenido de video contrafáctico
- Diferencias de Tareas: Existen diferencias en la sensibilidad de diferentes tareas a variaciones visuales, siendo las tareas relacionadas con lo temporal más susceptibles
- Importancia de Arquitectura: Codificadores de video más potentes son cruciales para mejorar la robustez
- Efectividad del Entrenamiento: El ajuste fino con datos contrafácticos puede mejorar efectivamente la robustez del modelo y el desempeño general
- Escala de Datos: La escala actual del conjunto de datos es relativamente pequeña, lo que puede limitar la exhaustividad de la evaluación
- Calidad de Edición: A pesar del control de calidad, los videos contrafácticos generados pueden carecer de naturalidad
- Alcance de Evaluación: Se enfoca principalmente en edición visual, sin cubrir otros tipos de perturbaciones (como audio, perturbaciones temporales)
- Cobertura de Modelos: El número de modelos evaluados es limitado, lo que puede no representar completamente el nivel tecnológico actual
- Extensión de Tipos de Edición: Exploración de más tipos de edición de video y métodos de perturbación
- Conjunto de Datos a Gran Escala: Construcción de conjunto de datos de videos contrafácticos más grande y diverso
- Análisis Teórico: Análisis profundo de las causas fundamentales de insuficiencia de robustez en MLLMs
- Mecanismos de Defensa: Desarrollo de estrategias de defensa especializadas para mejorar la robustez del modelo
- Innovación Fuerte: Primera propuesta sistemática de punto de referencia de evaluación de robustez para MLLMs de video, llenando un vacío de investigación importante
- Método Completo: Construcción de marco de evaluación integral desde generación de datos, control de calidad hasta métricas de evaluación
- Experimentación Exhaustiva: Evaluación de múltiples modelos convencionales, proporcionando análisis comparativo de desempeño integral
- Valor Práctico Alto: No solo proporciona punto de referencia de evaluación, sino que también demuestra la efectividad de datos contrafácticos en mejorar desempeño del modelo
- Técnica Sólida: Utilización de tecnología de edición de video de última generación, asegurando generación de videos contrafácticos de alta calidad
- Limitación de Escala de Datos: La escala de datos de RO-Bench es relativamente pequeña en comparación con otros puntos de referencia a gran escala
- Limitación de Dimensiones de Edición: Se enfoca principalmente en tres dimensiones (estilo, objetos, fondos), lo que puede omitir otros tipos de perturbaciones importantes
- Métricas de Evaluación Simples: Utiliza principalmente precisión como métrica de evaluación, careciendo de análisis de indicadores más granulares
- Análisis Teórico Insuficiente: Falta análisis teórico profundo de las causas fundamentales de insuficiencia de robustez del modelo
- Contribución Académica: Proporciona punto de referencia importante y marco de investigación para evaluación de robustez de MLLMs de video
- Valor Práctico: Tiene importancia significativa para guiar despliegue de MLLMs de video en escenarios de aplicación de alto riesgo
- Inspiración para Investigación: Proporciona base importante y referencia para investigación relacionada posterior
- Reproducibilidad: Compromiso de código abierto y datos, beneficiando desarrollo de comunidad de investigación
- Evaluación de Modelos: Aplicable a evaluación de robustez de diversos MLLMs de video
- Mejora de Modelos: Puede utilizarse para guiar diseño de arquitectura de modelos y optimización de estrategias de entrenamiento
- Despliegue de Aplicaciones: Proporciona evaluación de seguridad para despliegue de modelos en escenarios de aplicación de alto riesgo
- Punto de Referencia de Investigación: Puede servir como punto de referencia de evaluación estándar para investigación relacionada futura
Este artículo cita múltiples trabajos relacionados importantes, incluyendo:
- MLLMs de Video: VideoChat, VideoLLaMA, LLaVA-Next, etc.
- Evaluación de Robustez: LANCE, OOD-CV, etc.
- Edición de Video: Tune-a-Video, CCEdit, etc.
- Puntos de Referencia de Evaluación: MVBench, DAVIS, etc.
Evaluación General: Este es un artículo de investigación de alta calidad que aborda sistemáticamente por primera vez el importante problema de evaluación de robustez de MLLMs de video. El artículo demuestra un desempeño excepcional en innovación técnica, diseño experimental y valor práctico, realizando contribuciones importantes al desarrollo del campo. Aunque hay espacio para mejora en escala de datos y análisis teórico, en general es un trabajo de investigación muy valioso.