2025-11-21T10:07:15.918989

RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos

Yang, Li, Diao et al.
Recently, Multi-modal Large Language Models (MLLMs) have demonstrated significant performance across various video understanding tasks. However, their robustness, particularly when faced with manipulated video content, remains largely unexplored. In this paper, we introduce Ro-Bench, the first benchmark for evaluating MLLMs on dynamic out-of-distribution (OOD) counterfactual video test sets. Ro-Bench incorporates high-quality, diverse and temporally relevant video data, by editing Style, Object, Background and their compositions. We evaluated eight recent video MLLMs and found that current models exhibit substantial performance degradation on Ro-Bench when exposed to counterfactual video content. Furthermore, we demonstrate that fine-tuning MLLMs with counterfactual data enhances robustness, achieving a 21.73% performance increase on Ro-Bench and a 12.78% improvement across 20 tasks in the MVBench dataset. These findings underscore the effectiveness of counterfactual data in enhancing the video understanding ability of MLLMs. The code and data will be released shortly.
academic

RO-Bench : Évaluation à grande échelle de la robustesse des MLLMs avec des vidéos contrefactuelles pilotées par texte

Informations de base

  • ID de l'article: 2510.08936
  • Titre: RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos
  • Auteurs: Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang (Université de Poste et Télécommunications de Pékin)
  • Classification: cs.CV cs.AI
  • Date de publication: 2025 (prépublication)
  • Lien de l'article: https://arxiv.org/abs/2510.08936

Résumé

Ces dernières années, les modèles de langage multimodaux de grande taille (MLLMs) ont démontré d'excellentes performances dans diverses tâches de compréhension vidéo. Cependant, leur robustesse face à des contenus vidéo manipulés reste insuffisamment explorée. Cet article présente RO-Bench, le premier benchmark destiné à évaluer les performances des MLLMs sur un ensemble de test de vidéos contrefactuelles hors-distribution (OOD) dynamiques. RO-Bench intègre des données vidéo de haute qualité, diversifiées et temporellement cohérentes en éditant les styles, les objets, les arrière-plans et leurs combinaisons. Les auteurs ont évalué 8 MLLMs vidéo récents et ont découvert que les modèles actuels présentent une dégradation significative des performances face à des contenus vidéo contrefactuels. De plus, l'étude montre que l'ajustement fin des MLLMs avec des données contrefactuelles améliore la robustesse, réalisant une amélioration de 21,73 % sur RO-Bench et une amélioration moyenne de 12,78 % sur les 20 tâches du dataset MVBench.

Contexte et motivation de la recherche

Définition du problème

Avec l'application généralisée des modèles de langage multimodaux dans les tâches de compréhension vidéo, en particulier dans le déploiement dans des domaines à haut risque tels que la modération de contenu vidéo, la conduite autonome et la surveillance en temps réel, assurer la robustesse des modèles devient crucial. Bien que les modèles existants fonctionnent bien dans des environnements contrôlés, il reste inconnu s'ils peuvent maintenir leurs performances face à des entrées falsifiées ou manipulées.

Importance de la recherche

  1. Besoins des applications pratiques: Dans les scénarios d'application à haut risque, les modèles doivent maintenir des performances stables face à diverses variations visuelles
  2. Considérations de sécurité: Les attaquants malveillants pourraient exploiter l'édition vidéo pour tromper les modèles, créant des risques de sécurité
  3. Lacune d'évaluation: Les évaluations de robustesse existantes se concentrent principalement sur les images statiques, le domaine vidéo manquant d'une évaluation systématique

Limitations des méthodes existantes

  1. Limitations des images statiques: Les benchmarks tels que LANCE se concentrent principalement sur la génération contrefactuelle d'images statiques
  2. Perturbations simples: Les évaluations de robustesse vidéo existantes utilisent principalement des tests de bruit ou de corruption, ignorant la dynamique temporelle riche des vidéos du monde réel
  3. Manque de systématicité: Absence d'un cadre d'évaluation de robustesse complet pour les MLLMs vidéo

Motivation de la recherche

Cet article vise à répondre à deux questions de recherche fondamentales :

  • RQ1: Comment les MLLMs se comportent-ils sur les vidéos contrefactuelles, et quels défis spécifiques rencontrent-ils pour comprendre les contenus vidéo édités ?
  • RQ2: Comment l'utilisation de vidéos contrefactuelles affecte-t-elle les performances des MLLMs, et peut-elle améliorer leur capacité à comprendre et interpréter des contenus vidéo complexes ?

Contributions principales

  1. Premier benchmark de robustesse vidéo: Proposer RO-Bench, le premier ensemble de test de vidéos contrefactuelles conçu spécifiquement pour évaluer la robustesse des MLLMs vidéo
  2. Métriques d'évaluation innovantes: Introduire quatre métriques d'évaluation innovantes pour évaluer l'impact des invites textuelles et des vidéos originales sur les résultats d'édition, garantissant la qualité des données
  3. Évaluation de robustesse complète: Mener une évaluation complète des MLLMs vidéo courants, révélant leurs insuffisances en matière de robustesse dans la compréhension vidéo
  4. Vérification de la stratégie d'entraînement: Démontrer que l'entraînement avec des données contrefactuelles peut améliorer les performances sur RO-Bench et les performances générales sur d'autres benchmarks

Détails de la méthode

Définition de la tâche

RO-Bench vise à évaluer la robustesse des MLLMs vidéo face à des contenus vidéo contrefactuels. Les tâches incluent :

  • Entrée: Vidéo originale et vidéo éditée contrefactuelle correspondante
  • Sortie: Réponses à des questions à choix multiples pour quatre tâches de compréhension vidéo (reconnaissance d'actions, reconnaissance d'objets, jugement d'existence d'objets, description vidéo)
  • Évaluation: Comparaison des différences de performance du modèle entre les vidéos originales et éditées

Processus de construction des données

1. Collecte des sources de données

  • Sources de données: Ensembles de données publics tels que DAVIS, TGVE, MSR-VTT, BalanceCC et Internet
  • Classification du contenu: Quatre types de sujets (humains, animaux, paysages, objets)
  • Types de tâches: Reconnaissance d'actions (AR), reconnaissance d'objets (OR), existence d'objets (OE), description vidéo (VC)

2. Génération de vidéos contrefactuelles

Stratégies d'édition de sous-titres:

  • Décomposer les sous-titres vidéo en composants structurés : attributs d'objets, actions d'objets, arrière-plan, style
  • Éditer les sous-titres en fonction de ces quatre facteurs visuels

Processus d'édition vidéo:

  • Utiliser les modèles d'édition vidéo pilotés par texte les plus avancés
  • Proposer quatre métriques d'évaluation clés : niveau d'hallucination (FL), complexité de scène (SC), mouvement de caméra (CM), mouvement d'objet (OM)
  • Sélectionner les trois meilleurs modèles d'édition en fonction des résultats d'évaluation
  • Effectuer un filtrage manuel strict pour assurer la qualité vidéo

3. Génération de paires QA

Génération automatique de questions:

  • Utiliser GPT-4o pour générer des questions pour chaque vidéo en fonction de la définition de tâche
  • Construire les options de réponse correspondantes selon les différents types de tâches

Stratégie de génération d'options:

  • Adoption à partir d'annotations : Extraire directement les réponses correctes des annotations réelles
  • Génération basée sur LLM : Fournir les options « oui », « non », « incertain » pour les tâches d'existence d'objets
  • Conception de distracteurs : Assurer que les options ne sont ni trop simples ni trop difficiles, tout en maintenant la pertinence et la diversité

Points d'innovation technique

  1. Stratégie d'édition multidimensionnelle: Éditer systématiquement les vidéos selon trois dimensions : style, objets et arrière-plan
  2. Système d'évaluation de qualité: Proposer quatre métriques quantitatives pour évaluer la qualité d'édition, garantissant la génération de vidéos contrefactuelles de haute qualité
  3. Diversité des tâches: Couvrir quatre tâches principales de compréhension vidéo, évaluant complètement les capacités du modèle
  4. Pipeline automatisé: Construire un pipeline automatisé de bout en bout pour la génération et l'évaluation des données

Configuration expérimentale

Échelle du dataset

  • Données vidéo: 2,1k paires vidéo-sous-titre de haute qualité
  • Paires QA: 8,6k paires QA à choix multiples
  • Ensemble d'entraînement: 332 vidéos originales, 1328 échantillons vidéo contrefactuels, 6640 paires QA

Métriques d'évaluation

  • Origin: Précision du test sur les vidéos originales
  • Edit: Précision du test sur les vidéos éditées
  • Drop: Ampleur de la dégradation des performances (Origin - Edit)

Méthodes de comparaison

Évaluation de 8 MLLMs vidéo courants :

  • Encodeurs vidéo volumineux ou ajustés: VideoChat, VideoChat2, VideoLLaMA2, VideoLLaVA, VideoLLaMA3
  • Encodeur CLIP ViT/L-14: VideoChatGPT, mPLUG-Owl3, LLaVA-Next

Détails d'implémentation

  • Utiliser LLaVA-Next comme modèle de base pour l'ajustement fin
  • Construire LLaVA-NextRo (entraîné avec des données contrefactuelles) et LLaVA-Nextori (entraîné avec des données originales) pour la comparaison

Résultats expérimentaux

Résultats principaux

Évaluation globale de la robustesse

Le tableau 1 montre que tous les modèles présentent une dégradation significative des performances sur les vidéos contrefactuelles :

  • Dégradation moyenne des performances: 17,57 %
  • Meilleure robustesse: VideoChat2 (dégradation de 10,34 %)
  • Pire robustesse: LLaVA-Nextori (dégradation de 30,85 %)

Impact des facteurs d'édition sur les performances du modèle

  1. Différences de sensibilité des tâches: La tâche de reconnaissance d'actions est la plus affectée (dégradation de 23,99 %), tandis que la tâche d'existence d'objets est la moins affectée (dégradation de 11,54 %)
  2. Impact des facteurs d'édition: Les changements d'objets ont un impact plus important que les changements de style et d'arrière-plan
  3. Impact de l'architecture: Les modèles utilisant des encodeurs vidéo plus volumineux ou ajustés fonctionnent mieux que ceux utilisant un CLIP ViT/L-14 gelé

Résultats du modèle ajusté

Amélioration des performances sur RO-Bench

  • LLaVA-NextRo: Atteint les meilleures performances en évaluation de robustesse, avec une dégradation de précision de seulement 4,83 %
  • Par rapport à LLaVA-Next: Amélioration significative de 21,73 % des métriques de robustesse
  • Par rapport à LLaVA-Nextori: Démontre les avantages de l'entraînement avec des données contrefactuelles

Amélioration des capacités générales de compréhension vidéo

Sur les 20 tâches en aval du MVBench :

  • Amélioration moyenne des performances: 12,78 %
  • Tâches liées aux actions et objets: Montrent des améliorations plus significatives
  • Amélioration maximale des tâches: Atteindre les meilleures performances sur plusieurs tâches

Résultats des études d'ablation

  1. Analyse des facteurs d'édition: L'édition d'objets a l'impact le plus important sur les performances du modèle, suivie par le style et l'arrière-plan
  2. Comparaison d'architecture: Un encodeur vidéo plus puissant est crucial pour améliorer la robustesse
  3. Spécificité des tâches: Les tâches d'inférence temporelle (comme la reconnaissance d'actions) sont plus facilement affectées par les perturbations visuelles

Travaux connexes

Modèles de langage multimodaux de grande taille

Ces dernières années, les MLLMs ont réalisé des progrès significatifs dans les tâches de compréhension vidéo, mais l'évaluation de la robustesse est relativement en retard.

Évaluation de la robustesse

  • Domaine des images: Des travaux tels que LANCE utilisent la génération d'images contrefactuelles pour évaluer les performances des modèles
  • Domaine vidéo: Les travaux existants se concentrent principalement sur les tests de bruit et de corruption, manquant d'une évaluation contrefactuelle systématique

Augmentation des données contrefactuelles

Les données contrefactuelles montrent un potentiel pour améliorer la capacité de généralisation des modèles, mais leur application dans les MLLMs vidéo reste à explorer.

Conclusions et discussions

Conclusions principales

  1. Robustesse insuffisante: Les MLLMs vidéo actuels présentent une dégradation significative des performances face à des contenus vidéo contrefactuels
  2. Différences de tâches: Il existe des différences dans la sensibilité des différentes tâches aux variations visuelles, les tâches temporellement liées étant plus facilement affectées
  3. Importance de l'architecture: Un encodeur vidéo plus puissant est crucial pour améliorer la robustesse
  4. Efficacité de l'entraînement: L'ajustement fin avec des données contrefactuelles peut efficacement améliorer la robustesse et les performances générales du modèle

Limitations

  1. Échelle des données: L'échelle actuelle du dataset est relativement petite, ce qui peut limiter la complétude de l'évaluation
  2. Qualité d'édition: Malgré le contrôle de qualité, les vidéos contrefactuelles générées peuvent manquer de naturel
  3. Portée d'évaluation: Se concentre principalement sur l'édition visuelle, ne couvrant pas d'autres types de perturbations (comme l'audio ou les perturbations temporelles)
  4. Couverture des modèles: Le nombre de modèles évalués est limité et peut ne pas représenter complètement le niveau technologique actuel

Directions futures

  1. Extension des types d'édition: Explorer davantage de types d'édition vidéo et de méthodes de perturbation
  2. Dataset à grande échelle: Construire un dataset de vidéos contrefactuelles plus volumineux et plus diversifié
  3. Analyse théorique: Analyser en profondeur les causes fondamentales de l'insuffisance de robustesse des MLLMs
  4. Mécanismes de défense: Développer des stratégies de défense spécialisées pour améliorer la robustesse des modèles

Évaluation approfondie

Points forts

  1. Innovation forte: Première proposition systématique d'un benchmark d'évaluation de robustesse pour les MLLMs vidéo, comblant une lacune de recherche importante
  2. Méthode complète: Construction d'un cadre d'évaluation complet allant de la génération de données, au contrôle de qualité, aux métriques d'évaluation
  3. Expériences suffisantes: Évaluation de plusieurs modèles courants, fournissant une analyse comparative complète des performances
  4. Valeur pratique élevée: Non seulement fournit un benchmark d'évaluation, mais démontre également l'efficacité des données contrefactuelles pour améliorer les performances du modèle
  5. Technique solide: Utilisation de technologies d'édition vidéo les plus avancées, garantissant la génération de vidéos contrefactuelles de haute qualité

Insuffisances

  1. Limitation de l'échelle des données: Comparé à d'autres benchmarks à grande échelle, l'échelle des données de RO-Bench est relativement petite
  2. Limitation des dimensions d'édition: Se concentre principalement sur trois dimensions (style, objets, arrière-plan), pouvant omettre d'autres types de perturbations importants
  3. Métriques d'évaluation uniques: Utilise principalement la précision comme métrique d'évaluation, manquant d'indicateurs d'analyse plus granulaires
  4. Analyse théorique insuffisante: Manque d'analyse théorique approfondie des causes fondamentales de l'insuffisance de robustesse des modèles

Impact

  1. Contribution académique: Fournit un benchmark important et un cadre de recherche pour l'évaluation de la robustesse des MLLMs vidéo
  2. Valeur pratique: Offre des orientations importantes pour le déploiement industriel des MLLMs vidéo
  3. Inspiration pour la recherche: Fournit une base et une référence importantes pour les recherches connexes ultérieures
  4. Reproductibilité: S'engage à ouvrir le code et les données, favorisant le développement de la communauté de recherche

Scénarios d'application

  1. Évaluation des modèles: Applicable à l'évaluation de robustesse de divers MLLMs vidéo
  2. Amélioration des modèles: Peut être utilisé pour guider la conception d'architecture de modèle et l'optimisation de stratégies d'entraînement
  3. Déploiement d'applications: Fournit une évaluation de sécurité pour le déploiement de modèles dans des scénarios d'application à haut risque
  4. Benchmark de recherche: Peut servir de benchmark d'évaluation standard pour les recherches connexes futures

Références

Cet article cite plusieurs travaux connexes importants, notamment :

  • MLLMs vidéo: VideoChat, VideoLLaMA, LLaVA-Next, etc.
  • Évaluation de robustesse: LANCE, OOD-CV, etc.
  • Édition vidéo: Tune-a-Video, CCEdit, etc.
  • Benchmarks d'évaluation: MVBench, DAVIS, etc.

Évaluation globale: Cet article est un travail de recherche de haute qualité qui aborde pour la première fois systématiquement le problème important de l'évaluation de la robustesse des MLLMs vidéo. L'article démontre d'excellentes performances en termes d'innovation technique, de conception expérimentale et de valeur pratique, apportant une contribution importante au développement du domaine. Bien qu'il y ait encore de la place pour l'amélioration en termes d'échelle de données et d'analyse théorique, il s'agit globalement d'un travail de recherche très précieux.