2025-11-21T10:07:15.918989

RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos

Yang, Li, Diao et al.
Recently, Multi-modal Large Language Models (MLLMs) have demonstrated significant performance across various video understanding tasks. However, their robustness, particularly when faced with manipulated video content, remains largely unexplored. In this paper, we introduce Ro-Bench, the first benchmark for evaluating MLLMs on dynamic out-of-distribution (OOD) counterfactual video test sets. Ro-Bench incorporates high-quality, diverse and temporally relevant video data, by editing Style, Object, Background and their compositions. We evaluated eight recent video MLLMs and found that current models exhibit substantial performance degradation on Ro-Bench when exposed to counterfactual video content. Furthermore, we demonstrate that fine-tuning MLLMs with counterfactual data enhances robustness, achieving a 21.73% performance increase on Ro-Bench and a 12.78% improvement across 20 tasks in the MVBench dataset. These findings underscore the effectiveness of counterfactual data in enhancing the video understanding ability of MLLMs. The code and data will be released shortly.
academic

RO-Bench: テキスト駆動型反事実ビデオによるMLLMsの大規模ロバストネス評価

基本情報

  • 論文ID: 2510.08936
  • タイトル: RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos
  • 著者: Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang(北京郵電大学)
  • 分類: cs.CV cs.AI
  • 発表時期: 2025年(プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.08936

要約

近年、マルチモーダル大規模言語モデル(MLLMs)は様々なビデオ理解タスクにおいて優れた性能を示しています。しかし、操作されたビデオコンテンツに直面した際のロバストネスは、まだ十分に探索されていません。本論文では、動的分布外(OOD)反事実ビデオテストセット上でMLLMsの性能を評価するための最初のベンチマークであるRO-Benchを紹介します。RO-Benchは、編集スタイル、オブジェクト、背景およびそれらの組み合わせを通じて、高品質で多様かつ時系列関連のビデオデータを統合しています。著者らは8つの最新ビデオMLLMsを評価し、現在のモデルが反事実ビデオコンテンツに直面した際に顕著なパフォーマンス低下を示すことを発見しました。さらに、反事実データを用いたMLLMsのファインチューニングがロバストネスを向上させ、RO-Bench上で21.73%のパフォーマンス向上を実現し、MVBenchデータセットの20タスク全体で平均12.78%の向上を達成することが示されました。

研究背景と動機

問題定義

マルチモーダル大規模言語モデルがビデオ理解タスクに広く応用されるようになり、特にビデオコンテンツ審査、自動運転、リアルタイム監視などのハイリスク領域への展開において、モデルのロバストネスを確保することが極めて重要になっています。既存モデルは統制された環境では良好なパフォーマンスを示しますが、改ざんまたは操作された入力に直面した際にパフォーマンスを維持できるかどうかは未知数です。

研究の重要性

  1. 実用的なアプリケーション要件: ハイリスクアプリケーションシナリオでは、モデルは様々な視覚的変化に対して安定したパフォーマンスを維持する必要があります
  2. セキュリティ上の考慮: 悪意のある攻撃者はビデオ編集を通じてモデルを欺き、セキュリティリスクを引き起こす可能性があります
  3. 評価ギャップ: 既存のロバストネス評価は主に静止画像に焦点を当てており、ビデオ領域では体系的な評価が不足しています

既存手法の限界

  1. 静止画像の限界: LANCEなどのベンチマークは主に静止画像の反事実生成に焦点を当てています
  2. 単純な摂動: 既存のビデオロバストネス評価は主にノイズまたは破損テストを採用しており、実世界のビデオの豊かな時系列ダイナミクスを無視しています
  3. 体系性の欠如: ビデオMLLMsの包括的なロバストネス評価フレームワークが不足しています

研究動機

本論文は2つの中核的な研究質問に答えることを目指しています:

  • RQ1: MLLMsは反事実ビデオ上でどのようなパフォーマンスを示し、編集されたビデオコンテンツの理解において直面する特定の課題は何か?
  • RQ2: 反事実ビデオの使用はMLLMsのパフォーマンスにどのような影響を与え、複雑なビデオコンテンツの理解と解釈能力を向上させることができるか?

核心的な貢献

  1. 最初のビデオロバストネスベンチマーク: ビデオMLLMsのロバストネス評価のために特別に設計された反事実ビデオテストセットベンチマークであるRO-Benchを提案
  2. 革新的な評価指標: テキストプロンプトと元のビデオが編集結果に与える影響を評価するための4つの革新的な評価指標を導入し、高品質データを確保
  3. 包括的なロバストネス評価: 主流のビデオMLLMsの総合的な評価を実施し、ビデオ理解におけるロバストネスの不足を明らかに
  4. 訓練戦略の検証: 反事実データを用いた訓練がRO-Benchのパフォーマンスと他のベンチマークタスクの汎用パフォーマンスを向上させることを証明

方法論の詳細

タスク定義

RO-Benchは、反事実ビデオコンテンツに直面したビデオMLLMsのロバストネスを評価することを目的としています。タスクには以下が含まれます:

  • 入力: 元のビデオと対応する反事実編集ビデオ
  • 出力: 4種類のビデオ理解タスクの多肢選択問題の回答(動作認識、オブジェクト認識、オブジェクト存在判定、ビデオ説明)
  • 評価: 元のビデオと編集ビデオ上のモデルパフォーマンスの差異を比較

データ構築プロセス

1. データソースの収集

  • データセットソース: DAVIS、TGVE、MSR-VTT、BalanceCCなどの公開データセットとインターネット
  • コンテンツ分類: 4種類の主体タイプ(人間、動物、風景、オブジェクト)
  • タスクタイプ: 動作認識(AR)、オブジェクト認識(OR)、オブジェクト存在判定(OE)、ビデオキャプション(VC)

2. 反事実ビデオの生成

キャプション編集戦略:

  • ビデオキャプションを構造化コンポーネントに分解:オブジェクト属性、オブジェクト動作、背景、スタイル
  • これら4つの視覚要因に基づいてキャプションを編集

ビデオ編集プロセス:

  • 最先端のテキスト駆動型ビデオ編集モデルを使用
  • 4つの主要な評価指標を提案:幻想レベル(FL)、シーン複雑度(SC)、カメラ運動(CM)、オブジェクト運動(OM)
  • 評価結果に基づいてパフォーマンスが最良の上位3つの編集モデルを選択
  • 厳密な人的フィルタリングを実施してビデオ品質を確保

3. QAペアの生成

自動化された質問生成:

  • GPT-4oを利用してタスク定義に基づいて各ビデオの質問を生成
  • 異なるタスクタイプに応じて対応する回答選択肢を構築

選択肢生成戦略:

  • アノテーションから採用:実際のアノテーションから直接正解を抽出
  • LLMベースの生成:オブジェクト存在判定タスク用に「はい」「いいえ」「不確定」の選択肢を提供
  • 干渉項の設計:過度に単純でも困難でもなく、関連性と多様性を維持

技術的な革新点

  1. 多次元編集戦略: スタイル、オブジェクト、背景の3つの次元からビデオを体系的に編集
  2. 品質評価体系: 編集品質を評価するための4つの定量的指標を提案し、高品質な反事実ビデオの生成を確保
  3. タスク多様性: 4つの中核的なビデオ理解タスクをカバーし、モデル能力を包括的に評価
  4. 自動化パイプライン: データ生成から品質制御、評価指標まで、エンドツーエンドの自動化パイプラインを構築

実験設定

データセット規模

  • ビデオデータ: 2.1k高品質ビデオ-キャプションペア
  • QAペア: 8.6k多肢選択問題QAペア
  • 訓練セット: 332個の元のビデオ、1328個の反事実ビデオサンプル、6640個のQAペア

評価指標

  • Origin: 元のビデオ上のテスト精度
  • Edit: 編集ビデオ上のテスト精度
  • Drop: パフォーマンス低下幅度(Origin - Edit)

比較手法

8つの主流ビデオMLLMsを評価:

  • 大型またはファインチューニング済みビデオエンコーダ: VideoChat、VideoChat2、VideoLLaMA2、VideoLLaVA、VideoLLaMA3
  • CLIP ViT/L-14エンコーダ: VideoChatGPT、mPLUG-Owl3、LLaVA-Next

実装の詳細

  • LLaVA-Nextを基本モデルとしてファインチューニングに使用
  • 反事実データで訓練したLLaVA-NextRoと元のデータで訓練したLLaVA-Nextoriを比較

実験結果

主要な結果

全体的なロバストネス評価

表1から、すべてのモデルが反事実ビデオ上で顕著なパフォーマンス低下を示していることが明らかです:

  • 平均パフォーマンス低下: 17.57%
  • 最良のロバストネス: VideoChat2(10.34%低下)
  • 最悪のロバストネス: LLaVA-Nextori(30.85%低下)

編集要因がモデルパフォーマンスに与える影響

  1. タスク感度の差異: 動作認識タスクが最も影響を受け(23.99%低下)、オブジェクト存在判定タスクが最も影響を受けない(11.54%低下)
  2. 編集要因の影響: オブジェクト変化はスタイルと背景の変化よりもモデルに大きな影響を与える
  3. アーキテクチャの影響: より大型またはファインチューニング済みビデオエンコーダを使用するモデルは、凍結されたCLIP ViT/L-14を使用するモデルよりも優れたパフォーマンスを示す

ファインチューニングモデルの結果

RO-Benchのパフォーマンス向上

  • LLaVA-NextRo: ロバストネス評価で最良のパフォーマンスを達成し、精度低下はわずか4.83%
  • LLaVA-Nextとの相対比較: ロバストネス指標が大幅に向上し、21.73%の改善
  • LLaVA-Nextoriとの相対比較: 反事実データ訓練の利点を実証

汎用ビデオ理解能力の向上

MVBenchの20の下流タスクにおいて:

  • 平均パフォーマンス向上: 12.78%
  • 動作およびオブジェクト関連タスク: より顕著な改善を示す
  • 最良のタスク向上: 複数のタスクで最良のパフォーマンスを達成

アブレーション実験の知見

  1. 編集要因分析: オブジェクト編集がモデルパフォーマンスに最大の影響を与え、次にスタイルと背景が続く
  2. アーキテクチャ比較: より強力なビデオエンコーダがロバストネス向上に不可欠
  3. タスク特異性: 時系列推論タスク(動作認識など)は視覚的摂動の影響を受けやすい

関連研究

マルチモーダル大規模言語モデル

近年、MLLMsはビデオ理解タスクで顕著な進歩を遂げていますが、ロバストネス評価は相対的に遅れています。

ロバストネス評価

  • 画像領域: LANCEなどの研究は反事実画像生成を使用してモデルパフォーマンスを評価
  • ビデオ領域: 既存研究は主にノイズと破損テストに焦点を当てており、体系的な反事実評価が不足

反事実データ拡張

反事実データはモデルの汎化能力向上に潜在力を示していますが、ビデオMLLMsでの応用はまだ探索段階です。

結論と考察

主要な結論

  1. ロバストネスの不足: 現在のビデオMLLMsは反事実ビデオコンテンツに直面した際に顕著なパフォーマンス低下を示す
  2. タスク間の差異: 異なるタスクは視覚的変化に対して異なる感度を示し、時系列関連タスクがより影響を受けやすい
  3. アーキテクチャの重要性: より強力なビデオエンコーダがロバストネス向上に不可欠
  4. 訓練の有効性: 反事実データを用いたファインチューニングはモデルのロバストネスと汎用パフォーマンスを効果的に向上させる

限界

  1. データ規模: 現在のデータセット規模は相対的に小さく、評価の包括性を制限する可能性がある
  2. 編集品質: 品質管理にもかかわらず、生成された反事実ビデオは十分に自然でない場合がある
  3. 評価範囲: 主に視覚編集に焦点を当てており、他の種類の摂動(音声、時系列摂動など)をカバーしていない
  4. モデルカバレッジ: 評価されたモデルの数は限定的であり、現在の技術水準を完全に代表できない可能性がある

今後の方向性

  1. 編集タイプの拡張: より多くの種類のビデオ編集と摂動方法を探索
  2. 大規模データセット: より大規模で多様な反事実ビデオデータセットを構築
  3. 理論的分析: MLLMsのロバストネス不足の根本原因を深く分析
  4. 防御メカニズム: モデルロバストネスを向上させるための専門的な防御戦略を開発

深層評価

長所

  1. 革新性が高い: ビデオMLLMsのロバストネス評価ベンチマークを初めて体系的に提案し、重要な研究ギャップを埋める
  2. 方法が完全: データ生成、品質制御から評価指標まで、完全な評価フレームワークを構築
  3. 実験が充分: 複数の主流モデルを評価し、包括的なパフォーマンス比較分析を提供
  4. 実用価値が高い: 評価ベンチマークを提供するだけでなく、反事実データがモデルパフォーマンス向上に有効であることを証明
  5. 技術が堅実: 最先端のビデオ編集技術を使用し、高品質な反事実ビデオの生成を確保

不足

  1. データ規模の制限: 他の大規模ベンチマークと比較して、RO-Benchのデータ規模は相対的に小さい
  2. 編集次元の限界: 主にスタイル、オブジェクト、背景の3つの次元に焦点を当てており、他の重要な摂動タイプを見落とす可能性がある
  3. 評価指標の単一性: 主に精度を評価指標として使用しており、より細粒度の分析指標が不足している
  4. 理論的分析の不足: モデルロバストネス不足の根本原因に対する深い理論的分析が不足している

影響力

  1. 学術的貢献: ビデオMLLMsのロバストネス評価に重要なベンチマークと研究フレームワークを提供
  2. 実用的価値: ビデオMLLMsの産業界への展開に重要な指導意義を持つ
  3. 研究への示唆: 後続の関連研究に重要な基礎と参考を提供
  4. 再現性: コードとデータのオープンソース化を約束し、研究コミュニティの発展に有利

適用シナリオ

  1. モデル評価: 様々なビデオMLLMsのロバストネス評価に適用可能
  2. モデル改善: モデルアーキテクチャ設計と訓練戦略最適化の指導に使用可能
  3. アプリケーション展開: ハイリスクアプリケーションシナリオでのモデル展開のセキュリティ評価を提供
  4. 研究ベンチマーク: 将来の関連研究の標準評価ベンチマークとして機能

参考文献

本論文は複数の重要な関連研究を引用しており、以下を含みます:

  • ビデオMLLMs: VideoChat、VideoLLaMA、LLaVA-Nextなど
  • ロバストネス評価: LANCE、OOD-CVなど
  • ビデオ編集: Tune-a-Video、CCEditなど
  • 評価ベンチマーク: MVBench、DAVISなど

総合評価: これは高品質の研究論文であり、ビデオMLLMsのロバストネス評価という重要な問題を初めて体系的に解決しています。論文は技術革新、実験設計、実用的価値の面で優れた成果を示しており、この分野の発展に重要な貢献をしています。データ規模と理論的分析の面でまだ改善の余地がありますが、全体的には非常に価値のある研究成果です。