2025-11-21T10:07:15.918989

RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos

Yang, Li, Diao et al.

Recently, Multi-modal Large Language Models (MLLMs) have demonstrated significant performance across various video understanding tasks. However, their robustness, particularly when faced with manipulated video content, remains largely unexplored. In this paper, we introduce Ro-Bench, the first benchmark for evaluating MLLMs on dynamic out-of-distribution (OOD) counterfactual video test sets. Ro-Bench incorporates high-quality, diverse and temporally relevant video data, by editing Style, Object, Background and their compositions. We evaluated eight recent video MLLMs and found that current models exhibit substantial performance degradation on Ro-Bench when exposed to counterfactual video content. Furthermore, we demonstrate that fine-tuning MLLMs with counterfactual data enhances robustness, achieving a 21.73% performance increase on Ro-Bench and a 12.78% improvement across 20 tasks in the MVBench dataset. These findings underscore the effectiveness of counterfactual data in enhancing the video understanding ability of MLLMs. The code and data will be released shortly.

academic

RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos

基本信息

论文ID: 2510.08936
标题: RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos
作者: Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang (北京邮电大学)
分类: cs.CV cs.AI
发表时间: 2025年 (预印本)
论文链接: https://arxiv.org/abs/2510.08936

摘要

近年来，多模态大语言模型(MLLMs)在各种视频理解任务中表现出色。然而，它们在面对被操控的视频内容时的鲁棒性仍然缺乏充分探索。本文介绍了Ro-Bench，这是首个用于评估MLLMs在动态分布外(OOD)反事实视频测试集上性能的基准。Ro-Bench通过编辑风格、对象、背景及其组合，整合了高质量、多样化且时序相关的视频数据。作者评估了8个最新的视频MLLMs，发现当前模型在面对反事实视频内容时表现出显著的性能下降。此外，研究表明使用反事实数据微调MLLMs能增强鲁棒性，在Ro-Bench上实现了21.73%的性能提升，在MVBench数据集的20个任务上平均提升12.78%。

研究背景与动机

问题定义

随着多模态大语言模型在视频理解任务中的广泛应用，特别是在视频内容审核、自动驾驶和实时监控等高风险领域的部署，确保模型的鲁棒性变得至关重要。现有模型虽然在受控环境下表现良好，但在面对被篡改或操控的输入时能否保持性能仍是未知数。

研究重要性

实际应用需求: 在高风险应用场景中，模型必须对各种视觉变化保持稳定性能
安全性考虑: 恶意攻击者可能通过视频编辑来欺骗模型，造成安全隐患
评估空白: 现有鲁棒性评估主要集中在静态图像，视频领域缺乏系统性评估

现有方法局限性

静态图像局限: 如LANCE等基准主要关注静态图像的反事实生成
简单扰动: 现有视频鲁棒性评估多采用噪声或损坏测试，忽略了真实世界视频的丰富时序动态
缺乏系统性: 缺乏针对视频MLLMs的全面鲁棒性评估框架

研究动机

本文旨在回答两个核心研究问题：

RQ1: MLLMs在反事实视频上的表现如何，在理解编辑视频内容时面临哪些特定挑战？
RQ2: 反事实视频的使用如何影响MLLMs性能，是否能增强其理解和解释复杂视频内容的能力？

核心贡献

首个视频鲁棒性基准: 提出Ro-Bench，首个专门为评估视频MLLMs鲁棒性而设计的反事实视频测试集基准
创新评估指标: 引入四个创新评估指标来评估文本提示和原始视频对编辑结果的影响，确保高质量数据
全面鲁棒性评估: 对主流视频MLLMs进行综合评估，揭示其在视频理解中的鲁棒性不足
训练策略验证: 证明使用反事实数据训练可以提升Ro-Bench性能和其他基准任务的通用性能

方法详解

任务定义

Ro-Bench旨在评估视频MLLMs在面对反事实视频内容时的鲁棒性。任务包括：

输入: 原始视频和对应的反事实编辑视频
输出: 四种视频理解任务的多选题答案（动作识别、对象识别、对象存在性判断、视频描述）
评估: 比较模型在原始视频和编辑视频上的性能差异

数据构建流程

1. 数据源收集

数据集来源: DAVIS、TGVE、MSR-VTT、BalanceCC等公开数据集和互联网
内容分类: 四种主体类型（人类、动物、风景、对象）
任务类型: 动作识别(AR)、对象识别(OR)、对象存在性(OE)、视频描述(VC)

2. 反事实视频生成

字幕编辑策略:

将视频字幕分解为结构化组件：对象属性、对象动作、背景、风格
基于这四个视觉因素进行字幕编辑

视频编辑流程:

使用最先进的文本驱动视频编辑模型
提出四个关键评估指标：幻想级别(FL)、场景复杂度(SC)、相机运动(CM)、对象运动(OM)
基于评估结果选择表现最佳的前三个编辑模型
进行严格的人工筛选确保视频质量

3. QA对生成

自动化问题生成:

利用GPT-4o基于任务定义为每个视频生成问题
根据不同任务类型构建相应的答案选项

选项生成策略:

从标注中采用：直接从真实标注中提取正确答案
基于LLM生成：为对象存在性任务提供"是"、"否"、"不确定"选项
干扰项设计：确保既不过于简单也不过于困难，保持相关性和多样性

技术创新点

多维度编辑策略: 系统性地从风格、对象、背景三个维度进行视频编辑
质量评估体系: 提出四个定量指标评估编辑质量，确保生成高质量反事实视频
任务多样性: 涵盖四种核心视频理解任务，全面评估模型能力
自动化流水线: 构建端到端的自动化数据生成和评估流水线

实验设置

数据集规模

视频数据: 2.1k高质量视频-字幕对
QA对: 8.6k多选题QA对
训练集: 332个原始视频，1328个反事实视频样本，6640个QA对

评价指标

Origin: 原始视频上的测试准确率
Edit: 编辑视频上的测试准确率
Drop: 性能下降幅度（Origin - Edit）

对比方法

评估了8个主流视频MLLMs：

大型或微调视频编码器: VideoChat, VideoChat2, VideoLLaMA2, VideoLLaVA, VideoLLaMA3
CLIP ViT/L-14编码器: VideoChatGPT, mPLUG-Owl3, LLaVA-Next

实现细节

使用LLaVA-Next作为基础模型进行微调
构建LLaVA-NextRo（使用反事实数据训练）和LLaVA-Nextori（使用原始数据训练）进行对比

实验结果

主要结果

整体鲁棒性评估

从表1可以看出，所有模型在反事实视频上都表现出显著的性能下降：

平均性能下降: 17.57%
最佳鲁棒性: VideoChat2（10.34%下降）
最差鲁棒性: LLaVA-Nextori（30.85%下降）

编辑因素对模型性能的影响

任务敏感性差异: 动作识别任务受影响最大（23.99%下降），对象存在性任务受影响最小（11.54%下降）
编辑因素影响: 对象变化比风格和背景变化对模型影响更大
架构影响: 使用更大或微调视频编码器的模型比使用冻结CLIP ViT/L-14的模型表现更好

微调模型结果

Ro-Bench性能提升

LLaVA-NextRo: 在鲁棒性评估中达到最佳性能，准确率下降仅4.83%
相对LLaVA-Next: 鲁棒性指标显著提升21.73%
相对LLaVA-Nextori: 展现了反事实数据训练的优势

通用视频理解能力提升

在MVBench的20个下游任务中：

平均性能提升: 12.78%
动作和对象相关任务: 表现出更显著的改进
最佳任务提升: 在多个任务上达到最佳性能

消融实验发现

编辑因素分析: 对象编辑对模型性能影响最大，其次是风格和背景
架构比较: 更强大的视频编码器对提升鲁棒性至关重要
任务特异性: 时序推理任务（如动作识别）更容易受到视觉扰动影响

相关工作

多模态大语言模型

近年来，MLLMs在视频理解任务中取得了显著进展，但鲁棒性评估相对滞后。

鲁棒性评估

图像领域: LANCE等工作使用反事实图像生成评估模型性能
视频领域: 现有工作主要关注噪声和损坏测试，缺乏系统性的反事实评估

反事实数据增强

反事实数据在提升模型泛化能力方面显示出潜力，但在视频MLLMs中的应用仍待探索。

结论与讨论

主要结论

鲁棒性不足: 当前视频MLLMs在面对反事实视频内容时表现出显著的性能下降
任务差异: 不同任务对视觉变化的敏感性存在差异，时序相关任务更易受影响
架构重要性: 更强大的视频编码器对提升鲁棒性至关重要
训练有效性: 使用反事实数据进行微调能有效提升模型鲁棒性和通用性能

局限性

数据规模: 当前数据集规模相对较小，可能限制了评估的全面性
编辑质量: 尽管有质量控制，但生成的反事实视频可能仍存在不够自然的情况
评估范围: 主要关注视觉编辑，未涵盖其他类型的扰动（如音频、时序扰动）
模型覆盖: 评估的模型数量有限，可能无法完全代表当前技术水平

未来方向

扩展编辑类型: 探索更多类型的视频编辑和扰动方式
大规模数据集: 构建更大规模、更多样化的反事实视频数据集
理论分析: 深入分析MLLMs鲁棒性不足的根本原因
防御机制: 开发专门的防御策略提升模型鲁棒性

深度评价

优点

创新性强: 首次系统性地提出视频MLLMs鲁棒性评估基准，填补了重要研究空白
方法完整: 从数据生成、质量控制到评估指标，构建了完整的评估框架
实验充分: 评估了多个主流模型，提供了全面的性能对比分析
实用价值高: 不仅提供评估基准，还证明了反事实数据在提升模型性能方面的有效性
技术扎实: 使用最先进的视频编辑技术，确保生成高质量的反事实视频

不足

数据规模限制: 相比其他大规模基准，Ro-Bench的数据规模相对较小
编辑维度局限: 主要关注风格、对象、背景三个维度，可能遗漏其他重要的扰动类型
评估指标单一: 主要使用准确率作为评估指标，缺乏更细粒度的分析指标
理论分析不足: 对模型鲁棒性不足的根本原因缺乏深入的理论分析

影响力

学术贡献: 为视频MLLMs鲁棒性评估提供了重要的基准和研究框架
实用价值: 对工业界部署视频MLLMs具有重要的指导意义
研究启发: 为后续相关研究提供了重要的基础和参考
可复现性: 承诺开源代码和数据，有利于研究社区的发展

适用场景

模型评估: 适用于各种视频MLLMs的鲁棒性评估
模型改进: 可用于指导模型架构设计和训练策略优化
应用部署: 为高风险应用场景中的模型部署提供安全性评估
研究基准: 可作为未来相关研究的标准评估基准

参考文献

本文引用了多个重要的相关工作，包括：

视频MLLMs: VideoChat, VideoLLaMA, LLaVA-Next等
鲁棒性评估: LANCE, OOD-CV等
视频编辑: Tune-a-Video, CCEdit等
评估基准: MVBench, DAVIS等

总体评价: 这是一篇高质量的研究论文，首次系统性地解决了视频MLLMs鲁棒性评估这一重要问题。论文在技术创新、实验设计和实用价值方面都表现出色，为该领域的发展做出了重要贡献。尽管在数据规模和理论分析方面还有改进空间，但整体而言是一项非常有价值的研究工作。