2025-11-21T10:07:15.918989

RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos

Yang, Li, Diao et al.

Recently, Multi-modal Large Language Models (MLLMs) have demonstrated significant performance across various video understanding tasks. However, their robustness, particularly when faced with manipulated video content, remains largely unexplored. In this paper, we introduce Ro-Bench, the first benchmark for evaluating MLLMs on dynamic out-of-distribution (OOD) counterfactual video test sets. Ro-Bench incorporates high-quality, diverse and temporally relevant video data, by editing Style, Object, Background and their compositions. We evaluated eight recent video MLLMs and found that current models exhibit substantial performance degradation on Ro-Bench when exposed to counterfactual video content. Furthermore, we demonstrate that fine-tuning MLLMs with counterfactual data enhances robustness, achieving a 21.73% performance increase on Ro-Bench and a 12.78% improvement across 20 tasks in the MVBench dataset. These findings underscore the effectiveness of counterfactual data in enhancing the video understanding ability of MLLMs. The code and data will be released shortly.

academic

RO-Bench: Крупномасштабная оценка надёжности MLLM с текстовыми контрфактическими видео

Основная информация

ID статьи: 2510.08936
Название: RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos
Авторы: Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang (Пекинский университет почты и телекоммуникаций)
Классификация: cs.CV cs.AI
Дата публикации: 2025 (препринт)
Ссылка на статью: https://arxiv.org/abs/2510.08936

Аннотация

В последние годы многомодальные большие языковые модели (MLLM) продемонстрировали отличные результаты в различных задачах понимания видео. Однако их надёжность при работе с манипулируемым видеоконтентом остаётся недостаточно изученной. В данной статье представлен RO-Bench — первый в своём роде эталон для оценки производительности MLLM на динамических внераспределённых (OOD) контрфактических видеонаборах. RO-Bench интегрирует высококачественные, разнообразные и временно-связанные видеоданные путём редактирования стиля, объектов, фона и их комбинаций. Авторы оценили 8 новейших видео-MLLM и обнаружили, что текущие модели демонстрируют значительное снижение производительности при работе с контрфактическим видеоконтентом. Кроме того, исследование показывает, что тонкая настройка MLLM с использованием контрфактических данных повышает надёжность, достигая улучшения производительности на 21,73% на RO-Bench и среднего улучшения на 12,78% по 20 задачам набора данных MVBench.

Исследовательский контекст и мотивация

Определение проблемы

С широким применением многомодальных больших языковых моделей в задачах понимания видео, особенно при развёртывании в высокорисковых областях, таких как модерация видеоконтента, автономное вождение и мониторинг в реальном времени, обеспечение надёжности модели становится критически важным. Хотя существующие модели хорошо работают в контролируемых условиях, остаётся неизвестным, сохранят ли они производительность при столкновении с подделанными или манипулируемыми входными данными.

Значимость исследования

Практические требования приложений: В высокорисковых сценариях приложений модели должны сохранять стабильную производительность при различных визуальных изменениях
Соображения безопасности: Злоумышленники могут использовать редактирование видео для обмана модели, создавая угрозы безопасности
Пробел в оценке: Существующие оценки надёжности в основном сосредоточены на статических изображениях; в области видео отсутствует систематическая оценка

Ограничения существующих методов

Ограничения статических изображений: Такие эталоны как LANCE в основном сосредоточены на контрфактическом создании статических изображений
Простые возмущения: Существующие оценки надёжности видео часто используют тестирование шумом или повреждением, игнорируя богатую временную динамику реальных видео
Отсутствие систематичности: Отсутствует комплексная структура оценки надёжности для видео-MLLM

Исследовательская мотивация

Данная работа направлена на ответ на два основных исследовательских вопроса:

RQ1: Как работают MLLM на контрфактических видео и какие конкретные проблемы они испытывают при понимании отредактированного видеоконтента?
RQ2: Как использование контрфактических видео влияет на производительность MLLM и может ли оно повысить их способность понимать и интерпретировать сложный видеоконтент?

Основные вклады

Первый видеоэталон надёжности: Предложен RO-Bench — первый специализированный эталон контрфактических видео для оценки надёжности видео-MLLM
Инновационные метрики оценки: Введены четыре инновационные метрики оценки для оценки влияния текстовых подсказок и исходных видео на результаты редактирования, обеспечивая высокое качество данных
Комплексная оценка надёжности: Проведена всесторонняя оценка основных видео-MLLM, выявляющая недостатки надёжности в понимании видео
Проверка стратегии обучения: Доказано, что обучение с использованием контрфактических данных может повысить производительность на RO-Bench и общую производительность на других эталонах

Подробное описание методологии

Определение задачи

RO-Bench предназначен для оценки надёжности видео-MLLM при работе с контрфактическим видеоконтентом. Задачи включают:

Входные данные: Исходное видео и соответствующее отредактированное контрфактическое видео
Выходные данные: Ответы на вопросы с множественным выбором для четырёх задач понимания видео (распознавание действий, распознавание объектов, определение наличия объектов, описание видео)
Оценка: Сравнение различий в производительности модели на исходных и отредактированных видео

Процесс построения данных

1. Сбор источников данных

Источники данных: Открытые наборы данных DAVIS, TGVE, MSR-VTT, BalanceCC и интернет-ресурсы
Категоризация контента: Четыре типа субъектов (люди, животные, пейзажи, объекты)
Типы задач: Распознавание действий (AR), распознавание объектов (OR), наличие объектов (OE), описание видео (VC)

2. Генерация контрфактических видео

Стратегия редактирования подписей:

Разложение видеоподписей на структурированные компоненты: атрибуты объектов, действия объектов, фон, стиль
Редактирование подписей на основе этих четырёх визуальных факторов

Процесс редактирования видео:

Использование передовых моделей редактирования видео, управляемых текстом
Предложение четырёх ключевых метрик оценки: уровень галлюцинации (FL), сложность сцены (SC), движение камеры (CM), движение объекта (OM)
Выбор трёх лучших моделей редактирования на основе результатов оценки
Строгий ручной отбор для обеспечения качества видео

3. Генерация пар вопрос-ответ

Автоматизированная генерация вопросов:

Использование GPT-4o для генерации вопросов для каждого видео на основе определения задачи
Построение соответствующих вариантов ответов в соответствии с различными типами задач

Стратегия генерации вариантов:

Выбор из аннотаций: прямое извлечение правильных ответов из реальных аннотаций
Генерация на основе LLM: предоставление вариантов "да", "нет", "неопределённо" для задач определения наличия объектов
Дизайн отвлекающих вариантов: обеспечение того, чтобы они были ни слишком простыми, ни слишком сложными, сохраняя релевантность и разнообразие

Технические инновационные моменты

Многомерная стратегия редактирования: Систематическое редактирование видео по трём измерениям: стиль, объекты, фон
Система оценки качества: Предложение четырёх количественных метрик для оценки качества редактирования, обеспечивающих создание высококачественных контрфактических видео
Разнообразие задач: Охват четырёх основных задач понимания видео для всесторонней оценки возможностей модели
Автоматизированный конвейер: Построение сквозного автоматизированного конвейера генерации и оценки данных

Экспериментальная установка

Размер набора данных

Видеоданные: 2,1k высококачественных пар видео-подписей
Пары вопрос-ответ: 8,6k вопросов с множественным выбором
Обучающий набор: 332 исходных видео, 1328 образцов контрфактических видео, 6640 пар вопрос-ответ

Метрики оценки

Origin: Точность тестирования на исходных видео
Edit: Точность тестирования на отредактированных видео
Drop: Величина снижения производительности (Origin - Edit)

Методы сравнения

Оценены 8 основных видео-MLLM:

Большие или тонко настроенные видеокодеры: VideoChat, VideoChat2, VideoLLaMA2, VideoLLaVA, VideoLLaMA3
Видеокодеры CLIP ViT/L-14: VideoChatGPT, mPLUG-Owl3, LLaVA-Next

Детали реализации

Использование LLaVA-Next в качестве базовой модели для тонкой настройки
Построение LLaVA-NextRo (обучение с контрфактическими данными) и LLaVA-Nextori (обучение с исходными данными) для сравнения

Результаты экспериментов

Основные результаты

Комплексная оценка надёжности

Из таблицы 1 видно, что все модели демонстрируют значительное снижение производительности на контрфактических видео:

Среднее снижение производительности: 17,57%
Лучшая надёжность: VideoChat2 (снижение на 10,34%)
Худшая надёжность: LLaVA-Nextori (снижение на 30,85%)

Влияние факторов редактирования на производительность модели

Различия в чувствительности задач: Задача распознавания действий наиболее подвержена влиянию (снижение на 23,99%), задача определения наличия объектов наименее подвержена (снижение на 11,54%)
Влияние факторов редактирования: Изменения объектов оказывают большее влияние на модели, чем изменения стиля и фона
Влияние архитектуры: Модели с большими или тонко настроенными видеокодерами работают лучше, чем модели с замороженным CLIP ViT/L-14

Результаты тонко настроенной модели

Улучшение производительности на RO-Bench

LLaVA-NextRo: Достигает лучшей производительности в оценке надёжности с снижением точности всего на 4,83%
По сравнению с LLaVA-Next: Значительное улучшение метрик надёжности на 21,73%
По сравнению с LLaVA-Nextori: Демонстрирует преимущества обучения с контрфактическими данными

Улучшение общих возможностей понимания видео

По 20 нижестоящим задачам набора данных MVBench:

Среднее улучшение производительности: 12,78%
Задачи, связанные с действиями и объектами: Демонстрируют более значительные улучшения
Лучшее улучшение задач: Достижение лучшей производительности по нескольким задачам

Выводы абляционного исследования

Анализ факторов редактирования: Редактирование объектов оказывает наибольшее влияние на производительность модели, за ним следуют стиль и фон
Сравнение архитектур: Более мощные видеокодеры критически важны для повышения надёжности
Специфичность задач: Задачи с временным рассуждением (такие как распознавание действий) более подвержены влиянию визуальных возмущений

Связанные работы

Многомодальные большие языковые модели

В последние годы MLLM добились значительных успехов в задачах понимания видео, но оценка надёжности отстаёт.

Оценка надёжности

Область изображений: Работы, такие как LANCE, используют генерацию контрфактических изображений для оценки производительности модели
Область видео: Существующие работы в основном сосредоточены на тестировании шумом и повреждением, отсутствует систематическая контрфактическая оценка

Увеличение данных с контрфактическими данными

Контрфактические данные показывают потенциал в повышении способности модели к обобщению, но их применение в видео-MLLM остаётся неизученным.

Выводы и обсуждение

Основные выводы

Недостаточная надёжность: Текущие видео-MLLM демонстрируют значительное снижение производительности при работе с контрфактическим видеоконтентом
Различия в задачах: Существуют различия в чувствительности различных задач к визуальным изменениям; задачи, связанные с временем, более подвержены влиянию
Важность архитектуры: Более мощные видеокодеры критически важны для повышения надёжности
Эффективность обучения: Тонкая настройка с использованием контрфактических данных может эффективно повысить надёжность модели и общую производительность

Ограничения

Размер данных: Текущий размер набора данных относительно небольшой, что может ограничить полноту оценки
Качество редактирования: Несмотря на контроль качества, создаваемые контрфактические видео могут быть недостаточно естественными
Диапазон оценки: В основном сосредоточена на визуальном редактировании; не охватывает другие типы возмущений (такие как аудио, временные возмущения)
Охват моделей: Ограниченное количество оценённых моделей может не полностью представлять текущий уровень технологии

Будущие направления

Расширение типов редактирования: Исследование большего количества типов редактирования видео и методов возмущения
Крупномасштабный набор данных: Построение более крупного и разнообразного набора данных контрфактических видео
Теоретический анализ: Глубокий анализ коренных причин недостаточной надёжности MLLM
Механизмы защиты: Разработка специализированных стратегий защиты для повышения надёжности модели

Глубокая оценка

Преимущества

Высокая инновационность: Впервые систематически предложен эталон оценки надёжности видео-MLLM, заполняя важный пробел в исследованиях
Полнота методологии: От генерации данных, контроля качества до метрик оценки построена полная структура оценки
Достаточные эксперименты: Оценены несколько основных моделей, предоставляя всесторонний анализ сравнения производительности
Высокая практическая ценность: Не только предоставляет эталон оценки, но и доказывает эффективность контрфактических данных в повышении производительности модели
Твёрдая техническая база: Использование передовых технологий редактирования видео обеспечивает создание высококачественных контрфактических видео

Недостатки

Ограничение размера данных: По сравнению с другими крупномасштабными эталонами размер данных RO-Bench относительно небольшой
Ограничение измерений редактирования: В основном сосредоточена на трёх измерениях: стиль, объекты, фон; может упустить другие важные типы возмущений
Единственность метрик оценки: В основном использует точность в качестве метрики оценки; отсутствуют более детальные аналитические метрики
Недостаточный теоретический анализ: Отсутствует глубокий теоретический анализ коренных причин недостаточной надёжности модели

Влияние

Академический вклад: Предоставляет важный эталон и исследовательскую структуру для оценки надёжности видео-MLLM
Практическая ценность: Имеет важное руководящее значение для развёртывания видео-MLLM в промышленности
Исследовательское вдохновение: Предоставляет важную основу и справочный материал для последующих связанных исследований
Воспроизводимость: Обещание открытого исходного кода и данных способствует развитию исследовательского сообщества

Применимые сценарии

Оценка модели: Применима к оценке надёжности различных видео-MLLM
Улучшение модели: Может использоваться для руководства проектированием архитектуры модели и оптимизацией стратегий обучения
Развёртывание приложений: Предоставляет оценку безопасности для развёртывания моделей в высокорисковых сценариях приложений
Исследовательский эталон: Может служить стандартным эталоном оценки для будущих связанных исследований

Библиография

Данная работа ссылается на множество важных связанных работ, включая:

Видео-MLLM: VideoChat, VideoLLaMA, LLaVA-Next и др.
Оценка надёжности: LANCE, OOD-CV и др.
Редактирование видео: Tune-a-Video, CCEdit и др.
Эталоны оценки: MVBench, DAVIS и др.

Общая оценка: Это высококачественная исследовательская работа, впервые систематически решающая важную проблему оценки надёжности видео-MLLM. Статья демонстрирует отличные результаты в технической инновации, проектировании экспериментов и практической ценности, внося значительный вклад в развитие этой области. Хотя есть место для улучшения в размере данных и теоретическом анализе, в целом это очень ценная исследовательская работа.