2025-11-21T10:07:15.918989

RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos

Yang, Li, Diao et al.
Recently, Multi-modal Large Language Models (MLLMs) have demonstrated significant performance across various video understanding tasks. However, their robustness, particularly when faced with manipulated video content, remains largely unexplored. In this paper, we introduce Ro-Bench, the first benchmark for evaluating MLLMs on dynamic out-of-distribution (OOD) counterfactual video test sets. Ro-Bench incorporates high-quality, diverse and temporally relevant video data, by editing Style, Object, Background and their compositions. We evaluated eight recent video MLLMs and found that current models exhibit substantial performance degradation on Ro-Bench when exposed to counterfactual video content. Furthermore, we demonstrate that fine-tuning MLLMs with counterfactual data enhances robustness, achieving a 21.73% performance increase on Ro-Bench and a 12.78% improvement across 20 tasks in the MVBench dataset. These findings underscore the effectiveness of counterfactual data in enhancing the video understanding ability of MLLMs. The code and data will be released shortly.
academic

RO-Bench: 텍스트 기반 반사실적 비디오를 이용한 MLLMs의 대규모 견고성 평가

기본 정보

  • 논문 ID: 2510.08936
  • 제목: RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos
  • 저자: Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang (베이징우편전신대학교)
  • 분류: cs.CV cs.AI
  • 발표 시간: 2025년 (사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.08936

초록

최근 다중모달 대형 언어 모델(MLLMs)은 다양한 비디오 이해 작업에서 우수한 성능을 보여주고 있습니다. 그러나 조작된 비디오 콘텐츠에 직면했을 때의 견고성은 여전히 충분히 탐구되지 않았습니다. 본 논문은 동적 분포 외(OOD) 반사실적 비디오 테스트 세트에서 MLLMs의 성능을 평가하기 위한 첫 번째 벤치마크인 RO-Bench를 소개합니다. RO-Bench는 편집 스타일, 객체, 배경 및 이들의 조합을 통해 고품질의 다양하고 시간적으로 관련된 비디오 데이터를 통합합니다. 저자들은 8개의 최신 비디오 MLLMs을 평가하여 현재 모델이 반사실적 비디오 콘텐츠에 직면했을 때 현저한 성능 저하를 보임을 발견했습니다. 또한 반사실적 데이터로 미세 조정된 MLLMs은 견고성을 향상시켜 RO-Bench에서 21.73%의 성능 향상을 달성하고 MVBench 데이터셋의 20개 작업에서 평균 12.78% 향상을 달성합니다.

연구 배경 및 동기

문제 정의

다중모달 대형 언어 모델이 비디오 이해 작업에 광범위하게 적용되고 있으며, 특히 비디오 콘텐츠 검증, 자율 주행 및 실시간 모니터링 등 고위험 분야에 배포되면서 모델의 견고성을 보장하는 것이 매우 중요해졌습니다. 기존 모델은 통제된 환경에서는 잘 작동하지만, 변조되거나 조작된 입력에 직면했을 때 성능을 유지할 수 있는지는 여전히 미지수입니다.

연구의 중요성

  1. 실제 응용 요구: 고위험 응용 시나리오에서 모델은 다양한 시각적 변화에 대해 안정적인 성능을 유지해야 합니다
  2. 보안 고려사항: 악의적 공격자는 비디오 편집을 통해 모델을 속여 보안 위험을 초래할 수 있습니다
  3. 평가 공백: 기존 견고성 평가는 주로 정적 이미지에 집중하며, 비디오 분야에서는 체계적 평가가 부족합니다

기존 방법의 한계

  1. 정적 이미지 한계: LANCE 등의 벤치마크는 주로 정적 이미지의 반사실적 생성에 초점을 맞춥니다
  2. 단순 교란: 기존 비디오 견고성 평가는 주로 노이즈 또는 손상 테스트를 사용하며, 실제 비디오의 풍부한 시간적 역학을 무시합니다
  3. 체계성 부족: 비디오 MLLMs에 대한 포괄적 견고성 평가 프레임워크가 부족합니다

연구 동기

본 논문은 두 가지 핵심 연구 질문에 답하는 것을 목표로 합니다:

  • RQ1: MLLMs이 반사실적 비디오에서 어떻게 수행되며, 편집된 비디오 콘텐츠를 이해할 때 어떤 특정 과제에 직면하는가?
  • RQ2: 반사실적 비디오의 사용이 MLLMs 성능에 어떻게 영향을 미치며, 복잡한 비디오 콘텐츠를 이해하고 해석하는 능력을 향상시킬 수 있는가?

핵심 기여

  1. 첫 번째 비디오 견고성 벤치마크: 비디오 MLLMs의 견고성을 평가하기 위해 특별히 설계된 반사실적 비디오 테스트 세트 벤치마크인 RO-Bench를 제안합니다
  2. 혁신적 평가 지표: 텍스트 프롬프트와 원본 비디오가 편집 결과에 미치는 영향을 평가하기 위해 4개의 혁신적 평가 지표를 도입하여 고품질 데이터를 보장합니다
  3. 포괄적 견고성 평가: 주류 비디오 MLLMs에 대한 종합 평가를 수행하여 비디오 이해에서의 견고성 부족을 드러냅니다
  4. 훈련 전략 검증: 반사실적 데이터를 사용한 훈련이 RO-Bench 성능과 다른 벤치마크 작업의 일반 성능을 향상시킬 수 있음을 증명합니다

방법론 상세 설명

작업 정의

RO-Bench는 반사실적 비디오 콘텐츠에 직면했을 때 비디오 MLLMs의 견고성을 평가하는 것을 목표로 합니다. 작업에는 다음이 포함됩니다:

  • 입력: 원본 비디오 및 해당 반사실적 편집 비디오
  • 출력: 4가지 비디오 이해 작업의 객관식 답변(동작 인식, 객체 인식, 객체 존재 판단, 비디오 설명)
  • 평가: 원본 비디오와 편집 비디오에서 모델 성능의 차이 비교

데이터 구축 프로세스

1. 데이터 소스 수집

  • 데이터셋 출처: DAVIS, TGVE, MSR-VTT, BalanceCC 등의 공개 데이터셋 및 인터넷
  • 콘텐츠 분류: 4가지 주체 유형(인간, 동물, 풍경, 객체)
  • 작업 유형: 동작 인식(AR), 객체 인식(OR), 객체 존재(OE), 비디오 캡션(VC)

2. 반사실적 비디오 생성

캡션 편집 전략:

  • 비디오 캡션을 구조화된 구성 요소로 분해: 객체 속성, 객체 동작, 배경, 스타일
  • 이 4가지 시각적 요소를 기반으로 캡션 편집

비디오 편집 프로세스:

  • 최첨단 텍스트 기반 비디오 편집 모델 사용
  • 4가지 핵심 평가 지표 제안: 환상 수준(FL), 장면 복잡도(SC), 카메라 움직임(CM), 객체 움직임(OM)
  • 평가 결과를 기반으로 성능이 가장 우수한 상위 3개 편집 모델 선택
  • 비디오 품질을 보장하기 위한 엄격한 수동 필터링 수행

3. QA 쌍 생성

자동화된 질문 생성:

  • 작업 정의를 기반으로 각 비디오에 대해 질문을 생성하기 위해 GPT-4o 활용
  • 다양한 작업 유형에 따라 해당 답변 선택지 구성

선택지 생성 전략:

  • 주석에서 채택: 실제 주석에서 정답을 직접 추출
  • LLM 기반 생성: 객체 존재 작업에 "예", "아니오", "불확실" 선택지 제공
  • 방해 항목 설계: 너무 간단하지도 어렵지도 않으면서 관련성과 다양성을 유지

기술 혁신 포인트

  1. 다차원 편집 전략: 스타일, 객체, 배경의 3가지 차원에서 체계적으로 비디오 편집
  2. 품질 평가 체계: 편집 품질을 평가하기 위해 4가지 정량적 지표 제안하여 고품질 반사실적 비디오 생성 보장
  3. 작업 다양성: 4가지 핵심 비디오 이해 작업을 포함하여 모델 능력을 포괄적으로 평가
  4. 자동화 파이프라인: 엔드-투-엔드 자동화 데이터 생성 및 평가 파이프라인 구축

실험 설정

데이터셋 규모

  • 비디오 데이터: 2.1k 고품질 비디오-캡션 쌍
  • QA 쌍: 8.6k 객관식 QA 쌍
  • 훈련 세트: 332개 원본 비디오, 1328개 반사실적 비디오 샘플, 6640개 QA 쌍

평가 지표

  • Origin: 원본 비디오에서의 테스트 정확도
  • Edit: 편집 비디오에서의 테스트 정확도
  • Drop: 성능 저하 폭(Origin - Edit)

비교 방법

8개의 주류 비디오 MLLMs 평가:

  • 대형 또는 미세 조정된 비디오 인코더: VideoChat, VideoChat2, VideoLLaMA2, VideoLLaVA, VideoLLaMA3
  • CLIP ViT/L-14 인코더: VideoChatGPT, mPLUG-Owl3, LLaVA-Next

구현 세부 사항

  • LLaVA-Next를 기본 모델로 사용하여 미세 조정
  • 반사실적 데이터로 훈련된 LLaVA-NextRo와 원본 데이터로 훈련된 LLaVA-Nextori 구성하여 비교

실험 결과

주요 결과

전체 견고성 평가

표 1에서 볼 수 있듯이 모든 모델은 반사실적 비디오에서 현저한 성능 저하를 보입니다:

  • 평균 성능 저하: 17.57%
  • 최고 견고성: VideoChat2(10.34% 저하)
  • 최악 견고성: LLaVA-Nextori(30.85% 저하)

편집 요소가 모델 성능에 미치는 영향

  1. 작업 민감도 차이: 동작 인식 작업이 가장 큰 영향을 받음(23.99% 저하), 객체 존재 작업이 가장 적게 영향을 받음(11.54% 저하)
  2. 편집 요소 영향: 객체 변화가 스타일 및 배경 변화보다 모델에 더 큰 영향을 미침
  3. 아키텍처 영향: 더 크거나 미세 조정된 비디오 인코더를 사용하는 모델이 고정된 CLIP ViT/L-14를 사용하는 모델보다 더 나은 성능을 보임

미세 조정 모델 결과

RO-Bench 성능 향상

  • LLaVA-NextRo: 견고성 평가에서 최고 성능 달성, 정확도 저하는 4.83%에 불과
  • LLaVA-Next 대비: 견고성 지표 현저히 향상 21.73%
  • LLaVA-Nextori 대비: 반사실적 데이터 훈련의 장점 입증

일반 비디오 이해 능력 향상

MVBench의 20개 다운스트림 작업에서:

  • 평균 성능 향상: 12.78%
  • 동작 및 객체 관련 작업: 더욱 현저한 개선 표시
  • 최고 작업 향상: 여러 작업에서 최고 성능 달성

제거 실험 발견

  1. 편집 요소 분석: 객체 편집이 모델 성능에 가장 큰 영향을 미치며, 그 다음은 스타일과 배경
  2. 아키텍처 비교: 더 강력한 비디오 인코더가 견고성 향상에 매우 중요
  3. 작업 특이성: 시간적 추론 작업(예: 동작 인식)이 시각적 교란에 더 쉽게 영향을 받음

관련 연구

다중모달 대형 언어 모델

최근 MLLMs은 비디오 이해 작업에서 현저한 진전을 이루었지만, 견고성 평가는 상대적으로 뒤처져 있습니다.

견고성 평가

  • 이미지 분야: LANCE 등의 연구는 반사실적 이미지 생성을 사용하여 모델 성능 평가
  • 비디오 분야: 기존 연구는 주로 노이즈 및 손상 테스트에 초점을 맞추며, 체계적 반사실적 평가가 부족

반사실적 데이터 증강

반사실적 데이터는 모델 일반화 능력 향상에 잠재력을 보여주지만, 비디오 MLLMs에서의 적용은 여전히 탐구 중입니다.

결론 및 논의

주요 결론

  1. 견고성 부족: 현재 비디오 MLLMs은 반사실적 비디오 콘텐츠에 직면했을 때 현저한 성능 저하를 보입니다
  2. 작업 차이: 다양한 작업은 시각적 변화에 대해 서로 다른 민감도를 가지며, 시간적 관련 작업이 더 쉽게 영향을 받습니다
  3. 아키텍처 중요성: 더 강력한 비디오 인코더가 견고성 향상에 매우 중요합니다
  4. 훈련 효과성: 반사실적 데이터를 사용한 미세 조정이 모델 견고성과 일반 성능을 효과적으로 향상시킬 수 있습니다

한계

  1. 데이터 규모: 현재 데이터셋 규모가 상대적으로 작아 평가의 포괄성을 제한할 수 있습니다
  2. 편집 품질: 품질 제어에도 불구하고 생성된 반사실적 비디오가 여전히 충분히 자연스럽지 않을 수 있습니다
  3. 평가 범위: 주로 시각적 편집에 초점을 맞추며 다른 유형의 교란(예: 오디오, 시간적 교란)을 포함하지 않습니다
  4. 모델 범위: 평가된 모델 수가 제한적이어서 현재 기술 수준을 완전히 대표하지 못할 수 있습니다

향후 방향

  1. 편집 유형 확장: 더 많은 유형의 비디오 편집 및 교란 방식 탐구
  2. 대규모 데이터셋: 더 크고 다양한 반사실적 비디오 데이터셋 구축
  3. 이론적 분석: MLLMs 견고성 부족의 근본 원인에 대한 심층 분석
  4. 방어 메커니즘: 모델 견고성을 향상시키기 위한 전문화된 방어 전략 개발

심층 평가

장점

  1. 높은 혁신성: 비디오 MLLMs 견고성 평가 벤치마크를 처음으로 체계적으로 제안하여 중요한 연구 공백을 메웁니다
  2. 완전한 방법론: 데이터 생성, 품질 제어에서 평가 지표까지 완전한 평가 프레임워크를 구축합니다
  3. 충분한 실험: 여러 주류 모델을 평가하여 포괄적인 성능 비교 분석을 제공합니다
  4. 높은 실용 가치: 평가 벤치마크를 제공할 뿐만 아니라 반사실적 데이터가 모델 성능 향상에 효과적임을 증명합니다
  5. 견고한 기술: 최첨단 비디오 편집 기술을 사용하여 고품질 반사실적 비디오 생성을 보장합니다

부족한 점

  1. 데이터 규모 제한: 다른 대규모 벤치마크와 비교하여 RO-Bench의 데이터 규모가 상대적으로 작습니다
  2. 편집 차원 제한: 주로 스타일, 객체, 배경의 3가지 차원에 초점을 맞추며 다른 중요한 교란 유형을 놓칠 수 있습니다
  3. 평가 지표 단순성: 주로 정확도를 평가 지표로 사용하며 더 세밀한 분석 지표가 부족합니다
  4. 이론적 분석 부족: 모델 견고성 부족의 근본 원인에 대한 심층적 이론 분석이 부족합니다

영향력

  1. 학술 기여: 비디오 MLLMs 견고성 평가를 위한 중요한 벤치마크 및 연구 프레임워크 제공
  2. 실용 가치: 산업계의 비디오 MLLMs 배포에 중요한 지도 의견 제공
  3. 연구 영감: 후속 관련 연구를 위한 중요한 기초 및 참고 자료 제공
  4. 재현성: 코드 및 데이터 공개 약속으로 연구 커뮤니티 발전에 유리

적용 시나리오

  1. 모델 평가: 다양한 비디오 MLLMs의 견고성 평가에 적용
  2. 모델 개선: 모델 아키텍처 설계 및 훈련 전략 최적화 지도에 사용
  3. 응용 배포: 고위험 응용 시나리오에서 모델 배포의 안전성 평가 제공
  4. 연구 벤치마크: 향후 관련 연구의 표준 평가 벤치마크로 사용

참고 문헌

본 논문은 다음을 포함한 여러 중요한 관련 연구를 인용합니다:

  • 비디오 MLLMs: VideoChat, VideoLLaMA, LLaVA-Next 등
  • 견고성 평가: LANCE, OOD-CV 등
  • 비디오 편집: Tune-a-Video, CCEdit 등
  • 평가 벤치마크: MVBench, DAVIS 등

종합 평가: 이것은 비디오 MLLMs 견고성 평가라는 중요한 문제를 처음으로 체계적으로 해결한 고품질 연구 논문입니다. 논문은 기술 혁신, 실험 설계 및 실용 가치 측면에서 모두 우수한 성능을 보여주며, 해당 분야의 발전에 중요한 기여를 합니다. 데이터 규모 및 이론적 분석 측면에서 개선의 여지가 있지만, 전반적으로 매우 가치 있는 연구 작업입니다.