2025-11-21T10:07:15.918989

RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos

Yang, Li, Diao et al.

Recently, Multi-modal Large Language Models (MLLMs) have demonstrated significant performance across various video understanding tasks. However, their robustness, particularly when faced with manipulated video content, remains largely unexplored. In this paper, we introduce Ro-Bench, the first benchmark for evaluating MLLMs on dynamic out-of-distribution (OOD) counterfactual video test sets. Ro-Bench incorporates high-quality, diverse and temporally relevant video data, by editing Style, Object, Background and their compositions. We evaluated eight recent video MLLMs and found that current models exhibit substantial performance degradation on Ro-Bench when exposed to counterfactual video content. Furthermore, we demonstrate that fine-tuning MLLMs with counterfactual data enhances robustness, achieving a 21.73% performance increase on Ro-Bench and a 12.78% improvement across 20 tasks in the MVBench dataset. These findings underscore the effectiveness of counterfactual data in enhancing the video understanding ability of MLLMs. The code and data will be released shortly.

academic

RO-Bench: Valutazione su larga scala della robustezza dei MLLM con video contraffatti guidati da testo

Informazioni Fondamentali

ID Articolo: 2510.08936
Titolo: RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos
Autori: Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang (Beijing University of Posts and Telecommunications)
Classificazione: cs.CV cs.AI
Data di Pubblicazione: 2025 (preprint)
Link Articolo: https://arxiv.org/abs/2510.08936

Riassunto

Negli ultimi anni, i modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato eccellenti prestazioni in vari compiti di comprensione video. Tuttavia, la loro robustezza di fronte a contenuti video manipolati rimane ancora insufficientemente esplorata. Questo articolo introduce Ro-Bench, il primo benchmark per valutare le prestazioni dei MLLM su un set di test video contraffatti fuori distribuzione (OOD) dinamico. Ro-Bench integra dati video di alta qualità, diversificati e temporalmente correlati attraverso la modifica di stili, oggetti, sfondi e loro combinazioni. Gli autori hanno valutato 8 MLLM video all'avanguardia, scoprendo che i modelli attuali mostrano un calo significativo delle prestazioni di fronte a contenuti video contraffatti. Inoltre, la ricerca dimostra che l'ottimizzazione fine dei MLLM utilizzando dati contraffatti migliora la robustezza, ottenendo un miglioramento delle prestazioni del 21,73% su Ro-Bench e un miglioramento medio del 12,78% su 20 compiti del dataset MVBench.

Contesto di Ricerca e Motivazione

Definizione del Problema

Con l'ampia applicazione dei modelli linguistici multimodali nei compiti di comprensione video, in particolare nel dispiegamento in settori ad alto rischio come la moderazione dei contenuti video, la guida autonoma e il monitoraggio in tempo reale, garantire la robustezza del modello diventa cruciale. Sebbene i modelli esistenti funzionino bene in ambienti controllati, rimane sconosciuto se possono mantenere le prestazioni di fronte a input alterati o manipolati.

Importanza della Ricerca

Esigenze di Applicazione Pratica: In scenari di applicazione ad alto rischio, i modelli devono mantenere prestazioni stabili di fronte a varie variazioni visive
Considerazioni di Sicurezza: Gli attaccanti malintenzionati potrebbero ingannare i modelli attraverso l'editing video, creando rischi di sicurezza
Lacuna di Valutazione: Le valutazioni di robustezza esistenti si concentrano principalmente su immagini statiche, con una mancanza di valutazione sistematica nel dominio video

Limitazioni dei Metodi Esistenti

Limitazioni delle Immagini Statiche: Benchmark come LANCE si concentrano principalmente sulla generazione contraffatta di immagini statiche
Perturbazioni Semplici: Le valutazioni di robustezza video esistenti utilizzano principalmente test di rumore o corruzione, trascurando la ricca dinamica temporale dei video del mondo reale
Mancanza di Sistematicità: Manca un framework di valutazione della robustezza completo e specifico per i MLLM video

Motivazione della Ricerca

Questo articolo mira a rispondere a due domande di ricerca fondamentali:

RQ1: Come si comportano i MLLM su video contraffatti e quali sfide specifiche affrontano nella comprensione di contenuti video modificati?
RQ2: Come influisce l'uso di video contraffatti sulle prestazioni dei MLLM e può migliorare la loro capacità di comprendere e interpretare contenuti video complessi?

Contributi Fondamentali

Primo Benchmark di Robustezza Video: Propone Ro-Bench, il primo benchmark di set di test video contraffatti specificamente progettato per valutare la robustezza dei MLLM video
Metriche di Valutazione Innovative: Introduce quattro metriche di valutazione innovative per valutare l'impatto dei prompt di testo e dei video originali sui risultati dell'editing, garantendo dati di alta qualità
Valutazione Completa della Robustezza: Fornisce una valutazione completa dei principali MLLM video, rivelando insufficienze di robustezza nella comprensione video
Verifica della Strategia di Addestramento: Dimostra che l'addestramento con dati contraffatti può migliorare le prestazioni su Ro-Bench e le prestazioni generali su altri benchmark

Dettagli del Metodo

Definizione del Compito

Ro-Bench mira a valutare la robustezza dei MLLM video di fronte a contenuti video contraffatti. I compiti includono:

Input: Video originale e corrispondente video contraffatto modificato
Output: Risposte a scelta multipla per quattro compiti di comprensione video (riconoscimento di azioni, riconoscimento di oggetti, giudizio di esistenza di oggetti, descrizione video)
Valutazione: Confronto della differenza di prestazioni del modello tra video originali e modificati

Processo di Costruzione dei Dati

1. Raccolta delle Fonti di Dati

Fonti Dataset: Dataset pubblici come DAVIS, TGVE, MSR-VTT, BalanceCC e Internet
Classificazione dei Contenuti: Quattro tipi di soggetti (umani, animali, paesaggi, oggetti)
Tipi di Compiti: Riconoscimento di azioni (AR), Riconoscimento di oggetti (OR), Esistenza di oggetti (OE), Descrizione video (VC)

2. Generazione di Video Contraffatti

Strategie di Modifica dei Sottotitoli:

Decomposizione dei sottotitoli video in componenti strutturati: attributi degli oggetti, azioni degli oggetti, sfondo, stile
Modifica dei sottotitoli basata su questi quattro fattori visivi

Processo di Editing Video:

Utilizzo di modelli di editing video guidati da testo all'avanguardia
Proposizione di quattro metriche di valutazione chiave: Livello di Allucinazione (FL), Complessità della Scena (SC), Movimento della Telecamera (CM), Movimento dell'Oggetto (OM)
Selezione dei tre migliori modelli di editing in base ai risultati della valutazione
Rigida selezione manuale per garantire la qualità video

3. Generazione di Coppie QA

Generazione Automatica di Domande:

Utilizzo di GPT-4o per generare domande per ogni video in base alla definizione del compito
Costruzione di opzioni di risposta corrispondenti in base ai diversi tipi di compiti

Strategia di Generazione delle Opzioni:

Adozione da annotazioni: Estrazione diretta della risposta corretta da annotazioni reali
Generazione basata su LLM: Fornitura di opzioni "sì", "no", "incerto" per compiti di esistenza di oggetti
Progettazione di distrattori: Garantire che non siano né troppo semplici né troppo difficili, mantenendo rilevanza e diversità

Punti di Innovazione Tecnica

Strategia di Editing Multidimensionale: Editing sistematico di video da tre dimensioni: stile, oggetto, sfondo
Sistema di Valutazione della Qualità: Proposizione di quattro metriche quantitative per valutare la qualità dell'editing, garantendo la generazione di video contraffatti di alta qualità
Diversità dei Compiti: Copertura di quattro compiti fondamentali di comprensione video, valutazione completa delle capacità del modello
Pipeline Automatizzata: Costruzione di una pipeline di generazione e valutazione dei dati end-to-end automatizzata

Configurazione Sperimentale

Scala del Dataset

Dati Video: 2.1k coppie video-sottotitoli di alta qualità
Coppie QA: 8.6k coppie QA a scelta multipla
Set di Addestramento: 332 video originali, 1328 campioni video contraffatti, 6640 coppie QA

Metriche di Valutazione

Origin: Accuratezza del test su video originali
Edit: Accuratezza del test su video modificati
Drop: Entità del calo di prestazioni (Origin - Edit)

Metodi di Confronto

Valutazione di 8 principali MLLM video:

Encoder Video di Grandi Dimensioni o Ottimizzati: VideoChat, VideoChat2, VideoLLaMA2, VideoLLaVA, VideoLLaMA3
Encoder CLIP ViT/L-14: VideoChatGPT, mPLUG-Owl3, LLaVA-Next

Dettagli di Implementazione

Utilizzo di LLaVA-Next come modello di base per l'ottimizzazione fine
Costruzione di LLaVA-NextRo (addestrato con dati contraffatti) e LLaVA-Nextori (addestrato con dati originali) per il confronto

Risultati Sperimentali

Risultati Principali

Valutazione Complessiva della Robustezza

Dalla Tabella 1 emerge che tutti i modelli mostrano un calo significativo delle prestazioni su video contraffatti:

Calo Medio di Prestazioni: 17,57%
Migliore Robustezza: VideoChat2 (calo del 10,34%)
Peggiore Robustezza: LLaVA-Nextori (calo del 30,85%)

Impatto dei Fattori di Editing sulle Prestazioni del Modello

Differenze di Sensibilità ai Compiti: Il compito di riconoscimento di azioni è il più colpito (calo del 23,99%), mentre il compito di esistenza di oggetti è il meno colpito (calo dell'11,54%)
Impatto dei Fattori di Editing: Le variazioni di oggetti hanno un impatto maggiore sui modelli rispetto alle variazioni di stile e sfondo
Impatto dell'Architettura: I modelli con encoder video più grandi o ottimizzati funzionano meglio di quelli con CLIP ViT/L-14 congelato

Risultati del Modello Ottimizzato

Miglioramento delle Prestazioni su Ro-Bench

LLaVA-NextRo: Raggiunge le migliori prestazioni nella valutazione della robustezza, con un calo di accuratezza di soli il 4,83%
Relativo a LLaVA-Next: Miglioramento significativo dell'indice di robustezza del 21,73%
Relativo a LLaVA-Nextori: Dimostra i vantaggi dell'addestramento con dati contraffatti

Miglioramento della Capacità Generale di Comprensione Video

Su 20 compiti a valle di MVBench:

Miglioramento Medio delle Prestazioni: 12,78%
Compiti Correlati ad Azioni e Oggetti: Mostrano miglioramenti più significativi
Miglioramento Massimo dei Compiti: Raggiungimento delle migliori prestazioni su più compiti

Scoperte degli Esperimenti di Ablazione

Analisi dei Fattori di Editing: L'editing di oggetti ha il maggiore impatto sulle prestazioni del modello, seguito da stile e sfondo
Confronto dell'Architettura: Encoder video più potenti sono cruciali per migliorare la robustezza
Specificità dei Compiti: I compiti di inferenza temporale (come il riconoscimento di azioni) sono più facilmente influenzati dalle perturbazioni visive

Lavori Correlati

Modelli Linguistici Multimodali di Grandi Dimensioni

Negli ultimi anni, i MLLM hanno ottenuto progressi significativi nei compiti di comprensione video, ma la valutazione della robustezza rimane relativamente indietro.

Valutazione della Robustezza

Dominio delle Immagini: Lavori come LANCE utilizzano la generazione di immagini contraffatte per valutare le prestazioni del modello
Dominio Video: I lavori esistenti si concentrano principalmente su test di rumore e corruzione, mancando di una valutazione contraffatta sistematica

Aumento dei Dati Contraffatti

I dati contraffatti mostrano potenziale nel migliorare la capacità di generalizzazione del modello, ma la loro applicazione nei MLLM video rimane ancora da esplorare.

Conclusioni e Discussione

Conclusioni Principali

Insufficienza di Robustezza: I MLLM video attuali mostrano un calo significativo delle prestazioni di fronte a contenuti video contraffatti
Differenze nei Compiti: Esistono differenze nella sensibilità alle variazioni visive tra diversi compiti, con compiti correlati alla temporalità più facilmente influenzati
Importanza dell'Architettura: Encoder video più potenti sono cruciali per migliorare la robustezza
Efficacia dell'Addestramento: L'ottimizzazione fine con dati contraffatti può migliorare efficacemente la robustezza del modello e le prestazioni generali

Limitazioni

Scala dei Dati: La scala attuale del dataset è relativamente piccola, il che potrebbe limitare la completezza della valutazione
Qualità dell'Editing: Nonostante il controllo di qualità, i video contraffatti generati potrebbero ancora non essere sufficientemente naturali
Ambito di Valutazione: Si concentra principalmente su editing visivo, non coprendo altri tipi di perturbazioni (come audio, perturbazioni temporali)
Copertura del Modello: Il numero di modelli valutati è limitato, il che potrebbe non rappresentare completamente il livello tecnologico attuale

Direzioni Future

Estensione dei Tipi di Editing: Esplorazione di più tipi di editing video e metodi di perturbazione
Dataset su Larga Scala: Costruzione di dataset video contraffatti più grandi e diversificati
Analisi Teorica: Analisi approfondita delle cause fondamentali dell'insufficienza di robustezza dei MLLM
Meccanismi di Difesa: Sviluppo di strategie di difesa specializzate per migliorare la robustezza del modello

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Primo a proporre sistematicamente un benchmark di valutazione della robustezza per MLLM video, colmando un'importante lacuna di ricerca
Metodo Completo: Dalla generazione dei dati, al controllo di qualità, alle metriche di valutazione, costruisce un framework di valutazione completo
Esperimenti Sufficienti: Valutazione di più modelli principali, fornendo un'analisi comparativa completa delle prestazioni
Alto Valore Pratico: Non solo fornisce un benchmark di valutazione, ma dimostra anche l'efficacia dei dati contraffatti nel migliorare le prestazioni del modello
Tecnica Solida: Utilizzo di tecnologie di editing video all'avanguardia, garantendo la generazione di video contraffatti di alta qualità

Insufficienze

Limitazione della Scala dei Dati: Rispetto ad altri benchmark su larga scala, la scala dei dati di Ro-Bench è relativamente piccola
Limitazione delle Dimensioni di Editing: Si concentra principalmente su tre dimensioni (stile, oggetto, sfondo), potrebbe trascurare altri importanti tipi di perturbazioni
Metriche di Valutazione Singolari: Utilizza principalmente l'accuratezza come metrica di valutazione, mancando di analisi più granulari
Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita delle cause fondamentali dell'insufficienza di robustezza del modello

Impatto

Contributo Accademico: Fornisce un importante benchmark e framework di ricerca per la valutazione della robustezza dei MLLM video
Valore Pratico: Ha un significato guida importante per il dispiegamento di MLLM video in scenari di applicazione ad alto rischio
Ispirazione per la Ricerca: Fornisce una base importante e un riferimento per la ricerca correlata successiva
Riproducibilità: Impegno di open-sourcing del codice e dei dati, favorendo lo sviluppo della comunità di ricerca

Scenari Applicabili

Valutazione del Modello: Applicabile alla valutazione della robustezza di vari MLLM video
Miglioramento del Modello: Può essere utilizzato per guidare la progettazione dell'architettura del modello e l'ottimizzazione della strategia di addestramento
Dispiegamento dell'Applicazione: Fornisce valutazione di sicurezza per il dispiegamento di modelli in scenari di applicazione ad alto rischio
Benchmark di Ricerca: Può servire come benchmark di valutazione standard per la ricerca correlata futura

Riferimenti Bibliografici

Questo articolo cita numerosi lavori correlati importanti, inclusi:

MLLM Video: VideoChat, VideoLLaMA, LLaVA-Next, ecc.
Valutazione della Robustezza: LANCE, OOD-CV, ecc.
Editing Video: Tune-a-Video, CCEdit, ecc.
Benchmark di Valutazione: MVBench, DAVIS, ecc.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che affronta sistematicamente per la prima volta l'importante problema della valutazione della robustezza dei MLLM video. L'articolo dimostra eccellenza in innovazione tecnica, progettazione sperimentale e valore pratico, fornendo contributi importanti allo sviluppo di questo campo. Sebbene ci sia ancora spazio per miglioramenti nella scala dei dati e nell'analisi teorica, nel complesso è un lavoro di ricerca di grande valore.