Recently, Multi-modal Large Language Models (MLLMs) have demonstrated significant performance across various video understanding tasks. However, their robustness, particularly when faced with manipulated video content, remains largely unexplored. In this paper, we introduce Ro-Bench, the first benchmark for evaluating MLLMs on dynamic out-of-distribution (OOD) counterfactual video test sets. Ro-Bench incorporates high-quality, diverse and temporally relevant video data, by editing Style, Object, Background and their compositions. We evaluated eight recent video MLLMs and found that current models exhibit substantial performance degradation on Ro-Bench when exposed to counterfactual video content. Furthermore, we demonstrate that fine-tuning MLLMs with counterfactual data enhances robustness, achieving a 21.73% performance increase on Ro-Bench and a 12.78% improvement across 20 tasks in the MVBench dataset. These findings underscore the effectiveness of counterfactual data in enhancing the video understanding ability of MLLMs. The code and data will be released shortly.
- ID Articolo: 2510.08936
- Titolo: RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos
- Autori: Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang (Beijing University of Posts and Telecommunications)
- Classificazione: cs.CV cs.AI
- Data di Pubblicazione: 2025 (preprint)
- Link Articolo: https://arxiv.org/abs/2510.08936
Negli ultimi anni, i modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato eccellenti prestazioni in vari compiti di comprensione video. Tuttavia, la loro robustezza di fronte a contenuti video manipolati rimane ancora insufficientemente esplorata. Questo articolo introduce Ro-Bench, il primo benchmark per valutare le prestazioni dei MLLM su un set di test video contraffatti fuori distribuzione (OOD) dinamico. Ro-Bench integra dati video di alta qualità, diversificati e temporalmente correlati attraverso la modifica di stili, oggetti, sfondi e loro combinazioni. Gli autori hanno valutato 8 MLLM video all'avanguardia, scoprendo che i modelli attuali mostrano un calo significativo delle prestazioni di fronte a contenuti video contraffatti. Inoltre, la ricerca dimostra che l'ottimizzazione fine dei MLLM utilizzando dati contraffatti migliora la robustezza, ottenendo un miglioramento delle prestazioni del 21,73% su Ro-Bench e un miglioramento medio del 12,78% su 20 compiti del dataset MVBench.
Con l'ampia applicazione dei modelli linguistici multimodali nei compiti di comprensione video, in particolare nel dispiegamento in settori ad alto rischio come la moderazione dei contenuti video, la guida autonoma e il monitoraggio in tempo reale, garantire la robustezza del modello diventa cruciale. Sebbene i modelli esistenti funzionino bene in ambienti controllati, rimane sconosciuto se possono mantenere le prestazioni di fronte a input alterati o manipolati.
- Esigenze di Applicazione Pratica: In scenari di applicazione ad alto rischio, i modelli devono mantenere prestazioni stabili di fronte a varie variazioni visive
- Considerazioni di Sicurezza: Gli attaccanti malintenzionati potrebbero ingannare i modelli attraverso l'editing video, creando rischi di sicurezza
- Lacuna di Valutazione: Le valutazioni di robustezza esistenti si concentrano principalmente su immagini statiche, con una mancanza di valutazione sistematica nel dominio video
- Limitazioni delle Immagini Statiche: Benchmark come LANCE si concentrano principalmente sulla generazione contraffatta di immagini statiche
- Perturbazioni Semplici: Le valutazioni di robustezza video esistenti utilizzano principalmente test di rumore o corruzione, trascurando la ricca dinamica temporale dei video del mondo reale
- Mancanza di Sistematicità: Manca un framework di valutazione della robustezza completo e specifico per i MLLM video
Questo articolo mira a rispondere a due domande di ricerca fondamentali:
- RQ1: Come si comportano i MLLM su video contraffatti e quali sfide specifiche affrontano nella comprensione di contenuti video modificati?
- RQ2: Come influisce l'uso di video contraffatti sulle prestazioni dei MLLM e può migliorare la loro capacità di comprendere e interpretare contenuti video complessi?
- Primo Benchmark di Robustezza Video: Propone Ro-Bench, il primo benchmark di set di test video contraffatti specificamente progettato per valutare la robustezza dei MLLM video
- Metriche di Valutazione Innovative: Introduce quattro metriche di valutazione innovative per valutare l'impatto dei prompt di testo e dei video originali sui risultati dell'editing, garantendo dati di alta qualità
- Valutazione Completa della Robustezza: Fornisce una valutazione completa dei principali MLLM video, rivelando insufficienze di robustezza nella comprensione video
- Verifica della Strategia di Addestramento: Dimostra che l'addestramento con dati contraffatti può migliorare le prestazioni su Ro-Bench e le prestazioni generali su altri benchmark
Ro-Bench mira a valutare la robustezza dei MLLM video di fronte a contenuti video contraffatti. I compiti includono:
- Input: Video originale e corrispondente video contraffatto modificato
- Output: Risposte a scelta multipla per quattro compiti di comprensione video (riconoscimento di azioni, riconoscimento di oggetti, giudizio di esistenza di oggetti, descrizione video)
- Valutazione: Confronto della differenza di prestazioni del modello tra video originali e modificati
- Fonti Dataset: Dataset pubblici come DAVIS, TGVE, MSR-VTT, BalanceCC e Internet
- Classificazione dei Contenuti: Quattro tipi di soggetti (umani, animali, paesaggi, oggetti)
- Tipi di Compiti: Riconoscimento di azioni (AR), Riconoscimento di oggetti (OR), Esistenza di oggetti (OE), Descrizione video (VC)
Strategie di Modifica dei Sottotitoli:
- Decomposizione dei sottotitoli video in componenti strutturati: attributi degli oggetti, azioni degli oggetti, sfondo, stile
- Modifica dei sottotitoli basata su questi quattro fattori visivi
Processo di Editing Video:
- Utilizzo di modelli di editing video guidati da testo all'avanguardia
- Proposizione di quattro metriche di valutazione chiave: Livello di Allucinazione (FL), Complessità della Scena (SC), Movimento della Telecamera (CM), Movimento dell'Oggetto (OM)
- Selezione dei tre migliori modelli di editing in base ai risultati della valutazione
- Rigida selezione manuale per garantire la qualità video
Generazione Automatica di Domande:
- Utilizzo di GPT-4o per generare domande per ogni video in base alla definizione del compito
- Costruzione di opzioni di risposta corrispondenti in base ai diversi tipi di compiti
Strategia di Generazione delle Opzioni:
- Adozione da annotazioni: Estrazione diretta della risposta corretta da annotazioni reali
- Generazione basata su LLM: Fornitura di opzioni "sì", "no", "incerto" per compiti di esistenza di oggetti
- Progettazione di distrattori: Garantire che non siano né troppo semplici né troppo difficili, mantenendo rilevanza e diversità
- Strategia di Editing Multidimensionale: Editing sistematico di video da tre dimensioni: stile, oggetto, sfondo
- Sistema di Valutazione della Qualità: Proposizione di quattro metriche quantitative per valutare la qualità dell'editing, garantendo la generazione di video contraffatti di alta qualità
- Diversità dei Compiti: Copertura di quattro compiti fondamentali di comprensione video, valutazione completa delle capacità del modello
- Pipeline Automatizzata: Costruzione di una pipeline di generazione e valutazione dei dati end-to-end automatizzata
- Dati Video: 2.1k coppie video-sottotitoli di alta qualità
- Coppie QA: 8.6k coppie QA a scelta multipla
- Set di Addestramento: 332 video originali, 1328 campioni video contraffatti, 6640 coppie QA
- Origin: Accuratezza del test su video originali
- Edit: Accuratezza del test su video modificati
- Drop: Entità del calo di prestazioni (Origin - Edit)
Valutazione di 8 principali MLLM video:
- Encoder Video di Grandi Dimensioni o Ottimizzati: VideoChat, VideoChat2, VideoLLaMA2, VideoLLaVA, VideoLLaMA3
- Encoder CLIP ViT/L-14: VideoChatGPT, mPLUG-Owl3, LLaVA-Next
- Utilizzo di LLaVA-Next come modello di base per l'ottimizzazione fine
- Costruzione di LLaVA-NextRo (addestrato con dati contraffatti) e LLaVA-Nextori (addestrato con dati originali) per il confronto
Dalla Tabella 1 emerge che tutti i modelli mostrano un calo significativo delle prestazioni su video contraffatti:
- Calo Medio di Prestazioni: 17,57%
- Migliore Robustezza: VideoChat2 (calo del 10,34%)
- Peggiore Robustezza: LLaVA-Nextori (calo del 30,85%)
- Differenze di Sensibilità ai Compiti: Il compito di riconoscimento di azioni è il più colpito (calo del 23,99%), mentre il compito di esistenza di oggetti è il meno colpito (calo dell'11,54%)
- Impatto dei Fattori di Editing: Le variazioni di oggetti hanno un impatto maggiore sui modelli rispetto alle variazioni di stile e sfondo
- Impatto dell'Architettura: I modelli con encoder video più grandi o ottimizzati funzionano meglio di quelli con CLIP ViT/L-14 congelato
- LLaVA-NextRo: Raggiunge le migliori prestazioni nella valutazione della robustezza, con un calo di accuratezza di soli il 4,83%
- Relativo a LLaVA-Next: Miglioramento significativo dell'indice di robustezza del 21,73%
- Relativo a LLaVA-Nextori: Dimostra i vantaggi dell'addestramento con dati contraffatti
Su 20 compiti a valle di MVBench:
- Miglioramento Medio delle Prestazioni: 12,78%
- Compiti Correlati ad Azioni e Oggetti: Mostrano miglioramenti più significativi
- Miglioramento Massimo dei Compiti: Raggiungimento delle migliori prestazioni su più compiti
- Analisi dei Fattori di Editing: L'editing di oggetti ha il maggiore impatto sulle prestazioni del modello, seguito da stile e sfondo
- Confronto dell'Architettura: Encoder video più potenti sono cruciali per migliorare la robustezza
- Specificità dei Compiti: I compiti di inferenza temporale (come il riconoscimento di azioni) sono più facilmente influenzati dalle perturbazioni visive
Negli ultimi anni, i MLLM hanno ottenuto progressi significativi nei compiti di comprensione video, ma la valutazione della robustezza rimane relativamente indietro.
- Dominio delle Immagini: Lavori come LANCE utilizzano la generazione di immagini contraffatte per valutare le prestazioni del modello
- Dominio Video: I lavori esistenti si concentrano principalmente su test di rumore e corruzione, mancando di una valutazione contraffatta sistematica
I dati contraffatti mostrano potenziale nel migliorare la capacità di generalizzazione del modello, ma la loro applicazione nei MLLM video rimane ancora da esplorare.
- Insufficienza di Robustezza: I MLLM video attuali mostrano un calo significativo delle prestazioni di fronte a contenuti video contraffatti
- Differenze nei Compiti: Esistono differenze nella sensibilità alle variazioni visive tra diversi compiti, con compiti correlati alla temporalità più facilmente influenzati
- Importanza dell'Architettura: Encoder video più potenti sono cruciali per migliorare la robustezza
- Efficacia dell'Addestramento: L'ottimizzazione fine con dati contraffatti può migliorare efficacemente la robustezza del modello e le prestazioni generali
- Scala dei Dati: La scala attuale del dataset è relativamente piccola, il che potrebbe limitare la completezza della valutazione
- Qualità dell'Editing: Nonostante il controllo di qualità, i video contraffatti generati potrebbero ancora non essere sufficientemente naturali
- Ambito di Valutazione: Si concentra principalmente su editing visivo, non coprendo altri tipi di perturbazioni (come audio, perturbazioni temporali)
- Copertura del Modello: Il numero di modelli valutati è limitato, il che potrebbe non rappresentare completamente il livello tecnologico attuale
- Estensione dei Tipi di Editing: Esplorazione di più tipi di editing video e metodi di perturbazione
- Dataset su Larga Scala: Costruzione di dataset video contraffatti più grandi e diversificati
- Analisi Teorica: Analisi approfondita delle cause fondamentali dell'insufficienza di robustezza dei MLLM
- Meccanismi di Difesa: Sviluppo di strategie di difesa specializzate per migliorare la robustezza del modello
- Forte Innovatività: Primo a proporre sistematicamente un benchmark di valutazione della robustezza per MLLM video, colmando un'importante lacuna di ricerca
- Metodo Completo: Dalla generazione dei dati, al controllo di qualità, alle metriche di valutazione, costruisce un framework di valutazione completo
- Esperimenti Sufficienti: Valutazione di più modelli principali, fornendo un'analisi comparativa completa delle prestazioni
- Alto Valore Pratico: Non solo fornisce un benchmark di valutazione, ma dimostra anche l'efficacia dei dati contraffatti nel migliorare le prestazioni del modello
- Tecnica Solida: Utilizzo di tecnologie di editing video all'avanguardia, garantendo la generazione di video contraffatti di alta qualità
- Limitazione della Scala dei Dati: Rispetto ad altri benchmark su larga scala, la scala dei dati di Ro-Bench è relativamente piccola
- Limitazione delle Dimensioni di Editing: Si concentra principalmente su tre dimensioni (stile, oggetto, sfondo), potrebbe trascurare altri importanti tipi di perturbazioni
- Metriche di Valutazione Singolari: Utilizza principalmente l'accuratezza come metrica di valutazione, mancando di analisi più granulari
- Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita delle cause fondamentali dell'insufficienza di robustezza del modello
- Contributo Accademico: Fornisce un importante benchmark e framework di ricerca per la valutazione della robustezza dei MLLM video
- Valore Pratico: Ha un significato guida importante per il dispiegamento di MLLM video in scenari di applicazione ad alto rischio
- Ispirazione per la Ricerca: Fornisce una base importante e un riferimento per la ricerca correlata successiva
- Riproducibilità: Impegno di open-sourcing del codice e dei dati, favorendo lo sviluppo della comunità di ricerca
- Valutazione del Modello: Applicabile alla valutazione della robustezza di vari MLLM video
- Miglioramento del Modello: Può essere utilizzato per guidare la progettazione dell'architettura del modello e l'ottimizzazione della strategia di addestramento
- Dispiegamento dell'Applicazione: Fornisce valutazione di sicurezza per il dispiegamento di modelli in scenari di applicazione ad alto rischio
- Benchmark di Ricerca: Può servire come benchmark di valutazione standard per la ricerca correlata futura
Questo articolo cita numerosi lavori correlati importanti, inclusi:
- MLLM Video: VideoChat, VideoLLaMA, LLaVA-Next, ecc.
- Valutazione della Robustezza: LANCE, OOD-CV, ecc.
- Editing Video: Tune-a-Video, CCEdit, ecc.
- Benchmark di Valutazione: MVBench, DAVIS, ecc.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che affronta sistematicamente per la prima volta l'importante problema della valutazione della robustezza dei MLLM video. L'articolo dimostra eccellenza in innovazione tecnica, progettazione sperimentale e valore pratico, fornendo contributi importanti allo sviluppo di questo campo. Sebbene ci sia ancora spazio per miglioramenti nella scala dei dati e nell'analisi teorica, nel complesso è un lavoro di ricerca di grande valore.