2025-11-21T10:07:15.918989

RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos

Yang, Li, Diao et al.

Recently, Multi-modal Large Language Models (MLLMs) have demonstrated significant performance across various video understanding tasks. However, their robustness, particularly when faced with manipulated video content, remains largely unexplored. In this paper, we introduce Ro-Bench, the first benchmark for evaluating MLLMs on dynamic out-of-distribution (OOD) counterfactual video test sets. Ro-Bench incorporates high-quality, diverse and temporally relevant video data, by editing Style, Object, Background and their compositions. We evaluated eight recent video MLLMs and found that current models exhibit substantial performance degradation on Ro-Bench when exposed to counterfactual video content. Furthermore, we demonstrate that fine-tuning MLLMs with counterfactual data enhances robustness, achieving a 21.73% performance increase on Ro-Bench and a 12.78% improvement across 20 tasks in the MVBench dataset. These findings underscore the effectiveness of counterfactual data in enhancing the video understanding ability of MLLMs. The code and data will be released shortly.

academic

RO-Bench: Großflächige Robustheitsbewertung von MLLMs mit textgesteuerten kontrafaktischen Videos

Grundinformationen

Papier-ID: 2510.08936
Titel: RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos
Autoren: Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang (Beijing University of Posts and Telecommunications)
Klassifizierung: cs.CV cs.AI
Veröffentlichungsdatum: 2025 (Preprint)
Papierlink: https://arxiv.org/abs/2510.08936

Zusammenfassung

In den letzten Jahren haben multimodale große Sprachmodelle (MLLMs) bei verschiedenen Videoverständnisaufgaben hervorragende Leistungen erbracht. Ihre Robustheit gegenüber manipulierten Videoinhalten ist jedoch noch nicht ausreichend erforscht. Dieser Artikel stellt Ro-Bench vor, den ersten Benchmark zur Bewertung der Leistung von MLLMs auf dynamischen Out-of-Distribution (OOD) kontrafaktischen Video-Testsets. Ro-Bench integriert hochwertige, vielfältige und zeitlich kohärente Videodaten durch Bearbeitung von Stil, Objekten, Hintergrund und deren Kombinationen. Die Autoren bewerteten 8 aktuelle Video-MLLMs und stellten fest, dass aktuelle Modelle bei kontrafaktischen Videoinhalten erhebliche Leistungseinbußen aufweisen. Darüber hinaus zeigt die Forschung, dass die Feinabstimmung von MLLMs mit kontrafaktischen Daten die Robustheit verbessert, mit einer Leistungssteigerung von 21,73% auf Ro-Bench und durchschnittlich 12,78% über 20 Aufgaben des MVBench-Datensatzes.

Forschungshintergrund und Motivation

Problemdefinition

Mit der weit verbreiteten Anwendung von MLLMs bei Videoverständnisaufgaben, insbesondere in hochriskanten Bereichen wie Videoinhaltsmoderation, autonomes Fahren und Echtzeitüberwachung, wird die Gewährleistung der Modellrobustheit entscheidend. Obwohl bestehende Modelle in kontrollierten Umgebungen gut funktionieren, ist unklar, ob sie ihre Leistung bei manipulierten oder verfälschten Eingaben beibehalten können.

Forschungsbedeutung

Praktische Anwendungsanforderungen: In hochriskanten Anwendungsszenarien müssen Modelle stabile Leistung bei verschiedenen visuellen Veränderungen aufrechterhalten
Sicherheitsüberlegungen: Böswillige Angreifer könnten durch Videobearbeitung Modelle täuschen und Sicherheitsrisiken verursachen
Bewertungslücke: Bestehende Robustheitsbewertungen konzentrieren sich hauptsächlich auf statische Bilder; der Videobereich fehlt eine systematische Bewertung

Einschränkungen bestehender Methoden

Einschränkungen statischer Bilder: Benchmarks wie LANCE konzentrieren sich hauptsächlich auf kontrafaktische Generierung statischer Bilder
Einfache Störungen: Bestehende Videorobustheitsbewertungen verwenden hauptsächlich Rausch- oder Beschädigungstests und ignorieren die reiche zeitliche Dynamik realer Videos
Mangel an Systematik: Fehlendes umfassendes Robustheitsbewertungsframework für Video-MLLMs

Forschungsmotivation

Dieser Artikel zielt darauf ab, zwei zentrale Forschungsfragen zu beantworten:

RQ1: Wie schneiden MLLMs bei kontrafaktischen Videos ab, und welchen spezifischen Herausforderungen stehen sie beim Verständnis bearbeiteter Videoinhalte gegenüber?
RQ2: Wie beeinflusst die Verwendung kontrafaktischer Videos die Leistung von MLLMs, und kann sie ihr Verständnis und ihre Interpretation komplexer Videoinhalte verbessern?

Kernbeiträge

Erster Video-Robustheitsbenchmark: Vorschlag von Ro-Bench, dem ersten speziell für die Bewertung der Robustheit von Video-MLLMs entworfenen kontrafaktischen Video-Testset-Benchmark
Innovative Bewertungsmetriken: Einführung von vier innovativen Bewertungsmetriken zur Bewertung der Auswirkungen von Textaufforderungen und Originalvideos auf Bearbeitungsergebnisse, um Datenhochqualität zu gewährleisten
Umfassende Robustheitsbewertung: Umfassende Bewertung gängiger Video-MLLMs, die ihre unzureichende Robustheit beim Videoverständnis offenbart
Validierung von Trainingsstrategien: Nachweis, dass das Training mit kontrafaktischen Daten die Leistung auf Ro-Bench und die allgemeine Leistung bei anderen Benchmark-Aufgaben verbessern kann

Methodische Details

Aufgabendefinition

Ro-Bench zielt darauf ab, die Robustheit von Video-MLLMs bei kontrafaktischen Videoinhalten zu bewerten. Die Aufgaben umfassen:

Eingabe: Originalvideo und entsprechend bearbeitetes kontrafaktisches Video
Ausgabe: Multiple-Choice-Antworten für vier Videoverständnisaufgaben (Aktionserkennung, Objekterkennung, Objektexistenzbeurteilung, Videobeschreibung)
Bewertung: Vergleich der Leistungsunterschiede des Modells zwischen Original- und bearbeiteten Videos

Datenkonstruktionsprozess

1. Datenquellenerfassung

Datensatzquellen: DAVIS, TGVE, MSR-VTT, BalanceCC und andere öffentliche Datensätze sowie Internet
Inhaltsklassifizierung: Vier Subjekttypen (Menschen, Tiere, Landschaften, Objekte)
Aufgabentypen: Aktionserkennung (AR), Objekterkennung (OR), Objektexistenz (OE), Videobeschreibung (VC)

2. Kontrafaktische Videogenerierung

Untertitel-Bearbeitungsstrategie:

Zerlegung von Videountertiteln in strukturierte Komponenten: Objektattribute, Objektaktionen, Hintergrund, Stil
Untertitelbearbeitung basierend auf diesen vier visuellen Faktoren

Video-Bearbeitungsprozess:

Verwendung modernster textgesteuerter Videobearbeitungsmodelle
Vorschlag von vier Schlüsselbewertungsmetriken: Halluzinationsstufe (FL), Szenenkomplexität (SC), Kamerabewegung (CM), Objektbewegung (OM)
Auswahl der drei leistungsstärksten Bearbeitungsmodelle basierend auf Bewertungsergebnissen
Strenge manuelle Filterung zur Gewährleistung der Videoqualität

3. QA-Paar-Generierung

Automatisierte Fragengenerierung:

Nutzung von GPT-4o zur Generierung von Fragen für jedes Video basierend auf Aufgabendefinitionen
Konstruktion entsprechender Antwortalternativen basierend auf verschiedenen Aufgabentypen

Strategie zur Optionsgenerierung:

Übernahme aus Annotationen: Direkte Extraktion korrekter Antworten aus echten Annotationen
LLM-basierte Generierung: Bereitstellung von „Ja"-, „Nein"- und „Unsicher"-Optionen für Objektexistenzaufgaben
Distraktoren-Design: Gewährleistung, dass sie weder zu einfach noch zu schwierig sind, mit Relevanz und Vielfalt

Technische Innovationen

Mehrdimensionale Bearbeitungsstrategie: Systematische Videobearbeitung aus drei Dimensionen: Stil, Objekte und Hintergrund
Qualitätsbewertungssystem: Vorschlag von vier quantitativen Metriken zur Bewertung der Bearbeitungsqualität, um hochwertige kontrafaktische Videos zu gewährleisten
Aufgabenvielfalt: Abdeckung von vier Kernvideoverständnisaufgaben für umfassende Modellbewertung
Automatisierte Pipeline: Konstruktion einer End-to-End-Automatisierungspipeline für Datengenerierung und Bewertung

Experimentelle Einrichtung

Datensatzgröße

Videodaten: 2.1k hochwertige Video-Untertitel-Paare
QA-Paare: 8.6k Multiple-Choice-QA-Paare
Trainingssatz: 332 Originalvideos, 1328 kontrafaktische Videosamples, 6640 QA-Paare

Bewertungsmetriken

Origin: Testgenauigkeit auf Originalvideos
Edit: Testgenauigkeit auf bearbeiteten Videos
Drop: Leistungsabfallumfang (Origin - Edit)

Vergleichsmethoden

Bewertung von 8 gängigen Video-MLLMs:

Große oder feinabgestimmte Video-Encoder: VideoChat, VideoChat2, VideoLLaMA2, VideoLLaVA, VideoLLaMA3
CLIP ViT/L-14 Encoder: VideoChatGPT, mPLUG-Owl3, LLaVA-Next

Implementierungsdetails

Verwendung von LLaVA-Next als Basismodell für Feinabstimmung
Konstruktion von LLaVA-NextRo (mit kontrafaktischen Daten trainiert) und LLaVA-Nextori (mit Originaldaten trainiert) für Vergleich

Experimentelle Ergebnisse

Hauptergebnisse

Gesamtrobustheitsbewertung

Aus Tabelle 1 ist ersichtlich, dass alle Modelle bei kontrafaktischen Videos erhebliche Leistungseinbußen aufweisen:

Durchschnittlicher Leistungsabfall: 17,57%
Beste Robustheit: VideoChat2 (10,34% Abfall)
Schlechteste Robustheit: LLaVA-Nextori (30,85% Abfall)

Auswirkung von Bearbeitungsfaktoren auf Modellleistung

Aufgabensensitivitätsunterschiede: Aktionserkennung ist am stärksten betroffen (23,99% Abfall), Objektexistenz am wenigsten (11,54% Abfall)
Bearbeitungsfaktor-Auswirkungen: Objektveränderungen beeinflussen Modelle stärker als Stil- und Hintergrundveränderungen
Architektur-Auswirkungen: Modelle mit größeren oder feinabgestimmten Video-Encodern schneiden besser ab als solche mit gefrorenen CLIP ViT/L-14

Ergebnisse feinabgestimmter Modelle

Ro-Bench-Leistungssteigerung

LLaVA-NextRo: Erreicht beste Leistung bei Robustheitsbewertung mit nur 4,83% Genauigkeitsabfall
Relativ zu LLaVA-Next: Signifikante Verbesserung der Robustheitsindikatoren um 21,73%
Relativ zu LLaVA-Nextori: Demonstriert Vorteile des Trainings mit kontrafaktischen Daten

Verbesserung allgemeiner Videoverständnisfähigkeiten

Bei 20 nachgelagerten Aufgaben in MVBench:

Durchschnittliche Leistungssteigerung: 12,78%
Aufgaben im Zusammenhang mit Aktionen und Objekten: Zeigen deutlichere Verbesserungen
Beste Aufgabensteigerung: Erreichen beste Leistung bei mehreren Aufgaben

Ablationsstudien-Erkenntnisse

Bearbeitungsfaktor-Analyse: Objektbearbeitung hat die größte Auswirkung auf Modellleistung, gefolgt von Stil und Hintergrund
Architektur-Vergleich: Stärkere Video-Encoder sind entscheidend für Robustheitssteigerung
Aufgabenspezifität: Zeitliche Inferenzaufgaben (wie Aktionserkennung) sind anfälliger für visuelle Störungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Unzureichende Robustheit: Aktuelle Video-MLLMs zeigen erhebliche Leistungseinbußen bei kontrafaktischen Videoinhalten
Aufgabenunterschiede: Unterschiedliche Aufgaben zeigen unterschiedliche Empfindlichkeit gegenüber visuellen Veränderungen; zeitlich relevante Aufgaben sind anfälliger
Architektur-Wichtigkeit: Stärkere Video-Encoder sind entscheidend für Robustheitssteigerung
Trainingseffektivität: Feinabstimmung mit kontrafaktischen Daten verbessert effektiv Modellrobustheit und allgemeine Leistung

Einschränkungen

Datensatzgröße: Aktuelle Datensatzgröße ist relativ klein und könnte die Bewertungsumfassendheit begrenzen
Bearbeitungsqualität: Trotz Qualitätskontrolle könnten generierte kontrafaktische Videos möglicherweise noch nicht ausreichend natürlich wirken
Bewertungsumfang: Konzentriert sich hauptsächlich auf visuelle Bearbeitung; andere Störungstypen (wie Audio, zeitliche Störungen) sind nicht abgedeckt
Modellabdeckung: Begrenzte Anzahl bewerteter Modelle könnte nicht vollständig das aktuelle Technologieniveau repräsentieren

Zukünftige Richtungen

Erweiterung von Bearbeitungstypen: Erkundung weiterer Videobearbeitungs- und Störungstypen
Großflächige Datensätze: Konstruktion größerer und vielfältigerer kontrafaktischer Video-Datensätze
Theoretische Analyse: Tiefgehende Analyse der Grundursachen unzureichender MLLM-Robustheit
Abwehrmechanismen: Entwicklung spezialisierter Strategien zur Verbesserung der Modellrobustheit

Tiefgreifende Bewertung

Stärken

Starke Innovation: Erste systematische Vorschlag eines Robustheitsbewertungs-Benchmarks für Video-MLLMs, füllt wichtige Forschungslücke
Vollständige Methodik: Von Datengenerierung, Qualitätskontrolle bis zu Bewertungsmetriken, konstruiert umfassendes Bewertungsframework
Umfangreiche Experimente: Bewertung mehrerer gängiger Modelle mit umfassender Leistungsvergleichsanalyse
Hoher praktischer Wert: Bietet nicht nur Bewertungs-Benchmark, sondern beweist auch Effektivität kontrafaktischer Daten bei Leistungsverbesserung
Solide Technik: Verwendung modernster Videobearbeitungstechnologie gewährleistet Generierung hochqualitativer kontrafaktischer Videos

Mängel

Datensatzgrößenbeschränkung: Relativ kleine Datensatzgröße im Vergleich zu anderen großflächigen Benchmarks
Bearbeitungsdimensionsbeschränkung: Konzentriert sich hauptsächlich auf drei Dimensionen (Stil, Objekte, Hintergrund), könnte andere wichtige Störungstypen übersehen
Einzelne Bewertungsmetriken: Verwendet hauptsächlich Genauigkeit als Bewertungsmetrik, fehlen feinkörnigere Analyseindikatoren
Unzureichende theoretische Analyse: Mangelnde tiefgehende theoretische Analyse der Grundursachen unzureichender Modellrobustheit

Auswirkungen

Akademischer Beitrag: Bietet wichtigen Benchmark und Forschungsframework für Robustheitsbewertung von Video-MLLMs
Praktischer Wert: Wichtige Orientierungshilfe für industrielle Bereitstellung von Video-MLLMs
Forschungsinspiration: Bietet wichtige Grundlage und Referenz für nachfolgende verwandte Forschung
Reproduzierbarkeit: Zusage zur Open-Source-Bereitstellung von Code und Daten fördert Entwicklung der Forschungsgemeinschaft

Anwendungsszenarien

Modellbewertung: Anwendbar auf Robustheitsbewertung verschiedener Video-MLLMs
Modellverbesserung: Kann zur Anleitung von Modellarchitektur-Design und Trainingsstrategieoptimierung verwendet werden
Anwendungsbereitstellung: Bietet Sicherheitsbewertung für Modellbereitstellung in hochriskanten Anwendungsszenarien
Forschungs-Benchmark: Kann als Standard-Bewertungs-Benchmark für zukünftige verwandte Forschung dienen

Literaturverzeichnis

Dieser Artikel zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

Video-MLLMs: VideoChat, VideoLLaMA, LLaVA-Next usw.
Robustheitsbewertung: LANCE, OOD-CV usw.
Videobearbeitung: Tune-a-Video, CCEdit usw.
Bewertungs-Benchmarks: MVBench, DAVIS usw.

Gesamtbewertung: Dies ist ein hochqualitativer Forschungsartikel, der sich erstmals systematisch mit der wichtigen Frage der Robustheitsbewertung von Video-MLLMs befasst. Das Papier zeigt hervorragende Leistungen in technischer Innovation, experimentellem Design und praktischem Wert und trägt wesentlich zur Entwicklung dieses Bereichs bei. Obwohl in Bezug auf Datensatzgröße und theoretische Analyse noch Verbesserungspotenzial besteht, ist es insgesamt eine äußerst wertvolle Forschungsarbeit.