2025-11-21T10:07:15.918989

RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos

Yang, Li, Diao et al.
Recently, Multi-modal Large Language Models (MLLMs) have demonstrated significant performance across various video understanding tasks. However, their robustness, particularly when faced with manipulated video content, remains largely unexplored. In this paper, we introduce Ro-Bench, the first benchmark for evaluating MLLMs on dynamic out-of-distribution (OOD) counterfactual video test sets. Ro-Bench incorporates high-quality, diverse and temporally relevant video data, by editing Style, Object, Background and their compositions. We evaluated eight recent video MLLMs and found that current models exhibit substantial performance degradation on Ro-Bench when exposed to counterfactual video content. Furthermore, we demonstrate that fine-tuning MLLMs with counterfactual data enhances robustness, achieving a 21.73% performance increase on Ro-Bench and a 12.78% improvement across 20 tasks in the MVBench dataset. These findings underscore the effectiveness of counterfactual data in enhancing the video understanding ability of MLLMs. The code and data will be released shortly.
academic

RO-Bench: Großflächige Robustheitsbewertung von MLLMs mit textgesteuerten kontrafaktischen Videos

Grundinformationen

  • Papier-ID: 2510.08936
  • Titel: RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos
  • Autoren: Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang (Beijing University of Posts and Telecommunications)
  • Klassifizierung: cs.CV cs.AI
  • Veröffentlichungsdatum: 2025 (Preprint)
  • Papierlink: https://arxiv.org/abs/2510.08936

Zusammenfassung

In den letzten Jahren haben multimodale große Sprachmodelle (MLLMs) bei verschiedenen Videoverständnisaufgaben hervorragende Leistungen erbracht. Ihre Robustheit gegenüber manipulierten Videoinhalten ist jedoch noch nicht ausreichend erforscht. Dieser Artikel stellt Ro-Bench vor, den ersten Benchmark zur Bewertung der Leistung von MLLMs auf dynamischen Out-of-Distribution (OOD) kontrafaktischen Video-Testsets. Ro-Bench integriert hochwertige, vielfältige und zeitlich kohärente Videodaten durch Bearbeitung von Stil, Objekten, Hintergrund und deren Kombinationen. Die Autoren bewerteten 8 aktuelle Video-MLLMs und stellten fest, dass aktuelle Modelle bei kontrafaktischen Videoinhalten erhebliche Leistungseinbußen aufweisen. Darüber hinaus zeigt die Forschung, dass die Feinabstimmung von MLLMs mit kontrafaktischen Daten die Robustheit verbessert, mit einer Leistungssteigerung von 21,73% auf Ro-Bench und durchschnittlich 12,78% über 20 Aufgaben des MVBench-Datensatzes.

Forschungshintergrund und Motivation

Problemdefinition

Mit der weit verbreiteten Anwendung von MLLMs bei Videoverständnisaufgaben, insbesondere in hochriskanten Bereichen wie Videoinhaltsmoderation, autonomes Fahren und Echtzeitüberwachung, wird die Gewährleistung der Modellrobustheit entscheidend. Obwohl bestehende Modelle in kontrollierten Umgebungen gut funktionieren, ist unklar, ob sie ihre Leistung bei manipulierten oder verfälschten Eingaben beibehalten können.

Forschungsbedeutung

  1. Praktische Anwendungsanforderungen: In hochriskanten Anwendungsszenarien müssen Modelle stabile Leistung bei verschiedenen visuellen Veränderungen aufrechterhalten
  2. Sicherheitsüberlegungen: Böswillige Angreifer könnten durch Videobearbeitung Modelle täuschen und Sicherheitsrisiken verursachen
  3. Bewertungslücke: Bestehende Robustheitsbewertungen konzentrieren sich hauptsächlich auf statische Bilder; der Videobereich fehlt eine systematische Bewertung

Einschränkungen bestehender Methoden

  1. Einschränkungen statischer Bilder: Benchmarks wie LANCE konzentrieren sich hauptsächlich auf kontrafaktische Generierung statischer Bilder
  2. Einfache Störungen: Bestehende Videorobustheitsbewertungen verwenden hauptsächlich Rausch- oder Beschädigungstests und ignorieren die reiche zeitliche Dynamik realer Videos
  3. Mangel an Systematik: Fehlendes umfassendes Robustheitsbewertungsframework für Video-MLLMs

Forschungsmotivation

Dieser Artikel zielt darauf ab, zwei zentrale Forschungsfragen zu beantworten:

  • RQ1: Wie schneiden MLLMs bei kontrafaktischen Videos ab, und welchen spezifischen Herausforderungen stehen sie beim Verständnis bearbeiteter Videoinhalte gegenüber?
  • RQ2: Wie beeinflusst die Verwendung kontrafaktischer Videos die Leistung von MLLMs, und kann sie ihr Verständnis und ihre Interpretation komplexer Videoinhalte verbessern?

Kernbeiträge

  1. Erster Video-Robustheitsbenchmark: Vorschlag von Ro-Bench, dem ersten speziell für die Bewertung der Robustheit von Video-MLLMs entworfenen kontrafaktischen Video-Testset-Benchmark
  2. Innovative Bewertungsmetriken: Einführung von vier innovativen Bewertungsmetriken zur Bewertung der Auswirkungen von Textaufforderungen und Originalvideos auf Bearbeitungsergebnisse, um Datenhochqualität zu gewährleisten
  3. Umfassende Robustheitsbewertung: Umfassende Bewertung gängiger Video-MLLMs, die ihre unzureichende Robustheit beim Videoverständnis offenbart
  4. Validierung von Trainingsstrategien: Nachweis, dass das Training mit kontrafaktischen Daten die Leistung auf Ro-Bench und die allgemeine Leistung bei anderen Benchmark-Aufgaben verbessern kann

Methodische Details

Aufgabendefinition

Ro-Bench zielt darauf ab, die Robustheit von Video-MLLMs bei kontrafaktischen Videoinhalten zu bewerten. Die Aufgaben umfassen:

  • Eingabe: Originalvideo und entsprechend bearbeitetes kontrafaktisches Video
  • Ausgabe: Multiple-Choice-Antworten für vier Videoverständnisaufgaben (Aktionserkennung, Objekterkennung, Objektexistenzbeurteilung, Videobeschreibung)
  • Bewertung: Vergleich der Leistungsunterschiede des Modells zwischen Original- und bearbeiteten Videos

Datenkonstruktionsprozess

1. Datenquellenerfassung

  • Datensatzquellen: DAVIS, TGVE, MSR-VTT, BalanceCC und andere öffentliche Datensätze sowie Internet
  • Inhaltsklassifizierung: Vier Subjekttypen (Menschen, Tiere, Landschaften, Objekte)
  • Aufgabentypen: Aktionserkennung (AR), Objekterkennung (OR), Objektexistenz (OE), Videobeschreibung (VC)

2. Kontrafaktische Videogenerierung

Untertitel-Bearbeitungsstrategie:

  • Zerlegung von Videountertiteln in strukturierte Komponenten: Objektattribute, Objektaktionen, Hintergrund, Stil
  • Untertitelbearbeitung basierend auf diesen vier visuellen Faktoren

Video-Bearbeitungsprozess:

  • Verwendung modernster textgesteuerter Videobearbeitungsmodelle
  • Vorschlag von vier Schlüsselbewertungsmetriken: Halluzinationsstufe (FL), Szenenkomplexität (SC), Kamerabewegung (CM), Objektbewegung (OM)
  • Auswahl der drei leistungsstärksten Bearbeitungsmodelle basierend auf Bewertungsergebnissen
  • Strenge manuelle Filterung zur Gewährleistung der Videoqualität

3. QA-Paar-Generierung

Automatisierte Fragengenerierung:

  • Nutzung von GPT-4o zur Generierung von Fragen für jedes Video basierend auf Aufgabendefinitionen
  • Konstruktion entsprechender Antwortalternativen basierend auf verschiedenen Aufgabentypen

Strategie zur Optionsgenerierung:

  • Übernahme aus Annotationen: Direkte Extraktion korrekter Antworten aus echten Annotationen
  • LLM-basierte Generierung: Bereitstellung von „Ja"-, „Nein"- und „Unsicher"-Optionen für Objektexistenzaufgaben
  • Distraktoren-Design: Gewährleistung, dass sie weder zu einfach noch zu schwierig sind, mit Relevanz und Vielfalt

Technische Innovationen

  1. Mehrdimensionale Bearbeitungsstrategie: Systematische Videobearbeitung aus drei Dimensionen: Stil, Objekte und Hintergrund
  2. Qualitätsbewertungssystem: Vorschlag von vier quantitativen Metriken zur Bewertung der Bearbeitungsqualität, um hochwertige kontrafaktische Videos zu gewährleisten
  3. Aufgabenvielfalt: Abdeckung von vier Kernvideoverständnisaufgaben für umfassende Modellbewertung
  4. Automatisierte Pipeline: Konstruktion einer End-to-End-Automatisierungspipeline für Datengenerierung und Bewertung

Experimentelle Einrichtung

Datensatzgröße

  • Videodaten: 2.1k hochwertige Video-Untertitel-Paare
  • QA-Paare: 8.6k Multiple-Choice-QA-Paare
  • Trainingssatz: 332 Originalvideos, 1328 kontrafaktische Videosamples, 6640 QA-Paare

Bewertungsmetriken

  • Origin: Testgenauigkeit auf Originalvideos
  • Edit: Testgenauigkeit auf bearbeiteten Videos
  • Drop: Leistungsabfallumfang (Origin - Edit)

Vergleichsmethoden

Bewertung von 8 gängigen Video-MLLMs:

  • Große oder feinabgestimmte Video-Encoder: VideoChat, VideoChat2, VideoLLaMA2, VideoLLaVA, VideoLLaMA3
  • CLIP ViT/L-14 Encoder: VideoChatGPT, mPLUG-Owl3, LLaVA-Next

Implementierungsdetails

  • Verwendung von LLaVA-Next als Basismodell für Feinabstimmung
  • Konstruktion von LLaVA-NextRo (mit kontrafaktischen Daten trainiert) und LLaVA-Nextori (mit Originaldaten trainiert) für Vergleich

Experimentelle Ergebnisse

Hauptergebnisse

Gesamtrobustheitsbewertung

Aus Tabelle 1 ist ersichtlich, dass alle Modelle bei kontrafaktischen Videos erhebliche Leistungseinbußen aufweisen:

  • Durchschnittlicher Leistungsabfall: 17,57%
  • Beste Robustheit: VideoChat2 (10,34% Abfall)
  • Schlechteste Robustheit: LLaVA-Nextori (30,85% Abfall)

Auswirkung von Bearbeitungsfaktoren auf Modellleistung

  1. Aufgabensensitivitätsunterschiede: Aktionserkennung ist am stärksten betroffen (23,99% Abfall), Objektexistenz am wenigsten (11,54% Abfall)
  2. Bearbeitungsfaktor-Auswirkungen: Objektveränderungen beeinflussen Modelle stärker als Stil- und Hintergrundveränderungen
  3. Architektur-Auswirkungen: Modelle mit größeren oder feinabgestimmten Video-Encodern schneiden besser ab als solche mit gefrorenen CLIP ViT/L-14

Ergebnisse feinabgestimmter Modelle

Ro-Bench-Leistungssteigerung

  • LLaVA-NextRo: Erreicht beste Leistung bei Robustheitsbewertung mit nur 4,83% Genauigkeitsabfall
  • Relativ zu LLaVA-Next: Signifikante Verbesserung der Robustheitsindikatoren um 21,73%
  • Relativ zu LLaVA-Nextori: Demonstriert Vorteile des Trainings mit kontrafaktischen Daten

Verbesserung allgemeiner Videoverständnisfähigkeiten

Bei 20 nachgelagerten Aufgaben in MVBench:

  • Durchschnittliche Leistungssteigerung: 12,78%
  • Aufgaben im Zusammenhang mit Aktionen und Objekten: Zeigen deutlichere Verbesserungen
  • Beste Aufgabensteigerung: Erreichen beste Leistung bei mehreren Aufgaben

Ablationsstudien-Erkenntnisse

  1. Bearbeitungsfaktor-Analyse: Objektbearbeitung hat die größte Auswirkung auf Modellleistung, gefolgt von Stil und Hintergrund
  2. Architektur-Vergleich: Stärkere Video-Encoder sind entscheidend für Robustheitssteigerung
  3. Aufgabenspezifität: Zeitliche Inferenzaufgaben (wie Aktionserkennung) sind anfälliger für visuelle Störungen

Verwandte Arbeiten

Multimodale große Sprachmodelle

In den letzten Jahren haben MLLMs bei Videoverständnisaufgaben erhebliche Fortschritte erzielt, aber die Robustheitsbewertung hinkt hinterher.

Robustheitsbewertung

  • Bildbereich: Arbeiten wie LANCE verwenden kontrafaktische Bildgenerierung zur Leistungsbewertung
  • Videobereich: Bestehende Arbeiten konzentrieren sich hauptsächlich auf Rausch- und Beschädigungstests; systematische kontrafaktische Bewertung fehlt

Kontrafaktische Datenerweiterung

Kontrafaktische Daten zeigen Potenzial zur Verbesserung der Modellverallgemeinerungsfähigkeit, ihre Anwendung in Video-MLLMs bleibt jedoch zu erforschen.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Unzureichende Robustheit: Aktuelle Video-MLLMs zeigen erhebliche Leistungseinbußen bei kontrafaktischen Videoinhalten
  2. Aufgabenunterschiede: Unterschiedliche Aufgaben zeigen unterschiedliche Empfindlichkeit gegenüber visuellen Veränderungen; zeitlich relevante Aufgaben sind anfälliger
  3. Architektur-Wichtigkeit: Stärkere Video-Encoder sind entscheidend für Robustheitssteigerung
  4. Trainingseffektivität: Feinabstimmung mit kontrafaktischen Daten verbessert effektiv Modellrobustheit und allgemeine Leistung

Einschränkungen

  1. Datensatzgröße: Aktuelle Datensatzgröße ist relativ klein und könnte die Bewertungsumfassendheit begrenzen
  2. Bearbeitungsqualität: Trotz Qualitätskontrolle könnten generierte kontrafaktische Videos möglicherweise noch nicht ausreichend natürlich wirken
  3. Bewertungsumfang: Konzentriert sich hauptsächlich auf visuelle Bearbeitung; andere Störungstypen (wie Audio, zeitliche Störungen) sind nicht abgedeckt
  4. Modellabdeckung: Begrenzte Anzahl bewerteter Modelle könnte nicht vollständig das aktuelle Technologieniveau repräsentieren

Zukünftige Richtungen

  1. Erweiterung von Bearbeitungstypen: Erkundung weiterer Videobearbeitungs- und Störungstypen
  2. Großflächige Datensätze: Konstruktion größerer und vielfältigerer kontrafaktischer Video-Datensätze
  3. Theoretische Analyse: Tiefgehende Analyse der Grundursachen unzureichender MLLM-Robustheit
  4. Abwehrmechanismen: Entwicklung spezialisierter Strategien zur Verbesserung der Modellrobustheit

Tiefgreifende Bewertung

Stärken

  1. Starke Innovation: Erste systematische Vorschlag eines Robustheitsbewertungs-Benchmarks für Video-MLLMs, füllt wichtige Forschungslücke
  2. Vollständige Methodik: Von Datengenerierung, Qualitätskontrolle bis zu Bewertungsmetriken, konstruiert umfassendes Bewertungsframework
  3. Umfangreiche Experimente: Bewertung mehrerer gängiger Modelle mit umfassender Leistungsvergleichsanalyse
  4. Hoher praktischer Wert: Bietet nicht nur Bewertungs-Benchmark, sondern beweist auch Effektivität kontrafaktischer Daten bei Leistungsverbesserung
  5. Solide Technik: Verwendung modernster Videobearbeitungstechnologie gewährleistet Generierung hochqualitativer kontrafaktischer Videos

Mängel

  1. Datensatzgrößenbeschränkung: Relativ kleine Datensatzgröße im Vergleich zu anderen großflächigen Benchmarks
  2. Bearbeitungsdimensionsbeschränkung: Konzentriert sich hauptsächlich auf drei Dimensionen (Stil, Objekte, Hintergrund), könnte andere wichtige Störungstypen übersehen
  3. Einzelne Bewertungsmetriken: Verwendet hauptsächlich Genauigkeit als Bewertungsmetrik, fehlen feinkörnigere Analyseindikatoren
  4. Unzureichende theoretische Analyse: Mangelnde tiefgehende theoretische Analyse der Grundursachen unzureichender Modellrobustheit

Auswirkungen

  1. Akademischer Beitrag: Bietet wichtigen Benchmark und Forschungsframework für Robustheitsbewertung von Video-MLLMs
  2. Praktischer Wert: Wichtige Orientierungshilfe für industrielle Bereitstellung von Video-MLLMs
  3. Forschungsinspiration: Bietet wichtige Grundlage und Referenz für nachfolgende verwandte Forschung
  4. Reproduzierbarkeit: Zusage zur Open-Source-Bereitstellung von Code und Daten fördert Entwicklung der Forschungsgemeinschaft

Anwendungsszenarien

  1. Modellbewertung: Anwendbar auf Robustheitsbewertung verschiedener Video-MLLMs
  2. Modellverbesserung: Kann zur Anleitung von Modellarchitektur-Design und Trainingsstrategieoptimierung verwendet werden
  3. Anwendungsbereitstellung: Bietet Sicherheitsbewertung für Modellbereitstellung in hochriskanten Anwendungsszenarien
  4. Forschungs-Benchmark: Kann als Standard-Bewertungs-Benchmark für zukünftige verwandte Forschung dienen

Literaturverzeichnis

Dieser Artikel zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

  • Video-MLLMs: VideoChat, VideoLLaMA, LLaVA-Next usw.
  • Robustheitsbewertung: LANCE, OOD-CV usw.
  • Videobearbeitung: Tune-a-Video, CCEdit usw.
  • Bewertungs-Benchmarks: MVBench, DAVIS usw.

Gesamtbewertung: Dies ist ein hochqualitativer Forschungsartikel, der sich erstmals systematisch mit der wichtigen Frage der Robustheitsbewertung von Video-MLLMs befasst. Das Papier zeigt hervorragende Leistungen in technischer Innovation, experimentellem Design und praktischem Wert und trägt wesentlich zur Entwicklung dieses Bereichs bei. Obwohl in Bezug auf Datensatzgröße und theoretische Analyse noch Verbesserungspotenzial besteht, ist es insgesamt eine äußerst wertvolle Forschungsarbeit.