Recently, Multi-modal Large Language Models (MLLMs) have demonstrated significant performance across various video understanding tasks. However, their robustness, particularly when faced with manipulated video content, remains largely unexplored. In this paper, we introduce Ro-Bench, the first benchmark for evaluating MLLMs on dynamic out-of-distribution (OOD) counterfactual video test sets. Ro-Bench incorporates high-quality, diverse and temporally relevant video data, by editing Style, Object, Background and their compositions. We evaluated eight recent video MLLMs and found that current models exhibit substantial performance degradation on Ro-Bench when exposed to counterfactual video content. Furthermore, we demonstrate that fine-tuning MLLMs with counterfactual data enhances robustness, achieving a 21.73% performance increase on Ro-Bench and a 12.78% improvement across 20 tasks in the MVBench dataset. These findings underscore the effectiveness of counterfactual data in enhancing the video understanding ability of MLLMs. The code and data will be released shortly.
- Papier-ID: 2510.08936
- Titel: RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos
- Autoren: Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang (Beijing University of Posts and Telecommunications)
- Klassifizierung: cs.CV cs.AI
- Veröffentlichungsdatum: 2025 (Preprint)
- Papierlink: https://arxiv.org/abs/2510.08936
In den letzten Jahren haben multimodale große Sprachmodelle (MLLMs) bei verschiedenen Videoverständnisaufgaben hervorragende Leistungen erbracht. Ihre Robustheit gegenüber manipulierten Videoinhalten ist jedoch noch nicht ausreichend erforscht. Dieser Artikel stellt Ro-Bench vor, den ersten Benchmark zur Bewertung der Leistung von MLLMs auf dynamischen Out-of-Distribution (OOD) kontrafaktischen Video-Testsets. Ro-Bench integriert hochwertige, vielfältige und zeitlich kohärente Videodaten durch Bearbeitung von Stil, Objekten, Hintergrund und deren Kombinationen. Die Autoren bewerteten 8 aktuelle Video-MLLMs und stellten fest, dass aktuelle Modelle bei kontrafaktischen Videoinhalten erhebliche Leistungseinbußen aufweisen. Darüber hinaus zeigt die Forschung, dass die Feinabstimmung von MLLMs mit kontrafaktischen Daten die Robustheit verbessert, mit einer Leistungssteigerung von 21,73% auf Ro-Bench und durchschnittlich 12,78% über 20 Aufgaben des MVBench-Datensatzes.
Mit der weit verbreiteten Anwendung von MLLMs bei Videoverständnisaufgaben, insbesondere in hochriskanten Bereichen wie Videoinhaltsmoderation, autonomes Fahren und Echtzeitüberwachung, wird die Gewährleistung der Modellrobustheit entscheidend. Obwohl bestehende Modelle in kontrollierten Umgebungen gut funktionieren, ist unklar, ob sie ihre Leistung bei manipulierten oder verfälschten Eingaben beibehalten können.
- Praktische Anwendungsanforderungen: In hochriskanten Anwendungsszenarien müssen Modelle stabile Leistung bei verschiedenen visuellen Veränderungen aufrechterhalten
- Sicherheitsüberlegungen: Böswillige Angreifer könnten durch Videobearbeitung Modelle täuschen und Sicherheitsrisiken verursachen
- Bewertungslücke: Bestehende Robustheitsbewertungen konzentrieren sich hauptsächlich auf statische Bilder; der Videobereich fehlt eine systematische Bewertung
- Einschränkungen statischer Bilder: Benchmarks wie LANCE konzentrieren sich hauptsächlich auf kontrafaktische Generierung statischer Bilder
- Einfache Störungen: Bestehende Videorobustheitsbewertungen verwenden hauptsächlich Rausch- oder Beschädigungstests und ignorieren die reiche zeitliche Dynamik realer Videos
- Mangel an Systematik: Fehlendes umfassendes Robustheitsbewertungsframework für Video-MLLMs
Dieser Artikel zielt darauf ab, zwei zentrale Forschungsfragen zu beantworten:
- RQ1: Wie schneiden MLLMs bei kontrafaktischen Videos ab, und welchen spezifischen Herausforderungen stehen sie beim Verständnis bearbeiteter Videoinhalte gegenüber?
- RQ2: Wie beeinflusst die Verwendung kontrafaktischer Videos die Leistung von MLLMs, und kann sie ihr Verständnis und ihre Interpretation komplexer Videoinhalte verbessern?
- Erster Video-Robustheitsbenchmark: Vorschlag von Ro-Bench, dem ersten speziell für die Bewertung der Robustheit von Video-MLLMs entworfenen kontrafaktischen Video-Testset-Benchmark
- Innovative Bewertungsmetriken: Einführung von vier innovativen Bewertungsmetriken zur Bewertung der Auswirkungen von Textaufforderungen und Originalvideos auf Bearbeitungsergebnisse, um Datenhochqualität zu gewährleisten
- Umfassende Robustheitsbewertung: Umfassende Bewertung gängiger Video-MLLMs, die ihre unzureichende Robustheit beim Videoverständnis offenbart
- Validierung von Trainingsstrategien: Nachweis, dass das Training mit kontrafaktischen Daten die Leistung auf Ro-Bench und die allgemeine Leistung bei anderen Benchmark-Aufgaben verbessern kann
Ro-Bench zielt darauf ab, die Robustheit von Video-MLLMs bei kontrafaktischen Videoinhalten zu bewerten. Die Aufgaben umfassen:
- Eingabe: Originalvideo und entsprechend bearbeitetes kontrafaktisches Video
- Ausgabe: Multiple-Choice-Antworten für vier Videoverständnisaufgaben (Aktionserkennung, Objekterkennung, Objektexistenzbeurteilung, Videobeschreibung)
- Bewertung: Vergleich der Leistungsunterschiede des Modells zwischen Original- und bearbeiteten Videos
- Datensatzquellen: DAVIS, TGVE, MSR-VTT, BalanceCC und andere öffentliche Datensätze sowie Internet
- Inhaltsklassifizierung: Vier Subjekttypen (Menschen, Tiere, Landschaften, Objekte)
- Aufgabentypen: Aktionserkennung (AR), Objekterkennung (OR), Objektexistenz (OE), Videobeschreibung (VC)
Untertitel-Bearbeitungsstrategie:
- Zerlegung von Videountertiteln in strukturierte Komponenten: Objektattribute, Objektaktionen, Hintergrund, Stil
- Untertitelbearbeitung basierend auf diesen vier visuellen Faktoren
Video-Bearbeitungsprozess:
- Verwendung modernster textgesteuerter Videobearbeitungsmodelle
- Vorschlag von vier Schlüsselbewertungsmetriken: Halluzinationsstufe (FL), Szenenkomplexität (SC), Kamerabewegung (CM), Objektbewegung (OM)
- Auswahl der drei leistungsstärksten Bearbeitungsmodelle basierend auf Bewertungsergebnissen
- Strenge manuelle Filterung zur Gewährleistung der Videoqualität
Automatisierte Fragengenerierung:
- Nutzung von GPT-4o zur Generierung von Fragen für jedes Video basierend auf Aufgabendefinitionen
- Konstruktion entsprechender Antwortalternativen basierend auf verschiedenen Aufgabentypen
Strategie zur Optionsgenerierung:
- Übernahme aus Annotationen: Direkte Extraktion korrekter Antworten aus echten Annotationen
- LLM-basierte Generierung: Bereitstellung von „Ja"-, „Nein"- und „Unsicher"-Optionen für Objektexistenzaufgaben
- Distraktoren-Design: Gewährleistung, dass sie weder zu einfach noch zu schwierig sind, mit Relevanz und Vielfalt
- Mehrdimensionale Bearbeitungsstrategie: Systematische Videobearbeitung aus drei Dimensionen: Stil, Objekte und Hintergrund
- Qualitätsbewertungssystem: Vorschlag von vier quantitativen Metriken zur Bewertung der Bearbeitungsqualität, um hochwertige kontrafaktische Videos zu gewährleisten
- Aufgabenvielfalt: Abdeckung von vier Kernvideoverständnisaufgaben für umfassende Modellbewertung
- Automatisierte Pipeline: Konstruktion einer End-to-End-Automatisierungspipeline für Datengenerierung und Bewertung
- Videodaten: 2.1k hochwertige Video-Untertitel-Paare
- QA-Paare: 8.6k Multiple-Choice-QA-Paare
- Trainingssatz: 332 Originalvideos, 1328 kontrafaktische Videosamples, 6640 QA-Paare
- Origin: Testgenauigkeit auf Originalvideos
- Edit: Testgenauigkeit auf bearbeiteten Videos
- Drop: Leistungsabfallumfang (Origin - Edit)
Bewertung von 8 gängigen Video-MLLMs:
- Große oder feinabgestimmte Video-Encoder: VideoChat, VideoChat2, VideoLLaMA2, VideoLLaVA, VideoLLaMA3
- CLIP ViT/L-14 Encoder: VideoChatGPT, mPLUG-Owl3, LLaVA-Next
- Verwendung von LLaVA-Next als Basismodell für Feinabstimmung
- Konstruktion von LLaVA-NextRo (mit kontrafaktischen Daten trainiert) und LLaVA-Nextori (mit Originaldaten trainiert) für Vergleich
Aus Tabelle 1 ist ersichtlich, dass alle Modelle bei kontrafaktischen Videos erhebliche Leistungseinbußen aufweisen:
- Durchschnittlicher Leistungsabfall: 17,57%
- Beste Robustheit: VideoChat2 (10,34% Abfall)
- Schlechteste Robustheit: LLaVA-Nextori (30,85% Abfall)
- Aufgabensensitivitätsunterschiede: Aktionserkennung ist am stärksten betroffen (23,99% Abfall), Objektexistenz am wenigsten (11,54% Abfall)
- Bearbeitungsfaktor-Auswirkungen: Objektveränderungen beeinflussen Modelle stärker als Stil- und Hintergrundveränderungen
- Architektur-Auswirkungen: Modelle mit größeren oder feinabgestimmten Video-Encodern schneiden besser ab als solche mit gefrorenen CLIP ViT/L-14
- LLaVA-NextRo: Erreicht beste Leistung bei Robustheitsbewertung mit nur 4,83% Genauigkeitsabfall
- Relativ zu LLaVA-Next: Signifikante Verbesserung der Robustheitsindikatoren um 21,73%
- Relativ zu LLaVA-Nextori: Demonstriert Vorteile des Trainings mit kontrafaktischen Daten
Bei 20 nachgelagerten Aufgaben in MVBench:
- Durchschnittliche Leistungssteigerung: 12,78%
- Aufgaben im Zusammenhang mit Aktionen und Objekten: Zeigen deutlichere Verbesserungen
- Beste Aufgabensteigerung: Erreichen beste Leistung bei mehreren Aufgaben
- Bearbeitungsfaktor-Analyse: Objektbearbeitung hat die größte Auswirkung auf Modellleistung, gefolgt von Stil und Hintergrund
- Architektur-Vergleich: Stärkere Video-Encoder sind entscheidend für Robustheitssteigerung
- Aufgabenspezifität: Zeitliche Inferenzaufgaben (wie Aktionserkennung) sind anfälliger für visuelle Störungen
In den letzten Jahren haben MLLMs bei Videoverständnisaufgaben erhebliche Fortschritte erzielt, aber die Robustheitsbewertung hinkt hinterher.
- Bildbereich: Arbeiten wie LANCE verwenden kontrafaktische Bildgenerierung zur Leistungsbewertung
- Videobereich: Bestehende Arbeiten konzentrieren sich hauptsächlich auf Rausch- und Beschädigungstests; systematische kontrafaktische Bewertung fehlt
Kontrafaktische Daten zeigen Potenzial zur Verbesserung der Modellverallgemeinerungsfähigkeit, ihre Anwendung in Video-MLLMs bleibt jedoch zu erforschen.
- Unzureichende Robustheit: Aktuelle Video-MLLMs zeigen erhebliche Leistungseinbußen bei kontrafaktischen Videoinhalten
- Aufgabenunterschiede: Unterschiedliche Aufgaben zeigen unterschiedliche Empfindlichkeit gegenüber visuellen Veränderungen; zeitlich relevante Aufgaben sind anfälliger
- Architektur-Wichtigkeit: Stärkere Video-Encoder sind entscheidend für Robustheitssteigerung
- Trainingseffektivität: Feinabstimmung mit kontrafaktischen Daten verbessert effektiv Modellrobustheit und allgemeine Leistung
- Datensatzgröße: Aktuelle Datensatzgröße ist relativ klein und könnte die Bewertungsumfassendheit begrenzen
- Bearbeitungsqualität: Trotz Qualitätskontrolle könnten generierte kontrafaktische Videos möglicherweise noch nicht ausreichend natürlich wirken
- Bewertungsumfang: Konzentriert sich hauptsächlich auf visuelle Bearbeitung; andere Störungstypen (wie Audio, zeitliche Störungen) sind nicht abgedeckt
- Modellabdeckung: Begrenzte Anzahl bewerteter Modelle könnte nicht vollständig das aktuelle Technologieniveau repräsentieren
- Erweiterung von Bearbeitungstypen: Erkundung weiterer Videobearbeitungs- und Störungstypen
- Großflächige Datensätze: Konstruktion größerer und vielfältigerer kontrafaktischer Video-Datensätze
- Theoretische Analyse: Tiefgehende Analyse der Grundursachen unzureichender MLLM-Robustheit
- Abwehrmechanismen: Entwicklung spezialisierter Strategien zur Verbesserung der Modellrobustheit
- Starke Innovation: Erste systematische Vorschlag eines Robustheitsbewertungs-Benchmarks für Video-MLLMs, füllt wichtige Forschungslücke
- Vollständige Methodik: Von Datengenerierung, Qualitätskontrolle bis zu Bewertungsmetriken, konstruiert umfassendes Bewertungsframework
- Umfangreiche Experimente: Bewertung mehrerer gängiger Modelle mit umfassender Leistungsvergleichsanalyse
- Hoher praktischer Wert: Bietet nicht nur Bewertungs-Benchmark, sondern beweist auch Effektivität kontrafaktischer Daten bei Leistungsverbesserung
- Solide Technik: Verwendung modernster Videobearbeitungstechnologie gewährleistet Generierung hochqualitativer kontrafaktischer Videos
- Datensatzgrößenbeschränkung: Relativ kleine Datensatzgröße im Vergleich zu anderen großflächigen Benchmarks
- Bearbeitungsdimensionsbeschränkung: Konzentriert sich hauptsächlich auf drei Dimensionen (Stil, Objekte, Hintergrund), könnte andere wichtige Störungstypen übersehen
- Einzelne Bewertungsmetriken: Verwendet hauptsächlich Genauigkeit als Bewertungsmetrik, fehlen feinkörnigere Analyseindikatoren
- Unzureichende theoretische Analyse: Mangelnde tiefgehende theoretische Analyse der Grundursachen unzureichender Modellrobustheit
- Akademischer Beitrag: Bietet wichtigen Benchmark und Forschungsframework für Robustheitsbewertung von Video-MLLMs
- Praktischer Wert: Wichtige Orientierungshilfe für industrielle Bereitstellung von Video-MLLMs
- Forschungsinspiration: Bietet wichtige Grundlage und Referenz für nachfolgende verwandte Forschung
- Reproduzierbarkeit: Zusage zur Open-Source-Bereitstellung von Code und Daten fördert Entwicklung der Forschungsgemeinschaft
- Modellbewertung: Anwendbar auf Robustheitsbewertung verschiedener Video-MLLMs
- Modellverbesserung: Kann zur Anleitung von Modellarchitektur-Design und Trainingsstrategieoptimierung verwendet werden
- Anwendungsbereitstellung: Bietet Sicherheitsbewertung für Modellbereitstellung in hochriskanten Anwendungsszenarien
- Forschungs-Benchmark: Kann als Standard-Bewertungs-Benchmark für zukünftige verwandte Forschung dienen
Dieser Artikel zitiert mehrere wichtige verwandte Arbeiten, einschließlich:
- Video-MLLMs: VideoChat, VideoLLaMA, LLaVA-Next usw.
- Robustheitsbewertung: LANCE, OOD-CV usw.
- Videobearbeitung: Tune-a-Video, CCEdit usw.
- Bewertungs-Benchmarks: MVBench, DAVIS usw.
Gesamtbewertung: Dies ist ein hochqualitativer Forschungsartikel, der sich erstmals systematisch mit der wichtigen Frage der Robustheitsbewertung von Video-MLLMs befasst. Das Papier zeigt hervorragende Leistungen in technischer Innovation, experimentellem Design und praktischem Wert und trägt wesentlich zur Entwicklung dieses Bereichs bei. Obwohl in Bezug auf Datensatzgröße und theoretische Analyse noch Verbesserungspotenzial besteht, ist es insgesamt eine äußerst wertvolle Forschungsarbeit.