2025-11-14T23:01:10.895550

Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection

Basnet, Farabi, Ranasinghe et al.

Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.

academic

Bewertung von Open-Source Vision-Language-Modellen zur multimodalen Sarkasmus-Erkennung

Grundinformationen

Paper-ID: 2510.11852
Titel: Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection
Autoren: Saroj Basnet (George Mason University), Shafkat Farabi (Virginia Tech), Tharindu Ranasinghe (Lancaster University), Diptesh Kanojia (University of Surrey), Marcos Zampieri (George Mason University)
Klassifizierung: cs.LG (Maschinelles Lernen)
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.11852v1

Zusammenfassung

Diese Studie bewertet die Leistung von sieben hochmodernen Open-Source Vision-Language-Modellen (VLMs) bei der Aufgabe der multimodalen Sarkasmus-Erkennung (MSD), darunter BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3 und Qwen-VL. Die Forschung nutzt Zero-Shot-, One-Shot- und Few-Shot-Prompting-Strategien und bewertet die Fähigkeit der Modelle, Sarkasmus-Erklärungen zu generieren. Experimente werden auf drei Benchmark-Datensätzen (Muse, MMSD2.0 und SarcNet) durchgeführt. Die Ergebnisse zeigen, dass aktuelle Modelle zwar mäßige Erfolge bei der binären Sarkasmus-Erkennung erzielen, aber ohne aufgabenspezifisches Fine-Tuning keine hochqualitativen Erklärungen generieren können.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: Bewertung der Fähigkeiten von Open-Source Vision-Language-Modellen bei der multimodalen Sarkasmus-Erkennungsaufgabe (MSD), einschließlich Erkennung und Erklärung von Sarkasmus
Herausforderungen: Sarkasmus ist ein komplexes sprachliches Phänomen, bei dem die beabsichtigte Bedeutung dem wörtlichen Ausdruck entgegengesetzt ist. In multimodalen Umgebungen ergibt sich der Sarkasmus-Effekt häufig aus der Diskrepanz zwischen visuellen und Textinhalten

Bedeutung

Verbreitung sozialer Medien: Auf sozialen Plattformen wird Sarkasmus häufig durch Bild-Text-Paare realisiert. Das Verständnis dieser modalen Inkonsistenz ist für Sentimentanalyse und Inhaltsverständnis von entscheidender Bedeutung
Technologische Entwicklung: Die Entwicklung großer Vision-Language-Modelle bietet neue Möglichkeiten zum Verständnis komplexer subjektiver multimodaler Phänomene
Anwendungswert: Ist von großer Bedeutung für Aufgaben wie Moderation sozialer Medien, Sentimentanalyse und Erkennung beleidigender Sprache

Einschränkungen bestehender Methoden

Unzureichende Forschung: Obwohl VLMs bei verschiedenen Aufgaben hervorragende Leistungen zeigen, ist ihre Leistung bei MSD-Aufgaben noch nicht ausreichend erforscht
Methodische Einschränkungen: Frühe MSD-Forschung stützte sich hauptsächlich auf getrennte Merkmalextraktoren und Merkmalsammlungstechniken, ohne End-to-End-Multimodalverständnis
Erklärungsfähigkeit: Bestehende Modelle konzentrieren sich hauptsächlich auf Klassifizierungsgenauigkeit, während die Fähigkeit zur Generierung von Erklärungen in menschlicher Qualität weniger erforscht ist

Kernbeiträge

Einheitliches Bewertungsrahmenwerk: Bereitstellung eines einheitlichen Kontextlern-Rahmens mit integrierten Bildern, Few-Shot-Beispielen und Erklärungsvorlagen, die auf sieben verschiedene VLMs anwendbar sind
Systematische Benchmarking: Systematische Zero-Shot-, One-Shot- und Few-Shot-Bewertung auf drei MSD-Benchmark-Datensätzen
Bewertung der Erklärungsgenerierung: Bewertung der Fähigkeit jedes Modells, freie Sarkasmus-Erklärungen zu generieren und Lücken in der Forschung zu schließen
Tiefgehende Analyse: Offenlegung der Trennung zwischen Klassifizierungsleistung und Erklärungsqualität mit wichtigen Erkenntnissen für zukünftige Forschung

Methodische Details

Aufgabendefinition

Eingabe: Bild-Text-Paare (I, C), wobei I das Bild und C der Bildtext ist Ausgabe:

Binäre Klassifizierung: Bestimmung, ob das Paar Sarkasmus enthält (Ja/Nein)
Erklärungsgenerierung: Für Sarkasmus-Instanzen Generierung einer natürlichsprachlichen Beschreibung der visuell-textuellen Inkonsistenz

Datensatzbeschreibung

Datensatz	Positive	Negative	Erklärungen	Mehrsprachig
MuSE	3.510	0	✓	×
MMSD2.0	11.651	12.980	×	×
SarcNet	1.875	1.460	×	✓

Modellarchitekturen

Die sieben bewerteten Open-Source-VLMs:

InstructBLIP: Auf FlanT5 basierendes Anweisungs-Tuning-Modell
BLIP2 2.7B: Gefrorener Bildencoder + Q-former + großes Sprachmodell
OpenFlamingo 3B: Leichtgewichtige Open-Source-Anpassung von Flamingo
LLaVA 7B: Vision-Language-Ausrichtung durch adversariales Fine-Tuning
PaliGemma 3B: Multimodales Mixture-of-Experts-Modell
Qwen-VL 7B: Q-aware Encoder-Decoder-Architektur
Gemma3 27B: Anweisungs-optimiertes multimodales Modell

Prompting-Strategien

Prompting-Struktur für Klassifizierungsaufgaben:

*<globale_anweisung>*
Beispiel: (Zero-, One-, Few-Shots)
*<bild>*
*Bildtext:<bildtext> Antwort: Ja/Nein*
*<bild>*
**Kontext:** {bildtext}
Ist dies sarkastisch?

Prompting-Struktur für Erklärungsgenerierung:

*<Kontext>:*
*<bild>*
**Ursprünglicher Bildtext**: {bildtext}
**Bereitgestellte Erklärung**: {erklärung}
**Aufgabenanweisung**

Technische Innovationen

Einheitliches Prompting-Rahmenwerk: Entwurf einheitlicher Prompt-Vorlagen für verschiedene VLM-Architekturen
Mehrgranulare Bewertung: Kombinierte Bewertung von Klassifizierungsgenauigkeit und Erklärungsqualität
Bewertung der modalen Ausrichtung: Einführung von Δ-CLIPScore zur Quantifizierung der Verbesserung der Bild-Text-Ausrichtung

Experimentelle Einrichtung

Datenverarbeitung

Zufällige Stichprobenentnahme von je 3.000 Bild-Bildtext-Paaren aus MMSD2.0 und SarcNet zur Bewertung
Verwendung des MuSE-Datensatzes zur Bereitstellung von Erklärungsbeispielen und Bewertungs-Benchmarks
Few-Shot-Beispiele aus MuSE (positive Beispiele) und MMSD2.0 (negative Beispiele) entnommen

Bewertungsmetriken

Klassifizierungsgenauigkeit: Genauigkeit der binären Klassifizierung
Δ-CLIPScore: Quantifizierung der Verbesserung der Bild-Text-Ausrichtung der generierten Erklärung im Vergleich zum Baseline-Bildtext
```
ΔCLIP = CLIP(IMG, G_exp) - CLIP(IMG, B_exp)
```
wobei G_exp die generierte Erklärung und B_exp die Baseline-Erklärung ist

Implementierungsdetails

Alle Modelle mit 8-Bit-Präzision geladen, FlashAttention-Optimierung aktiviert
Batch-Größe von 1, maximale Generierungs-Token 100-256
Verwendung von Beam Search (Beam-Größe=3)
Temperaturparameter auf 0,7 gesetzt

Experimentelle Ergebnisse

Klassifizierungsleistung

Datensatz	Bestes Modell	Einstellung	Genauigkeit
SarcNet	Gemma3	One-Shot	0,67
SarcNet	InstructBLIP	Zero-Shot	0,67
MMSD2.0	Gemma3	One-Shot	0,73
MMSD2.0	InstructBLIP	Zero-Shot	0,64

Wichtigste Erkenntnisse

Vorteile von Anweisungs-optimierten Modellen: Gemma3 und InstructBLIP zeigen die beste Leistung in Zero-Shot- und One-Shot-Einstellungen
Begrenzte Few-Shot-Effekte: Die Erhöhung der Anzahl von Beispielen führt nicht zu Leistungsverbesserungen und führt manchmal zu Rauschen
Datensatz-Unterschiede: Modelle zeigen durchgehend bessere Leistung auf MMSD2.0 als auf SarcNet

Ergebnisse der Erklärungsgenerierung

Modell	Δ-CLIPScore Mittelwert	Varianz
LLaVA	1,966	27,315
BLIP2	0,831	25,532
PaliGemma	0,757	16,234
InstructBLIP	0,583	27,749
Gemma3	-2,063	46,481
OpenFlamingo	-1,750	11,526
Qwen	-7,143	25,515

Wichtige Erkenntnisse

Leistungstrennung: Das Modell mit der besten Klassifizierungsleistung (Gemma3) zeigt die schlechteste Leistung bei der Erklärungsgenerierung
Architektur-Einfluss: VQA-artige Architekturen (BLIP2, LLaVA) sind besser für die Generierung hochwertiger Erklärungen geeignet
Unterschiede in Trainingszielen: Diskriminativ trainierte Modelle sind für Klassifizierung geeignet, generativ trainierte Modelle für Erklärungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Mäßige Erfolge: Open-Source-VLMs erzielen mäßige Erfolge bei der binären Sarkasmus-Erkennung, haben aber Verbesserungspotenzial
Erklärungsherausforderungen: Bestehende Modelle haben erhebliche Schwierigkeiten bei der Generierung hochwertiger Erklärungen
Architektur-Bedeutung: Modellarchitektur und Trainingsziele haben wichtige Auswirkungen auf die Aufgabenleistung

Einschränkungen

Stichprobengröße: Bewertungsstichproben sind relativ begrenzt (3.000 Stichproben pro Datensatz)
Sprachabdeckung: Konzentriert sich hauptsächlich auf Englisch, begrenzte mehrsprachige Bewertung
Erklärungsbewertung: Erklärungsqualitätsbewertung stützt sich hauptsächlich auf automatisierte Metriken, ohne menschliche Bewertung

Zukünftige Richtungen

Hybride Trainingsziele: Entwicklung von Multitask-Learning-Methoden, die gleichzeitig Klassifizierung und Erklärungsgenerierung optimieren
Chain-of-Thought-Prompting: Erkundung von CoT und mehrstufigen Prompts zur Aktivierung reichhaltigerer Modellschlussfolgerungen
Wissensanreicherung: Integration von RAG-Techniken oder externem Wissen zur Verbesserung des Kontextverständnisses des Modells
Mehrsprachige Erweiterung: Erweiterung auf Sarkasmus-Erkennung in mehr Sprachen und kulturellen Kontexten

Tiefgehende Bewertung

Stärken

Systematische Bewertung: Erste systematische Bewertung mehrerer Open-Source-VLMs bei MSD-Aufgaben
Duale Aufgaben: Gleichzeitige Bewertung von Klassifizierungs- und Erklärungsfähigkeiten für umfassende Perspektive
Praktischer Wert: Bietet wichtige Referenzen für Forscher bei der Auswahl geeigneter VLMs
Offenheit: Verpflichtung zur Veröffentlichung von Code und Daten zur Förderung reproduzierbarer Forschung

Mängel

Unzureichende Tiefenanalyse: Weniger qualitative Analyse von Modellfehlerfällen
Einschränkungen der Bewertungsmetriken: Erklärungsqualitätsbewertung stützt sich hauptsächlich auf CLIP-Ausrichtung, möglicherweise nicht umfassend genug
Modellaktualisierungen: Einige Modellversionen sind relativ alt und repräsentieren möglicherweise nicht den neuesten Technologiestand

Auswirkungen

Benchmark-Funktion: Bietet wichtige Benchmark-Bewertung für das MSD-Feld
Methodische Inspiration: Das einheitliche Bewertungsrahmenwerk kann auf andere multimodale Aufgaben übertragen werden
Praktische Anleitung: Bietet Referenzen für die Auswahl geeigneter Modelle in praktischen Anwendungen

Anwendungsszenarien

Analyse sozialer Medien: Anwendbar auf Inhaltsverständnis auf Plattformen wie Twitter und Facebook
Sentimentanalyse: Kann als Komponente umfassenderer Sentimentanalysesysteme dienen
Inhaltsmoderation: Hilft bei der Identifizierung potenzieller Sarkasmus- und Spottinhalte

Referenzen

Das Paper zitiert 46 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Forschungsbereichen wie Sarkasmus-Erkennung, multimodales Lernen und Vision-Language-Modelle abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives empirisches Forschungspapier, das die Lücke bei der Bewertung von Open-Source-VLMs bei multimodalen Sarkasmus-Erkennungsaufgaben schließt. Die Forschung ist gut konzipiert, die Experimente sind umfassend und die Schlussfolgerungen haben praktischen Wert. Obwohl es noch Raum für Verbesserungen in Tiefenanalyse und Bewertungsmetriken gibt, leistet es wichtige Beiträge zur Entwicklung des Feldes.