2025-11-14T23:01:10.895550

Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection

Basnet, Farabi, Ranasinghe et al.
Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.
academic

Bewertung von Open-Source Vision-Language-Modellen zur multimodalen Sarkasmus-Erkennung

Grundinformationen

  • Paper-ID: 2510.11852
  • Titel: Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection
  • Autoren: Saroj Basnet (George Mason University), Shafkat Farabi (Virginia Tech), Tharindu Ranasinghe (Lancaster University), Diptesh Kanojia (University of Surrey), Marcos Zampieri (George Mason University)
  • Klassifizierung: cs.LG (Maschinelles Lernen)
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.11852v1

Zusammenfassung

Diese Studie bewertet die Leistung von sieben hochmodernen Open-Source Vision-Language-Modellen (VLMs) bei der Aufgabe der multimodalen Sarkasmus-Erkennung (MSD), darunter BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3 und Qwen-VL. Die Forschung nutzt Zero-Shot-, One-Shot- und Few-Shot-Prompting-Strategien und bewertet die Fähigkeit der Modelle, Sarkasmus-Erklärungen zu generieren. Experimente werden auf drei Benchmark-Datensätzen (Muse, MMSD2.0 und SarcNet) durchgeführt. Die Ergebnisse zeigen, dass aktuelle Modelle zwar mäßige Erfolge bei der binären Sarkasmus-Erkennung erzielen, aber ohne aufgabenspezifisches Fine-Tuning keine hochqualitativen Erklärungen generieren können.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Bewertung der Fähigkeiten von Open-Source Vision-Language-Modellen bei der multimodalen Sarkasmus-Erkennungsaufgabe (MSD), einschließlich Erkennung und Erklärung von Sarkasmus
  2. Herausforderungen: Sarkasmus ist ein komplexes sprachliches Phänomen, bei dem die beabsichtigte Bedeutung dem wörtlichen Ausdruck entgegengesetzt ist. In multimodalen Umgebungen ergibt sich der Sarkasmus-Effekt häufig aus der Diskrepanz zwischen visuellen und Textinhalten

Bedeutung

  1. Verbreitung sozialer Medien: Auf sozialen Plattformen wird Sarkasmus häufig durch Bild-Text-Paare realisiert. Das Verständnis dieser modalen Inkonsistenz ist für Sentimentanalyse und Inhaltsverständnis von entscheidender Bedeutung
  2. Technologische Entwicklung: Die Entwicklung großer Vision-Language-Modelle bietet neue Möglichkeiten zum Verständnis komplexer subjektiver multimodaler Phänomene
  3. Anwendungswert: Ist von großer Bedeutung für Aufgaben wie Moderation sozialer Medien, Sentimentanalyse und Erkennung beleidigender Sprache

Einschränkungen bestehender Methoden

  1. Unzureichende Forschung: Obwohl VLMs bei verschiedenen Aufgaben hervorragende Leistungen zeigen, ist ihre Leistung bei MSD-Aufgaben noch nicht ausreichend erforscht
  2. Methodische Einschränkungen: Frühe MSD-Forschung stützte sich hauptsächlich auf getrennte Merkmalextraktoren und Merkmalsammlungstechniken, ohne End-to-End-Multimodalverständnis
  3. Erklärungsfähigkeit: Bestehende Modelle konzentrieren sich hauptsächlich auf Klassifizierungsgenauigkeit, während die Fähigkeit zur Generierung von Erklärungen in menschlicher Qualität weniger erforscht ist

Kernbeiträge

  1. Einheitliches Bewertungsrahmenwerk: Bereitstellung eines einheitlichen Kontextlern-Rahmens mit integrierten Bildern, Few-Shot-Beispielen und Erklärungsvorlagen, die auf sieben verschiedene VLMs anwendbar sind
  2. Systematische Benchmarking: Systematische Zero-Shot-, One-Shot- und Few-Shot-Bewertung auf drei MSD-Benchmark-Datensätzen
  3. Bewertung der Erklärungsgenerierung: Bewertung der Fähigkeit jedes Modells, freie Sarkasmus-Erklärungen zu generieren und Lücken in der Forschung zu schließen
  4. Tiefgehende Analyse: Offenlegung der Trennung zwischen Klassifizierungsleistung und Erklärungsqualität mit wichtigen Erkenntnissen für zukünftige Forschung

Methodische Details

Aufgabendefinition

Eingabe: Bild-Text-Paare (I, C), wobei I das Bild und C der Bildtext ist Ausgabe:

  1. Binäre Klassifizierung: Bestimmung, ob das Paar Sarkasmus enthält (Ja/Nein)
  2. Erklärungsgenerierung: Für Sarkasmus-Instanzen Generierung einer natürlichsprachlichen Beschreibung der visuell-textuellen Inkonsistenz

Datensatzbeschreibung

DatensatzPositiveNegativeErklärungenMehrsprachig
MuSE3.5100×
MMSD2.011.65112.980××
SarcNet1.8751.460×

Modellarchitekturen

Die sieben bewerteten Open-Source-VLMs:

  1. InstructBLIP: Auf FlanT5 basierendes Anweisungs-Tuning-Modell
  2. BLIP2 2.7B: Gefrorener Bildencoder + Q-former + großes Sprachmodell
  3. OpenFlamingo 3B: Leichtgewichtige Open-Source-Anpassung von Flamingo
  4. LLaVA 7B: Vision-Language-Ausrichtung durch adversariales Fine-Tuning
  5. PaliGemma 3B: Multimodales Mixture-of-Experts-Modell
  6. Qwen-VL 7B: Q-aware Encoder-Decoder-Architektur
  7. Gemma3 27B: Anweisungs-optimiertes multimodales Modell

Prompting-Strategien

Prompting-Struktur für Klassifizierungsaufgaben:

*<globale_anweisung>*
Beispiel: (Zero-, One-, Few-Shots)
*<bild>*
*Bildtext:<bildtext> Antwort: Ja/Nein*
*<bild>*
**Kontext:** {bildtext}
Ist dies sarkastisch?

Prompting-Struktur für Erklärungsgenerierung:

*<Kontext>:*
*<bild>*
**Ursprünglicher Bildtext**: {bildtext}
**Bereitgestellte Erklärung**: {erklärung}
**Aufgabenanweisung**

Technische Innovationen

  1. Einheitliches Prompting-Rahmenwerk: Entwurf einheitlicher Prompt-Vorlagen für verschiedene VLM-Architekturen
  2. Mehrgranulare Bewertung: Kombinierte Bewertung von Klassifizierungsgenauigkeit und Erklärungsqualität
  3. Bewertung der modalen Ausrichtung: Einführung von Δ-CLIPScore zur Quantifizierung der Verbesserung der Bild-Text-Ausrichtung

Experimentelle Einrichtung

Datenverarbeitung

  • Zufällige Stichprobenentnahme von je 3.000 Bild-Bildtext-Paaren aus MMSD2.0 und SarcNet zur Bewertung
  • Verwendung des MuSE-Datensatzes zur Bereitstellung von Erklärungsbeispielen und Bewertungs-Benchmarks
  • Few-Shot-Beispiele aus MuSE (positive Beispiele) und MMSD2.0 (negative Beispiele) entnommen

Bewertungsmetriken

  1. Klassifizierungsgenauigkeit: Genauigkeit der binären Klassifizierung
  2. Δ-CLIPScore: Quantifizierung der Verbesserung der Bild-Text-Ausrichtung der generierten Erklärung im Vergleich zum Baseline-Bildtext
    ΔCLIP = CLIP(IMG, G_exp) - CLIP(IMG, B_exp)
    
    wobei G_exp die generierte Erklärung und B_exp die Baseline-Erklärung ist

Implementierungsdetails

  • Alle Modelle mit 8-Bit-Präzision geladen, FlashAttention-Optimierung aktiviert
  • Batch-Größe von 1, maximale Generierungs-Token 100-256
  • Verwendung von Beam Search (Beam-Größe=3)
  • Temperaturparameter auf 0,7 gesetzt

Experimentelle Ergebnisse

Klassifizierungsleistung

DatensatzBestes ModellEinstellungGenauigkeit
SarcNetGemma3One-Shot0,67
SarcNetInstructBLIPZero-Shot0,67
MMSD2.0Gemma3One-Shot0,73
MMSD2.0InstructBLIPZero-Shot0,64

Wichtigste Erkenntnisse

  1. Vorteile von Anweisungs-optimierten Modellen: Gemma3 und InstructBLIP zeigen die beste Leistung in Zero-Shot- und One-Shot-Einstellungen
  2. Begrenzte Few-Shot-Effekte: Die Erhöhung der Anzahl von Beispielen führt nicht zu Leistungsverbesserungen und führt manchmal zu Rauschen
  3. Datensatz-Unterschiede: Modelle zeigen durchgehend bessere Leistung auf MMSD2.0 als auf SarcNet

Ergebnisse der Erklärungsgenerierung

ModellΔ-CLIPScore MittelwertVarianz
LLaVA1,96627,315
BLIP20,83125,532
PaliGemma0,75716,234
InstructBLIP0,58327,749
Gemma3-2,06346,481
OpenFlamingo-1,75011,526
Qwen-7,14325,515

Wichtige Erkenntnisse

  1. Leistungstrennung: Das Modell mit der besten Klassifizierungsleistung (Gemma3) zeigt die schlechteste Leistung bei der Erklärungsgenerierung
  2. Architektur-Einfluss: VQA-artige Architekturen (BLIP2, LLaVA) sind besser für die Generierung hochwertiger Erklärungen geeignet
  3. Unterschiede in Trainingszielen: Diskriminativ trainierte Modelle sind für Klassifizierung geeignet, generativ trainierte Modelle für Erklärungen

Verwandte Arbeiten

Sarkasmus-Erkennungsforschung

  1. Text-Sarkasmus-Erkennung: Traditionelle Forschung konzentriert sich hauptsächlich auf Sarkasmus-Erkennung in reiner Textumgebung
  2. Multimodale Sarkasmus-Erkennung: Schifanella et al. zeigten erstmals, dass die visuelle Modalität Hinweise enthält, die bei der Identifizierung von Sarkasmus-Absichten helfen
  3. Merkmalsammlungsmethoden: Frühe Arbeiten verwendeten getrennte Encoder zur Merkmalextraktion und entwarfen dann Sammlungstechniken

Vision-Language-Modelle

  1. Vortrainierte Modelle: Flamingo, VILA und andere Modelle zeigen Zero-Shot- und Few-Shot-Lernfähigkeiten
  2. Multimodales Verständnis: Modelle konzentrieren sich zunehmend auf frühes Modellieren modaler Interaktionen
  3. Anweisungs-Optimierung: Modelle wie InstructBLIP verbessern die Mehraufgaben-Leistung durch Anweisungs-Optimierung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Mäßige Erfolge: Open-Source-VLMs erzielen mäßige Erfolge bei der binären Sarkasmus-Erkennung, haben aber Verbesserungspotenzial
  2. Erklärungsherausforderungen: Bestehende Modelle haben erhebliche Schwierigkeiten bei der Generierung hochwertiger Erklärungen
  3. Architektur-Bedeutung: Modellarchitektur und Trainingsziele haben wichtige Auswirkungen auf die Aufgabenleistung

Einschränkungen

  1. Stichprobengröße: Bewertungsstichproben sind relativ begrenzt (3.000 Stichproben pro Datensatz)
  2. Sprachabdeckung: Konzentriert sich hauptsächlich auf Englisch, begrenzte mehrsprachige Bewertung
  3. Erklärungsbewertung: Erklärungsqualitätsbewertung stützt sich hauptsächlich auf automatisierte Metriken, ohne menschliche Bewertung

Zukünftige Richtungen

  1. Hybride Trainingsziele: Entwicklung von Multitask-Learning-Methoden, die gleichzeitig Klassifizierung und Erklärungsgenerierung optimieren
  2. Chain-of-Thought-Prompting: Erkundung von CoT und mehrstufigen Prompts zur Aktivierung reichhaltigerer Modellschlussfolgerungen
  3. Wissensanreicherung: Integration von RAG-Techniken oder externem Wissen zur Verbesserung des Kontextverständnisses des Modells
  4. Mehrsprachige Erweiterung: Erweiterung auf Sarkasmus-Erkennung in mehr Sprachen und kulturellen Kontexten

Tiefgehende Bewertung

Stärken

  1. Systematische Bewertung: Erste systematische Bewertung mehrerer Open-Source-VLMs bei MSD-Aufgaben
  2. Duale Aufgaben: Gleichzeitige Bewertung von Klassifizierungs- und Erklärungsfähigkeiten für umfassende Perspektive
  3. Praktischer Wert: Bietet wichtige Referenzen für Forscher bei der Auswahl geeigneter VLMs
  4. Offenheit: Verpflichtung zur Veröffentlichung von Code und Daten zur Förderung reproduzierbarer Forschung

Mängel

  1. Unzureichende Tiefenanalyse: Weniger qualitative Analyse von Modellfehlerfällen
  2. Einschränkungen der Bewertungsmetriken: Erklärungsqualitätsbewertung stützt sich hauptsächlich auf CLIP-Ausrichtung, möglicherweise nicht umfassend genug
  3. Modellaktualisierungen: Einige Modellversionen sind relativ alt und repräsentieren möglicherweise nicht den neuesten Technologiestand

Auswirkungen

  1. Benchmark-Funktion: Bietet wichtige Benchmark-Bewertung für das MSD-Feld
  2. Methodische Inspiration: Das einheitliche Bewertungsrahmenwerk kann auf andere multimodale Aufgaben übertragen werden
  3. Praktische Anleitung: Bietet Referenzen für die Auswahl geeigneter Modelle in praktischen Anwendungen

Anwendungsszenarien

  1. Analyse sozialer Medien: Anwendbar auf Inhaltsverständnis auf Plattformen wie Twitter und Facebook
  2. Sentimentanalyse: Kann als Komponente umfassenderer Sentimentanalysesysteme dienen
  3. Inhaltsmoderation: Hilft bei der Identifizierung potenzieller Sarkasmus- und Spottinhalte

Referenzen

Das Paper zitiert 46 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Forschungsbereichen wie Sarkasmus-Erkennung, multimodales Lernen und Vision-Language-Modelle abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives empirisches Forschungspapier, das die Lücke bei der Bewertung von Open-Source-VLMs bei multimodalen Sarkasmus-Erkennungsaufgaben schließt. Die Forschung ist gut konzipiert, die Experimente sind umfassend und die Schlussfolgerungen haben praktischen Wert. Obwohl es noch Raum für Verbesserungen in Tiefenanalyse und Bewertungsmetriken gibt, leistet es wichtige Beiträge zur Entwicklung des Feldes.