Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection
Basnet, Farabi, Ranasinghe et al.
Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.
academic
Bewertung von Open-Source Vision-Language-Modellen zur multimodalen Sarkasmus-Erkennung
Diese Studie bewertet die Leistung von sieben hochmodernen Open-Source Vision-Language-Modellen (VLMs) bei der Aufgabe der multimodalen Sarkasmus-Erkennung (MSD), darunter BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3 und Qwen-VL. Die Forschung nutzt Zero-Shot-, One-Shot- und Few-Shot-Prompting-Strategien und bewertet die Fähigkeit der Modelle, Sarkasmus-Erklärungen zu generieren. Experimente werden auf drei Benchmark-Datensätzen (Muse, MMSD2.0 und SarcNet) durchgeführt. Die Ergebnisse zeigen, dass aktuelle Modelle zwar mäßige Erfolge bei der binären Sarkasmus-Erkennung erzielen, aber ohne aufgabenspezifisches Fine-Tuning keine hochqualitativen Erklärungen generieren können.
Kernproblem: Bewertung der Fähigkeiten von Open-Source Vision-Language-Modellen bei der multimodalen Sarkasmus-Erkennungsaufgabe (MSD), einschließlich Erkennung und Erklärung von Sarkasmus
Herausforderungen: Sarkasmus ist ein komplexes sprachliches Phänomen, bei dem die beabsichtigte Bedeutung dem wörtlichen Ausdruck entgegengesetzt ist. In multimodalen Umgebungen ergibt sich der Sarkasmus-Effekt häufig aus der Diskrepanz zwischen visuellen und Textinhalten
Verbreitung sozialer Medien: Auf sozialen Plattformen wird Sarkasmus häufig durch Bild-Text-Paare realisiert. Das Verständnis dieser modalen Inkonsistenz ist für Sentimentanalyse und Inhaltsverständnis von entscheidender Bedeutung
Technologische Entwicklung: Die Entwicklung großer Vision-Language-Modelle bietet neue Möglichkeiten zum Verständnis komplexer subjektiver multimodaler Phänomene
Anwendungswert: Ist von großer Bedeutung für Aufgaben wie Moderation sozialer Medien, Sentimentanalyse und Erkennung beleidigender Sprache
Unzureichende Forschung: Obwohl VLMs bei verschiedenen Aufgaben hervorragende Leistungen zeigen, ist ihre Leistung bei MSD-Aufgaben noch nicht ausreichend erforscht
Methodische Einschränkungen: Frühe MSD-Forschung stützte sich hauptsächlich auf getrennte Merkmalextraktoren und Merkmalsammlungstechniken, ohne End-to-End-Multimodalverständnis
Erklärungsfähigkeit: Bestehende Modelle konzentrieren sich hauptsächlich auf Klassifizierungsgenauigkeit, während die Fähigkeit zur Generierung von Erklärungen in menschlicher Qualität weniger erforscht ist
Einheitliches Bewertungsrahmenwerk: Bereitstellung eines einheitlichen Kontextlern-Rahmens mit integrierten Bildern, Few-Shot-Beispielen und Erklärungsvorlagen, die auf sieben verschiedene VLMs anwendbar sind
Systematische Benchmarking: Systematische Zero-Shot-, One-Shot- und Few-Shot-Bewertung auf drei MSD-Benchmark-Datensätzen
Bewertung der Erklärungsgenerierung: Bewertung der Fähigkeit jedes Modells, freie Sarkasmus-Erklärungen zu generieren und Lücken in der Forschung zu schließen
Tiefgehende Analyse: Offenlegung der Trennung zwischen Klassifizierungsleistung und Erklärungsqualität mit wichtigen Erkenntnissen für zukünftige Forschung
Text-Sarkasmus-Erkennung: Traditionelle Forschung konzentriert sich hauptsächlich auf Sarkasmus-Erkennung in reiner Textumgebung
Multimodale Sarkasmus-Erkennung: Schifanella et al. zeigten erstmals, dass die visuelle Modalität Hinweise enthält, die bei der Identifizierung von Sarkasmus-Absichten helfen
Merkmalsammlungsmethoden: Frühe Arbeiten verwendeten getrennte Encoder zur Merkmalextraktion und entwarfen dann Sammlungstechniken
Unzureichende Tiefenanalyse: Weniger qualitative Analyse von Modellfehlerfällen
Einschränkungen der Bewertungsmetriken: Erklärungsqualitätsbewertung stützt sich hauptsächlich auf CLIP-Ausrichtung, möglicherweise nicht umfassend genug
Modellaktualisierungen: Einige Modellversionen sind relativ alt und repräsentieren möglicherweise nicht den neuesten Technologiestand
Das Paper zitiert 46 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Forschungsbereichen wie Sarkasmus-Erkennung, multimodales Lernen und Vision-Language-Modelle abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives empirisches Forschungspapier, das die Lücke bei der Bewertung von Open-Source-VLMs bei multimodalen Sarkasmus-Erkennungsaufgaben schließt. Die Forschung ist gut konzipiert, die Experimente sind umfassend und die Schlussfolgerungen haben praktischen Wert. Obwohl es noch Raum für Verbesserungen in Tiefenanalyse und Bewertungsmetriken gibt, leistet es wichtige Beiträge zur Entwicklung des Feldes.