You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
Lawrence, Saha, Wei et al.
Despite the renewed interest in zero-shot visual classification due to the rise of Multimodal Large Language Models (MLLMs), the problem of evaluating free-form responses of auto-regressive models remains a persistent challenge. Most existing works focus on language-only tasks or don't consider Multiple Choice Questions (MCQs) beyond 5-way options, both of which are critical capabilities to solve tasks in Fine-Grained Visual Classification (FGVC) where choice counts are in the hundreds to thousands and the choices are highly related. Furthermore, in this highly multi-way MCQ setting it is not clear how to extend LLM choice extraction to retrieval-based problems, where computing probabilities over the choice set is computationally costly. In this work we investigate nlg2choice, a simple two-stage method which first asks the MLLM an open-ended question for the task with minimal constraints, then uses text-only constrained decoding to predict the most likely choice. In retrieval settings, we compute the probability of the constrained response taking that choice with an early stopping method to significantly improve throughput. Our results show improvement over a suite of seven fine-grained visual datasets when evaluating in terms of classification and retrieval, and show that this performance holds over the various ways that users of LLMs can implement tasks in natural language.
academic
Sie dürfen frei sprechen: Verbesserung der feingranularen visuellen Erkennungsfähigkeiten von multimodalen großen Sprachmodellen durch Antwortextraktion
Obwohl der Aufstieg von multimodalen großen Sprachmodellen (MLLMs) das Interesse an Zero-Shot-Bildklassifizierung erneuert hat, bleibt die Bewertung von Freitextantworten autoregessiver Modelle eine andauernde Herausforderung. Bestehende Arbeiten konzentrieren sich hauptsächlich auf reine Sprachaufgaben oder berücksichtigen keine Multiple-Choice-Fragen mit mehr als 5 Optionen, wobei beide Aspekte Schlüsselfähigkeiten für die Lösung von feingranularen Bildklassifizierungsaufgaben (FGVC) darstellen, bei denen die Anzahl der Optionen Hunderte bis Tausende erreicht und die Optionen hochgradig verwandt sind. Darüber hinaus ist unklar, wie die LLM-Auswahlextraktion in diesem hochgradig mehrfach gewählten MCQ-Setting auf abrufbasierte Fragen ausgedehnt werden kann, da die Berechnung von Wahrscheinlichkeiten über die Auswahlmenge rechnerisch kostspielig ist. Dieses Paper untersucht nlg2choice, einen einfachen zweistufigen Ansatz, der zunächst mit minimalen Einschränkungen eine offene Frage an das MLLM stellt und dann reine Textbeschränkungsdecodierung verwendet, um die wahrscheinlichste Auswahl vorherzusagen. Im Abrufsetting wird eine Early-Stopping-Methode verwendet, um die Wahrscheinlichkeit zu berechnen, dass die eingeschränkte Antwort diese Option auswählt, was den Durchsatz erheblich verbessert.
Herausforderungen der feingranularen Bildklassifizierung: Traditionelle Multiple-Choice-Methoden zeigen schlechte Leistungen bei Hunderten bis Tausenden hochgradig ähnlicher Optionen, wie beispielsweise bei der Vogelartenerkennung, wo LLaVA-1.5 bei grober Klassifizierung (wie "Vogel" vs. "kein Vogel") nahezu perfekt ist, aber bei feingranularen Artenlabeln nur 1-2% Genauigkeit erreicht.
Einschränkungen von Bewertungsmethoden: Bestehende Methoden zwingen entweder ein eingeschränktes Ausgabeformat (das möglicherweise das Denken behindert) oder erlauben Freitextinterpretationen (aber mit schwieriger Extraktion), wobei ein wirksamer Antwortextraktionsmechanismus fehlt.
Rechnerische Effizienzprobleme: In Abrufszenarios ist der Rechenaufwand für die Berechnung von Wahrscheinlichkeiten über Hunderte bis Tausende Auswahlmöglichkeiten zu hoch.
Vorschlag der nlg2choice-Methode: Ein einfacher und effektiver zweistufiger Antwortextraktionsansatz, der die Klassifizierungs- und Abrufleistung auf 7 feingranularen Bilddatensätzen erheblich verbessert.
Robustheitsvalidierung: Durch die Generierung semantisch äquivalenter Aufforderungsvarianten wird die Robustheit der Methode gegenüber Änderungen von Benutzereingaben nachgewiesen, mit statistisch signifikanten Leistungsverbesserungen.
Vorschlag der Early-Stopping-Optimierung: Einführung einer Early-Stopping-Methode im Abrufsetting, die den Durchsatz um das 15-fache erhöht (auf einigen Datensätzen bis zu 1362% Verbesserung).
Systematische Analyse: Nachweis, dass eingeschränkte Decodierung ein zuverlässiger Antwortextraktor ohne zusätzliches Training ist, wobei der Hauptengpass in den Freitextantworten selbst liegt, die nicht extrahierbar sind, statt in der Antwortextraktionsfähigkeit.
Gegeben ein Bild und eine feingranulare Bildklassifizierungsaufgabe besteht das Ziel darin, Bildinhalte aus einer großen Anzahl hochgradig ähnlicher Kategorien (Hunderte bis Tausende) genau zu identifizieren, wie beispielsweise Vogelarten, Blumensorten, Automodelle usw.
Im Abrufszenario wird die Effizienz durch Abkürzung der Wahrscheinlichkeitsberechnung verbessert:
Für den Kategorienamen "Baltimore Oriole", zerlegt in "B", "altimore", " Ori", "ole", wenn "altimore" unter allen Kategorien eindeutig ist, wird die Berechnung nachfolgender Token-Wahrscheinlichkeiten gestoppt:
Frühe Methoden: Regex-Parsing, aber schlechte Leistung bei feingranularen Aufgaben
Wahrscheinlichkeitsrangfolge: Basierend auf Wahrscheinlichkeit des ersten Tokens von Auswahlkennungen (A/B/C/D), weit verbreitet aber rechnerisch teuer
Eingeschränkte Decodierung: Garantiert Ausgabe innerhalb der Auswahlmenge, aber neuere Bewertungen zeigen Leistungsrückgang
Antwortextraktion verbessert visuelles Erkennungsvermögen erheblich: Verbesserungen bei allen getesteten Architekturen und Datensätzen
Methode ist robust gegenüber Benutzeränderungen: Leistungsverbesserungen sind statistisch signifikant und nicht von spezifischem Aufforderungsformat abhängig
Eingeschränkte Decodierung ist zuverlässiger Extraktor: Funktioniert effektiv ohne zusätzliches Training
Modellgrößenbeschränkung: Haupttests konzentrieren sich auf mittlere Modelle (8B-11B), nur Open-Source-Modelle verwendet
Rechnerische Ressourcennanforderungen: Obwohl spezialisiertes Training vermieden wird, benötigt die Verarbeitung von Textbeschreibungen immer noch erhebliche Rechenressourcen
Erweiterbarkeit auf mehrere Labels: Anwendbarkeit auf Multi-Label-Probleme bleibt zu überprüfen
Diese Arbeit bietet eine praktische Lösung für feingranulare Bildklassifizierung, besonders wertvoll in praktischen Anwendungen, die mit großen Mengen ähnlicher Kategorien umgehen müssen. Die Einfachheit der Methode und die Tatsache, dass kein zusätzliches Training erforderlich ist, machen sie leicht zu übernehmen und bereitzustellen.
Das Paper zitiert 47 verwandte Arbeiten, die wichtige Arbeiten in Schlüsselbereichen wie multimodale große Sprachmodelle, eingeschränkte Decodierung und Antwortextraktion abdecken und eine solide theoretische Grundlage für die Forschung bieten.