2025-11-17T09:37:14.027661

You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction

Lawrence, Saha, Wei et al.

Despite the renewed interest in zero-shot visual classification due to the rise of Multimodal Large Language Models (MLLMs), the problem of evaluating free-form responses of auto-regressive models remains a persistent challenge. Most existing works focus on language-only tasks or don't consider Multiple Choice Questions (MCQs) beyond 5-way options, both of which are critical capabilities to solve tasks in Fine-Grained Visual Classification (FGVC) where choice counts are in the hundreds to thousands and the choices are highly related. Furthermore, in this highly multi-way MCQ setting it is not clear how to extend LLM choice extraction to retrieval-based problems, where computing probabilities over the choice set is computationally costly. In this work we investigate nlg2choice, a simple two-stage method which first asks the MLLM an open-ended question for the task with minimal constraints, then uses text-only constrained decoding to predict the most likely choice. In retrieval settings, we compute the probability of the constrained response taking that choice with an early stopping method to significantly improve throughput. Our results show improvement over a suite of seven fine-grained visual datasets when evaluating in terms of classification and retrieval, and show that this performance holds over the various ways that users of LLMs can implement tasks in natural language.

academic

Sie dürfen frei sprechen: Verbesserung der feingranularen visuellen Erkennungsfähigkeiten von multimodalen großen Sprachmodellen durch Antwortextraktion

Grundlegende Informationen

Paper-ID: 2510.14885
Titel: You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
Autoren: Logan Lawrence¹, Oindrila Saha¹, Megan Wei², Chen Sun², Subhransu Maji¹, Grant Van Horn¹
Institutionen: ¹University of Massachusetts, Amherst; ²Brown University
Klassifizierung: cs.CV (Computervision), cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 16. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.14885

Zusammenfassung

Obwohl der Aufstieg von multimodalen großen Sprachmodellen (MLLMs) das Interesse an Zero-Shot-Bildklassifizierung erneuert hat, bleibt die Bewertung von Freitextantworten autoregessiver Modelle eine andauernde Herausforderung. Bestehende Arbeiten konzentrieren sich hauptsächlich auf reine Sprachaufgaben oder berücksichtigen keine Multiple-Choice-Fragen mit mehr als 5 Optionen, wobei beide Aspekte Schlüsselfähigkeiten für die Lösung von feingranularen Bildklassifizierungsaufgaben (FGVC) darstellen, bei denen die Anzahl der Optionen Hunderte bis Tausende erreicht und die Optionen hochgradig verwandt sind. Darüber hinaus ist unklar, wie die LLM-Auswahlextraktion in diesem hochgradig mehrfach gewählten MCQ-Setting auf abrufbasierte Fragen ausgedehnt werden kann, da die Berechnung von Wahrscheinlichkeiten über die Auswahlmenge rechnerisch kostspielig ist. Dieses Paper untersucht nlg2choice, einen einfachen zweistufigen Ansatz, der zunächst mit minimalen Einschränkungen eine offene Frage an das MLLM stellt und dann reine Textbeschränkungsdecodierung verwendet, um die wahrscheinlichste Auswahl vorherzusagen. Im Abrufsetting wird eine Early-Stopping-Methode verwendet, um die Wahrscheinlichkeit zu berechnen, dass die eingeschränkte Antwort diese Option auswählt, was den Durchsatz erheblich verbessert.

Forschungshintergrund und Motivation

Kernprobleme

Herausforderungen der feingranularen Bildklassifizierung: Traditionelle Multiple-Choice-Methoden zeigen schlechte Leistungen bei Hunderten bis Tausenden hochgradig ähnlicher Optionen, wie beispielsweise bei der Vogelartenerkennung, wo LLaVA-1.5 bei grober Klassifizierung (wie "Vogel" vs. "kein Vogel") nahezu perfekt ist, aber bei feingranularen Artenlabeln nur 1-2% Genauigkeit erreicht.
Einschränkungen von Bewertungsmethoden: Bestehende Methoden zwingen entweder ein eingeschränktes Ausgabeformat (das möglicherweise das Denken behindert) oder erlauben Freitextinterpretationen (aber mit schwieriger Extraktion), wobei ein wirksamer Antwortextraktionsmechanismus fehlt.
Rechnerische Effizienzprobleme: In Abrufszenarios ist der Rechenaufwand für die Berechnung von Wahrscheinlichkeiten über Hunderte bis Tausende Auswahlmöglichkeiten zu hoch.

Forschungsmotivation

MLLMs zeigen bei feingranularen visuellen Erkennungsaufgaben eine deutlich schlechtere Leistung als bei groben Aufgaben
Bestehende Methoden zur eingeschränkten Decodierung und Vorhersage des ersten Tokens versagen in feingranularen Settings
Mangel an systematischer Forschung zur Robustheit gegenüber Änderungen von Benutzeraufforderungen

Kernbeiträge

Vorschlag der nlg2choice-Methode: Ein einfacher und effektiver zweistufiger Antwortextraktionsansatz, der die Klassifizierungs- und Abrufleistung auf 7 feingranularen Bilddatensätzen erheblich verbessert.
Robustheitsvalidierung: Durch die Generierung semantisch äquivalenter Aufforderungsvarianten wird die Robustheit der Methode gegenüber Änderungen von Benutzereingaben nachgewiesen, mit statistisch signifikanten Leistungsverbesserungen.
Vorschlag der Early-Stopping-Optimierung: Einführung einer Early-Stopping-Methode im Abrufsetting, die den Durchsatz um das 15-fache erhöht (auf einigen Datensätzen bis zu 1362% Verbesserung).
Systematische Analyse: Nachweis, dass eingeschränkte Decodierung ein zuverlässiger Antwortextraktor ohne zusätzliches Training ist, wobei der Hauptengpass in den Freitextantworten selbst liegt, die nicht extrahierbar sind, statt in der Antwortextraktionsfähigkeit.

Methodische Details

Aufgabendefinition

Gegeben ein Bild und eine feingranulare Bildklassifizierungsaufgabe besteht das Ziel darin, Bildinhalte aus einer großen Anzahl hochgradig ähnlicher Kategorien (Hunderte bis Tausende) genau zu identifizieren, wie beispielsweise Vogelarten, Blumensorten, Automodelle usw.

nlg2choice-Architektur

Erste Stufe: Freitextgenerierung

Eingabeaufforderung: "What is the species of bird in this image?"
Modellausgabe: "This bird is an Ivory Gull."

Zweite Stufe: Eingeschränkte Decodierungsextraktion

Aufforderung: "What is the most likely species of bird indicated in this response?
Response: [nlg]
Answer from the following: [choice_list]"

Verwendet eingeschränkte Decodierung, um sicherzustellen, dass die Ausgabe aus einer vordefinierten Kategorieliste stammen muss.

Simulation von Benutzeränderungen

Um die Robustheit zu testen, werden 15 semantisch äquivalente Aufforderungsvarianten mit o3-high generiert:

Basis-Template: "What is the species of bird in this image?"
Prägnantes Template: "What is the species of bird in this image? Answer only with species name."
Eingeschränktes Template: "What is the species of bird in this image? Answer only from the following list..."

Abrufoptimierung: Early-Stopping-Methode

Im Abrufszenario wird die Effizienz durch Abkürzung der Wahrscheinlichkeitsberechnung verbessert:

Für den Kategorienamen "Baltimore Oriole", zerlegt in "B", "altimore", " Ori", "ole", wenn "altimore" unter allen Kategorien eindeutig ist, wird die Berechnung nachfolgender Token-Wahrscheinlichkeiten gestoppt:

p_full("Baltimore Oriole") = p("B") × p("altimore"|"B") × p(" Ori"|"Baltimore") × p("ole"|"Baltimore Ori")
p_trunc("Baltimore Oriole") = p("B") × p("altimore"|"B")

Experimentelle Einrichtung

Datensätze

Test auf 7 feingranularen Bildklassifizierungsdatensätzen:

CUB200: 200 Vogelarten
Flowers102: 102 Blumensorten
Stanford Cars: 196 Automodelle
FGVC Aircrafts: 100 Flugzeugvarianten
Food101: 101 Lebensmittelarten
NABirds: 555 Vogelarten
iNaturalist-Birds: 1486 Vogelarten

Bewertungsmetriken

Klassifizierungsaufgabe: Genauigkeit (Durchschnitt über 15 semantisch äquivalente Aufforderungen)
Abrufaufgabe: Mittlere durchschnittliche Präzision (mAP)
Robustheit: Statistische Signifikanztests

Vergleichsmethoden

choice: Direkte eingeschränkte Decodierung
nlg2choice: Zweistufiger Ansatz (mit eingeschränkter Anweisung)
nlg2choiceopen: Zweistufiger Ansatz (mit offener Aufforderung)

Getestete Modelle

Qwen-2.5VL-7B
Llama-3.2-Vision-11B
Intern3VL-8B

Experimentelle Ergebnisse

Hauptergebnisse

Verbesserung der Klassifizierungsleistung

Bei allen Modellen und Datensätzen ist nlg2choice deutlich überlegen gegenüber direkter eingeschränkter Decodierung:

Modell	Durchschnittliche Genauigkeitsverbesserung
Qwen-2.5VL	+17,46%
Llama-3.2V	+8,49%
Intern3VL	+6,87%

Beste Leistung: Qwen-2.5VL erreicht mit offener Aufforderung durchschnittliche Genauigkeit von 56,91%, wobei der Flowers-Datensatz 78,03% erreicht.

Abrufleistung

Bei Abrufaufgaben zeigt nlg2choice ebenfalls hervorragende Leistung:

Qwen-2.5VL durchschnittliche mAP-Verbesserung +8,16
Verbesserung bei allen Datensätzen außer Stanford Cars
Flowers-Datensatz zeigt die signifikanteste Verbesserung (+25,23 mAP)

Rechnerische Effizienz

Die Early-Stopping-Methode verbessert den Durchsatz erheblich:

CUB200: +1362%
Flowers: +2042%
Durchschnittliche Verbesserung etwa 10-fach oder mehr

Ablationsstudien

Auswirkung von Aufforderungsbeschränkungen

Experimente zeigen, dass eingeschränkte Anweisungen die Leistung verringern:

Offene Aufforderung > Prägnante Anweisung > Explizite Auswahlaufzählung
Qwen-2.5VL bei offener Aufforderung +62,44% höher als bei eingeschränkter Aufforderung (CUB200)

Effekt von Chain-of-Thought (CoT)

Das Erzwingen von CoT-Denken verbessert die Leistung nicht konsistent:

"Let's think step by step": Durchschnittlicher Rückgang -9,75%
"First,": Durchschnittlicher Rückgang -9,48%
Nur leichte Verbesserung bei Intern3VL auf CUB200 (+1,01%)

Qualitätsanalyse von Fehlklassifizierungen

nlg2choice erzeugt vernünftigere Fehler:

Genauigkeit auf Gattungsebene verbessert sich: Qwen-2.5VL +16,75%, Llama-3.2V +23,85%
Fehler treten häufiger zwischen Arten derselben Gattung auf, nicht zwischen völlig unverwandten Kategorien

Validierung der Antwortextraktionsfähigkeit

Durch manuelle Annotation validiert:

34,64% der Freitextantworten enthalten außerhalb des Musters liegende Antworten
70,75% der Fehlerfälle enthalten echte Artnamen
Eingeschränkte Decodierung zeigt hohe Genauigkeit bei extrahierbaren Stichproben: Qwen-2.5VL 97,93%, Intern3VL 93,26%

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Antwortextraktion verbessert visuelles Erkennungsvermögen erheblich: Verbesserungen bei allen getesteten Architekturen und Datensätzen
Methode ist robust gegenüber Benutzeränderungen: Leistungsverbesserungen sind statistisch signifikant und nicht von spezifischem Aufforderungsformat abhängig
Eingeschränkte Decodierung ist zuverlässiger Extraktor: Funktioniert effektiv ohne zusätzliches Training

Einschränkungen

Modellgrößenbeschränkung: Haupttests konzentrieren sich auf mittlere Modelle (8B-11B), nur Open-Source-Modelle verwendet
Rechnerische Ressourcennanforderungen: Obwohl spezialisiertes Training vermieden wird, benötigt die Verarbeitung von Textbeschreibungen immer noch erhebliche Rechenressourcen
Erweiterbarkeit auf mehrere Labels: Anwendbarkeit auf Multi-Label-Probleme bleibt zu überprüfen

Zukünftige Richtungen

Erweiterung auf größere proprietäre Modelle
Erforschung von Multi-Label-Feingranularklassifizierung
Weitere Optimierung der Rechnerischen Effizienz

Tiefgreifende Bewertung

Stärken

Methode ist einfach und effektiv: Zweistufiges Design ist intuitiv, erfordert keine zusätzlichen Trainingsdaten oder Architekturmodifikationen
Umfassende Experimente: Tests mit mehreren Modellen, Datensätzen und Bewertungsdimensionen, einschließlich Robustheitsvalidierung
Hoher praktischer Wert: Early-Stopping-Optimierung löst Rechnerische Effizienzprobleme bei praktischer Bereitstellung
Tiefgreifende Analyse: Manuelle Annotation validiert Effektivität der Antwortextraktion und identifiziert echte Engpässe

Mängel

Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum zweistufiger Ansatz effektiver ist
Begrenzte Modellabdeckung: GPT-4V und andere Top-Proprietary-Modelle nicht getestet
Aufgabenbereich: Konzentriert sich hauptsächlich auf Single-Label-Klassifizierung, Multi-Label und andere Sehaufgaben unterrepräsentiert

Auswirkungen

Diese Arbeit bietet eine praktische Lösung für feingranulare Bildklassifizierung, besonders wertvoll in praktischen Anwendungen, die mit großen Mengen ähnlicher Kategorien umgehen müssen. Die Einfachheit der Methode und die Tatsache, dass kein zusätzliches Training erforderlich ist, machen sie leicht zu übernehmen und bereitzustellen.

Anwendungsszenarien

Biologische Artenerkennung
Waren-Feinklassifizierungsplattformen
Medizinische Bildgebung Feingranulardiagnose
Alle visuellen Aufgaben, die präzise Klassifizierung aus großen Mengen ähnlicher Optionen erfordern

Literaturverzeichnis

Das Paper zitiert 47 verwandte Arbeiten, die wichtige Arbeiten in Schlüsselbereichen wie multimodale große Sprachmodelle, eingeschränkte Decodierung und Antwortextraktion abdecken und eine solide theoretische Grundlage für die Forschung bieten.