2025-11-17T09:37:14.027661

You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction

Lawrence, Saha, Wei et al.
Despite the renewed interest in zero-shot visual classification due to the rise of Multimodal Large Language Models (MLLMs), the problem of evaluating free-form responses of auto-regressive models remains a persistent challenge. Most existing works focus on language-only tasks or don't consider Multiple Choice Questions (MCQs) beyond 5-way options, both of which are critical capabilities to solve tasks in Fine-Grained Visual Classification (FGVC) where choice counts are in the hundreds to thousands and the choices are highly related. Furthermore, in this highly multi-way MCQ setting it is not clear how to extend LLM choice extraction to retrieval-based problems, where computing probabilities over the choice set is computationally costly. In this work we investigate nlg2choice, a simple two-stage method which first asks the MLLM an open-ended question for the task with minimal constraints, then uses text-only constrained decoding to predict the most likely choice. In retrieval settings, we compute the probability of the constrained response taking that choice with an early stopping method to significantly improve throughput. Our results show improvement over a suite of seven fine-grained visual datasets when evaluating in terms of classification and retrieval, and show that this performance holds over the various ways that users of LLMs can implement tasks in natural language.
academic

Sie dürfen frei sprechen: Verbesserung der feingranularen visuellen Erkennungsfähigkeiten von multimodalen großen Sprachmodellen durch Antwortextraktion

Grundlegende Informationen

  • Paper-ID: 2510.14885
  • Titel: You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
  • Autoren: Logan Lawrence¹, Oindrila Saha¹, Megan Wei², Chen Sun², Subhransu Maji¹, Grant Van Horn¹
  • Institutionen: ¹University of Massachusetts, Amherst; ²Brown University
  • Klassifizierung: cs.CV (Computervision), cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 16. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.14885

Zusammenfassung

Obwohl der Aufstieg von multimodalen großen Sprachmodellen (MLLMs) das Interesse an Zero-Shot-Bildklassifizierung erneuert hat, bleibt die Bewertung von Freitextantworten autoregessiver Modelle eine andauernde Herausforderung. Bestehende Arbeiten konzentrieren sich hauptsächlich auf reine Sprachaufgaben oder berücksichtigen keine Multiple-Choice-Fragen mit mehr als 5 Optionen, wobei beide Aspekte Schlüsselfähigkeiten für die Lösung von feingranularen Bildklassifizierungsaufgaben (FGVC) darstellen, bei denen die Anzahl der Optionen Hunderte bis Tausende erreicht und die Optionen hochgradig verwandt sind. Darüber hinaus ist unklar, wie die LLM-Auswahlextraktion in diesem hochgradig mehrfach gewählten MCQ-Setting auf abrufbasierte Fragen ausgedehnt werden kann, da die Berechnung von Wahrscheinlichkeiten über die Auswahlmenge rechnerisch kostspielig ist. Dieses Paper untersucht nlg2choice, einen einfachen zweistufigen Ansatz, der zunächst mit minimalen Einschränkungen eine offene Frage an das MLLM stellt und dann reine Textbeschränkungsdecodierung verwendet, um die wahrscheinlichste Auswahl vorherzusagen. Im Abrufsetting wird eine Early-Stopping-Methode verwendet, um die Wahrscheinlichkeit zu berechnen, dass die eingeschränkte Antwort diese Option auswählt, was den Durchsatz erheblich verbessert.

Forschungshintergrund und Motivation

Kernprobleme

  1. Herausforderungen der feingranularen Bildklassifizierung: Traditionelle Multiple-Choice-Methoden zeigen schlechte Leistungen bei Hunderten bis Tausenden hochgradig ähnlicher Optionen, wie beispielsweise bei der Vogelartenerkennung, wo LLaVA-1.5 bei grober Klassifizierung (wie "Vogel" vs. "kein Vogel") nahezu perfekt ist, aber bei feingranularen Artenlabeln nur 1-2% Genauigkeit erreicht.
  2. Einschränkungen von Bewertungsmethoden: Bestehende Methoden zwingen entweder ein eingeschränktes Ausgabeformat (das möglicherweise das Denken behindert) oder erlauben Freitextinterpretationen (aber mit schwieriger Extraktion), wobei ein wirksamer Antwortextraktionsmechanismus fehlt.
  3. Rechnerische Effizienzprobleme: In Abrufszenarios ist der Rechenaufwand für die Berechnung von Wahrscheinlichkeiten über Hunderte bis Tausende Auswahlmöglichkeiten zu hoch.

Forschungsmotivation

  • MLLMs zeigen bei feingranularen visuellen Erkennungsaufgaben eine deutlich schlechtere Leistung als bei groben Aufgaben
  • Bestehende Methoden zur eingeschränkten Decodierung und Vorhersage des ersten Tokens versagen in feingranularen Settings
  • Mangel an systematischer Forschung zur Robustheit gegenüber Änderungen von Benutzeraufforderungen

Kernbeiträge

  1. Vorschlag der nlg2choice-Methode: Ein einfacher und effektiver zweistufiger Antwortextraktionsansatz, der die Klassifizierungs- und Abrufleistung auf 7 feingranularen Bilddatensätzen erheblich verbessert.
  2. Robustheitsvalidierung: Durch die Generierung semantisch äquivalenter Aufforderungsvarianten wird die Robustheit der Methode gegenüber Änderungen von Benutzereingaben nachgewiesen, mit statistisch signifikanten Leistungsverbesserungen.
  3. Vorschlag der Early-Stopping-Optimierung: Einführung einer Early-Stopping-Methode im Abrufsetting, die den Durchsatz um das 15-fache erhöht (auf einigen Datensätzen bis zu 1362% Verbesserung).
  4. Systematische Analyse: Nachweis, dass eingeschränkte Decodierung ein zuverlässiger Antwortextraktor ohne zusätzliches Training ist, wobei der Hauptengpass in den Freitextantworten selbst liegt, die nicht extrahierbar sind, statt in der Antwortextraktionsfähigkeit.

Methodische Details

Aufgabendefinition

Gegeben ein Bild und eine feingranulare Bildklassifizierungsaufgabe besteht das Ziel darin, Bildinhalte aus einer großen Anzahl hochgradig ähnlicher Kategorien (Hunderte bis Tausende) genau zu identifizieren, wie beispielsweise Vogelarten, Blumensorten, Automodelle usw.

nlg2choice-Architektur

Erste Stufe: Freitextgenerierung

Eingabeaufforderung: "What is the species of bird in this image?"
Modellausgabe: "This bird is an Ivory Gull."

Zweite Stufe: Eingeschränkte Decodierungsextraktion

Aufforderung: "What is the most likely species of bird indicated in this response?
Response: [nlg]
Answer from the following: [choice_list]"

Verwendet eingeschränkte Decodierung, um sicherzustellen, dass die Ausgabe aus einer vordefinierten Kategorieliste stammen muss.

Simulation von Benutzeränderungen

Um die Robustheit zu testen, werden 15 semantisch äquivalente Aufforderungsvarianten mit o3-high generiert:

  • Basis-Template: "What is the species of bird in this image?"
  • Prägnantes Template: "What is the species of bird in this image? Answer only with species name."
  • Eingeschränktes Template: "What is the species of bird in this image? Answer only from the following list..."

Abrufoptimierung: Early-Stopping-Methode

Im Abrufszenario wird die Effizienz durch Abkürzung der Wahrscheinlichkeitsberechnung verbessert:

Für den Kategorienamen "Baltimore Oriole", zerlegt in "B", "altimore", " Ori", "ole", wenn "altimore" unter allen Kategorien eindeutig ist, wird die Berechnung nachfolgender Token-Wahrscheinlichkeiten gestoppt:

p_full("Baltimore Oriole") = p("B") × p("altimore"|"B") × p(" Ori"|"Baltimore") × p("ole"|"Baltimore Ori")
p_trunc("Baltimore Oriole") = p("B") × p("altimore"|"B")

Experimentelle Einrichtung

Datensätze

Test auf 7 feingranularen Bildklassifizierungsdatensätzen:

  • CUB200: 200 Vogelarten
  • Flowers102: 102 Blumensorten
  • Stanford Cars: 196 Automodelle
  • FGVC Aircrafts: 100 Flugzeugvarianten
  • Food101: 101 Lebensmittelarten
  • NABirds: 555 Vogelarten
  • iNaturalist-Birds: 1486 Vogelarten

Bewertungsmetriken

  • Klassifizierungsaufgabe: Genauigkeit (Durchschnitt über 15 semantisch äquivalente Aufforderungen)
  • Abrufaufgabe: Mittlere durchschnittliche Präzision (mAP)
  • Robustheit: Statistische Signifikanztests

Vergleichsmethoden

  • choice: Direkte eingeschränkte Decodierung
  • nlg2choice: Zweistufiger Ansatz (mit eingeschränkter Anweisung)
  • nlg2choiceopen: Zweistufiger Ansatz (mit offener Aufforderung)

Getestete Modelle

  • Qwen-2.5VL-7B
  • Llama-3.2-Vision-11B
  • Intern3VL-8B

Experimentelle Ergebnisse

Hauptergebnisse

Verbesserung der Klassifizierungsleistung

Bei allen Modellen und Datensätzen ist nlg2choice deutlich überlegen gegenüber direkter eingeschränkter Decodierung:

ModellDurchschnittliche Genauigkeitsverbesserung
Qwen-2.5VL+17,46%
Llama-3.2V+8,49%
Intern3VL+6,87%

Beste Leistung: Qwen-2.5VL erreicht mit offener Aufforderung durchschnittliche Genauigkeit von 56,91%, wobei der Flowers-Datensatz 78,03% erreicht.

Abrufleistung

Bei Abrufaufgaben zeigt nlg2choice ebenfalls hervorragende Leistung:

  • Qwen-2.5VL durchschnittliche mAP-Verbesserung +8,16
  • Verbesserung bei allen Datensätzen außer Stanford Cars
  • Flowers-Datensatz zeigt die signifikanteste Verbesserung (+25,23 mAP)

Rechnerische Effizienz

Die Early-Stopping-Methode verbessert den Durchsatz erheblich:

  • CUB200: +1362%
  • Flowers: +2042%
  • Durchschnittliche Verbesserung etwa 10-fach oder mehr

Ablationsstudien

Auswirkung von Aufforderungsbeschränkungen

Experimente zeigen, dass eingeschränkte Anweisungen die Leistung verringern:

  • Offene Aufforderung > Prägnante Anweisung > Explizite Auswahlaufzählung
  • Qwen-2.5VL bei offener Aufforderung +62,44% höher als bei eingeschränkter Aufforderung (CUB200)

Effekt von Chain-of-Thought (CoT)

Das Erzwingen von CoT-Denken verbessert die Leistung nicht konsistent:

  • "Let's think step by step": Durchschnittlicher Rückgang -9,75%
  • "First,": Durchschnittlicher Rückgang -9,48%
  • Nur leichte Verbesserung bei Intern3VL auf CUB200 (+1,01%)

Qualitätsanalyse von Fehlklassifizierungen

nlg2choice erzeugt vernünftigere Fehler:

  • Genauigkeit auf Gattungsebene verbessert sich: Qwen-2.5VL +16,75%, Llama-3.2V +23,85%
  • Fehler treten häufiger zwischen Arten derselben Gattung auf, nicht zwischen völlig unverwandten Kategorien

Validierung der Antwortextraktionsfähigkeit

Durch manuelle Annotation validiert:

  • 34,64% der Freitextantworten enthalten außerhalb des Musters liegende Antworten
  • 70,75% der Fehlerfälle enthalten echte Artnamen
  • Eingeschränkte Decodierung zeigt hohe Genauigkeit bei extrahierbaren Stichproben: Qwen-2.5VL 97,93%, Intern3VL 93,26%

Verwandte Arbeiten

Erzwingung gültiger Auswahlmöglichkeiten durch MLLMs

  • Frühe Methoden: Regex-Parsing, aber schlechte Leistung bei feingranularen Aufgaben
  • Wahrscheinlichkeitsrangfolge: Basierend auf Wahrscheinlichkeit des ersten Tokens von Auswahlkennungen (A/B/C/D), weit verbreitet aber rechnerisch teuer
  • Eingeschränkte Decodierung: Garantiert Ausgabe innerhalb der Auswahlmenge, aber neuere Bewertungen zeigen Leistungsrückgang

MLLMs als Antwortextraktor

  • Nichtübereinstimmung zwischen Textausgabe und Token-Wahrscheinlichkeitsmetriken
  • Große Modelle wie GPT-4 für Antwortextraktion
  • Spezialisierte Extraktionsmethoden wie xFinder, SLOT, xVerify erfordern zusätzliches Training

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Antwortextraktion verbessert visuelles Erkennungsvermögen erheblich: Verbesserungen bei allen getesteten Architekturen und Datensätzen
  2. Methode ist robust gegenüber Benutzeränderungen: Leistungsverbesserungen sind statistisch signifikant und nicht von spezifischem Aufforderungsformat abhängig
  3. Eingeschränkte Decodierung ist zuverlässiger Extraktor: Funktioniert effektiv ohne zusätzliches Training

Einschränkungen

  1. Modellgrößenbeschränkung: Haupttests konzentrieren sich auf mittlere Modelle (8B-11B), nur Open-Source-Modelle verwendet
  2. Rechnerische Ressourcennanforderungen: Obwohl spezialisiertes Training vermieden wird, benötigt die Verarbeitung von Textbeschreibungen immer noch erhebliche Rechenressourcen
  3. Erweiterbarkeit auf mehrere Labels: Anwendbarkeit auf Multi-Label-Probleme bleibt zu überprüfen

Zukünftige Richtungen

  • Erweiterung auf größere proprietäre Modelle
  • Erforschung von Multi-Label-Feingranularklassifizierung
  • Weitere Optimierung der Rechnerischen Effizienz

Tiefgreifende Bewertung

Stärken

  1. Methode ist einfach und effektiv: Zweistufiges Design ist intuitiv, erfordert keine zusätzlichen Trainingsdaten oder Architekturmodifikationen
  2. Umfassende Experimente: Tests mit mehreren Modellen, Datensätzen und Bewertungsdimensionen, einschließlich Robustheitsvalidierung
  3. Hoher praktischer Wert: Early-Stopping-Optimierung löst Rechnerische Effizienzprobleme bei praktischer Bereitstellung
  4. Tiefgreifende Analyse: Manuelle Annotation validiert Effektivität der Antwortextraktion und identifiziert echte Engpässe

Mängel

  1. Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum zweistufiger Ansatz effektiver ist
  2. Begrenzte Modellabdeckung: GPT-4V und andere Top-Proprietary-Modelle nicht getestet
  3. Aufgabenbereich: Konzentriert sich hauptsächlich auf Single-Label-Klassifizierung, Multi-Label und andere Sehaufgaben unterrepräsentiert

Auswirkungen

Diese Arbeit bietet eine praktische Lösung für feingranulare Bildklassifizierung, besonders wertvoll in praktischen Anwendungen, die mit großen Mengen ähnlicher Kategorien umgehen müssen. Die Einfachheit der Methode und die Tatsache, dass kein zusätzliches Training erforderlich ist, machen sie leicht zu übernehmen und bereitzustellen.

Anwendungsszenarien

  • Biologische Artenerkennung
  • Waren-Feinklassifizierungsplattformen
  • Medizinische Bildgebung Feingranulardiagnose
  • Alle visuellen Aufgaben, die präzise Klassifizierung aus großen Mengen ähnlicher Optionen erfordern

Literaturverzeichnis

Das Paper zitiert 47 verwandte Arbeiten, die wichtige Arbeiten in Schlüsselbereichen wie multimodale große Sprachmodelle, eingeschränkte Decodierung und Antwortextraktion abdecken und eine solide theoretische Grundlage für die Forschung bieten.