2025-11-17T09:37:14.027661

You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction

Lawrence, Saha, Wei et al.
Despite the renewed interest in zero-shot visual classification due to the rise of Multimodal Large Language Models (MLLMs), the problem of evaluating free-form responses of auto-regressive models remains a persistent challenge. Most existing works focus on language-only tasks or don't consider Multiple Choice Questions (MCQs) beyond 5-way options, both of which are critical capabilities to solve tasks in Fine-Grained Visual Classification (FGVC) where choice counts are in the hundreds to thousands and the choices are highly related. Furthermore, in this highly multi-way MCQ setting it is not clear how to extend LLM choice extraction to retrieval-based problems, where computing probabilities over the choice set is computationally costly. In this work we investigate nlg2choice, a simple two-stage method which first asks the MLLM an open-ended question for the task with minimal constraints, then uses text-only constrained decoding to predict the most likely choice. In retrieval settings, we compute the probability of the constrained response taking that choice with an early stopping method to significantly improve throughput. Our results show improvement over a suite of seven fine-grained visual datasets when evaluating in terms of classification and retrieval, and show that this performance holds over the various ways that users of LLMs can implement tasks in natural language.
academic

Puoi Parlare Liberamente: Miglioramento delle Capacità di Riconoscimento Visivo Fine-Grained dei Modelli Linguistici Multimodali di Grandi Dimensioni con Estrazione delle Risposte

Informazioni Fondamentali

  • ID Articolo: 2510.14885
  • Titolo: You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
  • Autori: Logan Lawrence¹, Oindrila Saha¹, Megan Wei², Chen Sun², Subhransu Maji¹, Grant Van Horn¹
  • Istituzioni: ¹University of Massachusetts, Amherst; ²Brown University
  • Classificazione: cs.CV (Visione Artificiale), cs.CL (Computazione e Linguaggio)
  • Data di Pubblicazione: 16 ottobre 2025
  • Link dell'Articolo: https://arxiv.org/abs/2510.14885

Riassunto

Nonostante la rinascita dei modelli linguistici multimodali (MLLMs) abbia rinnovato l'interesse per la classificazione visiva zero-shot, la valutazione delle risposte in forma libera dei modelli autoregressivi rimane una sfida persistente. I lavori esistenti si concentrano principalmente su compiti puramente linguistici o non considerano domande a scelta multipla con più di 5 opzioni, entrambi aspetti critici per affrontare compiti di classificazione visiva fine-grained (FGVC), dove il numero di opzioni raggiunge centinaia o migliaia e le opzioni sono altamente correlate. Inoltre, in questo contesto di domande a scelta multipla altamente complesso, rimane poco chiaro come estendere l'estrazione delle scelte da LLM a problemi basati su recupero, poiché il calcolo delle probabilità sull'insieme di scelte è computazionalmente costoso. Questo articolo esamina nlg2choice, un approccio semplice in due fasi che pone prima domande aperte all'MLLM con vincoli minimi, quindi utilizza la decodifica vincolata in testo puro per prevedere l'opzione più probabile. Nel contesto del recupero, viene adottato un metodo di arresto anticipato per calcolare la probabilità che la risposta vincolata selezioni quell'opzione, migliorando significativamente il throughput.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

  1. Sfide della Classificazione Visiva Fine-Grained: I metodi tradizionali a scelta multipla mostrano prestazioni scadenti di fronte a centinaia o migliaia di opzioni altamente simili, come nel riconoscimento di specie di uccelli dove LLaVA-1.5 raggiunge prestazioni quasi perfette nella classificazione coarse-grained (ad esempio "uccello" vs "non uccello"), ma solo l'1-2% di accuratezza su etichette di specie fine-grained.
  2. Limitazioni dei Metodi di Valutazione: I metodi esistenti o forzano un formato di output vincolato (che potrebbe ostacolare il ragionamento) o permettono interpretazioni in forma libera (ma difficili da estrarre), mancando di meccanismi efficaci di estrazione delle risposte.
  3. Problemi di Efficienza Computazionale: In scenari di recupero, il costo computazionale del calcolo delle probabilità per centinaia o migliaia di scelte è proibitivo.

Motivazione della Ricerca

  • Le prestazioni degli MLLMs su compiti di riconoscimento visivo fine-grained sono significativamente inferiori rispetto ai compiti coarse-grained
  • I metodi di decodifica vincolata e di previsione del primo token esistenti falliscono in contesti fine-grained
  • Manca una ricerca sistematica sulla robustezza rispetto alle variazioni dei prompt dell'utente

Contributi Principali

  1. Proposta del Metodo nlg2choice: Un approccio semplice ed efficace di estrazione delle risposte in due fasi che migliora significativamente le prestazioni di classificazione e recupero su 7 dataset di visione fine-grained.
  2. Verifica della Robustezza: Attraverso la generazione di varianti di prompt semanticamente equivalenti, dimostra la robustezza del metodo rispetto alle variazioni dell'input dell'utente, con miglioramenti statisticamente significativi.
  3. Proposta di Ottimizzazione con Arresto Anticipato: Introduce un metodo di arresto anticipato nel contesto del recupero, migliorando il throughput di 15 volte (raggiungendo il 1362% di miglioramento su alcuni dataset).
  4. Analisi Sistematica: Dimostra che la decodifica vincolata è un estrattore di risposte affidabile senza necessità di addestramento aggiuntivo, con il collo di bottiglia principale nella mancanza di contenuto estraibile nelle risposte in forma libera piuttosto che nella capacità di estrazione.

Dettagli del Metodo

Definizione del Compito

Dato un'immagine e un compito di classificazione visiva fine-grained, l'obiettivo è identificare accuratamente il contenuto dell'immagine da un gran numero di categorie altamente simili (centinaia o migliaia), come specie di uccelli, varietà di fiori, modelli di automobili, ecc.

Architettura nlg2choice

Prima Fase: Generazione in Forma Libera

Prompt di Input: "What is the species of bird in this image?"
Output del Modello: "This bird is an Ivory Gull."

Seconda Fase: Estrazione con Decodifica Vincolata

Prompt: "What is the most likely species of bird indicated in this response?
Response: [nlg]
Answer from the following: [choice_list]"

Utilizza la decodifica vincolata per garantire che l'output provenga da una lista di categorie predefinita.

Simulazione delle Variazioni dell'Utente

Per testare la robustezza, utilizza o3-high per generare 15 varianti di prompt semanticamente equivalenti:

  • Template Base: "What is the species of bird in this image?"
  • Template Conciso: "What is the species of bird in this image? Answer only with species name."
  • Template Vincolato: "What is the species of bird in this image? Answer only from the following list..."

Ottimizzazione del Recupero: Metodo di Arresto Anticipato

Nel contesto del recupero, migliora l'efficienza attraverso il troncamento del calcolo delle probabilità:

Per il nome della categoria "Baltimore Oriole", scomposto in "B", "altimore", " Ori", "ole", quando "altimore" è unico tra tutte le categorie, interrompe il calcolo delle probabilità dei token successivi:

p_full("Baltimore Oriole") = p("B") × p("altimore"|"B") × p(" Ori"|"Baltimore") × p("ole"|"Baltimore Ori")
p_trunc("Baltimore Oriole") = p("B") × p("altimore"|"B")

Configurazione Sperimentale

Dataset

Test su 7 dataset di classificazione visiva fine-grained:

  • CUB200: 200 specie di uccelli
  • Flowers102: 102 specie di fiori
  • Stanford Cars: 196 modelli di automobili
  • FGVC Aircrafts: 100 varianti di aeroplani
  • Food101: 101 tipi di cibo
  • NABirds: 555 specie di uccelli
  • iNaturalist-Birds: 1486 specie di uccelli

Metriche di Valutazione

  • Compito di Classificazione: Accuratezza (media su 15 prompt semanticamente equivalenti)
  • Compito di Recupero: Media della Precisione Media (mAP)
  • Robustezza: Test di significatività statistica

Metodi di Confronto

  • choice: Decodifica vincolata diretta
  • nlg2choice: Metodo in due fasi (con istruzioni vincolate)
  • nlg2choiceopen: Metodo in due fasi (con prompt aperto)

Modelli Testati

  • Qwen-2.5VL-7B
  • Llama-3.2-Vision-11B
  • Intern3VL-8B

Risultati Sperimentali

Risultati Principali

Miglioramento delle Prestazioni di Classificazione

Su tutti i modelli e dataset, nlg2choice supera significativamente la decodifica vincolata diretta:

ModelloMiglioramento Accuratezza Media
Qwen-2.5VL+17.46%
Llama-3.2V+8.49%
Intern3VL+6.87%

Prestazione Migliore: Qwen-2.5VL raggiunge un'accuratezza media del 56.91% con prompt aperto, con il dataset Flowers che raggiunge il 78.03%.

Prestazioni di Recupero

Nel compito di recupero, nlg2choice mostra ugualmente eccellenti risultati:

  • Miglioramento mAP medio di Qwen-2.5VL +8.16
  • Miglioramento su tutti i dataset eccetto Stanford Cars
  • Miglioramento più significativo nel dataset Flowers (+25.23 mAP)

Efficienza Computazionale

Il metodo di arresto anticipato migliora significativamente il throughput:

  • CUB200: +1362%
  • Flowers: +2042%
  • Miglioramento medio di circa 10 volte o superiore

Esperimenti di Ablazione

Impatto dei Vincoli del Prompt

Gli esperimenti rivelano che le istruzioni vincolate riducono le prestazioni:

  • Prompt aperto > Istruzioni concise > Enumerazione esplicita delle scelte
  • Qwen-2.5VL con prompt aperto supera il prompt vincolato di +62.44% (CUB200)

Effetto della Catena di Pensiero (CoT)

Forzare il ragionamento CoT non migliora costantemente le prestazioni:

  • "Let's think step by step": Calo medio di -9.75%
  • "First,": Calo medio di -9.48%
  • Leggero miglioramento solo su Intern3VL CUB200 (+1.01%)

Analisi della Qualità della Classificazione Errata

nlg2choice produce errori più ragionevoli:

  • Miglioramento dell'accuratezza a livello di genere: Qwen-2.5VL +16.75%, Llama-3.2V +23.85%
  • Gli errori si verificano più frequentemente tra specie dello stesso genere, piuttosto che tra categorie completamente non correlate

Verifica della Capacità di Estrazione delle Risposte

Attraverso annotazione manuale:

  • Il 34.64% delle risposte in forma libera contiene risposte fuori schema
  • Il 70.75% dei casi di fallimento contiene il vero nome della specie
  • La decodifica vincolata mostra alta accuratezza su campioni estraibili: Qwen-2.5VL 97.93%, Intern3VL 93.26%

Lavori Correlati

Forzare gli MLLMs a Generare Scelte Valide

  • Metodi iniziali: Analisi con espressioni regolari, ma prestazioni scadenti su compiti fine-grained
  • Ordinamento Probabilistico: Basato sulla probabilità del primo token dell'ID opzione (A/B/C/D), ampiamente adottato ma computazionalmente costoso
  • Decodifica Vincolata: Garantisce che l'output sia nell'insieme di scelte, ma valutazioni recenti mostrano calo di prestazioni

MLLMs come Estrattori di Risposte

  • Problema della mancata corrispondenza tra output di testo e metriche di probabilità dei token
  • Utilizzo di modelli di grandi dimensioni come GPT-4 per l'estrazione delle risposte
  • Metodi specializzati come xFinder, SLOT, xVerify che richiedono addestramento aggiuntivo

Conclusioni e Discussione

Conclusioni Principali

  1. L'Estrazione delle Risposte Migliora Significativamente le Capacità di Riconoscimento Visivo: Miglioramento su tutte le architetture e i dataset testati
  2. Il Metodo è Robusto rispetto alle Variazioni dell'Utente: I miglioramenti di prestazione sono statisticamente significativi e non dipendono da formati di prompt specifici
  3. La Decodifica Vincolata è un Estrattore Affidabile: Funziona efficacemente senza necessità di addestramento aggiuntivo

Limitazioni

  1. Limitazioni della Dimensione del Modello: I test principali riguardano modelli di dimensioni medie (8B-11B), utilizzando solo modelli open-source
  2. Requisiti di Risorse Computazionali: Sebbene eviti l'addestramento specializzato, richiede comunque risorse computazionali significative per elaborare descrizioni testuali
  3. Estensibilità Multi-Etichetta: L'applicabilità su problemi multi-etichetta rimane da verificare

Direzioni Future

  • Estensione a modelli proprietari di dimensioni maggiori
  • Esplorazione della classificazione fine-grained multi-etichetta
  • Ulteriore ottimizzazione dell'efficienza computazionale

Valutazione Approfondita

Punti di Forza

  1. Metodo Semplice ed Efficace: Il design in due fasi è intuitivo, senza necessità di dati di addestramento aggiuntivi o modifiche architettoniche
  2. Esperimenti Completi: Test su più modelli, dataset e dimensioni di valutazione, inclusa la verifica della robustezza
  3. Alto Valore Pratico: L'ottimizzazione con arresto anticipato risolve i problemi di efficienza computazionale nella distribuzione pratica
  4. Analisi Approfondita: Attraverso annotazione manuale verifica l'efficacia dell'estrazione delle risposte, identificando i veri colli di bottiglia

Carenze

  1. Analisi Teorica Insufficiente: Manca una spiegazione teorica del perché il metodo in due fasi sia più efficace
  2. Copertura Limitata dei Modelli: Non testa modelli proprietari di alto livello come GPT-4V
  3. Ambito dei Compiti: Si concentra principalmente sulla classificazione a singola etichetta, con copertura insufficiente di compiti multi-etichetta e altre attività visive

Impatto

Questo lavoro fornisce una soluzione pratica per la classificazione visiva fine-grained, particolarmente preziosa in applicazioni pratiche che richiedono la gestione di un gran numero di categorie simili. La semplicità del metodo e l'assenza di necessità di addestramento aggiuntivo lo rendono facile da adottare e distribuire.

Scenari di Applicazione

  • Sistemi di identificazione di specie biologiche
  • Piattaforme di classificazione fine di prodotti commerciali
  • Diagnostica fine-grained di imaging medico
  • Qualsiasi compito di visione che richieda classificazione precisa da un gran numero di opzioni simili

Bibliografia

L'articolo cita 47 lavori correlati, coprendo aree chiave come modelli linguistici multimodali, decodifica vincolata, estrazione delle risposte e altri campi importanti, fornendo una base teorica solida per la ricerca.