You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
Lawrence, Saha, Wei et al.
Despite the renewed interest in zero-shot visual classification due to the rise of Multimodal Large Language Models (MLLMs), the problem of evaluating free-form responses of auto-regressive models remains a persistent challenge. Most existing works focus on language-only tasks or don't consider Multiple Choice Questions (MCQs) beyond 5-way options, both of which are critical capabilities to solve tasks in Fine-Grained Visual Classification (FGVC) where choice counts are in the hundreds to thousands and the choices are highly related. Furthermore, in this highly multi-way MCQ setting it is not clear how to extend LLM choice extraction to retrieval-based problems, where computing probabilities over the choice set is computationally costly. In this work we investigate nlg2choice, a simple two-stage method which first asks the MLLM an open-ended question for the task with minimal constraints, then uses text-only constrained decoding to predict the most likely choice. In retrieval settings, we compute the probability of the constrained response taking that choice with an early stopping method to significantly improve throughput. Our results show improvement over a suite of seven fine-grained visual datasets when evaluating in terms of classification and retrieval, and show that this performance holds over the various ways that users of LLMs can implement tasks in natural language.
academic
Puoi Parlare Liberamente: Miglioramento delle Capacità di Riconoscimento Visivo Fine-Grained dei Modelli Linguistici Multimodali di Grandi Dimensioni con Estrazione delle Risposte
Nonostante la rinascita dei modelli linguistici multimodali (MLLMs) abbia rinnovato l'interesse per la classificazione visiva zero-shot, la valutazione delle risposte in forma libera dei modelli autoregressivi rimane una sfida persistente. I lavori esistenti si concentrano principalmente su compiti puramente linguistici o non considerano domande a scelta multipla con più di 5 opzioni, entrambi aspetti critici per affrontare compiti di classificazione visiva fine-grained (FGVC), dove il numero di opzioni raggiunge centinaia o migliaia e le opzioni sono altamente correlate. Inoltre, in questo contesto di domande a scelta multipla altamente complesso, rimane poco chiaro come estendere l'estrazione delle scelte da LLM a problemi basati su recupero, poiché il calcolo delle probabilità sull'insieme di scelte è computazionalmente costoso. Questo articolo esamina nlg2choice, un approccio semplice in due fasi che pone prima domande aperte all'MLLM con vincoli minimi, quindi utilizza la decodifica vincolata in testo puro per prevedere l'opzione più probabile. Nel contesto del recupero, viene adottato un metodo di arresto anticipato per calcolare la probabilità che la risposta vincolata selezioni quell'opzione, migliorando significativamente il throughput.
Sfide della Classificazione Visiva Fine-Grained: I metodi tradizionali a scelta multipla mostrano prestazioni scadenti di fronte a centinaia o migliaia di opzioni altamente simili, come nel riconoscimento di specie di uccelli dove LLaVA-1.5 raggiunge prestazioni quasi perfette nella classificazione coarse-grained (ad esempio "uccello" vs "non uccello"), ma solo l'1-2% di accuratezza su etichette di specie fine-grained.
Limitazioni dei Metodi di Valutazione: I metodi esistenti o forzano un formato di output vincolato (che potrebbe ostacolare il ragionamento) o permettono interpretazioni in forma libera (ma difficili da estrarre), mancando di meccanismi efficaci di estrazione delle risposte.
Problemi di Efficienza Computazionale: In scenari di recupero, il costo computazionale del calcolo delle probabilità per centinaia o migliaia di scelte è proibitivo.
Proposta del Metodo nlg2choice: Un approccio semplice ed efficace di estrazione delle risposte in due fasi che migliora significativamente le prestazioni di classificazione e recupero su 7 dataset di visione fine-grained.
Verifica della Robustezza: Attraverso la generazione di varianti di prompt semanticamente equivalenti, dimostra la robustezza del metodo rispetto alle variazioni dell'input dell'utente, con miglioramenti statisticamente significativi.
Proposta di Ottimizzazione con Arresto Anticipato: Introduce un metodo di arresto anticipato nel contesto del recupero, migliorando il throughput di 15 volte (raggiungendo il 1362% di miglioramento su alcuni dataset).
Analisi Sistematica: Dimostra che la decodifica vincolata è un estrattore di risposte affidabile senza necessità di addestramento aggiuntivo, con il collo di bottiglia principale nella mancanza di contenuto estraibile nelle risposte in forma libera piuttosto che nella capacità di estrazione.
Dato un'immagine e un compito di classificazione visiva fine-grained, l'obiettivo è identificare accuratamente il contenuto dell'immagine da un gran numero di categorie altamente simili (centinaia o migliaia), come specie di uccelli, varietà di fiori, modelli di automobili, ecc.
Nel contesto del recupero, migliora l'efficienza attraverso il troncamento del calcolo delle probabilità:
Per il nome della categoria "Baltimore Oriole", scomposto in "B", "altimore", " Ori", "ole", quando "altimore" è unico tra tutte le categorie, interrompe il calcolo delle probabilità dei token successivi:
L'Estrazione delle Risposte Migliora Significativamente le Capacità di Riconoscimento Visivo: Miglioramento su tutte le architetture e i dataset testati
Il Metodo è Robusto rispetto alle Variazioni dell'Utente: I miglioramenti di prestazione sono statisticamente significativi e non dipendono da formati di prompt specifici
La Decodifica Vincolata è un Estrattore Affidabile: Funziona efficacemente senza necessità di addestramento aggiuntivo
Analisi Teorica Insufficiente: Manca una spiegazione teorica del perché il metodo in due fasi sia più efficace
Copertura Limitata dei Modelli: Non testa modelli proprietari di alto livello come GPT-4V
Ambito dei Compiti: Si concentra principalmente sulla classificazione a singola etichetta, con copertura insufficiente di compiti multi-etichetta e altre attività visive
Questo lavoro fornisce una soluzione pratica per la classificazione visiva fine-grained, particolarmente preziosa in applicazioni pratiche che richiedono la gestione di un gran numero di categorie simili. La semplicità del metodo e l'assenza di necessità di addestramento aggiuntivo lo rendono facile da adottare e distribuire.
L'articolo cita 47 lavori correlati, coprendo aree chiave come modelli linguistici multimodali, decodifica vincolata, estrazione delle risposte e altri campi importanti, fornendo una base teorica solida per la ricerca.