2025-11-17T09:37:14.027661

You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction

Lawrence, Saha, Wei et al.
Despite the renewed interest in zero-shot visual classification due to the rise of Multimodal Large Language Models (MLLMs), the problem of evaluating free-form responses of auto-regressive models remains a persistent challenge. Most existing works focus on language-only tasks or don't consider Multiple Choice Questions (MCQs) beyond 5-way options, both of which are critical capabilities to solve tasks in Fine-Grained Visual Classification (FGVC) where choice counts are in the hundreds to thousands and the choices are highly related. Furthermore, in this highly multi-way MCQ setting it is not clear how to extend LLM choice extraction to retrieval-based problems, where computing probabilities over the choice set is computationally costly. In this work we investigate nlg2choice, a simple two-stage method which first asks the MLLM an open-ended question for the task with minimal constraints, then uses text-only constrained decoding to predict the most likely choice. In retrieval settings, we compute the probability of the constrained response taking that choice with an early stopping method to significantly improve throughput. Our results show improvement over a suite of seven fine-grained visual datasets when evaluating in terms of classification and retrieval, and show that this performance holds over the various ways that users of LLMs can implement tasks in natural language.
academic

Vous Pouvez Parler Librement : Amélioration des Capacités de Reconnaissance Visuelle Fine-Grained des Modèles de Langage Multimodaux de Grande Taille par Extraction de Réponses

Informations Fondamentales

  • ID de l'article: 2510.14885
  • Titre: You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
  • Auteurs: Logan Lawrence¹, Oindrila Saha¹, Megan Wei², Chen Sun², Subhransu Maji¹, Grant Van Horn¹
  • Institutions: ¹Université du Massachusetts, Amherst; ²Université Brown
  • Classification: cs.CV (Vision par Ordinateur), cs.CL (Calcul et Langage)
  • Date de Publication: 16 octobre 2025
  • Lien de l'article: https://arxiv.org/abs/2510.14885

Résumé

Bien que l'émergence des modèles de langage multimodaux de grande taille (MLLMs) ait ravivé l'intérêt pour la classification visuelle sans exemples, l'évaluation des réponses en forme libre des modèles autorégressifs reste un défi persistant. Les travaux existants se concentrent principalement sur les tâches purement linguistiques ou ne considèrent pas les questions à choix multiples dépassant cinq options, deux aspects qui sont des capacités clés pour résoudre les tâches de classification visuelle fine-grained (FGVC), où le nombre d'options atteint des centaines à des milliers et où les options sont hautement corrélées. De plus, dans ce contexte de questions à choix multiples hautement complexes, il n'est pas clair comment étendre l'extraction de choix LLM aux problèmes basés sur la récupération, car le calcul des probabilités sur l'ensemble des choix est coûteux en termes de calcul. Cet article étudie nlg2choice, une approche simple en deux étapes qui pose d'abord une question ouverte au MLLM avec des contraintes minimales, puis utilise le décodage contraint en texte pur pour prédire le choix le plus probable. Dans le cadre de la récupération, une méthode d'arrêt précoce est adoptée pour calculer la probabilité que la réponse contrainte sélectionne cette option, améliorant considérablement le débit.

Contexte de Recherche et Motivation

Problèmes Fondamentaux

  1. Défis de la Classification Visuelle Fine-Grained: Les méthodes traditionnelles de questions à choix multiples fonctionnent mal face à des centaines ou des milliers d'options hautement similaires, comme dans l'identification des espèces d'oiseaux où LLaVA-1.5 atteint une précision quasi parfaite sur la classification grossière (« oiseau » vs « non-oiseau »), mais seulement 1-2% de précision sur les étiquettes d'espèces fine-grained.
  2. Limitations des Méthodes d'Évaluation: Les méthodes existantes forcent soit un format de sortie contraint (ce qui peut entraver le raisonnement), soit permettent des interprétations en forme libre (mais difficiles à extraire), manquant de mécanismes efficaces d'extraction de réponses.
  3. Problèmes d'Efficacité Computationnelle: Dans les scénarios de récupération, le coût de calcul du calcul des probabilités pour des centaines à des milliers de choix est prohibitif.

Motivation de la Recherche

  • Les performances des MLLMs sur les tâches de reconnaissance visuelle fine-grained sont bien inférieures à celles sur les tâches grossières
  • Les méthodes existantes de décodage contraint et de prédiction du premier token échouent dans les paramètres fine-grained
  • Absence d'étude systématique de la robustesse aux variations de requêtes utilisateur

Contributions Fondamentales

  1. Proposition de la méthode nlg2choice: Une approche simple et efficace d'extraction de réponses en deux étapes qui améliore significativement les performances de classification et de récupération sur sept ensembles de données de classification visuelle fine-grained.
  2. Vérification de la Robustesse: Grâce à la génération de variantes de requêtes sémantiquement équivalentes, démonstration de la robustesse de la méthode aux variations d'entrée utilisateur, avec des améliorations de performance statistiquement significatives.
  3. Proposition d'Optimisation par Arrêt Précoce: Introduction d'une méthode d'arrêt précoce dans le cadre de la récupération, améliorant le débit de 15 fois (atteignant 1362% d'amélioration sur certains ensembles de données).
  4. Analyse Systématique: Démonstration que le décodage contraint est un extracteur de réponses fiable sans nécessiter d'entraînement supplémentaire, le goulot d'étranglement principal étant l'absence de contenu extractible dans les réponses en forme libre plutôt que les capacités d'extraction de réponses.

Détails de la Méthode

Définition de la Tâche

Étant donné une image et une tâche de classification visuelle fine-grained, l'objectif est d'identifier avec précision le contenu de l'image parmi un grand nombre de catégories hautement similaires (des centaines à des milliers), telles que les espèces d'oiseaux, les variétés de fleurs, les modèles de voitures, etc.

Architecture nlg2choice

Première Étape: Génération en Forme Libre

Requête d'entrée: "What is the species of bird in this image?"
Sortie du modèle: "This bird is an Ivory Gull."

Deuxième Étape: Extraction par Décodage Contraint

Requête: "What is the most likely species of bird indicated in this response?
Response: [nlg]
Answer from the following: [choice_list]"

Utilisation du décodage contraint pour assurer que la sortie provient d'une liste de catégories prédéfinie.

Simulation de Variations Utilisateur

Pour tester la robustesse, utilisation de o3-high pour générer 15 variantes de requêtes sémantiquement équivalentes:

  • Modèle de base: « What is the species of bird in this image? »
  • Modèle concis: « What is the species of bird in this image? Answer only with species name. »
  • Modèle contraint: « What is the species of bird in this image? Answer only from the following list... »

Optimisation de la Récupération: Méthode d'Arrêt Précoce

Dans les scénarios de récupération, amélioration de l'efficacité par troncature du calcul de probabilité:

Pour le nom de catégorie « Baltimore Oriole », décomposition en « B », « altimore », « Ori », « ole », lorsque « altimore » est unique parmi toutes les catégories, arrêt du calcul des probabilités de token ultérieures:

p_full("Baltimore Oriole") = p("B") × p("altimore"|"B") × p(" Ori"|"Baltimore") × p("ole"|"Baltimore Ori")
p_trunc("Baltimore Oriole") = p("B") × p("altimore"|"B")

Configuration Expérimentale

Ensembles de Données

Test sur sept ensembles de données de classification visuelle fine-grained:

  • CUB200: 200 espèces d'oiseaux
  • Flowers102: 102 espèces de fleurs
  • Stanford Cars: 196 modèles de voitures
  • FGVC Aircrafts: 100 variantes d'avions
  • Food101: 101 types d'aliments
  • NABirds: 555 espèces d'oiseaux
  • iNaturalist-Birds: 1486 espèces d'oiseaux

Métriques d'Évaluation

  • Tâche de Classification: Précision (moyenne sur 15 requêtes sémantiquement équivalentes)
  • Tâche de Récupération: Moyenne de la Précision Moyenne (mAP)
  • Robustesse: Tests de signification statistique

Méthodes de Comparaison

  • choice: Décodage contraint direct
  • nlg2choice: Approche en deux étapes (avec instructions contraintes)
  • nlg2choiceopen: Approche en deux étapes (requête ouverte)

Modèles Testés

  • Qwen-2.5VL-7B
  • Llama-3.2-Vision-11B
  • Intern3VL-8B

Résultats Expérimentaux

Résultats Principaux

Amélioration des Performances de Classification

Sur tous les modèles et ensembles de données, nlg2choice surpasse significativement le décodage contraint direct:

ModèleAmélioration de Précision Moyenne
Qwen-2.5VL+17.46%
Llama-3.2V+8.49%
Intern3VL+6.87%

Meilleure Performance: Qwen-2.5VL atteint une précision moyenne de 56.91% avec requête ouverte, dont 78.03% sur l'ensemble de données Flowers.

Performance de Récupération

Dans les tâches de récupération, nlg2choice affiche également d'excellentes performances:

  • Amélioration mAP moyenne de Qwen-2.5VL: +8.16
  • Amélioration sur tous les ensembles de données sauf Stanford Cars
  • Amélioration la plus significative sur l'ensemble de données Flowers (+25.23 mAP)

Efficacité Computationnelle

La méthode d'arrêt précoce améliore significativement le débit:

  • CUB200: +1362%
  • Flowers: +2042%
  • Amélioration moyenne d'environ 10 fois ou plus

Expériences d'Ablation

Impact de la Contrainte de Requête

Les expériences révèlent que les instructions contraintes réduisent les performances:

  • Requête ouverte > Instructions concises > Énumération explicite de choix
  • Qwen-2.5VL avec requête ouverte surpasse les requêtes contraintes de +62.44% (CUB200)

Effet de la Chaîne de Pensée (CoT)

Forcer le raisonnement CoT n'améliore pas continuellement les performances:

  • « Let's think step by step »: Baisse moyenne de -9.75%
  • « First, »: Baisse moyenne de -9.48%
  • Légère amélioration uniquement sur CUB200 d'Intern3VL (+1.01%)

Analyse de la Qualité des Erreurs de Classification

nlg2choice produit des erreurs plus raisonnables:

  • Amélioration de la précision au niveau du genre: Qwen-2.5VL +16.75%, Llama-3.2V +23.85%
  • Les erreurs surviennent davantage entre espèces du même genre plutôt qu'entre catégories complètement non liées

Vérification de la Capacité d'Extraction de Réponses

Vérification par annotation manuelle:

  • 34.64% des réponses libres contiennent des réponses hors modèle
  • 70.75% des cas d'échec contiennent le vrai nom d'espèce
  • Décodage contraint hautement précis sur les échantillons extractibles: Qwen-2.5VL 97.93%, Intern3VL 93.26%

Travaux Connexes

Forcer les MLLMs à Générer des Choix Valides

  • Méthodes précoces: Analyse par expressions régulières, mais performances faibles sur les tâches fine-grained
  • Classement probabiliste: Basé sur la probabilité du premier token des ID d'options (A/B/C/D), largement adopté mais coûteux en calcul
  • Décodage contraint: Garantit que la sortie se trouve dans l'ensemble de choix, mais les évaluations récentes montrent une baisse de performance

MLLMs comme Extracteurs de Réponses

  • Problème de non-correspondance entre la sortie textuelle et les métriques de probabilité de token
  • Utilisation de modèles plus grands comme GPT-4 pour l'extraction de réponses
  • Méthodes d'extraction spécialisées comme xFinder, SLOT, xVerify nécessitant un entraînement supplémentaire

Conclusion et Discussion

Conclusions Principales

  1. L'extraction de réponses améliore significativement les capacités de reconnaissance visuelle: Amélioration observée sur toutes les architectures et ensembles de données testés
  2. La méthode est robuste aux variations utilisateur: Les améliorations de performance sont statistiquement significatives et ne dépendent pas d'un format de requête spécifique
  3. Le décodage contraint est un extracteur fiable: Fonctionne efficacement sans nécessiter d'entraînement supplémentaire

Limitations

  1. Limitation de la Taille des Modèles: Tests principaux sur des modèles de taille moyenne (8B-11B), utilisant uniquement des modèles open-source
  2. Exigences de Ressources Computationnelles: Bien que l'entraînement spécialisé soit évité, des ressources computationnelles considérables sont toujours nécessaires pour traiter les descriptions textuelles
  3. Extensibilité Multi-Étiquette: L'applicabilité aux problèmes multi-étiquettes reste à vérifier

Directions Futures

  • Extension aux modèles propriétaires de plus grande taille
  • Exploration de la classification visuelle fine-grained multi-étiquette
  • Optimisation supplémentaire de l'efficacité computationnelle

Évaluation Approfondie

Points Forts

  1. Méthode Simple et Efficace: La conception en deux étapes est intuitive, ne nécessitant pas de données d'entraînement supplémentaires ni de modifications architecturales
  2. Expériences Complètes: Tests sur plusieurs modèles, ensembles de données et dimensions d'évaluation, incluant la vérification de robustesse
  3. Valeur Pratique Élevée: L'optimisation par arrêt précoce résout les problèmes d'efficacité computationnelle dans le déploiement réel
  4. Analyse Approfondie: Vérification par annotation manuelle de l'efficacité de l'extraction de réponses, identification des vrais goulots d'étranglement

Insuffisances

  1. Analyse Théorique Insuffisante: Manque d'explication théorique sur les raisons pour lesquelles l'approche en deux étapes est plus efficace
  2. Couverture de Modèles Limitée: Pas de test sur les modèles propriétaires de premier plan comme GPT-4V
  3. Portée des Tâches: Concentration principale sur la classification mono-étiquette, couverture insuffisante des tâches multi-étiquettes et autres tâches visuelles

Impact

Ce travail fournit une solution pratique pour la classification visuelle fine-grained, particulièrement précieuse dans les applications réelles nécessitant de traiter un grand nombre de catégories similaires. La simplicité de la méthode et l'absence d'entraînement supplémentaire la rendent facile à adopter et déployer.

Scénarios d'Application

  • Systèmes d'identification d'espèces biologiques
  • Plateformes de classification fine de produits
  • Diagnostic fine-grained en imagerie médicale
  • Toute tâche visuelle nécessitant une classification précise parmi un grand nombre d'options similaires

Références

L'article cite 47 références connexes, couvrant les travaux importants dans les domaines clés des modèles de langage multimodaux de grande taille, du décodage contraint, de l'extraction de réponses, etc., fournissant une base théorique solide pour la recherche.