You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
Lawrence, Saha, Wei et al.
Despite the renewed interest in zero-shot visual classification due to the rise of Multimodal Large Language Models (MLLMs), the problem of evaluating free-form responses of auto-regressive models remains a persistent challenge. Most existing works focus on language-only tasks or don't consider Multiple Choice Questions (MCQs) beyond 5-way options, both of which are critical capabilities to solve tasks in Fine-Grained Visual Classification (FGVC) where choice counts are in the hundreds to thousands and the choices are highly related. Furthermore, in this highly multi-way MCQ setting it is not clear how to extend LLM choice extraction to retrieval-based problems, where computing probabilities over the choice set is computationally costly. In this work we investigate nlg2choice, a simple two-stage method which first asks the MLLM an open-ended question for the task with minimal constraints, then uses text-only constrained decoding to predict the most likely choice. In retrieval settings, we compute the probability of the constrained response taking that choice with an early stopping method to significantly improve throughput. Our results show improvement over a suite of seven fine-grained visual datasets when evaluating in terms of classification and retrieval, and show that this performance holds over the various ways that users of LLMs can implement tasks in natural language.
academic
Vous Pouvez Parler Librement : Amélioration des Capacités de Reconnaissance Visuelle Fine-Grained des Modèles de Langage Multimodaux de Grande Taille par Extraction de Réponses
Bien que l'émergence des modèles de langage multimodaux de grande taille (MLLMs) ait ravivé l'intérêt pour la classification visuelle sans exemples, l'évaluation des réponses en forme libre des modèles autorégressifs reste un défi persistant. Les travaux existants se concentrent principalement sur les tâches purement linguistiques ou ne considèrent pas les questions à choix multiples dépassant cinq options, deux aspects qui sont des capacités clés pour résoudre les tâches de classification visuelle fine-grained (FGVC), où le nombre d'options atteint des centaines à des milliers et où les options sont hautement corrélées. De plus, dans ce contexte de questions à choix multiples hautement complexes, il n'est pas clair comment étendre l'extraction de choix LLM aux problèmes basés sur la récupération, car le calcul des probabilités sur l'ensemble des choix est coûteux en termes de calcul. Cet article étudie nlg2choice, une approche simple en deux étapes qui pose d'abord une question ouverte au MLLM avec des contraintes minimales, puis utilise le décodage contraint en texte pur pour prédire le choix le plus probable. Dans le cadre de la récupération, une méthode d'arrêt précoce est adoptée pour calculer la probabilité que la réponse contrainte sélectionne cette option, améliorant considérablement le débit.
Défis de la Classification Visuelle Fine-Grained: Les méthodes traditionnelles de questions à choix multiples fonctionnent mal face à des centaines ou des milliers d'options hautement similaires, comme dans l'identification des espèces d'oiseaux où LLaVA-1.5 atteint une précision quasi parfaite sur la classification grossière (« oiseau » vs « non-oiseau »), mais seulement 1-2% de précision sur les étiquettes d'espèces fine-grained.
Limitations des Méthodes d'Évaluation: Les méthodes existantes forcent soit un format de sortie contraint (ce qui peut entraver le raisonnement), soit permettent des interprétations en forme libre (mais difficiles à extraire), manquant de mécanismes efficaces d'extraction de réponses.
Problèmes d'Efficacité Computationnelle: Dans les scénarios de récupération, le coût de calcul du calcul des probabilités pour des centaines à des milliers de choix est prohibitif.
Proposition de la méthode nlg2choice: Une approche simple et efficace d'extraction de réponses en deux étapes qui améliore significativement les performances de classification et de récupération sur sept ensembles de données de classification visuelle fine-grained.
Vérification de la Robustesse: Grâce à la génération de variantes de requêtes sémantiquement équivalentes, démonstration de la robustesse de la méthode aux variations d'entrée utilisateur, avec des améliorations de performance statistiquement significatives.
Proposition d'Optimisation par Arrêt Précoce: Introduction d'une méthode d'arrêt précoce dans le cadre de la récupération, améliorant le débit de 15 fois (atteignant 1362% d'amélioration sur certains ensembles de données).
Analyse Systématique: Démonstration que le décodage contraint est un extracteur de réponses fiable sans nécessiter d'entraînement supplémentaire, le goulot d'étranglement principal étant l'absence de contenu extractible dans les réponses en forme libre plutôt que les capacités d'extraction de réponses.
Étant donné une image et une tâche de classification visuelle fine-grained, l'objectif est d'identifier avec précision le contenu de l'image parmi un grand nombre de catégories hautement similaires (des centaines à des milliers), telles que les espèces d'oiseaux, les variétés de fleurs, les modèles de voitures, etc.
Dans les scénarios de récupération, amélioration de l'efficacité par troncature du calcul de probabilité:
Pour le nom de catégorie « Baltimore Oriole », décomposition en « B », « altimore », « Ori », « ole », lorsque « altimore » est unique parmi toutes les catégories, arrêt du calcul des probabilités de token ultérieures:
L'extraction de réponses améliore significativement les capacités de reconnaissance visuelle: Amélioration observée sur toutes les architectures et ensembles de données testés
La méthode est robuste aux variations utilisateur: Les améliorations de performance sont statistiquement significatives et ne dépendent pas d'un format de requête spécifique
Le décodage contraint est un extracteur fiable: Fonctionne efficacement sans nécessiter d'entraînement supplémentaire
Limitation de la Taille des Modèles: Tests principaux sur des modèles de taille moyenne (8B-11B), utilisant uniquement des modèles open-source
Exigences de Ressources Computationnelles: Bien que l'entraînement spécialisé soit évité, des ressources computationnelles considérables sont toujours nécessaires pour traiter les descriptions textuelles
Extensibilité Multi-Étiquette: L'applicabilité aux problèmes multi-étiquettes reste à vérifier
Méthode Simple et Efficace: La conception en deux étapes est intuitive, ne nécessitant pas de données d'entraînement supplémentaires ni de modifications architecturales
Expériences Complètes: Tests sur plusieurs modèles, ensembles de données et dimensions d'évaluation, incluant la vérification de robustesse
Valeur Pratique Élevée: L'optimisation par arrêt précoce résout les problèmes d'efficacité computationnelle dans le déploiement réel
Analyse Approfondie: Vérification par annotation manuelle de l'efficacité de l'extraction de réponses, identification des vrais goulots d'étranglement
Analyse Théorique Insuffisante: Manque d'explication théorique sur les raisons pour lesquelles l'approche en deux étapes est plus efficace
Couverture de Modèles Limitée: Pas de test sur les modèles propriétaires de premier plan comme GPT-4V
Portée des Tâches: Concentration principale sur la classification mono-étiquette, couverture insuffisante des tâches multi-étiquettes et autres tâches visuelles
Ce travail fournit une solution pratique pour la classification visuelle fine-grained, particulièrement précieuse dans les applications réelles nécessitant de traiter un grand nombre de catégories similaires. La simplicité de la méthode et l'absence d'entraînement supplémentaire la rendent facile à adopter et déployer.
L'article cite 47 références connexes, couvrant les travaux importants dans les domaines clés des modèles de langage multimodaux de grande taille, du décodage contraint, de l'extraction de réponses, etc., fournissant une base théorique solide pour la recherche.