2025-11-17T09:37:14.027661

You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction

Lawrence, Saha, Wei et al.

Despite the renewed interest in zero-shot visual classification due to the rise of Multimodal Large Language Models (MLLMs), the problem of evaluating free-form responses of auto-regressive models remains a persistent challenge. Most existing works focus on language-only tasks or don't consider Multiple Choice Questions (MCQs) beyond 5-way options, both of which are critical capabilities to solve tasks in Fine-Grained Visual Classification (FGVC) where choice counts are in the hundreds to thousands and the choices are highly related. Furthermore, in this highly multi-way MCQ setting it is not clear how to extend LLM choice extraction to retrieval-based problems, where computing probabilities over the choice set is computationally costly. In this work we investigate nlg2choice, a simple two-stage method which first asks the MLLM an open-ended question for the task with minimal constraints, then uses text-only constrained decoding to predict the most likely choice. In retrieval settings, we compute the probability of the constrained response taking that choice with an early stopping method to significantly improve throughput. Our results show improvement over a suite of seven fine-grained visual datasets when evaluating in terms of classification and retrieval, and show that this performance holds over the various ways that users of LLMs can implement tasks in natural language.

academic

Usted Puede Hablar Libremente: Mejora de las Capacidades de Reconocimiento Visual Fino de Modelos de Lenguaje Grandes Multimodales con Extracción de Respuestas

Información Básica

ID del Artículo: 2510.14885
Título: You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
Autores: Logan Lawrence¹, Oindrila Saha¹, Megan Wei², Chen Sun², Subhransu Maji¹, Grant Van Horn¹
Instituciones: ¹Universidad de Massachusetts, Amherst; ²Universidad de Brown
Clasificación: cs.CV (Visión por Computadora), cs.CL (Computación y Lenguaje)
Fecha de Publicación: 16 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.14885

Resumen

A pesar del auge de los modelos de lenguaje grandes multimodales (MLLMs), la evaluación de respuestas de forma libre de modelos autorregresivos sigue siendo un desafío continuo. La mayoría de los trabajos existentes se centran en tareas puramente lingüísticas o no consideran preguntas de opción múltiple con más de 5 opciones, ambas siendo capacidades clave para resolver tareas de clasificación visual de grano fino (FGVC), donde el número de opciones alcanza cientos a miles y las opciones son altamente correlacionadas. Además, en esta configuración de MCQ altamente multiseleccionable, no está claro cómo extender la extracción de selección de LLM a problemas basados en recuperación, ya que calcular probabilidades sobre el conjunto de selecciones es computacionalmente costoso. Este artículo investiga nlg2choice, un enfoque simple de dos etapas que primero plantea una pregunta abierta al MLLM con restricciones mínimas, y luego utiliza decodificación restringida de texto puro para predecir la selección más probable. En la configuración de recuperación, se adopta un método de parada temprana para calcular la probabilidad de que la respuesta restringida seleccione esa opción, mejorando significativamente el rendimiento.

Antecedentes de Investigación y Motivación

Problemas Centrales

Desafíos de la Clasificación Visual de Grano Fino: Los métodos tradicionales de opción múltiple funcionan mal cuando se enfrentan a cientos o miles de opciones altamente similares, como en la identificación de especies de aves donde LLaVA-1.5 logra un desempeño casi perfecto en clasificación de grano grueso (como "ave" vs "no ave"), pero solo alcanza una precisión del 1-2% en etiquetas de especies de grano fino.
Limitaciones de los Métodos de Evaluación: Los métodos existentes o bien fuerzan un formato de salida restringido (que puede obstaculizar el razonamiento) o permiten interpretaciones de forma libre (pero difíciles de extraer), careciendo de mecanismos efectivos de extracción de respuestas.
Problemas de Eficiencia Computacional: En escenarios de recuperación, el costo computacional de calcular probabilidades para cientos o miles de selecciones es prohibitivo.

Motivación de la Investigación

El desempeño de los MLLMs en tareas de reconocimiento visual de grano fino es significativamente inferior al de tareas de grano grueso
Los métodos existentes de decodificación restringida y predicción del primer token fallan en configuraciones de grano fino
Falta de investigación sistemática sobre la robustez ante variaciones en las indicaciones del usuario

Contribuciones Principales

Propuesta del Método nlg2choice: Un método simple y efectivo de extracción de respuestas de dos etapas que mejora significativamente el desempeño de clasificación y recuperación en 7 conjuntos de datos de visión de grano fino.
Verificación de Robustez: Mediante la generación de variantes de indicaciones semánticamente equivalentes, se demuestra la robustez del método ante variaciones en la entrada del usuario, con mejoras estadísticamente significativas.
Optimización de Parada Temprana Propuesta: Se introduce un método de parada temprana en la configuración de recuperación, mejorando el rendimiento en 15 veces (alcanzando una mejora del 1362% en algunos conjuntos de datos).
Análisis Sistemático: Se demuestra que la decodificación restringida es un extractor de respuestas confiable sin necesidad de entrenamiento adicional, siendo el cuello de botella principal la falta de contenido extraíble en las respuestas de forma libre en sí mismas, no la capacidad de extracción de respuestas.

Explicación Detallada del Método

Definición de la Tarea

Dado una imagen y una tarea de clasificación visual de grano fino, el objetivo es identificar con precisión el contenido de la imagen de entre un gran número de categorías altamente similares (cientos a miles), como especies de aves, variedades de flores, modelos de automóviles, etc.

Arquitectura nlg2choice

Primera Etapa: Generación de Forma Libre

Indicación de entrada: "¿Cuál es la especie de ave en esta imagen?"
Salida del modelo: "Esta ave es una Gaviota de Marfil."

Segunda Etapa: Extracción mediante Decodificación Restringida

Indicación: "¿Cuál es la especie de ave más probable indicada en esta respuesta?
Respuesta: [nlg]
Respuesta de las siguientes opciones: [lista_de_opciones]"

Se utiliza decodificación restringida para garantizar que la salida provenga de una lista de categorías predefinida.

Simulación de Variaciones del Usuario

Para probar la robustez, se utilizó o3-high para generar 15 variantes de indicaciones semánticamente equivalentes:

Plantilla base: "¿Cuál es la especie de ave en esta imagen?"
Plantilla concisa: "¿Cuál es la especie de ave en esta imagen? Responda solo con el nombre de la especie."
Plantilla restringida: "¿Cuál es la especie de ave en esta imagen? Responda solo de la siguiente lista..."

Optimización de Recuperación: Método de Parada Temprana

En escenarios de recuperación, se mejora la eficiencia mediante el truncamiento del cálculo de probabilidades:

Para el nombre de categoría "Baltimore Oriole", descompuesto en "B", "altimore", " Ori", "ole", cuando "altimore" es único entre todas las categorías, se detiene el cálculo de probabilidades de tokens posteriores:

p_completo("Baltimore Oriole") = p("B") × p("altimore"|"B") × p(" Ori"|"Baltimore") × p("ole"|"Baltimore Ori")
p_truncado("Baltimore Oriole") = p("B") × p("altimore"|"B")

Configuración Experimental

Conjuntos de Datos

Se prueban 7 conjuntos de datos de clasificación visual de grano fino:

CUB200: 200 especies de aves
Flowers102: 102 especies de flores
Stanford Cars: 196 modelos de automóviles
FGVC Aircrafts: 100 variantes de aviones
Food101: 101 tipos de alimentos
NABirds: 555 especies de aves
iNaturalist-Birds: 1486 especies de aves

Métricas de Evaluación

Tarea de Clasificación: Precisión (promediada entre 15 indicaciones semánticamente equivalentes)
Tarea de Recuperación: Media de Precisión Promedio (mAP)
Robustez: Pruebas de significancia estadística

Métodos de Comparación

choice: Decodificación restringida directa
nlg2choice: Método de dos etapas (con instrucciones restringidas)
nlg2choiceopen: Método de dos etapas (con indicaciones abiertas)

Modelos Probados

Qwen-2.5VL-7B
Llama-3.2-Vision-11B
Intern3VL-8B

Resultados Experimentales

Resultados Principales

Mejora del Desempeño de Clasificación

En todos los modelos y conjuntos de datos, nlg2choice supera significativamente la decodificación restringida directa:

Modelo	Mejora de Precisión Promedio
Qwen-2.5VL	+17.46%
Llama-3.2V	+8.49%
Intern3VL	+6.87%

Mejor Desempeño: Qwen-2.5VL alcanza una precisión promedio del 56.91% con indicaciones abiertas, siendo el conjunto de datos Flowers el que alcanza el 78.03%.

Desempeño de Recuperación

En tareas de recuperación, nlg2choice también muestra un desempeño excepcional:

Mejora de mAP promedio de Qwen-2.5VL: +8.16
Mejora en todos los conjuntos de datos excepto Stanford Cars
Mejora más significativa en el conjunto de datos Flowers (+25.23 mAP)

Eficiencia Computacional

El método de parada temprana mejora significativamente el rendimiento:

CUB200: +1362%
Flowers: +2042%
Mejora promedio de aproximadamente 10 veces o más

Experimentos de Ablación

Impacto de la Restricción de Indicaciones

Los experimentos revelan que las instrucciones restrictivas reducen el desempeño:

Indicaciones abiertas > Instrucciones concisas > Enumeración explícita de opciones
Qwen-2.5VL con indicaciones abiertas supera las indicaciones restringidas en +62.44% (CUB200)

Efecto de la Cadena de Pensamiento (CoT)

Forzar el razonamiento CoT no mejora consistentemente el desempeño:

"Pensemos paso a paso": Disminución promedio de -9.75%
"Primero,": Disminución promedio de -9.48%
Solo mejora ligera en CUB200 de Intern3VL (+1.01%)

Análisis de Calidad de Clasificaciones Erróneas

nlg2choice produce errores más razonables:

Mejora de precisión de coincidencia a nivel de género: Qwen-2.5VL +16.75%, Llama-3.2V +23.85%
Los errores ocurren más frecuentemente entre especies del mismo género, en lugar de categorías completamente no relacionadas

Verificación de Capacidad de Extracción de Respuestas

Mediante anotación manual:

El 34.64% de las respuestas libres contienen respuestas fuera del patrón
El 70.75% de los casos de fallo contienen nombres de especies reales
La decodificación restringida tiene alta precisión en muestras extraíbles: Qwen-2.5VL 97.93%, Intern3VL 93.26%

Trabajo Relacionado

Forzar a MLLMs a Generar Selecciones Válidas

Métodos tempranos: Análisis de expresiones regulares, pero con bajo desempeño en tareas de grano fino
Ordenamiento de probabilidades: Basado en probabilidades del primer token de ID de opción (A/B/C/D), ampliamente adoptado pero computacionalmente costoso
Decodificación restringida: Garantiza que la salida esté dentro del conjunto de selecciones, pero evaluaciones recientes muestran disminución de desempeño

MLLMs como Extractores de Respuestas

Problema de desajuste entre salida de texto e indicadores de probabilidad de token
Uso de modelos grandes como GPT-4 para extracción de respuestas
Métodos especializados como xFinder, SLOT, xVerify que requieren entrenamiento adicional

Conclusiones y Discusión

Conclusiones Principales

La Extracción de Respuestas Mejora Significativamente las Capacidades de Reconocimiento Visual: Mejora en todas las arquitecturas y conjuntos de datos probados
El Método es Robusto ante Variaciones del Usuario: Las mejoras de desempeño son estadísticamente significativas e independientes del formato de indicación específico
La Decodificación Restringida es un Extractor Confiable: Funciona efectivamente sin necesidad de entrenamiento adicional

Limitaciones

Limitaciones de Escala de Modelo: Principalmente se prueban modelos de tamaño medio (8B-11B), utilizando solo modelos de código abierto
Requisitos de Recursos Computacionales: Aunque se evita el entrenamiento especializado, aún requiere recursos computacionales significativos para procesar descripciones de texto
Escalabilidad Multietiqueta: La aplicabilidad en problemas multietiqueta requiere verificación adicional

Direcciones Futuras

Extensión a modelos propietarios de mayor escala
Exploración de clasificación visual de grano fino multietiqueta
Optimización adicional de eficiencia computacional

Evaluación Profunda

Fortalezas

Método Simple y Efectivo: El diseño de dos etapas es intuitivo, sin requerir datos de entrenamiento adicionales o modificaciones de arquitectura
Experimentación Integral: Pruebas en múltiples modelos, conjuntos de datos y dimensiones de evaluación, incluyendo verificación de robustez
Alto Valor Práctico: La optimización de parada temprana resuelve problemas de eficiencia computacional en despliegue real
Análisis Profundo: Mediante anotación manual se verifica la efectividad de la extracción de respuestas, identificando los verdaderos cuellos de botella

Deficiencias

Análisis Teórico Insuficiente: Falta de explicación teórica sobre por qué el método de dos etapas es más efectivo
Cobertura de Modelos Limitada: No se prueban modelos propietarios de primer nivel como GPT-4V
Alcance de Tareas: Se enfoca principalmente en clasificación de etiqueta única, con cobertura insuficiente de tareas multietiqueta y otras tareas visuales

Impacto

Este trabajo proporciona una solución práctica para clasificación visual de grano fino, siendo particularmente valioso en aplicaciones reales que requieren clasificación precisa entre un gran número de categorías similares. La simplicidad del método y la característica de no requerir entrenamiento adicional lo hacen fácil de adoptar e implementar.

Escenarios de Aplicación

Sistemas de identificación de especies biológicas
Plataformas de clasificación fina de productos
Diagnóstico de grano fino en imágenes médicas
Cualquier tarea visual que requiera clasificación precisa entre un gran número de opciones similares

Referencias

El artículo cita 47 referencias relacionadas, abarcando trabajos importantes en campos clave como modelos de lenguaje grandes multimodales, decodificación restringida y extracción de respuestas, proporcionando una base teórica sólida para la investigación.