2025-11-17T09:37:14.027661

You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction

Lawrence, Saha, Wei et al.
Despite the renewed interest in zero-shot visual classification due to the rise of Multimodal Large Language Models (MLLMs), the problem of evaluating free-form responses of auto-regressive models remains a persistent challenge. Most existing works focus on language-only tasks or don't consider Multiple Choice Questions (MCQs) beyond 5-way options, both of which are critical capabilities to solve tasks in Fine-Grained Visual Classification (FGVC) where choice counts are in the hundreds to thousands and the choices are highly related. Furthermore, in this highly multi-way MCQ setting it is not clear how to extend LLM choice extraction to retrieval-based problems, where computing probabilities over the choice set is computationally costly. In this work we investigate nlg2choice, a simple two-stage method which first asks the MLLM an open-ended question for the task with minimal constraints, then uses text-only constrained decoding to predict the most likely choice. In retrieval settings, we compute the probability of the constrained response taking that choice with an early stopping method to significantly improve throughput. Our results show improvement over a suite of seven fine-grained visual datasets when evaluating in terms of classification and retrieval, and show that this performance holds over the various ways that users of LLMs can implement tasks in natural language.
academic

You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction

基本信息

  • 论文ID: 2510.14885
  • 标题: You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
  • 作者: Logan Lawrence¹, Oindrila Saha¹, Megan Wei², Chen Sun², Subhransu Maji¹, Grant Van Horn¹
  • 机构: ¹University of Massachusetts, Amherst; ²Brown University
  • 分类: cs.CV (Computer Vision), cs.CL (Computation and Language)
  • 发表时间: 2025年10月16日
  • 论文链接: https://arxiv.org/abs/2510.14885

摘要

尽管多模态大语言模型(MLLMs)的兴起重新激发了对零样本视觉分类的兴趣,但评估自回归模型自由形式回答的问题仍然是一个持续的挑战。现有工作大多关注纯语言任务或不考虑超过5选项的多选题,而这两者都是解决细粒度视觉分类(FGVC)任务的关键能力,在FGVC中选项数量达到数百到数千个且选项高度相关。此外,在这种高度多选的MCQ设置中,尚不清楚如何将LLM选择提取扩展到基于检索的问题,因为计算选择集上的概率在计算上成本高昂。本文研究了nlg2choice,这是一种简单的两阶段方法,首先以最小约束向MLLM提出开放式问题,然后使用纯文本约束解码来预测最可能的选择。在检索设置中,采用早停方法计算约束响应选择该选项的概率,显著提高吞吐量。

研究背景与动机

核心问题

  1. 细粒度视觉分类的挑战: 传统的多选题方法在面对数百到数千个高度相似的选项时表现不佳,如鸟类物种识别中LLaVA-1.5在粗粒度分类(如"鸟"vs"非鸟")上接近完美,但在细粒度物种标签上仅有1-2%的准确率。
  2. 评估方法的局限性: 现有方法要么强制约束输出格式(可能阻碍推理),要么允许自由形式解释(但提取困难),缺乏有效的答案提取机制。
  3. 计算效率问题: 在检索场景中,对数百到数千个选择计算概率的计算成本过高。

研究动机

  • MLLMs在细粒度视觉识别任务上的性能远低于其在粗粒度任务上的表现
  • 现有的约束解码方法和第一令牌预测方法在细粒度设置中失效
  • 缺乏对用户提示变化鲁棒性的系统性研究

核心贡献

  1. 提出nlg2choice方法: 一种简单有效的两阶段答案提取方法,在7个细粒度视觉数据集上显著提升分类和检索性能。
  2. 验证鲁棒性: 通过生成语义等价的提示变体,证明方法对用户输入变化的鲁棒性,性能提升具有统计显著性。
  3. 提出早停优化: 在检索设置中引入早停方法,将吞吐量提升15倍(某些数据集上达到1362%的提升)。
  4. 系统性分析: 证明约束解码是可靠的答案提取器,无需额外训练,主要瓶颈在于自由形式响应本身缺乏可提取内容而非答案提取能力。

方法详解

任务定义

给定图像和细粒度视觉分类任务,目标是从大量高度相似的类别中(数百到数千个)准确识别图像内容,如鸟类物种、花卉品种、汽车型号等。

nlg2choice架构

第一阶段:自由形式生成

输入提示: "What is the species of bird in this image?"
模型输出: "This bird is an Ivory Gull."

第二阶段:约束解码提取

提示: "What is the most likely species of bird indicated in this response?
Response: [nlg]
Answer from the following: [choice_list]"

使用约束解码确保输出必须来自预定义的类别列表。

用户变化模拟

为测试鲁棒性,使用o3-high生成15个语义等价的提示变体:

  • 基础模板:"What is the species of bird in this image?"
  • 简洁模板:"What is the species of bird in this image? Answer only with species name."
  • 约束模板:"What is the species of bird in this image? Answer only from the following list..."

检索优化:早停方法

在检索场景中,通过截断概率计算提升效率:

对于类别名"Baltimore Oriole",分解为"B", "altimore", " Ori", "ole",当"altimore"在所有类别中唯一时,停止计算后续token概率:

p_full("Baltimore Oriole") = p("B") × p("altimore"|"B") × p(" Ori"|"Baltimore") × p("ole"|"Baltimore Ori")
p_trunc("Baltimore Oriole") = p("B") × p("altimore"|"B")

实验设置

数据集

测试7个细粒度视觉分类数据集:

  • CUB200: 200个鸟类物种
  • Flowers102: 102个花卉物种
  • Stanford Cars: 196个汽车型号
  • FGVC Aircrafts: 100个飞机变体
  • Food101: 101种食物
  • NABirds: 555个鸟类物种
  • iNaturalist-Birds: 1486个鸟类物种

评价指标

  • 分类任务: 准确率(跨15个语义等价提示的平均值)
  • 检索任务: 平均精度均值(mAP)
  • 鲁棒性: 统计显著性测试

对比方法

  • choice: 直接约束解码
  • nlg2choice: 两阶段方法(带约束指令)
  • nlg2choiceopen: 两阶段方法(开放式提示)

测试模型

  • Qwen-2.5VL-7B
  • Llama-3.2-Vision-11B
  • Intern3VL-8B

实验结果

主要结果

分类性能提升

在所有模型和数据集上,nlg2choice均显著优于直接约束解码:

模型平均准确率提升
Qwen-2.5VL+17.46%
Llama-3.2V+8.49%
Intern3VL+6.87%

最佳表现: Qwen-2.5VL在开放式提示下平均准确率达56.91%,其中Flowers数据集达78.03%。

检索性能

在检索任务中,nlg2choice同样表现优异:

  • Qwen-2.5VL平均mAP提升+8.16
  • 除Stanford Cars外,所有数据集均有改善
  • Flowers数据集提升最显著(+25.23 mAP)

计算效率

早停方法显著提升吞吐量:

  • CUB200: +1362%
  • Flowers: +2042%
  • 平均提升约10倍以上

消融实验

提示约束性影响

实验发现约束性指令降低性能:

  • 开放式提示 > 简洁指令 > 显式选择列举
  • Qwen-2.5VL在开放式提示下比约束提示高+62.44%(CUB200)

思维链(CoT)效果

强制CoT推理并未持续改善性能:

  • "Let's think step by step": 平均下降-9.75%
  • "First,": 平均下降-9.48%
  • 仅在Intern3VL的CUB200上略有提升(+1.01%)

误分类质量分析

nlg2choice产生更合理的错误:

  • 属级匹配准确率提升:Qwen-2.5VL +16.75%,Llama-3.2V +23.85%
  • 错误更多出现在同属物种间,而非完全不相关的类别

答案提取能力验证

通过人工标注验证:

  • 34.64%的自由回答包含模式外答案
  • 70.75%的失败案例包含真实物种名称
  • 约束解码在可提取样本上准确率高:Qwen-2.5VL 97.93%,Intern3VL 93.26%

相关工作

强制MLLMs生成有效选择

  • 早期方法:正则表达式解析,但在细粒度任务上表现不佳
  • 概率排序:基于选项ID(A/B/C/D)的首token概率,广泛采用但计算昂贵
  • 约束解码:保证输出在选择集内,但最近评估显示性能下降

MLLMs作为答案提取器

  • 文本输出与token概率指标不匹配的问题
  • GPT-4等大型模型用于答案提取
  • xFinder、SLOT、xVerify等专门的提取方法需要额外训练

结论与讨论

主要结论

  1. 答案提取显著改善视觉识别能力: 在所有测试的架构和数据集上均有提升
  2. 方法对用户变化鲁棒: 性能改善在统计上显著,不依赖特定提示格式
  3. 约束解码是可靠的提取器: 无需额外训练即可有效工作

局限性

  1. 模型规模限制: 主要测试中等规模模型(8B-11B),仅使用开源模型
  2. 计算资源需求: 尽管避免了专门训练,但仍需大量计算资源处理文本描述
  3. 多标签扩展性: 在多标签问题上的适用性有待验证

未来方向

  • 扩展到更大规模的专有模型
  • 探索多标签细粒度分类
  • 进一步优化计算效率

深度评价

优点

  1. 方法简洁有效: 两阶段设计直观,无需额外训练数据或架构修改
  2. 实验全面: 测试多个模型、数据集和评价维度,包括鲁棒性验证
  3. 实用价值高: 早停优化解决了实际部署中的计算效率问题
  4. 分析深入: 通过人工标注验证了答案提取的有效性,识别了真正的瓶颈

不足

  1. 理论分析不足: 缺乏对为什么两阶段方法更有效的理论解释
  2. 模型覆盖有限: 未测试GPT-4V等顶级专有模型
  3. 任务范围: 主要关注单标签分类,多标签和其他视觉任务覆盖不足

影响力

该工作为细粒度视觉分类提供了实用的解决方案,特别是在需要处理大量相似类别的实际应用中具有重要价值。方法的简洁性和无需额外训练的特点使其易于采用和部署。

适用场景

  • 生物物种识别系统
  • 商品细分类平台
  • 医学影像细粒度诊断
  • 任何需要从大量相似选项中进行精确分类的视觉任务

参考文献

论文引用了47篇相关文献,涵盖多模态大语言模型、约束解码、答案提取等关键领域的重要工作,为研究提供了坚实的理论基础。