2025-11-17T09:37:14.027661

You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction

Lawrence, Saha, Wei et al.

Despite the renewed interest in zero-shot visual classification due to the rise of Multimodal Large Language Models (MLLMs), the problem of evaluating free-form responses of auto-regressive models remains a persistent challenge. Most existing works focus on language-only tasks or don't consider Multiple Choice Questions (MCQs) beyond 5-way options, both of which are critical capabilities to solve tasks in Fine-Grained Visual Classification (FGVC) where choice counts are in the hundreds to thousands and the choices are highly related. Furthermore, in this highly multi-way MCQ setting it is not clear how to extend LLM choice extraction to retrieval-based problems, where computing probabilities over the choice set is computationally costly. In this work we investigate nlg2choice, a simple two-stage method which first asks the MLLM an open-ended question for the task with minimal constraints, then uses text-only constrained decoding to predict the most likely choice. In retrieval settings, we compute the probability of the constrained response taking that choice with an early stopping method to significantly improve throughput. Our results show improvement over a suite of seven fine-grained visual datasets when evaluating in terms of classification and retrieval, and show that this performance holds over the various ways that users of LLMs can implement tasks in natural language.

academic

당신은 자유롭게 말할 수 있습니다: 답변 추출을 통한 멀티모달 대규모 언어 모델의 세밀한 시각 인식 능력 개선

기본 정보

논문 ID: 2510.14885
제목: You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
저자: Logan Lawrence¹, Oindrila Saha¹, Megan Wei², Chen Sun², Subhransu Maji¹, Grant Van Horn¹
소속: ¹매사추세츠 대학교 애머스트 캠퍼스; ²브라운 대학교
분류: cs.CV (컴퓨터 비전), cs.CL (계산 언어학)
발표 시간: 2025년 10월 16일
논문 링크: https://arxiv.org/abs/2510.14885

초록

멀티모달 대규모 언어 모델(MLLM)의 부상에도 불구하고, 자회귀 모델의 자유 형식 답변을 평가하는 문제는 지속적인 과제로 남아있습니다. 기존 연구는 대부분 순수 언어 작업이나 5개 이상의 선택지를 고려하지 않는 객관식 문제에 초점을 맞추고 있으나, 이 두 가지 모두 세밀한 시각 분류(FGVC) 작업을 해결하는 데 핵심적인 능력입니다. FGVC에서는 선택지 수가 수백 개에서 수천 개에 달하며 선택지들이 매우 유사합니다. 또한 이러한 고도로 다중선택인 객관식 설정에서 검색 기반 문제에 LLM 선택 추출을 확장하는 방법이 명확하지 않습니다. 선택지 집합에 대한 확률 계산이 계산상 비용이 많이 들기 때문입니다. 본 논문은 nlg2choice를 연구합니다. 이는 먼저 최소한의 제약으로 MLLM에 개방형 질문을 제시한 후, 순수 텍스트 제약 디코딩을 사용하여 가장 가능성 높은 선택지를 예측하는 간단한 2단계 방법입니다. 검색 설정에서는 조기 중단 방법을 채택하여 제약 응답이 해당 선택지를 선택할 확률을 계산하여 처리량을 크게 향상시킵니다.

연구 배경 및 동기

핵심 문제

세밀한 시각 분류의 도전: 기존의 객관식 방법은 새 종 식별과 같이 수백 개에서 수천 개의 매우 유사한 선택지에 직면할 때 성능이 저하됩니다. 예를 들어 LLaVA-1.5는 조잡한 분류("새" vs "새가 아님")에서 거의 완벽한 성능을 보이지만, 세밀한 종 레이블에서는 1-2%의 정확도만 달성합니다.
평가 방법의 한계: 기존 방법은 출력 형식을 강제로 제약하거나(추론을 방해할 수 있음) 자유 형식 해석을 허용하거나(추출이 어려움) 효과적인 답변 추출 메커니즘이 부족합니다.
계산 효율 문제: 검색 시나리오에서 수백 개에서 수천 개의 선택지에 대한 확률 계산의 계산 비용이 과도합니다.

연구 동기

MLLM이 세밀한 시각 인식 작업에서 조잡한 작업보다 훨씬 낮은 성능을 보임
기존의 제약 디코딩 방법과 첫 번째 토큰 예측 방법이 세밀한 설정에서 실패
사용자 프롬프트 변화에 대한 견고성에 대한 체계적 연구 부족

핵심 기여

nlg2choice 방법 제안: 7개의 세밀한 시각 데이터셋에서 분류 및 검색 성능을 크게 향상시키는 간단하고 효과적인 2단계 답변 추출 방법입니다.
견고성 검증: 의미론적으로 동등한 프롬프트 변형을 생성하여 사용자 입력 변화에 대한 방법의 견고성을 증명하며, 성능 향상은 통계적으로 유의미합니다.
조기 중단 최적화 제안: 검색 설정에서 조기 중단 방법을 도입하여 처리량을 15배 향상시킵니다(일부 데이터셋에서는 1362% 향상).
체계적 분석: 제약 디코딩이 추가 훈련 없이 신뢰할 수 있는 답변 추출기임을 증명하며, 주요 병목은 자유 형식 응답 자체에 추출 가능한 내용이 부족한 것이지 답변 추출 능력이 아님을 보여줍니다.

방법론 상세 설명

작업 정의

이미지와 세밀한 시각 분류 작업이 주어졌을 때, 목표는 새 종, 꽃 품종, 자동차 모델 등 많은 수의 매우 유사한 범주(수백 개에서 수천 개)에서 이미지 내용을 정확하게 식별하는 것입니다.

nlg2choice 아키텍처

1단계: 자유 형식 생성

입력 프롬프트: "이 이미지의 새의 종은 무엇입니까?"
모델 출력: "이 새는 상아 갈매기입니다."

2단계: 제약 디코딩 추출

프롬프트: "이 응답에서 표시된 가장 가능성 높은 새의 종은 무엇입니까?
응답: [nlg]
다음 중에서 답변하십시오: [choice_list]"

제약 디코딩을 사용하여 출력이 사전 정의된 범주 목록에서 나와야 함을 보장합니다.

사용자 변화 시뮬레이션

견고성을 테스트하기 위해 o3-high를 사용하여 15개의 의미론적으로 동등한 프롬프트 변형을 생성합니다:

기본 템플릿: "이 이미지의 새의 종은 무엇입니까?"
간결한 템플릿: "이 이미지의 새의 종은 무엇입니까? 종 이름만으로 답변하십시오."
제약 템플릿: "이 이미지의 새의 종은 무엇입니까? 다음 목록에서만 답변하십시오..."

검색 최적화: 조기 중단 방법

검색 시나리오에서 확률 계산을 절단하여 효율성을 향상시킵니다:

범주명 "Baltimore Oriole"의 경우, "B", "altimore", " Ori", "ole"로 분해하고, "altimore"가 모든 범주에서 고유할 때 후속 토큰 확률 계산을 중단합니다:

p_full("Baltimore Oriole") = p("B") × p("altimore"|"B") × p(" Ori"|"Baltimore") × p("ole"|"Baltimore Ori")
p_trunc("Baltimore Oriole") = p("B") × p("altimore"|"B")