You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
Lawrence, Saha, Wei et al.
Despite the renewed interest in zero-shot visual classification due to the rise of Multimodal Large Language Models (MLLMs), the problem of evaluating free-form responses of auto-regressive models remains a persistent challenge. Most existing works focus on language-only tasks or don't consider Multiple Choice Questions (MCQs) beyond 5-way options, both of which are critical capabilities to solve tasks in Fine-Grained Visual Classification (FGVC) where choice counts are in the hundreds to thousands and the choices are highly related. Furthermore, in this highly multi-way MCQ setting it is not clear how to extend LLM choice extraction to retrieval-based problems, where computing probabilities over the choice set is computationally costly. In this work we investigate nlg2choice, a simple two-stage method which first asks the MLLM an open-ended question for the task with minimal constraints, then uses text-only constrained decoding to predict the most likely choice. In retrieval settings, we compute the probability of the constrained response taking that choice with an early stopping method to significantly improve throughput. Our results show improvement over a suite of seven fine-grained visual datasets when evaluating in terms of classification and retrieval, and show that this performance holds over the various ways that users of LLMs can implement tasks in natural language.
academic
당신은 자유롭게 말할 수 있습니다: 답변 추출을 통한 멀티모달 대규모 언어 모델의 세밀한 시각 인식 능력 개선
멀티모달 대규모 언어 모델(MLLM)의 부상에도 불구하고, 자회귀 모델의 자유 형식 답변을 평가하는 문제는 지속적인 과제로 남아있습니다. 기존 연구는 대부분 순수 언어 작업이나 5개 이상의 선택지를 고려하지 않는 객관식 문제에 초점을 맞추고 있으나, 이 두 가지 모두 세밀한 시각 분류(FGVC) 작업을 해결하는 데 핵심적인 능력입니다. FGVC에서는 선택지 수가 수백 개에서 수천 개에 달하며 선택지들이 매우 유사합니다. 또한 이러한 고도로 다중선택인 객관식 설정에서 검색 기반 문제에 LLM 선택 추출을 확장하는 방법이 명확하지 않습니다. 선택지 집합에 대한 확률 계산이 계산상 비용이 많이 들기 때문입니다. 본 논문은 nlg2choice를 연구합니다. 이는 먼저 최소한의 제약으로 MLLM에 개방형 질문을 제시한 후, 순수 텍스트 제약 디코딩을 사용하여 가장 가능성 높은 선택지를 예측하는 간단한 2단계 방법입니다. 검색 설정에서는 조기 중단 방법을 채택하여 제약 응답이 해당 선택지를 선택할 확률을 계산하여 처리량을 크게 향상시킵니다.
세밀한 시각 분류의 도전: 기존의 객관식 방법은 새 종 식별과 같이 수백 개에서 수천 개의 매우 유사한 선택지에 직면할 때 성능이 저하됩니다. 예를 들어 LLaVA-1.5는 조잡한 분류("새" vs "새가 아님")에서 거의 완벽한 성능을 보이지만, 세밀한 종 레이블에서는 1-2%의 정확도만 달성합니다.
평가 방법의 한계: 기존 방법은 출력 형식을 강제로 제약하거나(추론을 방해할 수 있음) 자유 형식 해석을 허용하거나(추출이 어려움) 효과적인 답변 추출 메커니즘이 부족합니다.
계산 효율 문제: 검색 시나리오에서 수백 개에서 수천 개의 선택지에 대한 확률 계산의 계산 비용이 과도합니다.