2025-11-17T09:37:14.027661

You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction

Lawrence, Saha, Wei et al.
Despite the renewed interest in zero-shot visual classification due to the rise of Multimodal Large Language Models (MLLMs), the problem of evaluating free-form responses of auto-regressive models remains a persistent challenge. Most existing works focus on language-only tasks or don't consider Multiple Choice Questions (MCQs) beyond 5-way options, both of which are critical capabilities to solve tasks in Fine-Grained Visual Classification (FGVC) where choice counts are in the hundreds to thousands and the choices are highly related. Furthermore, in this highly multi-way MCQ setting it is not clear how to extend LLM choice extraction to retrieval-based problems, where computing probabilities over the choice set is computationally costly. In this work we investigate nlg2choice, a simple two-stage method which first asks the MLLM an open-ended question for the task with minimal constraints, then uses text-only constrained decoding to predict the most likely choice. In retrieval settings, we compute the probability of the constrained response taking that choice with an early stopping method to significantly improve throughput. Our results show improvement over a suite of seven fine-grained visual datasets when evaluating in terms of classification and retrieval, and show that this performance holds over the various ways that users of LLMs can implement tasks in natural language.
academic

당신은 자유롭게 말할 수 있습니다: 답변 추출을 통한 멀티모달 대규모 언어 모델의 세밀한 시각 인식 능력 개선

기본 정보

  • 논문 ID: 2510.14885
  • 제목: You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
  • 저자: Logan Lawrence¹, Oindrila Saha¹, Megan Wei², Chen Sun², Subhransu Maji¹, Grant Van Horn¹
  • 소속: ¹매사추세츠 대학교 애머스트 캠퍼스; ²브라운 대학교
  • 분류: cs.CV (컴퓨터 비전), cs.CL (계산 언어학)
  • 발표 시간: 2025년 10월 16일
  • 논문 링크: https://arxiv.org/abs/2510.14885

초록

멀티모달 대규모 언어 모델(MLLM)의 부상에도 불구하고, 자회귀 모델의 자유 형식 답변을 평가하는 문제는 지속적인 과제로 남아있습니다. 기존 연구는 대부분 순수 언어 작업이나 5개 이상의 선택지를 고려하지 않는 객관식 문제에 초점을 맞추고 있으나, 이 두 가지 모두 세밀한 시각 분류(FGVC) 작업을 해결하는 데 핵심적인 능력입니다. FGVC에서는 선택지 수가 수백 개에서 수천 개에 달하며 선택지들이 매우 유사합니다. 또한 이러한 고도로 다중선택인 객관식 설정에서 검색 기반 문제에 LLM 선택 추출을 확장하는 방법이 명확하지 않습니다. 선택지 집합에 대한 확률 계산이 계산상 비용이 많이 들기 때문입니다. 본 논문은 nlg2choice를 연구합니다. 이는 먼저 최소한의 제약으로 MLLM에 개방형 질문을 제시한 후, 순수 텍스트 제약 디코딩을 사용하여 가장 가능성 높은 선택지를 예측하는 간단한 2단계 방법입니다. 검색 설정에서는 조기 중단 방법을 채택하여 제약 응답이 해당 선택지를 선택할 확률을 계산하여 처리량을 크게 향상시킵니다.

연구 배경 및 동기

핵심 문제

  1. 세밀한 시각 분류의 도전: 기존의 객관식 방법은 새 종 식별과 같이 수백 개에서 수천 개의 매우 유사한 선택지에 직면할 때 성능이 저하됩니다. 예를 들어 LLaVA-1.5는 조잡한 분류("새" vs "새가 아님")에서 거의 완벽한 성능을 보이지만, 세밀한 종 레이블에서는 1-2%의 정확도만 달성합니다.
  2. 평가 방법의 한계: 기존 방법은 출력 형식을 강제로 제약하거나(추론을 방해할 수 있음) 자유 형식 해석을 허용하거나(추출이 어려움) 효과적인 답변 추출 메커니즘이 부족합니다.
  3. 계산 효율 문제: 검색 시나리오에서 수백 개에서 수천 개의 선택지에 대한 확률 계산의 계산 비용이 과도합니다.

연구 동기

  • MLLM이 세밀한 시각 인식 작업에서 조잡한 작업보다 훨씬 낮은 성능을 보임
  • 기존의 제약 디코딩 방법과 첫 번째 토큰 예측 방법이 세밀한 설정에서 실패
  • 사용자 프롬프트 변화에 대한 견고성에 대한 체계적 연구 부족

핵심 기여

  1. nlg2choice 방법 제안: 7개의 세밀한 시각 데이터셋에서 분류 및 검색 성능을 크게 향상시키는 간단하고 효과적인 2단계 답변 추출 방법입니다.
  2. 견고성 검증: 의미론적으로 동등한 프롬프트 변형을 생성하여 사용자 입력 변화에 대한 방법의 견고성을 증명하며, 성능 향상은 통계적으로 유의미합니다.
  3. 조기 중단 최적화 제안: 검색 설정에서 조기 중단 방법을 도입하여 처리량을 15배 향상시킵니다(일부 데이터셋에서는 1362% 향상).
  4. 체계적 분석: 제약 디코딩이 추가 훈련 없이 신뢰할 수 있는 답변 추출기임을 증명하며, 주요 병목은 자유 형식 응답 자체에 추출 가능한 내용이 부족한 것이지 답변 추출 능력이 아님을 보여줍니다.

방법론 상세 설명

작업 정의

이미지와 세밀한 시각 분류 작업이 주어졌을 때, 목표는 새 종, 꽃 품종, 자동차 모델 등 많은 수의 매우 유사한 범주(수백 개에서 수천 개)에서 이미지 내용을 정확하게 식별하는 것입니다.

nlg2choice 아키텍처

1단계: 자유 형식 생성

입력 프롬프트: "이 이미지의 새의 종은 무엇입니까?"
모델 출력: "이 새는 상아 갈매기입니다."

2단계: 제약 디코딩 추출

프롬프트: "이 응답에서 표시된 가장 가능성 높은 새의 종은 무엇입니까?
응답: [nlg]
다음 중에서 답변하십시오: [choice_list]"

제약 디코딩을 사용하여 출력이 사전 정의된 범주 목록에서 나와야 함을 보장합니다.

사용자 변화 시뮬레이션

견고성을 테스트하기 위해 o3-high를 사용하여 15개의 의미론적으로 동등한 프롬프트 변형을 생성합니다:

  • 기본 템플릿: "이 이미지의 새의 종은 무엇입니까?"
  • 간결한 템플릿: "이 이미지의 새의 종은 무엇입니까? 종 이름만으로 답변하십시오."
  • 제약 템플릿: "이 이미지의 새의 종은 무엇입니까? 다음 목록에서만 답변하십시오..."

검색 최적화: 조기 중단 방법

검색 시나리오에서 확률 계산을 절단하여 효율성을 향상시킵니다:

범주명 "Baltimore Oriole"의 경우, "B", "altimore", " Ori", "ole"로 분해하고, "altimore"가 모든 범주에서 고유할 때 후속 토큰 확률 계산을 중단합니다:

p_full("Baltimore Oriole") = p("B") × p("altimore"|"B") × p(" Ori"|"Baltimore") × p("ole"|"Baltimore Ori")
p_trunc("Baltimore Oriole") = p("B") × p("altimore"|"B")

실험 설정

데이터셋

7개의 세밀한 시각 분류 데이터셋에서 테스트:

  • CUB200: 200개 새 종
  • Flowers102: 102개 꽃 종
  • Stanford Cars: 196개 자동차 모델
  • FGVC Aircrafts: 100개 항공기 변형
  • Food101: 101가지 음식
  • NABirds: 555개 새 종
  • iNaturalist-Birds: 1486개 새 종

평가 지표

  • 분류 작업: 정확도(15개 의미론적 동등 프롬프트 전체 평균)
  • 검색 작업: 평균 정밀도 평균(mAP)
  • 견고성: 통계적 유의성 검정

비교 방법

  • choice: 직접 제약 디코딩
  • nlg2choice: 2단계 방법(제약 지침 포함)
  • nlg2choiceopen: 2단계 방법(개방형 프롬프트)

테스트 모델

  • Qwen-2.5VL-7B
  • Llama-3.2-Vision-11B
  • Intern3VL-8B

실험 결과

주요 결과

분류 성능 향상

모든 모델과 데이터셋에서 nlg2choice는 직접 제약 디코딩을 크게 능가합니다:

모델평균 정확도 향상
Qwen-2.5VL+17.46%
Llama-3.2V+8.49%
Intern3VL+6.87%

최고 성능: Qwen-2.5VL은 개방형 프롬프트에서 평균 정확도 56.91%를 달성하며, Flowers 데이터셋에서는 78.03%에 도달합니다.

검색 성능

검색 작업에서도 nlg2choice는 우수한 성능을 보입니다:

  • Qwen-2.5VL 평균 mAP +8.16 향상
  • Stanford Cars를 제외한 모든 데이터셋에서 개선
  • Flowers 데이터셋에서 가장 두드러진 향상(+25.23 mAP)

계산 효율

조기 중단 방법은 처리량을 크게 향상시킵니다:

  • CUB200: +1362%
  • Flowers: +2042%
  • 평균 약 10배 이상 향상

소거 실험

프롬프트 제약성 영향

실험에서 제약 지침이 성능을 감소시킴을 발견했습니다:

  • 개방형 프롬프트 > 간결한 지침 > 명시적 선택지 나열
  • Qwen-2.5VL은 개방형 프롬프트에서 제약 프롬프트보다 +62.44% 높음(CUB200)

사고의 연쇄(CoT) 효과

강제 CoT 추론은 지속적인 성능 개선을 가져오지 않았습니다:

  • "단계별로 생각해봅시다": 평균 -9.75% 감소
  • "먼저,": 평균 -9.48% 감소
  • Intern3VL의 CUB200에서만 약간의 향상(+1.01%)

오분류 품질 분석

nlg2choice는 더 합리적인 오류를 생성합니다:

  • 속(genus) 수준 일치 정확도 향상: Qwen-2.5VL +16.75%, Llama-3.2V +23.85%
  • 오류는 완전히 무관한 범주보다는 같은 속의 종 간에 더 자주 발생

답변 추출 능력 검증

인간 주석을 통한 검증:

  • 34.64%의 자유 응답이 범주 외 답변 포함
  • 70.75%의 실패 사례가 실제 종 이름 포함
  • 제약 디코딩은 추출 가능한 샘플에서 높은 정확도: Qwen-2.5VL 97.93%, Intern3VL 93.26%

관련 연구

MLLM이 유효한 선택지를 생성하도록 강제하기

  • 초기 방법: 정규표현식 파싱, 하지만 세밀한 작업에서 성능 저하
  • 확률 순위 지정: 선택지 ID(A/B/C/D)의 첫 토큰 확률 기반, 널리 채택되었으나 계산 비용 많음
  • 제약 디코딩: 출력이 선택지 집합 내에 있음을 보장하지만, 최근 평가에서 성능 감소 표시

답변 추출기로서의 MLLM

  • 텍스트 출력과 토큰 확률 지표 간의 불일치 문제
  • GPT-4 등 대형 모델을 답변 추출에 사용
  • xFinder, SLOT, xVerify 등 추가 훈련이 필요한 전문 추출 방법

결론 및 논의

주요 결론

  1. 답변 추출은 시각 인식 능력을 크게 개선합니다: 테스트된 모든 아키텍처와 데이터셋에서 향상
  2. 방법은 사용자 변화에 견고합니다: 성능 개선은 통계적으로 유의미하며 특정 프롬프트 형식에 의존하지 않음
  3. 제약 디코딩은 신뢰할 수 있는 추출기입니다: 추가 훈련 없이 효과적으로 작동

한계

  1. 모델 규모 제한: 주요 테스트는 중간 규모 모델(8B-11B)에 중점을 두며, 오픈소스 모델만 사용
  2. 계산 자원 요구: 전문 훈련을 피했음에도 불구하고 텍스트 설명 처리에 상당한 계산 자원 필요
  3. 다중 레이블 확장성: 다중 레이블 문제에 대한 적용 가능성은 검증 필요

향후 방향

  • 더 큰 규모의 독점 모델로 확장
  • 다중 레이블 세밀한 분류 탐색
  • 계산 효율 추가 최적화

심층 평가

장점

  1. 방법이 간단하고 효과적입니다: 2단계 설계는 직관적이며 추가 훈련 데이터나 아키텍처 수정이 필요 없습니다
  2. 실험이 포괄적입니다: 여러 모델, 데이터셋 및 평가 차원을 테스트하며 견고성 검증 포함
  3. 실용적 가치가 높습니다: 조기 중단 최적화는 실제 배포의 계산 효율 문제를 해결합니다
  4. 분석이 깊이 있습니다: 인간 주석을 통해 답변 추출의 효과성을 검증하고 실제 병목을 파악합니다

부족한 점

  1. 이론적 분석 부족: 2단계 방법이 더 효과적인 이유에 대한 이론적 설명이 부족합니다
  2. 모델 커버리지 제한: GPT-4V 등 최고 수준의 독점 모델 테스트 미실시
  3. 작업 범위: 주로 단일 레이블 분류에 초점을 맞추며 다중 레이블 및 기타 시각 작업 커버리지 부족

영향력

본 연구는 세밀한 시각 분류에 대한 실용적인 솔루션을 제공하며, 특히 많은 수의 유사한 범주를 처리해야 하는 실제 응용에서 중요한 가치를 가집니다. 방법의 단순성과 추가 훈련이 필요 없는 특성으로 인해 채택 및 배포가 용이합니다.

적용 시나리오

  • 생물 종 인식 시스템
  • 상품 세분화 플랫폼
  • 의료 영상 세밀한 진단
  • 많은 수의 유사한 선택지 중에서 정확한 분류가 필요한 모든 시각 작업

참고문헌

논문은 멀티모달 대규모 언어 모델, 제약 디코딩, 답변 추출 등 주요 분야의 중요한 연구를 포함하는 47개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다.