2025-11-17T09:37:14.027661

You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction

Lawrence, Saha, Wei et al.
Despite the renewed interest in zero-shot visual classification due to the rise of Multimodal Large Language Models (MLLMs), the problem of evaluating free-form responses of auto-regressive models remains a persistent challenge. Most existing works focus on language-only tasks or don't consider Multiple Choice Questions (MCQs) beyond 5-way options, both of which are critical capabilities to solve tasks in Fine-Grained Visual Classification (FGVC) where choice counts are in the hundreds to thousands and the choices are highly related. Furthermore, in this highly multi-way MCQ setting it is not clear how to extend LLM choice extraction to retrieval-based problems, where computing probabilities over the choice set is computationally costly. In this work we investigate nlg2choice, a simple two-stage method which first asks the MLLM an open-ended question for the task with minimal constraints, then uses text-only constrained decoding to predict the most likely choice. In retrieval settings, we compute the probability of the constrained response taking that choice with an early stopping method to significantly improve throughput. Our results show improvement over a suite of seven fine-grained visual datasets when evaluating in terms of classification and retrieval, and show that this performance holds over the various ways that users of LLMs can implement tasks in natural language.
academic

आप स्वतंत्रता से बोल सकते हैं: उत्तर निष्कर्षण के साथ मल्टीमोडल बड़े भाषा मॉडल की सूक्ष्म-दानेदार दृश्य मान्यता क्षमताओं में सुधार

बुनियादी जानकारी

  • पेपर ID: 2510.14885
  • शीर्षक: You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
  • लेखक: Logan Lawrence¹, Oindrila Saha¹, Megan Wei², Chen Sun², Subhransu Maji¹, Grant Van Horn¹
  • संस्थान: ¹University of Massachusetts, Amherst; ²Brown University
  • वर्गीकरण: cs.CV (कंप्यूटर विजन), cs.CL (संगणना और भाषा)
  • प्रकाशन तिथि: 16 अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.14885

सारांश

हालांकि मल्टीमोडल बड़े भाषा मॉडल (MLLMs) के उदय ने शून्य-शॉट दृश्य वर्गीकरण में रुचि को पुनः जागृत किया है, स्वतः-प्रतिगामी मॉडल के मुक्त-रूप उत्तरों का मूल्यांकन करना एक निरंतर चुनौती बनी हुई है। मौजूदा कार्य मुख्य रूप से शुद्ध भाषा कार्यों या पाँच विकल्पों से अधिक बहुविकल्पीय प्रश्नों पर विचार नहीं करते हैं, जबकि दोनों ही सूक्ष्म-दानेदार दृश्य वर्गीकरण (FGVC) कार्यों को हल करने के लिए महत्वपूर्ण क्षमताएं हैं, जहाँ विकल्पों की संख्या सैकड़ों से हजारों तक पहुंचती है और विकल्प अत्यधिक संबंधित होते हैं। इसके अलावा, इस अत्यधिक बहुविकल्पीय MCQ सेटिंग में, यह स्पष्ट नहीं है कि LLM चयन निष्कर्षण को पुनः प्राप्ति-आधारित प्रश्नों तक कैसे विस्तारित किया जाए, क्योंकि चयन सेट पर संभावनाओं की गणना करना कम्प्यूटेशनल रूप से महंगा है। यह पेपर nlg2choice का अध्ययन करता है, जो एक सरल दो-चरणीय दृष्टिकोण है जो पहले न्यूनतम बाधाओं के साथ MLLM को खुले-अंत वाले प्रश्न प्रस्तुत करता है, फिर सबसे संभावित विकल्प की भविष्यवाणी करने के लिए शुद्ध-पाठ बाधा डिकोडिंग का उपयोग करता है। पुनः प्राप्ति सेटिंग में, बाधित प्रतिक्रिया के चयन की संभावना की गणना करने के लिए प्रारंभिक रोक विधि का उपयोग किया जाता है, जो थ्रूपुट में उल्लेखनीय सुधार करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्याएं

  1. सूक्ष्म-दानेदार दृश्य वर्गीकरण की चुनौतियाँ: पारंपरिक बहुविकल्पीय प्रश्न विधि सैकड़ों से हजारों अत्यधिक समान विकल्पों का सामना करते समय खराब प्रदर्शन करती है, जैसे कि पक्षी प्रजाति पहचान में LLaVA-1.5 मोटे-दानेदार वर्गीकरण (जैसे "पक्षी" बनाम "गैर-पक्षी") पर लगभग पूर्ण है, लेकिन सूक्ष्म-दानेदार प्रजाति लेबल पर केवल 1-2% सटीकता है।
  2. मूल्यांकन विधियों की सीमाएं: मौजूदा विधियाँ या तो आउटपुट प्रारूप को बाध्य करती हैं (जो तर्क को बाधित कर सकता है) या मुक्त-रूप व्याख्या की अनुमति देती हैं (लेकिन निष्कर्षण कठिन है), प्रभावी उत्तर निष्कर्षण तंत्र की कमी है।
  3. कम्प्यूटेशनल दक्षता समस्या: पुनः प्राप्ति परिदृश्य में, सैकड़ों से हजारों विकल्पों के लिए संभावनाओं की गणना करने की कम्प्यूटेशनल लागत बहुत अधिक है।

अनुसंधान प्रेरणा

  • MLLMs सूक्ष्म-दानेदार दृश्य पहचान कार्यों पर मोटे-दानेदार कार्यों की तुलना में बहुत कम प्रदर्शन करते हैं
  • मौजूदा बाधा डिकोडिंग विधियाँ और पहले टोकन भविष्यवाणी विधियाँ सूक्ष्म-दानेदार सेटिंग में विफल होती हैं
  • उपयोगकर्ता संकेत भिन्नता के प्रति मजबूती का व्यवस्थित अध्ययन की कमी

मुख्य योगदान

  1. nlg2choice विधि प्रस्तावित करना: एक सरल और प्रभावी दो-चरणीय उत्तर निष्कर्षण विधि जो 7 सूक्ष्म-दानेदार दृश्य डेटासेट पर वर्गीकरण और पुनः प्राप्ति प्रदर्शन में उल्लेखनीय सुधार करती है।
  2. मजबूती सत्यापन: शब्दार्थ रूप से समतुल्य संकेत वेरिएंट उत्पन्न करके, उपयोगकर्ता इनपुट परिवर्तन के प्रति विधि की मजबूती को प्रमाणित करता है, प्रदर्शन सुधार सांख्यिकीय रूप से महत्वपूर्ण है।
  3. प्रारंभिक रोक अनुकूलन प्रस्तावित करना: पुनः प्राप्ति सेटिंग में प्रारंभिक रोक विधि का परिचय, थ्रूपुट में 15 गुना सुधार (कुछ डेटासेट पर 1362% तक सुधार)।
  4. व्यवस्थित विश्लेषण: प्रमाणित करता है कि बाधा डिकोडिंग एक विश्वसनीय उत्तर निष्कर्षक है, अतिरिक्त प्रशिक्षण की आवश्यकता नहीं है, मुख्य बाधा मुक्त-रूप प्रतिक्रिया में निष्कर्षणीय सामग्री की कमी है न कि उत्तर निष्कर्षण क्षमता।

विधि विवरण

कार्य परिभाषा

एक छवि और सूक्ष्म-दानेदार दृश्य वर्गीकरण कार्य दिया गया है, लक्ष्य बड़ी संख्या में अत्यधिक समान श्रेणियों (सैकड़ों से हजारों) से छवि सामग्री को सटीक रूप से पहचानना है, जैसे कि पक्षी प्रजातियाँ, फूलों की किस्में, कार मॉडल आदि।

nlg2choice आर्किटेक्चर

प्रथम चरण: मुक्त-रूप पीढ़ी

इनपुट संकेत: "इस छवि में पक्षी की प्रजाति क्या है?"
मॉडल आउटपुट: "यह पक्षी एक आइवरी गल है।"

द्वितीय चरण: बाधा डिकोडिंग निष्कर्षण

संकेत: "इस प्रतिक्रिया में संकेत दी गई सबसे संभावित पक्षी प्रजाति क्या है?
प्रतिक्रिया: [nlg]
निम्नलिखित से उत्तर: [choice_list]"

बाधा डिकोडिंग का उपयोग करके यह सुनिश्चित करता है कि आउटपुट पूर्वनिर्धारित श्रेणी सूची से आना चाहिए।

उपयोगकर्ता भिन्नता सिमुलेशन

मजबूती का परीक्षण करने के लिए, o3-high का उपयोग करके 15 शब्दार्थ रूप से समतुल्य संकेत वेरिएंट उत्पन्न करता है:

  • आधार टेम्पलेट: "इस छवि में पक्षी की प्रजाति क्या है?"
  • संक्षिप्त टेम्पलेट: "इस छवि में पक्षी की प्रजाति क्या है? केवल प्रजाति के नाम के साथ उत्तर दें।"
  • बाधा टेम्पलेट: "इस छवि में पक्षी की प्रजाति क्या है? केवल निम्नलिखित सूची से उत्तर दें..."

पुनः प्राप्ति अनुकूलन: प्रारंभिक रोक विधि

पुनः प्राप्ति परिदृश्य में, संभावना गणना को छोटा करके दक्षता में सुधार:

श्रेणी नाम "Baltimore Oriole" के लिए, "B", "altimore", " Ori", "ole" में विघटित करता है, जब "altimore" सभी श्रेणियों में अद्वितीय है, तो बाद के टोकन संभावना गणना को रोकता है:

p_full("Baltimore Oriole") = p("B") × p("altimore"|"B") × p(" Ori"|"Baltimore") × p("ole"|"Baltimore Ori")
p_trunc("Baltimore Oriole") = p("B") × p("altimore"|"B")

प्रयोगात्मक सेटअप

डेटासेट

7 सूक्ष्म-दानेदार दृश्य वर्गीकरण डेटासेट पर परीक्षण:

  • CUB200: 200 पक्षी प्रजातियाँ
  • Flowers102: 102 फूलों की प्रजातियाँ
  • Stanford Cars: 196 कार मॉडल
  • FGVC Aircrafts: 100 विमान वेरिएंट
  • Food101: 101 खाद्य प्रकार
  • NABirds: 555 पक्षी प्रजातियाँ
  • iNaturalist-Birds: 1486 पक्षी प्रजातियाँ

मूल्यांकन मेट्रिक्स

  • वर्गीकरण कार्य: सटीकता (15 शब्दार्थ समतुल्य संकेतों के पार औसत)
  • पुनः प्राप्ति कार्य: माध्य औसत सटीकता (mAP)
  • मजबूती: सांख्यिकीय महत्व परीक्षण

तुलना विधियाँ

  • choice: प्रत्यक्ष बाधा डिकोडिंग
  • nlg2choice: दो-चरणीय विधि (बाधा निर्देश के साथ)
  • nlg2choiceopen: दो-चरणीय विधि (खुले-अंत संकेत)

परीक्षण मॉडल

  • Qwen-2.5VL-7B
  • Llama-3.2-Vision-11B
  • Intern3VL-8B

प्रयोगात्मक परिणाम

मुख्य परिणाम

वर्गीकरण प्रदर्शन सुधार

सभी मॉडल और डेटासेट पर, nlg2choice प्रत्यक्ष बाधा डिकोडिंग से काफी बेहतर है:

मॉडलऔसत सटीकता सुधार
Qwen-2.5VL+17.46%
Llama-3.2V+8.49%
Intern3VL+6.87%

सर्वश्रेष्ठ प्रदर्शन: Qwen-2.5VL खुले-अंत संकेत के तहत औसत सटीकता 56.91% तक पहुंचता है, जिसमें Flowers डेटासेट 78.03% तक पहुंचता है।

पुनः प्राप्ति प्रदर्शन

पुनः प्राप्ति कार्यों में, nlg2choice समान रूप से उत्कृष्ट प्रदर्शन करता है:

  • Qwen-2.5VL औसत mAP सुधार +8.16
  • Stanford Cars को छोड़कर सभी डेटासेट में सुधार
  • Flowers डेटासेट में सबसे महत्वपूर्ण सुधार (+25.23 mAP)

कम्प्यूटेशनल दक्षता

प्रारंभिक रोक विधि थ्रूपुट में उल्लेखनीय सुधार करती है:

  • CUB200: +1362%
  • Flowers: +2042%
  • औसत सुधार लगभग 10 गुना या अधिक

विलोपन प्रयोग

संकेत बाधा प्रभाव

प्रयोग पाते हैं कि बाधा निर्देश प्रदर्शन को कम करते हैं:

  • खुले-अंत संकेत > संक्षिप्त निर्देश > स्पष्ट विकल्प सूचीकरण
  • Qwen-2.5VL खुले-अंत संकेत के तहत बाधा संकेत से +62.44% अधिक है (CUB200)

विचार श्रृंखला (CoT) प्रभाव

बाध्य CoT तर्क ने लगातार प्रदर्शन में सुधार नहीं किया:

  • "आइए चरण दर चरण सोचते हैं": औसत -9.75% में गिरावट
  • "पहले,": औसत -9.48% में गिरावट
  • केवल Intern3VL के CUB200 पर मामूली सुधार (+1.01%)

गलत वर्गीकरण गुणवत्ता विश्लेषण

nlg2choice अधिक उचित त्रुटियाँ उत्पन्न करता है:

  • जीनस-स्तर मिलान सटीकता सुधार: Qwen-2.5VL +16.75%, Llama-3.2V +23.85%
  • त्रुटियाँ अधिक समान जीनस प्रजातियों के बीच होती हैं, पूरी तरह असंबंधित श्रेणियों के बीच नहीं

उत्तर निष्कर्षण क्षमता सत्यापन

मानव टिप्पणी के माध्यम से सत्यापन:

  • 34.64% मुक्त प्रतिक्रियाओं में पैटर्न-बाहर उत्तर होते हैं
  • 70.75% विफलता मामलों में वास्तविक प्रजाति नाम होते हैं
  • बाधा डिकोडिंग निष्कर्षणीय नमूनों पर उच्च सटीकता: Qwen-2.5VL 97.93%, Intern3VL 93.26%

संबंधित कार्य

MLLMs को वैध विकल्प उत्पन्न करने के लिए बाध्य करना

  • प्रारंभिक विधियाँ: नियमित अभिव्यक्ति पार्सिंग, लेकिन सूक्ष्म-दानेदार कार्यों पर खराब प्रदर्शन
  • संभावना रैंकिंग: विकल्प ID (A/B/C/D) के आधार पर पहले टोकन संभावना, व्यापक रूप से अपनाई गई लेकिन कम्प्यूटेशनल रूप से महंगी
  • बाधा डिकोडिंग: आउटपुट को चयन सेट के भीतर गारंटी देता है, लेकिन हाल के मूल्यांकन प्रदर्शन में गिरावट दिखाते हैं

उत्तर निष्कर्षक के रूप में MLLMs

  • पाठ आउटपुट और टोकन संभावना मेट्रिक्स के बीच बेमेल समस्या
  • GPT-4 जैसे बड़े मॉडल उत्तर निष्कर्षण के लिए उपयोग किए जाते हैं
  • xFinder, SLOT, xVerify जैसी विशेष निष्कर्षण विधियाँ अतिरिक्त प्रशिक्षण की आवश्यकता होती हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. उत्तर निष्कर्षण दृश्य पहचान क्षमता में उल्लेखनीय सुधार करता है: सभी परीक्षित आर्किटेक्चर और डेटासेट पर सुधार
  2. विधि उपयोगकर्ता भिन्नता के प्रति मजबूत है: प्रदर्शन सुधार सांख्यिकीय रूप से महत्वपूर्ण है, विशिष्ट संकेत प्रारूप पर निर्भर नहीं है
  3. बाधा डिकोडिंग एक विश्वसनीय निष्कर्षक है: अतिरिक्त प्रशिक्षण के बिना प्रभावी रूप से काम करता है

सीमाएं

  1. मॉडल आकार सीमा: मुख्य परीक्षण मध्यम आकार के मॉडल (8B-11B) पर केंद्रित है, केवल खुले-स्रोत मॉडल का उपयोग करता है
  2. कम्प्यूटेशनल संसाधन आवश्यकताएं: हालांकि विशेष प्रशिक्षण से बचता है, फिर भी पाठ विवरण को संसाधित करने के लिए बड़ी कम्प्यूटेशनल संसाधनों की आवश्यकता है
  3. बहु-लेबल विस्तार: बहु-लेबल समस्याओं पर प्रयोज्यता सत्यापन की प्रतीक्षा में है

भविष्य की दिशाएं

  • बड़े पैमाने पर मालिकाना मॉडल तक विस्तार
  • बहु-लेबल सूक्ष्म-दानेदार वर्गीकरण की खोज
  • कम्प्यूटेशनल दक्षता में और सुधार

गहन मूल्यांकन

शक्तियाँ

  1. विधि सरल और प्रभावी: दो-चरणीय डिजाइन सहज है, अतिरिक्त प्रशिक्षण डेटा या आर्किटेक्चर संशोधन की आवश्यकता नहीं है
  2. व्यापक प्रयोग: कई मॉडल, डेटासेट और मूल्यांकन आयामों पर परीक्षण, मजबूती सत्यापन सहित
  3. उच्च व्यावहारिक मूल्य: प्रारंभिक रोक अनुकूलन वास्तविक तैनाती में कम्प्यूटेशनल दक्षता समस्या को हल करता है
  4. गहन विश्लेषण: मानव टिप्पणी के माध्यम से उत्तर निष्कर्षण की प्रभावशीलता सत्यापित करता है, वास्तविक बाधा की पहचान करता है

कमियाँ

  1. सैद्धांतिक विश्लेषण अपर्याप्त: यह समझाने के लिए सैद्धांतिक व्याख्या की कमी है कि दो-चरणीय विधि अधिक प्रभावी क्यों है
  2. मॉडल कवरेज सीमित: GPT-4V जैसे शीर्ष मालिकाना मॉडल पर परीक्षण नहीं किया गया
  3. कार्य दायरा: मुख्य रूप से एकल-लेबल वर्गीकरण पर केंद्रित, बहु-लेबल और अन्य दृश्य कार्यों का कवरेज अपर्याप्त है

प्रभाव

यह कार्य सूक्ष्म-दानेदार दृश्य वर्गीकरण के लिए एक व्यावहारिक समाधान प्रदान करता है, विशेष रूप से ऐसे व्यावहारिक अनुप्रयोगों में जहाँ बड़ी संख्या में समान श्रेणियों को संभालने की आवश्यकता होती है। विधि की सरलता और अतिरिक्त प्रशिक्षण की आवश्यकता न होने की विशेषता इसे अपनाने और तैनात करने में आसान बनाती है।

प्रयोज्य परिदृश्य

  • जैविक प्रजाति पहचान प्रणाली
  • वाणिज्यिक वस्तु सूक्ष्म वर्गीकरण मंच
  • चिकित्सा छवि सूक्ष्म-दानेदार निदान
  • कोई भी कार्य जिसमें बड़ी संख्या में समान विकल्पों से सटीक वर्गीकरण की आवश्यकता होती है

संदर्भ

पेपर मल्टीमोडल बड़े भाषा मॉडल, बाधा डिकोडिंग, उत्तर निष्कर्षण आदि प्रमुख क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हुए 47 संबंधित संदर्भों का हवाला देता है, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।