2025-11-17T09:37:14.027661

You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction

Lawrence, Saha, Wei et al.

Despite the renewed interest in zero-shot visual classification due to the rise of Multimodal Large Language Models (MLLMs), the problem of evaluating free-form responses of auto-regressive models remains a persistent challenge. Most existing works focus on language-only tasks or don't consider Multiple Choice Questions (MCQs) beyond 5-way options, both of which are critical capabilities to solve tasks in Fine-Grained Visual Classification (FGVC) where choice counts are in the hundreds to thousands and the choices are highly related. Furthermore, in this highly multi-way MCQ setting it is not clear how to extend LLM choice extraction to retrieval-based problems, where computing probabilities over the choice set is computationally costly. In this work we investigate nlg2choice, a simple two-stage method which first asks the MLLM an open-ended question for the task with minimal constraints, then uses text-only constrained decoding to predict the most likely choice. In retrieval settings, we compute the probability of the constrained response taking that choice with an early stopping method to significantly improve throughput. Our results show improvement over a suite of seven fine-grained visual datasets when evaluating in terms of classification and retrieval, and show that this performance holds over the various ways that users of LLMs can implement tasks in natural language.

academic

আপনি স্বাধীনভাবে কথা বলতে পারেন: উত্তর নিষ্কাশনের মাধ্যমে মাল্টিমোডাল বৃহৎ ভাষা মডেলগুলির সূক্ষ্ম-দানাদার ভিজ্যুয়াল স্বীকৃতি ক্ষমতা উন্নত করা

মৌলিক তথ্য

পেপার আইডি: 2510.14885
শিরোনাম: আপনি স্বাধীনভাবে কথা বলতে পারেন: উত্তর নিষ্কাশনের মাধ্যমে মাল্টিমোডাল বৃহৎ ভাষা মডেলগুলির সূক্ষ্ম-দানাদার ভিজ্যুয়াল স্বীকৃতি ক্ষমতা উন্নত করা
লেখক: লোগান লরেন্স¹, ওইন্দ্রিলা সাহা¹, মেগান ওয়েই², চেন সান², সুভ্রংসু মাজি¹, গ্রান্ট ভ্যান হর্ন¹
প্রতিষ্ঠান: ¹ম্যাসাচুসেটস বিশ্ববিদ্যালয়, অ্যামহার্স্ট; ²ব্রাউন বিশ্ববিদ্যালয়
শ্রেণীবিভাগ: cs.CV (কম্পিউটার ভিশন), cs.CL (গণনা এবং ভাষা)
প্রকাশনার সময়: ২০২৫ সালের ১৬ অক্টোবর
পেপার লিঙ্ক: https://arxiv.org/abs/2510.14885

সারসংক্ষেপ

যদিও মাল্টিমোডাল বৃহৎ ভাষা মডেল (MLLMs) এর উত্থান শূন্য-নমুনা ভিজ্যুয়াল শ্রেণীবিভাগে পুনরায় আগ্রহ জাগিয়েছে, তবে স্বয়ংক্রিয় রিগ্রেসিভ মডেলের মুক্ত-ফর্ম উত্তর মূল্যায়ন করা একটি চলমান চ্যালেঞ্জ থেকে যায়। বিদ্যমান কাজগুলি বেশিরভাগ খাঁটি ভাষা কাজগুলিতে বা পাঁচটিরও বেশি বিকল্পের মাল্টিপল চয়েস প্রশ্নগুলি বিবেচনা করে না, যা উভয়ই সূক্ষ্ম-দানাদার ভিজ্যুয়াল শ্রেণীবিভাগ (FGVC) কাজগুলি সমাধানের জন্য মূল ক্ষমতা, যেখানে বিকল্পের সংখ্যা শত থেকে হাজার পর্যন্ত এবং বিকল্পগুলি অত্যন্ত সম্পর্কিত। অধিকন্তু, এই উচ্চ-মাত্রার মাল্টিপল চয়েস প্রশ্ন সেটিংয়ে, পুনরুদ্ধার-ভিত্তিক প্রশ্নগুলিতে LLM পছন্দ নিষ্কাশন কীভাবে প্রসারিত করতে হয় তা স্পষ্ট নয়, কারণ পছন্দ সেটে সম্ভাবনা গণনা করা গণনাগতভাবে ব্যয়বহুল। এই পেপারটি nlg2choice অনুসন্ধান করে, যা একটি সহজ দুই-পর্যায়ের পদ্ধতি যা প্রথমে ন্যূনতম সীমাবদ্ধতার সাথে MLLM-এ একটি খোলা-শেষ প্রশ্ন উপস্থাপন করে, তারপর খাঁটি পাঠ্য সীমাবদ্ধ ডিকোডিং ব্যবহার করে সবচেয়ে সম্ভাব্য পছন্দ পূর্বাভাস দেয়। পুনরুদ্ধার সেটিংয়ে, সীমাবদ্ধ প্রতিক্রিয়া সেই বিকল্পটি নির্বাচন করার সম্ভাবনা গণনা করতে প্রাথমিক থামার পদ্ধতি গ্রহণ করা হয়, যা উল্লেখযোগ্যভাবে থ্রুপুট উন্নত করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

সূক্ষ্ম-দানাদার ভিজ্যুয়াল শ্রেণীবিভাগের চ্যালেঞ্জ: ঐতিহ্যবাহী মাল্টিপল চয়েস পদ্ধতি শত থেকে হাজার অত্যন্ত সমান বিকল্পের মুখোমুখি হলে দুর্বল পারফরম্যান্স করে, যেমন পাখির প্রজাতি সনাক্তকরণে LLaVA-1.5 মোটা-দানাদার শ্রেণীবিভাগে (যেমন "পাখি" বনাম "অ-পাখি") প্রায় নিখুঁত কিন্তু সূক্ষ্ম-দানাদার প্রজাতি লেবেলে মাত্র 1-2% নির্ভুলতা।
মূল্যায়ন পদ্ধতির সীমাবদ্ধতা: বিদ্যমান পদ্ধতিগুলি হয় আউটপুট ফর্ম্যাট জোরপূর্বক সীমাবদ্ধ করে (যা যুক্তিকে বাধা দিতে পারে) বা মুক্ত-ফর্ম ব্যাখ্যা অনুমতি দেয় (কিন্তু নিষ্কাশন কঠিন), কার্যকর উত্তর নিষ্কাশন প্রক্রিয়া অভাব।
গণনাগত দক্ষতা সমস্যা: পুনরুদ্ধার পরিস্থিতিতে, শত থেকে হাজার পছন্দের জন্য সম্ভাবনা গণনা করার গণনাগত খরচ অত্যধিক।

গবেষণা প্রেরণা

MLLMs সূক্ষ্ম-দানাদার ভিজ্যুয়াল স্বীকৃতি কাজে তাদের মোটা-দানাদার কাজে পারফরম্যান্সের চেয়ে অনেক কম পারফরম্যান্স করে
বিদ্যমান সীমাবদ্ধ ডিকোডিং পদ্ধতি এবং প্রথম টোকেন পূর্বাভাস পদ্ধতি সূক্ষ্ম-দানাদার সেটিংয়ে ব্যর্থ হয়
ব্যবহারকারীর প্রম্পট পরিবর্তনের প্রতি দৃঢ়তার সিস্টেমেটিক গবেষণার অভাব

মূল অবদান

nlg2choice পদ্ধতি প্রস্তাব: একটি সহজ এবং কার্যকর দুই-পর্যায়ের উত্তর নিষ্কাশন পদ্ধতি যা সাতটি সূক্ষ্ম-দানাদার ভিজ্যুয়াল ডেটাসেটে শ্রেণীবিভাগ এবং পুনরুদ্ধার পারফরম্যান্স উল্লেখযোগ্যভাবে উন্নত করে।
দৃঢ়তা যাচাইকরণ: শব্দার্থগতভাবে সমতুল্য প্রম্পট ভেরিয়েন্ট তৈরি করে, ব্যবহারকারীর ইনপুট পরিবর্তনের প্রতি পদ্ধতির দৃঢ়তা প্রমাণ করে, পারফরম্যান্স উন্নতি পরিসংখ্যানগতভাবে উল্লেখযোগ্য।
প্রাথমিক থামার অপ্টিমাইজেশন প্রস্তাব: পুনরুদ্ধার সেটিংয়ে প্রাথমিক থামার পদ্ধতি প্রবর্তন করে, থ্রুপুট 15 গুণ বৃদ্ধি করে (কিছু ডেটাসেটে 1362% বৃদ্ধি পর্যন্ত)।
সিস্টেমেটিক বিশ্লেষণ: প্রমাণ করে যে সীমাবদ্ধ ডিকোডিং একটি নির্ভরযোগ্য উত্তর নিষ্কাশক, অতিরিক্ত প্রশিক্ষণের প্রয়োজন নেই, প্রধান বাধা হল মুক্ত-ফর্ম প্রতিক্রিয়া নিজেই নিষ্কাশনযোগ্য সামগ্রীর অভাব বনাম উত্তর নিষ্কাশন ক্ষমতা।

পদ্ধতি বিস্তারিত

কাজ সংজ্ঞা

একটি ছবি এবং সূক্ষ্ম-দানাদার ভিজ্যুয়াল শ্রেণীবিভাগ কাজ দেওয়া, লক্ষ্য হল বিপুল সংখ্যক অত্যন্ত সমান শ্রেণী থেকে (শত থেকে হাজার) ছবির বিষয়বস্তু সঠিকভাবে চিহ্নিত করা, যেমন পাখির প্রজাতি, ফুলের বৈচিত্র্য, গাড়ির মডেল ইত্যাদি।

nlg2choice স্থাপত্য

প্রথম পর্যায়: মুক্ত-ফর্ম প্রজন্ম

ইনপুট প্রম্পট: "এই ছবিতে পাখির প্রজাতি কী?"
মডেল আউটপুট: "এই পাখিটি একটি আইভরি গাল।"

দ্বিতীয় পর্যায়: সীমাবদ্ধ ডিকোডিং নিষ্কাশন

প্রম্পট: "এই প্রতিক্রিয়ায় নির্দেশিত সবচেয়ে সম্ভাব্য পাখির প্রজাতি কী?
প্রতিক্রিয়া: [nlg]
নিম্নলিখিত থেকে উত্তর: [choice_list]"

সীমাবদ্ধ ডিকোডিং ব্যবহার করে আউটপুট অবশ্যই পূর্বনির্ধারিত শ্রেণী তালিকা থেকে আসতে হবে তা নিশ্চিত করতে।

ব্যবহারকারী পরিবর্তন সিমুলেশন

দৃঢ়তা পরীক্ষা করার জন্য, o3-high ব্যবহার করে 15টি শব্দার্থগতভাবে সমতুল্য প্রম্পট ভেরিয়েন্ট তৈরি করা হয়:

মৌলিক টেমপ্লেট: "এই ছবিতে পাখির প্রজাতি কী?"
সংক্ষিপ্ত টেমপ্লেট: "এই ছবিতে পাখির প্রজাতি কী? শুধুমাত্র প্রজাতির নাম দিয়ে উত্তর দিন।"
সীমাবদ্ধ টেমপ্লেট: "এই ছবিতে পাখির প্রজাতি কী? শুধুমাত্র নিম্নলিখিত তালিকা থেকে উত্তর দিন..."

পুনরুদ্ধার অপ্টিমাইজেশন: প্রাথমিক থামার পদ্ধতি

পুনরুদ্ধার পরিস্থিতিতে, সম্ভাবনা গণনা ছাঁটাই করে দক্ষতা উন্নত করা হয়:

"বাল্টিমোর ওরিওল" শ্রেণীর নামের জন্য, "B", "altimore", " Ori", "ole" এ বিভক্ত করা হয়, যখন "altimore" সমস্ত শ্রেণীতে অনন্য হয়, পরবর্তী টোকেন সম্ভাবনা গণনা বন্ধ করা হয়:

p_full("বাল্টিমোর ওরিওল") = p("B") × p("altimore"|"B") × p(" Ori"|"বাল্টিমোর") × p("ole"|"বাল্টিমোর Ori")
p_trunc("বাল্টিমোর ওরিওল") = p("B") × p("altimore"|"B")

পরীক্ষামূলক সেটআপ

ডেটাসেট

সাতটি সূক্ষ্ম-দানাদার ভিজ্যুয়াল শ্রেণীবিভাগ ডেটাসেট পরীক্ষা করা হয়:

CUB200: 200টি পাখির প্রজাতি
Flowers102: 102টি ফুলের প্রজাতি
Stanford Cars: 196টি গাড়ির মডেল
FGVC Aircrafts: 100টি বিমান ভেরিয়েন্ট
Food101: 101 ধরনের খাবার
NABirds: 555টি পাখির প্রজাতি
iNaturalist-Birds: 1486টি পাখির প্রজাতি

মূল্যায়ন মেট্রিক্স

শ্রেণীবিভাগ কাজ: নির্ভুলতা (15টি শব্দার্থগতভাবে সমতুল্য প্রম্পট জুড়ে গড়)
পুনরুদ্ধার কাজ: গড় নির্ভুলতা মান (mAP)
দৃঢ়তা: পরিসংখ্যানগত উল্লেখযোগ্যতা পরীক্ষা

তুলনা পদ্ধতি

choice: সরাসরি সীমাবদ্ধ ডিকোডিং
nlg2choice: দুই-পর্যায়ের পদ্ধতি (সীমাবদ্ধ নির্দেশনা সহ)
nlg2choiceopen: দুই-পর্যায়ের পদ্ধতি (খোলা-শেষ প্রম্পট)

পরীক্ষিত মডেল

Qwen-2.5VL-7B
Llama-3.2-Vision-11B
Intern3VL-8B

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

শ্রেণীবিভাগ পারফরম্যান্স উন্নতি

সমস্ত মডেল এবং ডেটাসেটে, nlg2choice সরাসরি সীমাবদ্ধ ডিকোডিংয়ের চেয়ে উল্লেখযোগ্যভাবে ভাল:

মডেল	গড় নির্ভুলতা উন্নতি
Qwen-2.5VL	+17.46%
Llama-3.2V	+8.49%
Intern3VL	+6.87%

সেরা পারফরম্যান্স: Qwen-2.5VL খোলা-শেষ প্রম্পটে গড় নির্ভুলতা 56.91% অর্জন করে, যেখানে Flowers ডেটাসেট 78.03% অর্জন করে।

পুনরুদ্ধার পারফরম্যান্স

পুনরুদ্ধার কাজে, nlg2choice একইভাবে চমৎকার পারফরম্যান্স করে:

Qwen-2.5VL গড় mAP +8.16 উন্নতি
Stanford Cars ছাড়া সমস্ত ডেটাসেটে উন্নতি
Flowers ডেটাসেটে সবচেয়ে উল্লেখযোগ্য উন্নতি (+25.23 mAP)

গণনাগত দক্ষতা

প্রাথমিক থামার পদ্ধতি উল্লেখযোগ্যভাবে থ্রুপুট উন্নত করে:

CUB200: +1362%
Flowers: +2042%
গড় উন্নতি প্রায় 10 গুণ বা তার বেশি

বিলোপন পরীক্ষা

প্রম্পট সীমাবদ্ধতা প্রভাব

পরীক্ষা দেখায় যে সীমাবদ্ধ নির্দেশনা পারফরম্যান্স হ্রাস করে:

খোলা-শেষ প্রম্পট > সংক্ষিপ্ত নির্দেশনা > স্পষ্ট পছন্দ তালিকাভুক্তি
Qwen-2.5VL খোলা-শেষ প্রম্পটে সীমাবদ্ধ প্রম্পটের চেয়ে +62.44% বেশি (CUB200)

চিন্তার শৃঙ্খল (CoT) প্রভাব

জোরপূর্বক CoT যুক্তি ধারাবাহিকভাবে পারফরম্যান্স উন্নত করেনি:

"আসুন ধাপে ধাপে চিন্তা করি": গড় -9.75% হ্রাস
"প্রথমে,": গড় -9.48% হ্রাস
শুধুমাত্র Intern3VL এর CUB200 এ সামান্য উন্নতি (+1.01%)

ভুল শ্রেণীবিভাগ গুণমান বিশ্লেষণ

nlg2choice আরও যুক্তিসঙ্গত ত্রুটি উৎপন্ন করে:

গণ-স্তরের ম্যাচিং নির্ভুলতা উন্নতি: Qwen-2.5VL +16.75%, Llama-3.2V +23.85%
ত্রুটিগুলি সম্পূর্ণ অসম্পর্কিত শ্রেণীর পরিবর্তে একই গণের প্রজাতির মধ্যে আরও বেশি ঘটে

উত্তর নিষ্কাশন ক্ষমতা যাচাইকরণ

মানব টীকা দ্বারা যাচাইকরণ:

34.64% মুক্ত প্রতিক্রিয়া প্যাটার্ন-বাইরে উত্তর রয়েছে
70.75% ব্যর্থতার ক্ষেত্রে প্রকৃত প্রজাতির নাম রয়েছে
সীমাবদ্ধ ডিকোডিং নিষ্কাশনযোগ্য নমুনায় উচ্চ নির্ভুলতা: Qwen-2.5VL 97.93%, Intern3VL 93.26%

উপসংহার এবং আলোচনা

প্রধান উপসংহার

উত্তর নিষ্কাশন ভিজ্যুয়াল স্বীকৃতি ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে: পরীক্ষিত সমস্ত স্থাপত্য এবং ডেটাসেটে উন্নতি
পদ্ধতি ব্যবহারকারী পরিবর্তনের প্রতি দৃঢ়: পারফরম্যান্স উন্নতি পরিসংখ্যানগতভাবে উল্লেখযোগ্য, নির্দিষ্ট প্রম্পট ফর্ম্যাটের উপর নির্ভর করে না
সীমাবদ্ধ ডিকোডিং একটি নির্ভরযোগ্য নিষ্কাশক: অতিরিক্ত প্রশিক্ষণ ছাড়াই কার্যকরভাবে কাজ করে

সীমাবদ্ধতা

মডেল আকার সীমাবদ্ধতা: প্রধান পরীক্ষা মাঝারি আকারের মডেলে (8B-11B), শুধুমাত্র ওপেন-সোর্স মডেল ব্যবহার করা হয়
গণনাগত সম্পদ প্রয়োজন: বিশেষ প্রশিক্ষণ এড়ানো সত্ত্বেও, পাঠ্য বর্ণনা প্রক্রিয়া করার জন্য এখনও উল্লেখযোগ্য গণনা সম্পদ প্রয়োজন
মাল্টি-লেবেল সম্প্রসারণযোগ্যতা: মাল্টি-লেবেল সমস্যায় প্রযোজ্যতা যাচাই করা বাকি

ভবিষ্যত দিকনির্দেশনা

বৃহত্তর স্কেলের মালিকানাধীন মডেলে সম্প্রসারণ
মাল্টি-লেবেল সূক্ষ্ম-দানাদার শ্রেণীবিভাগ অন্বেষণ
গণনাগত দক্ষতা আরও অপ্টিমাইজ করা

গভীর মূল্যায়ন

শক্তি

পদ্ধতি সহজ এবং কার্যকর: দুই-পর্যায়ের ডিজাইন স্বজ্ঞাত, অতিরিক্ত প্রশিক্ষণ ডেটা বা স্থাপত্য পরিবর্তনের প্রয়োজন নেই
ব্যাপক পরীক্ষা: একাধিক মডেল, ডেটাসেট এবং মূল্যায়ন মাত্রা পরীক্ষা করে, দৃঢ়তা যাচাইকরণ সহ
উচ্চ ব্যবহারিক মূল্য: প্রাথমিক থামার অপ্টিমাইজেশন প্রকৃত স্থাপনায় গণনাগত দক্ষতা সমস্যা সমাধান করে
গভীর বিশ্লেষণ: মানব টীকা দ্বারা উত্তর নিষ্কাশনের কার্যকারিতা যাচাই করে, প্রকৃত বাধা চিহ্নিত করে

অপূর্ণতা

তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: দুই-পর্যায়ের পদ্ধতি কেন আরও কার্যকর তার তাত্ত্বিক ব্যাখ্যার অভাব
মডেল কভারেজ সীমিত: GPT-4V এর মতো শীর্ষ মালিকানাধীন মডেল পরীক্ষা করা হয়নি
কাজের পরিধি: প্রধানত একক-লেবেল শ্রেণীবিভাগে ফোকাস, মাল্টি-লেবেল এবং অন্যান্য ভিজ্যুয়াল কাজের কভারেজ অপর্যাপ্ত

প্রভাব

এই কাজ সূক্ষ্ম-দানাদার ভিজ্যুয়াল শ্রেণীবিভাগের জন্য একটি ব্যবহারিক সমাধান প্রদান করে, বিশেষত বিপুল সংখ্যক সমান শ্রেণী পরিচালনা করার প্রয়োজন এমন বাস্তব প্রয়োগে গুরুত্বপূর্ণ মূল্য রয়েছে। পদ্ধতির সরলতা এবং অতিরিক্ত প্রশিক্ষণের প্রয়োজন নেই এমন বৈশিষ্ট্য এটি গ্রহণ এবং স্থাপনা সহজ করে তোলে।

প্রযোজ্য পরিস্থিতি

জৈব প্রজাতি সনাক্তকরণ সিস্টেম
পণ্য সূক্ষ্ম শ্রেণীবিভাগ প্ল্যাটফর্ম
চিকিৎসা চিত্র সূক্ষ্ম-দানাদার নির্ণয়
বিপুল সংখ্যক সমান বিকল্প থেকে নির্ভুল শ্রেণীবিভাগের প্রয়োজন এমন যেকোনো ভিজ্যুয়াল কাজ

সংদর্ভ

পেপারটি 47টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা মাল্টিমোডাল বৃহৎ ভাষা মডেল, সীমাবদ্ধ ডিকোডিং, উত্তর নিষ্কাশন ইত্যাদি মূল ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।