You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
Lawrence, Saha, Wei et al.
Despite the renewed interest in zero-shot visual classification due to the rise of Multimodal Large Language Models (MLLMs), the problem of evaluating free-form responses of auto-regressive models remains a persistent challenge. Most existing works focus on language-only tasks or don't consider Multiple Choice Questions (MCQs) beyond 5-way options, both of which are critical capabilities to solve tasks in Fine-Grained Visual Classification (FGVC) where choice counts are in the hundreds to thousands and the choices are highly related. Furthermore, in this highly multi-way MCQ setting it is not clear how to extend LLM choice extraction to retrieval-based problems, where computing probabilities over the choice set is computationally costly. In this work we investigate nlg2choice, a simple two-stage method which first asks the MLLM an open-ended question for the task with minimal constraints, then uses text-only constrained decoding to predict the most likely choice. In retrieval settings, we compute the probability of the constrained response taking that choice with an early stopping method to significantly improve throughput. Our results show improvement over a suite of seven fine-grained visual datasets when evaluating in terms of classification and retrieval, and show that this performance holds over the various ways that users of LLMs can implement tasks in natural language.
academic
আপনি স্বাধীনভাবে কথা বলতে পারেন: উত্তর নিষ্কাশনের মাধ্যমে মাল্টিমোডাল বৃহৎ ভাষা মডেলগুলির সূক্ষ্ম-দানাদার ভিজ্যুয়াল স্বীকৃতি ক্ষমতা উন্নত করা
শিরোনাম: আপনি স্বাধীনভাবে কথা বলতে পারেন: উত্তর নিষ্কাশনের মাধ্যমে মাল্টিমোডাল বৃহৎ ভাষা মডেলগুলির সূক্ষ্ম-দানাদার ভিজ্যুয়াল স্বীকৃতি ক্ষমতা উন্নত করা
যদিও মাল্টিমোডাল বৃহৎ ভাষা মডেল (MLLMs) এর উত্থান শূন্য-নমুনা ভিজ্যুয়াল শ্রেণীবিভাগে পুনরায় আগ্রহ জাগিয়েছে, তবে স্বয়ংক্রিয় রিগ্রেসিভ মডেলের মুক্ত-ফর্ম উত্তর মূল্যায়ন করা একটি চলমান চ্যালেঞ্জ থেকে যায়। বিদ্যমান কাজগুলি বেশিরভাগ খাঁটি ভাষা কাজগুলিতে বা পাঁচটিরও বেশি বিকল্পের মাল্টিপল চয়েস প্রশ্নগুলি বিবেচনা করে না, যা উভয়ই সূক্ষ্ম-দানাদার ভিজ্যুয়াল শ্রেণীবিভাগ (FGVC) কাজগুলি সমাধানের জন্য মূল ক্ষমতা, যেখানে বিকল্পের সংখ্যা শত থেকে হাজার পর্যন্ত এবং বিকল্পগুলি অত্যন্ত সম্পর্কিত। অধিকন্তু, এই উচ্চ-মাত্রার মাল্টিপল চয়েস প্রশ্ন সেটিংয়ে, পুনরুদ্ধার-ভিত্তিক প্রশ্নগুলিতে LLM পছন্দ নিষ্কাশন কীভাবে প্রসারিত করতে হয় তা স্পষ্ট নয়, কারণ পছন্দ সেটে সম্ভাবনা গণনা করা গণনাগতভাবে ব্যয়বহুল। এই পেপারটি nlg2choice অনুসন্ধান করে, যা একটি সহজ দুই-পর্যায়ের পদ্ধতি যা প্রথমে ন্যূনতম সীমাবদ্ধতার সাথে MLLM-এ একটি খোলা-শেষ প্রশ্ন উপস্থাপন করে, তারপর খাঁটি পাঠ্য সীমাবদ্ধ ডিকোডিং ব্যবহার করে সবচেয়ে সম্ভাব্য পছন্দ পূর্বাভাস দেয়। পুনরুদ্ধার সেটিংয়ে, সীমাবদ্ধ প্রতিক্রিয়া সেই বিকল্পটি নির্বাচন করার সম্ভাবনা গণনা করতে প্রাথমিক থামার পদ্ধতি গ্রহণ করা হয়, যা উল্লেখযোগ্যভাবে থ্রুপুট উন্নত করে।
সূক্ষ্ম-দানাদার ভিজ্যুয়াল শ্রেণীবিভাগের চ্যালেঞ্জ: ঐতিহ্যবাহী মাল্টিপল চয়েস পদ্ধতি শত থেকে হাজার অত্যন্ত সমান বিকল্পের মুখোমুখি হলে দুর্বল পারফরম্যান্স করে, যেমন পাখির প্রজাতি সনাক্তকরণে LLaVA-1.5 মোটা-দানাদার শ্রেণীবিভাগে (যেমন "পাখি" বনাম "অ-পাখি") প্রায় নিখুঁত কিন্তু সূক্ষ্ম-দানাদার প্রজাতি লেবেলে মাত্র 1-2% নির্ভুলতা।
মূল্যায়ন পদ্ধতির সীমাবদ্ধতা: বিদ্যমান পদ্ধতিগুলি হয় আউটপুট ফর্ম্যাট জোরপূর্বক সীমাবদ্ধ করে (যা যুক্তিকে বাধা দিতে পারে) বা মুক্ত-ফর্ম ব্যাখ্যা অনুমতি দেয় (কিন্তু নিষ্কাশন কঠিন), কার্যকর উত্তর নিষ্কাশন প্রক্রিয়া অভাব।
গণনাগত দক্ষতা সমস্যা: পুনরুদ্ধার পরিস্থিতিতে, শত থেকে হাজার পছন্দের জন্য সম্ভাবনা গণনা করার গণনাগত খরচ অত্যধিক।
nlg2choice পদ্ধতি প্রস্তাব: একটি সহজ এবং কার্যকর দুই-পর্যায়ের উত্তর নিষ্কাশন পদ্ধতি যা সাতটি সূক্ষ্ম-দানাদার ভিজ্যুয়াল ডেটাসেটে শ্রেণীবিভাগ এবং পুনরুদ্ধার পারফরম্যান্স উল্লেখযোগ্যভাবে উন্নত করে।
দৃঢ়তা যাচাইকরণ: শব্দার্থগতভাবে সমতুল্য প্রম্পট ভেরিয়েন্ট তৈরি করে, ব্যবহারকারীর ইনপুট পরিবর্তনের প্রতি পদ্ধতির দৃঢ়তা প্রমাণ করে, পারফরম্যান্স উন্নতি পরিসংখ্যানগতভাবে উল্লেখযোগ্য।
প্রাথমিক থামার অপ্টিমাইজেশন প্রস্তাব: পুনরুদ্ধার সেটিংয়ে প্রাথমিক থামার পদ্ধতি প্রবর্তন করে, থ্রুপুট 15 গুণ বৃদ্ধি করে (কিছু ডেটাসেটে 1362% বৃদ্ধি পর্যন্ত)।
সিস্টেমেটিক বিশ্লেষণ: প্রমাণ করে যে সীমাবদ্ধ ডিকোডিং একটি নির্ভরযোগ্য উত্তর নিষ্কাশক, অতিরিক্ত প্রশিক্ষণের প্রয়োজন নেই, প্রধান বাধা হল মুক্ত-ফর্ম প্রতিক্রিয়া নিজেই নিষ্কাশনযোগ্য সামগ্রীর অভাব বনাম উত্তর নিষ্কাশন ক্ষমতা।
একটি ছবি এবং সূক্ষ্ম-দানাদার ভিজ্যুয়াল শ্রেণীবিভাগ কাজ দেওয়া, লক্ষ্য হল বিপুল সংখ্যক অত্যন্ত সমান শ্রেণী থেকে (শত থেকে হাজার) ছবির বিষয়বস্তু সঠিকভাবে চিহ্নিত করা, যেমন পাখির প্রজাতি, ফুলের বৈচিত্র্য, গাড়ির মডেল ইত্যাদি।
পুনরুদ্ধার পরিস্থিতিতে, সম্ভাবনা গণনা ছাঁটাই করে দক্ষতা উন্নত করা হয়:
"বাল্টিমোর ওরিওল" শ্রেণীর নামের জন্য, "B", "altimore", " Ori", "ole" এ বিভক্ত করা হয়, যখন "altimore" সমস্ত শ্রেণীতে অনন্য হয়, পরবর্তী টোকেন সম্ভাবনা গণনা বন্ধ করা হয়:
এই কাজ সূক্ষ্ম-দানাদার ভিজ্যুয়াল শ্রেণীবিভাগের জন্য একটি ব্যবহারিক সমাধান প্রদান করে, বিশেষত বিপুল সংখ্যক সমান শ্রেণী পরিচালনা করার প্রয়োজন এমন বাস্তব প্রয়োগে গুরুত্বপূর্ণ মূল্য রয়েছে। পদ্ধতির সরলতা এবং অতিরিক্ত প্রশিক্ষণের প্রয়োজন নেই এমন বৈশিষ্ট্য এটি গ্রহণ এবং স্থাপনা সহজ করে তোলে।
পেপারটি 47টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা মাল্টিমোডাল বৃহৎ ভাষা মডেল, সীমাবদ্ধ ডিকোডিং, উত্তর নিষ্কাশন ইত্যাদি মূল ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।