Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
Yao, Huang, Wu et al.
In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry
academic
মালবেরি: সম্মিলিত মন্টে কার্লো ট্রি সার্চের মাধ্যমে MLLM কে o1-সদৃশ যুক্তি এবং প্রতিফলন ক্ষমতা প্রদান করা
এই গবেষণার লক্ষ্য এমন একটি বহুমোডাল বৃহৎ ভাষা মডেল (MLLM) তৈরি করা যা যুক্তি প্রক্রিয়ার প্রতিটি মধ্যবর্তী ধাপ তৈরি করে শিখে সমস্যা বুঝতে এবং সমাধান করতে পারে। এই উদ্দেশ্যে, লেখকরা সম্মিলিত মন্টে কার্লো ট্রি সার্চ (CoMCTS) প্রস্তাব করেছেন, যা MLLM শেখার জন্য একটি নতুন পদ্ধতি যা সম্মিলিত শেখার ধারণাকে "ট্রি সার্চ"-এ প্রবর্তন করে, কার্যকর এবং দক্ষ যুক্তি পথ অনুসন্ধান এবং শেখা সক্ষম করে। CoMCTS-এর মূল ধারণা হল একাধিক মডেলের সম্মিলিত জ্ঞান ব্যবহার করা, সম্প্রসারণ, অনুকরণ এবং ত্রুটি অবস্থান, পশ্চাদপদ প্রচার এবং নির্বাচন চারটি পুনরাবৃত্তিমূলক ক্রিয়াকলাপের মাধ্যমে সহযোগিতামূলকভাবে অনুমান, অনুসন্ধান এবং সঠিক উত্তরের দিকে কার্যকর যুক্তি পথ চিহ্নিত করা। CoMCTS-এর উপর ভিত্তি করে, লেখকরা মালবেরি-260k ডেটাসেট তৈরি করেছেন এবং o1-সদৃশ ধাপে ধাপে যুক্তি এবং প্রতিফলন ক্ষমতা সহ মালবেরি মডেল সিরিজ প্রশিক্ষণ দিয়েছেন।
বর্তমান বহুমোডাল বৃহৎ ভাষা মডেল (MLLM) জটিল যুক্তি কাজ পরিচালনা করার সময় ব্যর্থতার হার উল্লেখযোগ্যভাবে বৃদ্ধি পায়। বিদ্যমান MLLM প্রধানত "সরাসরি পূর্বাভাস" মোড গ্রহণ করে, অর্থাৎ প্রশ্নের জন্য সংক্ষিপ্ত চূড়ান্ত উত্তর তৈরি করে, স্পষ্ট এবং সুসংজ্ঞায়িত মধ্যবর্তী যুক্তি পদক্ষেপের অভাব রয়েছে।
ফাইনম্যানের মতে: "আমি যা তৈরি করতে পারি না, আমি তা বুঝতে পারি না।" MLLM-গুলি যুক্তি প্রক্রিয়ার প্রতিটি ধাপ তৈরি এবং গভীরভাবে বুঝতে সক্ষম হওয়া উচিত, যা জটিল কাজ সমাধানের জন্য অত্যন্ত গুরুত্বপূর্ণ।
অনুসন্ধান কার্যকারিতা সমস্যা: ঐতিহ্যবাহী MCTS পদ্ধতি স্ব-নির্দেশিত কাজ করে, কিন্তু বর্তমান MLLM স্পষ্ট মধ্যবর্তী যুক্তি পদক্ষেপ প্রশিক্ষণের অভাব রয়েছে, একক MLLM যুক্তি স্থানের মধ্যে সমজাতীয় নিম্নমানের নোডে আটকে যাওয়ার প্রবণতা রয়েছে
অনুসন্ধান দক্ষতা সমস্যা: ঐতিহ্যবাহী MCTS প্রতিটি অনুসন্ধান পুনরাবৃত্তিতে শুধুমাত্র একটি পরবর্তী যুক্তি নোড সম্প্রসারিত করে, অসংখ্য পুনরাবৃত্তির প্রয়োজন, গণনা-নিবিড় MLLM-এর জন্য অদক্ষ
OpenAI o1 এবং অন্যান্য সর্বশেষ অগ্রগতি দ্বারা অনুপ্রাণিত, লেখকরা MLLM-এ "ট্রি সার্চ" পদ্ধতি প্রয়োগ করতে চেয়েছিলেন, কিন্তু সরাসরি প্রয়োগ কার্যকর ছিল না, তাই অনুসন্ধান চ্যালেঞ্জ সমাধানের জন্য নতুন সম্মিলিত শেখার প্রক্রিয়া ডিজাইন করার প্রয়োজন ছিল।
CoMCTS পদ্ধতি প্রস্তাব: প্রথমবারের মতো সম্মিলিত শেখার ধারণা MCTS-এ প্রবর্তন করা, সম্মিলিত জ্ঞান ব্যবহার করে MLLM-এর কার্যকর এবং প্রতিফলনশীল যুক্তি পথ সহযোগিতামূলকভাবে অনুমান, অনুসন্ধান এবং চিহ্নিত করা
মালবেরি-260k ডেটাসেট নির্মাণ: MLLM ধাপে ধাপে যুক্তি এবং প্রতিফলন গবেষণা অগ্রসর করার জন্য মূল্যবান সম্পদ প্রদান করা
মালবেরি মডেল সিরিজ উন্নয়ন: চমৎকার ধাপে ধাপে যুক্তি এবং প্রতিফলন ক্ষমতা সহ MLLM
পরীক্ষামূলক যাচাইকরণ: একাধিক বেঞ্চমার্ক পরীক্ষায় পদ্ধতির উৎকর্ষতা প্রমাণ করা
বহুমোডাল ইনপুট প্রশ্ন Q দেওয়া (যেমন ছবি সহ পাঠ্য কাজের নির্দেশনা), লক্ষ্য হল মধ্যবর্তী যুক্তি অবস্থার একটি সিরিজ (s₁, s₂, s₃, ..., sₘ) তৈরি করা, চূড়ান্তভাবে সঠিক উত্তর পাওয়া।
GPT-4o সরাসরি পূর্বাভাস: 58.2% অনুসন্ধান সাফল্যের হার
শুধুমাত্র GPT-4o এর CoMCTS: 63.8%
ক্রমান্বয়ে আরও মডেল যোগ করা ক্রমাগত কর্মক্ষমতা উন্নত করে
সম্পূর্ণ CoMCTS: 80.2% অনুসন্ধান সাফল্যের হার
প্রতিফলন ডেটা অবদান (সারণী 3):
MathVista-তে, প্রতিফলন ডেটা যোগ করা 0.8% কর্মক্ষমতা উন্নতি করে, কার্যকারিতা এবং প্রতিফলনশীল যুক্তি ডেটার পরিপূরকতা প্রমাণ করে।
গুণগত তুলনা দেখায় যে মালবেরি সমৃদ্ধ, স্পষ্ট এবং সুসংজ্ঞায়িত যুক্তি পদক্ষেপ তৈরি করতে পারে, যখন বেসলাইন মডেল তুলনামূলকভাবে সংক্ষিপ্ত পূর্বাভাস তৈরি করে এবং সহজেই ত্রুটি করে।
MCTS খেলা, রোবোটিক্স, উপপাদ্য প্রমাণ এবং অন্যান্য ক্ষেত্রে ব্যাপক প্রয়োগ পেয়েছে, এই পেপার প্রথমবারের মতো সম্মিলিত শেখা MCTS-এ MLLM-এর জন্য প্রবর্তন করে।