2025-11-18T01:52:13.530679

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Yao, Huang, Wu et al.

In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry

academic

Mulberry: सामूहिक मोंटे कार्लो ट्री सर्च के माध्यम से MLLM को o1-जैसी तर्क और प्रतिबिंब क्षमता प्रदान करना

बुनियादी जानकारी

पेपर ID: 2412.18319
शीर्षक: Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
लेखक: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
वर्गीकरण: cs.CV cs.AI
प्रकाशन तिथि: 31 दिसंबर 2024 (arXiv v2)
पेपर लिंक: https://arxiv.org/abs/2412.18319

सारांश

यह अनुसंधान एक बहुविध बड़े भाषा मॉडल (MLLM) विकसित करने का लक्ष्य रखता है जो तर्क प्रक्रिया के प्रत्येक मध्यवर्ती चरण को बनाकर समस्याओं को समझ और समाधान कर सके। इसके लिए, लेखकों ने सामूहिक मोंटे कार्लो ट्री सर्च (CoMCTS) का प्रस्ताव दिया है, जो MLLM के लिए तर्क सीखने की एक नई विधि है। यह विधि सामूहिक शिक्षा की अवधारणा को "ट्री सर्च" में शामिल करती है, जिससे प्रभावी और कुशल तर्क पथ खोज और सीखना संभव होता है। CoMCTS का मूल विचार कई मॉडलों के सामूहिक ज्ञान का उपयोग करना है, जो विस्तार, सिमुलेशन और त्रुटि स्थिति निर्धारण, बैकप्रोपेगेशन और चयन के चार पुनरावृत्ति संचालन के माध्यम से सही उत्तर तक पहुंचने वाले प्रभावी तर्क पथों को सहयोगी रूप से अनुमान, खोज और पहचान करता है। CoMCTS के आधार पर, लेखकों ने Mulberry-260k डेटासेट का निर्माण किया है और o1-जैसी चरणबद्ध तर्क और प्रतिबिंब क्षमता वाले Mulberry मॉडल परिवार को प्रशिक्षित किया है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

वर्तमान बहुविध बड़े भाषा मॉडल (MLLMs) जटिल तर्क कार्यों को संभालते समय विफलता दर में स्पष्ट वृद्धि की समस्या का सामना करते हैं। मौजूदा MLLMs मुख्य रूप से "सीधी भविष्यवाणी" मोड अपनाते हैं, अर्थात् प्रश्न के लिए संक्षिप्त अंतिम उत्तर उत्पन्न करते हैं, जिसमें स्पष्ट और सुपरिभाषित मध्यवर्ती तर्क चरणों का अभाव होता है।

महत्व

जैसा कि फेनमैन कहते हैं: "जो मैं बना नहीं सकता, मैं समझ नहीं सकता।" MLLMs को तर्क प्रक्रिया के प्रत्येक चरण को बनाने और गहराई से समझने में सक्षम होना चाहिए, जो जटिल कार्यों को हल करने के लिए महत्वपूर्ण है।

मौजूदा विधियों की सीमाएं

खोज वैधता समस्या: पारंपरिक MCTS विधि स्व-निर्देशित कार्य के माध्यम से काम करती है, लेकिन वर्तमान MLLMs में स्पष्ट मध्यवर्ती तर्क चरण प्रशिक्षण की कमी है, जिससे वे एकल MLLM तर्क स्थान के भीतर सजातीय निम्न-गुणवत्ता वाले नोड्स में फंस जाते हैं।
खोज दक्षता समस्या: पारंपरिक MCTS प्रत्येक खोज पुनरावृत्ति में केवल एक अनुवर्ती तर्क नोड का विस्तार करता है, जिसमें बड़ी संख्या में पुनरावृत्तियों की आवश्यकता होती है, जो कम्प्यूटेशनल रूप से गहन MLLMs के लिए अक्षम है।

अनुसंधान प्रेरणा

OpenAI o1 जैसी नवीनतम प्रगति से प्रेरित होकर, लेखक MLLMs पर "ट्री सर्च" विधि लागू करना चाहते हैं, लेकिन सीधी लागू करने से अच्छे परिणाम नहीं मिलते हैं, इसलिए खोज चुनौतियों को हल करने के लिए नई सामूहिक शिक्षा तंत्र डिजाइन करने की आवश्यकता है।

मुख्य योगदान

CoMCTS विधि का प्रस्ताव: पहली बार सामूहिक शिक्षा की अवधारणा को MCTS में शामिल किया, जो सामूहिक ज्ञान का उपयोग करके MLLMs के प्रभावी और प्रतिबिंबित तर्क पथों को सहयोगी रूप से अनुमान, खोज और पहचान करता है।
Mulberry-260k डेटासेट का निर्माण: MLLMs में चरणबद्ध तर्क और प्रतिबिंब अनुसंधान को आगे बढ़ाने के लिए मूल्यवान संसाधन प्रदान करता है।
Mulberry मॉडल परिवार का विकास: उत्कृष्ट चरणबद्ध तर्क और प्रतिबिंब क्षमता वाले MLLMs।
प्रायोगिक सत्यापन: कई बेंचमार्क पर विधि की श्रेष्ठता को प्रमाणित करता है।

विधि विवरण

कार्य परिभाषा

बहुविध इनपुट प्रश्न Q (जैसे छवि युक्त पाठ कार्य निर्देश) दिया गया है, लक्ष्य मध्यवर्ती तर्क स्थितियों का एक क्रम (s₁, s₂, s₃, ..., sₘ) उत्पन्न करना है, जिससे अंततः सही उत्तर प्राप्त हो।

CoMCTS मूल आर्किटेक्चर

CoMCTS MLLMs के एक समूह {π₁, π₂, ..., πₖ} के सामूहिक ज्ञान का उपयोग करता है, चार मुख्य संचालन के माध्यम से तर्क पथों को पुनरावृत्ति रूप से खोजता है:

(a) विस्तार (Expansion)

वर्तमान लीफ नोड sₖₘ से शुरू करके, कई MLLMs का उपयोग करके विविध और पूरक उम्मीदवार तर्क पथों का समानांतर विस्तार करता है:

S^j_candidate ~ πⱼ(·|Q, Parent(sₖₘ), sₖₘ)

(b) सिमुलेशन और त्रुटि स्थिति निर्धारण (Simulation and Error Positioning)

उम्मीदवार नोड्स के मूल्य का मूल्यांकन करने के लिए सामूहिक ज्ञान का उपयोग करता है, त्रुटिपूर्ण तर्क नोड्स की पहचान और फ़िल्टर करता है:

R(sʲᵢ) = (1/K) ∑ᵏₗ₌₁ πₗ(·|prompt_eval, Q, Parent(sʲᵢ), sʲᵢ)
S*_candidate = {sʲᵢ ∈ S_candidate | R(sʲᵢ) ≥ t}

(c) बैकप्रोपेगेशन (Backpropagation)

तर्क ट्री में प्रत्येक नोड के दौरे की संख्या N और नोड मूल्य V को नीचे से ऊपर की ओर अपडेट करता है:

V(s) ← [N(s)·V(s) + ∑_{sₗ∈Child(s)} R(sₗ)] / [N(s) + CountChild(S*_candidate, s)]
N(s) ← N(s) + CountChild(S*_candidate, s)

(d) चयन (Selection)

अपर कॉन्फिडेंस बाउंड (UCB) का उपयोग करके अगला प्रारंभिक नोड चुनता है:

sₖ*ₘ = argmax_{s∈S*_candidate} V(s) + c·√[log N(ŝ)/(1+N(s))]

प्रतिबिंब तर्क विस्तार

CoMCTS द्वारा निर्मित एकीकृत तर्क ट्री के आधार पर, नकारात्मक नमूना भाई-बहन नोड्स की पहचान करता है और प्रतिबिंब तर्क पथ का निर्माण करता है:

नकारात्मक नमूना भाई-बहन नोड्स की पहचान:

s_neg = argmin_{sₗ∈Sibling(s)} UCB(sₗ) - UCB(s)

प्रतिबिंब तर्क पथ निर्माण:

Y_reflect = Replace(Y, s, (s_neg, prompt_reflect, s))

सामूहिक पर्यवेक्षित सूक्ष्म-ट्यूनिंग (CoSFT)

CoMCTS खोज से प्राप्त डेटा का उपयोग करके मॉडल प्रशिक्षण:

L_CoSFT(πₖ) = ∑_{(Q,Y)∈D} log πₖ(Y|Q)
L_CoSFT-Re(πₖ) = ∑_{(Q,Y_reflect)∈D} log πₖ(Y_reflect|Q)

प्रायोगिक सेटअप

डेटासेट

Mulberry-260k डेटासेट संरचना:

55K गणित डेटा (GLLaVA, GEOS, UniGeo आदि)
116K चार्ट समझ डेटा (DVQA, DocVQA, ChartQA आदि)
41K गणित अनुप्रयोग प्रश्न डेटा (IconQA, TabMWP, CLEVR आदि)
2K चिकित्सा डेटा (VQA-RAD, PMC-VQA)
17K विज्ञान डेटा (TQA, AI2D, ScienceQA)
24K प्राकृतिक विश्व प्रश्नोत्तर डेटा (VQA-AS, A-OKVQA आदि)

मूल्यांकन मेट्रिक्स

8 व्यापक रूप से उपयोग किए जाने वाले चुनौतीपूर्ण डेटासेट पर मूल्यांकन: MathVista, MMStar, MMMU, ChartQA, DynaMath, HallBench, MM-Math, MME

तुलनात्मक विधियां

बंद-स्रोत मॉडल: GPT-4o, Claude-3.5 Sonnet
खुला-स्रोत मॉडल: DeepSeek-VL, InternVL2, MiniCPM-V आदि
तर्क मॉडल: LLaVA-CoT, LLaVA-Reasoner, Insight-V

कार्यान्वयन विवरण

सामूहिक शिक्षा 4 मॉडल का उपयोग करती है: GPT-4o, Qwen2-VL-7B, LLaMA-3.2-11B-Vision-Instruct, Qwen2-VL-72B
अधिकतम खोज पुनरावृत्ति संख्या: 20
बैच आकार: 128, सीखने की दर: 1e-5, प्रशिक्षण एपोक: 2

प्रायोगिक परिणाम

मुख्य परिणाम

बेसलाइन मॉडल के साथ तुलना:

Mulberry-7B ने Qwen2-VL-7B की तुलना में औसतन 4.2% सुधार दिखाया
Mulberry-11B ने LLaMA-3.2-11B-Vision-Instruct की तुलना में औसतन 7.5% सुधार दिखाया
Mulberry-2B ने Qwen2-VL-2B की तुलना में औसतन 5.4% सुधार दिखाया
Mulberry-8B ने LLaVA-NeXT-8B की तुलना में औसतन 11.0% सुधार दिखाया

तर्क प्रतिक्रिया मॉडल के साथ तुलना:

MathVista पर, Mulberry ने LLaVA-Reasoner-8B और Insight-V-8B की तुलना में क्रमशः 5.7% और 6.5% सुधार दिखाया
MMMU पर क्रमशः 3.0% और 1.0% सुधार दिखाया

SOTA मॉडल के साथ तुलना: Mulberry अधिकांश खुले-स्रोत MLLMs में सर्वश्रेष्ठ प्रदर्शन करता है, कुछ मेट्रिक्स पर बंद-स्रोत मॉडल के प्रदर्शन के करीब है।

विलोपन प्रयोग

CoMCTS घटक विश्लेषण (तालिका 2):

GPT-4o सीधी भविष्यवाणी: 58.2% खोज सफलता दर
केवल GPT-4o का CoMCTS: 63.8%
क्रमिक रूप से अधिक मॉडल जोड़ने से निरंतर प्रदर्शन में सुधार होता है
पूर्ण CoMCTS: 80.2% खोज सफलता दर

प्रतिबिंब डेटा योगदान (तालिका 3): MathVista पर, प्रतिबिंब डेटा जोड़ने से 0.8% प्रदर्शन में सुधार होता है, जो प्रभावी और प्रतिबिंब तर्क डेटा की पूरकता को प्रमाणित करता है।

ट्री सर्च विधि तुलना

CoMCTS अन्य ट्री सर्च विधियों की तुलना में काफी श्रेष्ठ है:

खोज सफलता दर: 80.2% बनाम 66.2% (Omega-MCTS)
औसत खोज पुनरावृत्ति: 12.7 बनाम 24.3 (Omega-MCTS)

CoMCTS सामूहिक शिक्षा के माध्यम से पारंपरिक MCTS की खोज दक्षता और प्रभावशीलता समस्याओं को प्रभावी ढंग से हल करता है।
Mulberry-260k डेटासेट बहुविध तर्क अनुसंधान के लिए मूल्यवान संसाधन प्रदान करता है।
Mulberry मॉडल कई बेंचमार्क पर उत्कृष्ट चरणबद्ध तर्क और प्रतिबिंब क्षमता प्रदर्शित करते हैं।

सीमाएं

कम्प्यूटेशनल लागत: सामूहिक खोज में कई मॉडलों की भागीदारी की आवश्यकता होती है, जिससे कम्प्यूटेशनल ओवरहेड अधिक होता है।
मॉडल निर्भरता: खोज की गुणवत्ता सामूहिक शिक्षा में भाग लेने वाले मॉडलों की गुणवत्ता पर निर्भर करती है।
डोमेन अनुकूलन: विशिष्ट डोमेन में प्रदर्शन प्रशिक्षण डेटा वितरण द्वारा सीमित हो सकता है।

भविष्य की दिशाएं

अधिक कुशल सामूहिक शिक्षा तंत्र की खोज करना।
अधिक मोडैलिटी और कार्य प्रकारों तक विस्तार करना।
स्व-अनुकूली तर्क चरण आवंटन रणनीति का अनुसंधान करना।

गहन मूल्यांकन

शक्तियां

विधि में नवाचार मजबूत है: पहली बार सामूहिक शिक्षा को MCTS में MLLMs के लिए शामिल किया गया है, जो पारंपरिक विधियों की मुख्य समस्याओं को हल करता है।
प्रयोग व्यापक हैं: कई डेटासेट और मॉडल पर व्यापक मूल्यांकन किया गया है, जिसमें विलोपन प्रयोग और तुलनात्मक विश्लेषण शामिल हैं।
व्यावहारिक मूल्य अधिक है: निर्मित डेटासेट और मॉडल समुदाय के लिए महत्वपूर्ण मूल्य रखते हैं।
तकनीकी विवरण पूर्ण हैं: विधि विवरण स्पष्ट है, कार्यान्वयन विवरण पर्याप्त हैं।

कमियां

कम्प्यूटेशनल दक्षता: यद्यपि पारंपरिक MCTS की तुलना में सुधार हुआ है, लेकिन अभी भी बहु-मॉडल सहयोग की आवश्यकता है, कम्प्यूटेशनल लागत अधिक है।
सामान्यीकरण क्षमता: मुख्य रूप से गणित और चार्ट समझ कार्यों पर सत्यापित किया गया है, अन्य जटिल तर्क कार्यों पर प्रदर्शन को आगे सत्यापित करने की आवश्यकता है।
सैद्धांतिक विश्लेषण अपर्याप्त है: सामूहिक शिक्षा के प्रभावी होने के कारण का गहन सैद्धांतिक विश्लेषण अभाव है।

प्रभाव

शैक्षणिक योगदान: बहुविध तर्क और ट्री सर्च विधियों के लिए नई अनुसंधान दिशा प्रदान करता है।
व्यावहारिक मूल्य: Mulberry-260k डेटासेट और मॉडल संबंधित अनुसंधान विकास को बढ़ावा दे सकते हैं।
पुनरुत्पादनीयता: लेखक कोड को खुला-स्रोत करने का वचन देते हैं, जो विधि प्रसार में सहायक है।

लागू परिस्थितियां

गणित तर्क कार्य: विशेष रूप से बहु-चरणीय तर्क की आवश्यकता वाली गणित समस्याओं के लिए उपयुक्त।
चार्ट समझ: चार्ट विश्लेषण और डेटा दृश्य समझ में उत्कृष्ट प्रदर्शन।
विज्ञान प्रश्नोत्तर: चरणबद्ध विश्लेषण की आवश्यकता वाली विज्ञान समस्या समाधान के लिए उपयुक्त।
शिक्षा अनुप्रयोग: तर्क क्षमता वाली शिक्षा AI प्रणाली बनाने के लिए उपयोग किया जा सकता है।

संदर्भ

पेपर व्यापक संबंधित कार्यों का उद्धरण देता है, जिसमें शामिल हैं:

बहुविध बड़े भाषा मॉडल: LLaVA, Qwen2-VL आदि
तर्क विधियां: Chain-of-Thought, Tree-of-Thought आदि
मोंटे कार्लो ट्री सर्च: AlphaGo, MCTS वेरिएंट आदि
सामूहिक शिक्षा: Co-training संबंधित कार्य आदि