2025-11-18T01:52:13.530679

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Yao, Huang, Wu et al.

In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry

academic

Mulberry: 集団モンテカルロ木探索を通じたo1類似推論と反思によるMLLMの強化

基本情報

論文ID: 2412.18319
タイトル: Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
著者: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
分類: cs.CV cs.AI
発表日時: 2024年12月31日 (arXiv v2)
論文リンク: https://arxiv.org/abs/2412.18319

要約

本研究は、推論過程における各中間段階を作成することを学習することで、問題を理解し解決できるマルチモーダル大規模言語モデル(MLLM)を開発することを目的としている。このため、著者らは集団モンテカルロ木探索(CoMCTS)を提案した。これは、集団学習の概念を「木探索」に導入し、効果的かつ効率的な推論経路探索と学習を実現する新しいMLLM学習推論方法である。CoMCTSの核心的な考え方は、複数のモデルの集団知識を活用し、拡張、シミュレーションと誤り定位、逆伝播、選択という4つの反復操作を通じて、正解に至る有効な推論経路を協調的に推測、探索、識別することである。CoMCTSに基づいて、著者らはMulberry-260kデータセットを構築し、o1類似の段階的推論と反思能力を備えたMulberryモデルシリーズを訓練した。

研究背景と動機

問題定義

現在のマルチモーダル大規模言語モデル(MLLM)は、複雑な推論タスクを処理する際に失敗率の顕著な増加という問題を抱えている。既存のMLLMは主に「直接予測」モード、すなわち問題に対して短い最終答案を生成するモードを採用しており、明確かつ定義された中間推論段階が不足している。

重要性

ファインマンが述べたように、「私が作成できないものは、私が理解できないものである」。MLLMは推論過程における各段階を作成し、深く理解できるべきであり、これは複雑なタスク解決に不可欠である。

既存方法の限界

探索有効性の問題：従来のMCTS方法は自己誘導で機能するが、現在のMLLMは明確な中間推論段階の訓練が不足しており、単一のMLLM推論空間内の同質で低品質なノードに陥りやすい
探索効率の問題：従来のMCTSは各探索反復で1つの後続推論ノードのみを拡張し、多くの反復が必要であり、計算集約的なMLLMに対して効率が低い

研究動機

OpenAI o1などの最新の進展に触発されて、著者らは「木探索」方法をMLLMに適用したいと考えたが、直接適用は効果が低いため、探索課題を解決するための新しい集団学習メカニズムを設計する必要がある。

核心的貢献

CoMCTS方法の提案：集団学習の概念をMCTSに初めて導入し、集団知識を活用してMLLMの有効かつ反思的な推論経路を協調的に推測、探索、識別する
Mulberry-260kデータセットの構築：MLLMの段階的推論と反思研究を推進するための貴重なリソースを提供
Mulberryモデルシリーズの開発：優れた段階的推論と反思能力を備えたMLLM
実験検証：複数のベンチマークで方法の優越性を実証

S^j_candidate ~ πⱼ(·|Q, Parent(sₖₘ), sₖₘ)

(b) シミュレーションと誤り定位(Simulation and Error Positioning)

集団知識を活用して候補ノードの価値を評価し、誤った推論ノードを識別およびフィルタリングする：

R(sʲᵢ) = (1/K) ∑ᵏₗ₌₁ πₗ(·|prompt_eval, Q, Parent(sʲᵢ), sʲᵢ)
S*_candidate = {sʲᵢ ∈ S_candidate | R(sʲᵢ) ≥ t}

(c) 逆伝播(Backpropagation)

推論木における各ノードの訪問回数Nとノード値Vをボトムアップで更新する：

V(s) ← [N(s)·V(s) + ∑_{sₗ∈Child(s)} R(sₗ)] / [N(s) + CountChild(S*_candidate, s)]
N(s) ← N(s) + CountChild(S*_candidate, s)

(d) 選択(Selection)

Upper Confidence Bound (UCB)を使用して次の開始ノードを選択する：

sₖ*ₘ = argmax_{s∈S*_candidate} V(s) + c·√[log N(ŝ)/(1+N(s))]

反思推論の拡張

CoMCTSで構築された統一推論木に基づいて、負のサンプル兄弟ノードを識別し、反思推論経路を構築する：

負のサンプル兄弟ノードの識別：

s_neg = argmin_{sₗ∈Sibling(s)} UCB(sₗ) - UCB(s)

反思推論経路の構築：

Y_reflect = Replace(Y, s, (s_neg, prompt_reflect, s))

集団監督微調整(CoSFT)

CoMCTS探索で得られたデータを使用してモデルを訓練する：

L_CoSFT(πₖ) = ∑_{(Q,Y)∈D} log πₖ(Y|Q)
L_CoSFT-Re(πₖ) = ∑_{(Q,Y_reflect)∈D} log πₖ(Y_reflect|Q)

実験設定

データセット

Mulberry-260kデータセットの構成：

55K数学データ(GLLaVA, GEOS, UniGeoなど)
116Kグラフ理解データ(DVQA, DocVQA, ChartQAなど)
41K数学応用問題データ(IconQA, TabMWP, CLEVRなど)
2K医学データ(VQA-RAD, PMC-VQA)
17K科学データ(TQA, AI2D, ScienceQA)
24K自然世界質問応答データ(VQA-AS, A-OKVQAなど)

評価指標

8つの広く使用されている挑戦的なデータセットで評価：MathVista, MMStar, MMMU, ChartQA, DynaMath, HallBench, MM-Math, MME

比較方法

クローズドソースモデル：GPT-4o, Claude-3.5 Sonnet
オープンソースモデル：DeepSeek-VL, InternVL2, MiniCPM-Vなど
推論モデル：LLaVA-CoT, LLaVA-Reasoner, Insight-V

実装詳細

集団学習は4つのモデルを使用：GPT-4o, Qwen2-VL-7B, LLaMA-3.2-11B-Vision-Instruct, Qwen2-VL-72B
最大探索反復回数：20
バッチサイズ：128、学習率：1e-5、訓練エポック：2

実験結果

主要な結果

ベースラインモデルとの比較：

Mulberry-7BはQwen2-VL-7Bと比較して平均4.2%向上
Mulberry-11BはLLaMA-3.2-11B-Vision-Instructと比較して平均7.5%向上
Mulberry-2BはQwen2-VL-2Bと比較して平均5.4%向上
Mulberry-8BはLLaVA-NeXT-8Bと比較して平均11.0%向上

推論応答モデルとの比較：

MathVistaでは、MulberryはLLaVA-Reasoner-8BおよびInsight-V-8Bと比較してそれぞれ5.7%および6.5%向上
MMUUではそれぞれ3.0%および1.0%向上

SOTAモデルとの比較： MulberryはほとんどのオープンソースMLLMの中で最高の性能を示し、いくつかの指標ではクローズドソースモデルの性能に近い。

アブレーション実験

CoMCTSコンポーネント分析(表2)：

GPT-4o直接予測：58.2%探索成功率
GPT-4oのみのCoMCTS：63.8%
より多くのモデルを段階的に追加すると継続的にパフォーマンスが向上
完全なCoMCTS：80.2%探索成功率

反思データの貢献(表3)： MathVistaでは、反思データを追加すると0.8%のパフォーマンス向上が見られ、有効性と反思推論データの相補性を証明している。

木探索方法の比較

CoMCTSは他の木探索方法と比較して顕著に優れている：

探索成功率：80.2% vs 66.2%(Omega-MCTS)
平均探索反復：12.7 vs 24.3(Omega-MCTS)

CoMCTSは集団学習を通じて、従来のMCTSのMLLM上での探索効率と有効性の問題を効果的に解決する
Mulberry-260kデータセットはマルチモーダル推論研究に貴重なリソースを提供する
Mulberryモデルは複数のベンチマークで優れた段階的推論と反思能力を示す

限界

計算コスト：複数のモデルが集団探索に参加する必要があり、計算オーバーヘッドが大きい
モデル依存性：探索品質は集団学習に参加するモデルの品質に依存する
領域適応性：特定の領域でのパフォーマンスは訓練データ分布によって制限される可能性がある

今後の方向性

より効率的な集団学習メカニズムの探索
より多くのモダリティとタスクタイプへの拡張
適応的な推論段階割り当て戦略の研究

深い評価

利点

方法の革新性が強い：集団学習の概念をMLLMのMCTSに初めて導入し、従来の方法の主要な問題を解決する
実験が充分：複数のデータセットとモデルで包括的な評価を実施し、アブレーション実験と比較分析を含む
実用価値が高い：構築されたデータセットとモデルはコミュニティに重要な価値を持つ
技術詳細が完全：方法の説明が明確で、実装詳細が充分である

不足

計算効率：従来のMCTSと比較して改善されているが、複数モデルの協調が必要であり、計算コストが高い
汎化能力：主に数学とグラフ理解タスクで検証されており、他の複雑な推論タスクでのパフォーマンスはさらなる検証が必要
理論分析の不足：集団学習が有効である理由についての深い理論分析が不足している

影響力

学術的貢献：マルチモーダル推論と木探索方法に新しい研究方向を提供する
実用価値：Mulberry-260kデータセットとモデルは関連研究の発展を促進できる
再現性：著者はコードのオープンソース化を約束しており、方法の普及に有利である

適用シーン

数学推論タスク：特に複数段階の推論が必要な数学問題に適している
グラフ理解：グラフ分析とデータ可視化理解において優れたパフォーマンスを示す
科学質問応答：段階的な分析が必要な科学問題の解答に適用可能
教育応用：推論能力を備えた教育AI システムの構築に使用できる

参考文献

論文は広範な関連研究を引用しており、以下を含む：

マルチモーダル大規模言語モデル：LLaVA, Qwen2-VLなど
推論方法：Chain-of-Thought, Tree-of-Thoughtなど
モンテカルロ木探索：AlphaGo, MCTS変体など
集団学習：Co-trainingに関連する研究など