2025-11-18T01:52:13.530679

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Yao, Huang, Wu et al.

In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry

academic

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

基本信息

论文ID: 2412.18319
标题: Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
作者: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
分类: cs.CV cs.AI
发表时间: 2024年12月31日 (arXiv v2)
论文链接: https://arxiv.org/abs/2412.18319

摘要

本研究旨在开发一个能够通过学习创建推理过程中每个中间步骤来理解和解决问题的多模态大语言模型(MLLM)。为此，作者提出了集体蒙特卡洛树搜索(CoMCTS)，这是一种新的MLLM学习推理方法，将集体学习概念引入"树搜索"中，实现有效且高效的推理路径搜索和学习。CoMCTS的核心思想是利用多个模型的集体知识，通过扩展、模拟与错误定位、反向传播和选择四个迭代操作，协作推测、搜索和识别通向正确答案的有效推理路径。基于CoMCTS，作者构建了Mulberry-260k数据集，并训练了具有o1类似逐步推理和反思能力的Mulberry模型系列。

搜索有效性问题：传统MCTS方法通过自引导工作，但当前MLLMs缺乏明确的中间推理步骤训练，容易陷入单个MLLM推理空间内的同质低质量节点
搜索效率问题：传统MCTS每次搜索迭代只扩展一个后续推理节点，需要大量迭代，对计算密集型MLLMs效率低下

研究动机

受OpenAI o1等最新进展启发，作者希望将"树搜索"方法应用于MLLMs，但直接应用效果不佳，因此需要设计新的集体学习机制来解决搜索挑战。

核心贡献

提出CoMCTS方法：首次将集体学习概念引入MCTS，利用集体知识协作推测、搜索和识别MLLMs的有效和反思推理路径
构建Mulberry-260k数据集：为推进MLLMs逐步推理和反思研究提供宝贵资源
开发Mulberry模型系列：具有出色逐步推理和反思能力的MLLMs
实验验证：在多个基准测试上证明方法的优越性

S^j_candidate ~ πⱼ(·|Q, Parent(sₖₘ), sₖₘ)

(b) 模拟与错误定位(Simulation and Error Positioning)

利用集体知识评估候选节点价值，识别并过滤错误推理节点：

R(sʲᵢ) = (1/K) ∑ᵏₗ₌₁ πₗ(·|prompt_eval, Q, Parent(sʲᵢ), sʲᵢ)
S*_candidate = {sʲᵢ ∈ S_candidate | R(sʲᵢ) ≥ t}

(c) 反向传播(Backpropagation)

自底向上更新推理树中每个节点的访问次数N和节点值V：

V(s) ← [N(s)·V(s) + ∑_{sₗ∈Child(s)} R(sₗ)] / [N(s) + CountChild(S*_candidate, s)]
N(s) ← N(s) + CountChild(S*_candidate, s)

(d) 选择(Selection)

使用Upper Confidence Bound (UCB)选择下一个起始节点：

sₖ*ₘ = argmax_{s∈S*_candidate} V(s) + c·√[log N(ŝ)/(1+N(s))]

反思推理扩展

基于CoMCTS构建的统一推理树，识别负样本兄弟节点并构建反思推理路径：

负样本兄弟节点识别：

s_neg = argmin_{sₗ∈Sibling(s)} UCB(sₗ) - UCB(s)

反思推理路径构建：

Y_reflect = Replace(Y, s, (s_neg, prompt_reflect, s))

集体监督微调(CoSFT)

使用CoMCTS搜索的数据进行模型训练：

L_CoSFT(πₖ) = ∑_{(Q,Y)∈D} log πₖ(Y|Q)
L_CoSFT-Re(πₖ) = ∑_{(Q,Y_reflect)∈D} log πₖ(Y_reflect|Q)

实验设置

数据集

Mulberry-260k数据集构成：

55K数学数据（GLLaVA, GEOS, UniGeo等）
116K图表理解数据（DVQA, DocVQA, ChartQA等）
41K数学应用题数据（IconQA, TabMWP, CLEVR等）
2K医学数据（VQA-RAD, PMC-VQA）
17K科学数据（TQA, AI2D, ScienceQA）
24K自然世界问答数据（VQA-AS, A-OKVQA等）

评价指标

在8个广泛使用的挑战性数据集上评估：MathVista, MMStar, MMMU, ChartQA, DynaMath, HallBench, MM-Math, MME

对比方法

闭源模型：GPT-4o, Claude-3.5 Sonnet
开源模型：DeepSeek-VL, InternVL2, MiniCPM-V等
推理模型：LLaVA-CoT, LLaVA-Reasoner, Insight-V

实现细节

集体学习使用4个模型：GPT-4o, Qwen2-VL-7B, LLaMA-3.2-11B-Vision-Instruct, Qwen2-VL-72B
最大搜索迭代次数：20
批量大小：128，学习率：1e-5，训练轮数：2

实验结果

主要结果

与基线模型对比：

Mulberry-7B相比Qwen2-VL-7B平均提升4.2%
Mulberry-11B相比LLaMA-3.2-11B-Vision-Instruct平均提升7.5%
Mulberry-2B相比Qwen2-VL-2B平均提升5.4%
Mulberry-8B相比LLaVA-NeXT-8B平均提升11.0%

与推理响应模型对比：

在MathVista上，Mulberry相比LLaVA-Reasoner-8B和Insight-V-8B分别提升5.7%和6.5%
在MMMU上分别提升3.0%和1.0%

与SOTA模型对比： Mulberry在大多数开源MLLMs中表现最佳，在某些指标上接近闭源模型性能。

消融实验

CoMCTS组件分析（表2）：

GPT-4o直接预测：58.2%搜索成功率
仅GPT-4o的CoMCTS：63.8%
逐步加入更多模型持续改善性能
完整CoMCTS：80.2%搜索成功率

反思数据贡献（表3）：在MathVista上，加入反思数据提升0.8%性能，证明有效性和反思推理数据的互补性。

树搜索方法比较

CoMCTS相比其他树搜索方法显著优越：

搜索成功率：80.2% vs 66.2%(Omega-MCTS)
平均搜索迭代：12.7 vs 24.3(Omega-MCTS)

CoMCTS通过集体学习有效解决了传统MCTS在MLLMs上的搜索效率和有效性问题
Mulberry-260k数据集为多模态推理研究提供了宝贵资源
Mulberry模型在多个基准测试上展现了优秀的逐步推理和反思能力

局限性

计算成本：需要多个模型参与集体搜索，计算开销较大
模型依赖：搜索质量依赖于参与集体学习的模型质量
领域适应性：在特定领域的表现可能受限于训练数据分布

未来方向

探索更高效的集体学习机制
扩展到更多模态和任务类型
研究自适应的推理步骤分配策略

深度评价

优点

方法创新性强：首次将集体学习引入MCTS用于MLLMs，解决了传统方法的关键问题
实验充分：在多个数据集和模型上进行了全面评估，包括消融实验和对比分析
实用价值高：构建的数据集和模型对社区有重要价值
技术细节完整：方法描述清晰，实现细节充分

不足

计算效率：虽然相比传统MCTS有改进，但仍需要多模型协作，计算成本较高
泛化能力：主要在数学和图表理解任务上验证，在其他复杂推理任务上的表现需要进一步验证
理论分析不足：缺乏对集体学习为何有效的深入理论分析

影响力

学术贡献：为多模态推理和树搜索方法提供了新的研究方向
实用价值：Mulberry-260k数据集和模型可促进相关研究发展
可复现性：作者承诺开源代码，有利于方法推广

适用场景

数学推理任务：特别适合需要多步骤推理的数学问题
图表理解：在图表分析和数据可视化理解方面表现优秀
科学问答：适用于需要逐步分析的科学问题解答
教育应用：可用于构建具有推理能力的教育AI系统

参考文献

论文引用了广泛的相关工作，包括：

多模态大语言模型：LLaVA, Qwen2-VL等
推理方法：Chain-of-Thought, Tree-of-Thought等
蒙特卡洛树搜索：AlphaGo, MCTS变体等
集体学习：Co-training相关工作等