Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
Yao, Huang, Wu et al.
In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry
academic
Mulberry: 집단 몬테카를로 트리 서치를 통한 o1 유사 추론 및 반성 기능을 갖춘 MLLM 강화
본 연구는 추론 과정의 각 중간 단계를 생성하여 문제를 이해하고 해결할 수 있는 다중모달 대규모 언어 모델(MLLM)을 개발하는 것을 목표로 합니다. 이를 위해 저자들은 집단 몬테카를로 트리 서치(CoMCTS)를 제안했으며, 이는 "트리 서치"에 집단 학습 개념을 도입하여 효과적이고 효율적인 추론 경로 탐색 및 학습을 구현하는 새로운 MLLM 추론 학습 방법입니다. CoMCTS의 핵심 아이디어는 여러 모델의 집단 지식을 활용하여 확장, 시뮬레이션 및 오류 위치 파악, 역전파, 선택의 네 가지 반복 작업을 통해 협력적으로 추측, 탐색 및 올바른 답변으로 이어지는 효과적인 추론 경로를 식별하는 것입니다. CoMCTS를 기반으로 저자들은 Mulberry-260k 데이터셋을 구축하고 o1 유사의 단계별 추론 및 반성 능력을 갖춘 Mulberry 모델 시리즈를 훈련했습니다.