In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry
論文ID : 2412.18319タイトル : Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search著者 : Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao分類 : cs.CV cs.AI発表日時 : 2024年12月31日 (arXiv v2)論文リンク : https://arxiv.org/abs/2412.18319 本研究は、推論過程における各中間段階を作成することを学習することで、問題を理解し解決できるマルチモーダル大規模言語モデル(MLLM)を開発することを目的としている。このため、著者らは集団モンテカルロ木探索(CoMCTS)を提案した。これは、集団学習の概念を「木探索」に導入し、効果的かつ効率的な推論経路探索と学習を実現する新しいMLLM学習推論方法である。CoMCTSの核心的な考え方は、複数のモデルの集団知識を活用し、拡張、シミュレーションと誤り定位、逆伝播、選択という4つの反復操作を通じて、正解に至る有効な推論経路を協調的に推測、探索、識別することである。CoMCTSに基づいて、著者らはMulberry-260kデータセットを構築し、o1類似の段階的推論と反思能力を備えたMulberryモデルシリーズを訓練した。
現在のマルチモーダル大規模言語モデル(MLLM)は、複雑な推論タスクを処理する際に失敗率の顕著な増加という問題を抱えている。既存のMLLMは主に「直接予測」モード、すなわち問題に対して短い最終答案を生成するモードを採用しており、明確かつ定義された中間推論段階が不足している。
ファインマンが述べたように、「私が作成できないものは、私が理解できないものである」。MLLMは推論過程における各段階を作成し、深く理解できるべきであり、これは複雑なタスク解決に不可欠である。
探索有効性の問題 :従来のMCTS方法は自己誘導で機能するが、現在のMLLMは明確な中間推論段階の訓練が不足しており、単一のMLLM推論空間内の同質で低品質なノードに陥りやすい探索効率の問題 :従来のMCTSは各探索反復で1つの後続推論ノードのみを拡張し、多くの反復が必要であり、計算集約的なMLLMに対して効率が低いOpenAI o1などの最新の進展に触発されて、著者らは「木探索」方法をMLLMに適用したいと考えたが、直接適用は効果が低いため、探索課題を解決するための新しい集団学習メカニズムを設計する必要がある。
CoMCTS方法の提案 :集団学習の概念をMCTSに初めて導入し、集団知識を活用してMLLMの有効かつ反思的な推論経路を協調的に推測、探索、識別するMulberry-260kデータセットの構築 :MLLMの段階的推論と反思研究を推進するための貴重なリソースを提供Mulberryモデルシリーズの開発 :優れた段階的推論と反思能力を備えたMLLM実験検証 :複数のベンチマークで方法の優越性を実証マルチモーダル入力問題Q(例えば、画像を含むテキストタスク指示)が与えられた場合、目標は一連の中間推論状態シーケンス(s₁, s₂, s₃, ..., sₘ)を生成し、最終的に正解を得ることである。
CoMCTSはMLLMの集合{π₁, π₂, ..., πₖ}の集団知識を活用し、4つの主要な操作を通じて推論経路を反復的に探索する:
現在の葉ノードsₖₘから開始して、複数のMLLMを並列に利用して多様で相補的な候補推論経路を拡張する:
S^j_candidate ~ πⱼ(·|Q, Parent(sₖₘ), sₖₘ)
集団知識を活用して候補ノードの価値を評価し、誤った推論ノードを識別およびフィルタリングする:
R(sʲᵢ) = (1/K) ∑ᵏₗ₌₁ πₗ(·|prompt_eval, Q, Parent(sʲᵢ), sʲᵢ)
S*_candidate = {sʲᵢ ∈ S_candidate | R(sʲᵢ) ≥ t}
推論木における各ノードの訪問回数Nとノード値Vをボトムアップで更新する:
V(s) ← [N(s)·V(s) + ∑_{sₗ∈Child(s)} R(sₗ)] / [N(s) + CountChild(S*_candidate, s)]
N(s) ← N(s) + CountChild(S*_candidate, s)
Upper Confidence Bound (UCB)を使用して次の開始ノードを選択する:
sₖ*ₘ = argmax_{s∈S*_candidate} V(s) + c·√[log N(ŝ)/(1+N(s))]
CoMCTSで構築された統一推論木に基づいて、負のサンプル兄弟ノードを識別し、反思推論経路を構築する:
負のサンプル兄弟ノードの識別 :s_neg = argmin_{sₗ∈Sibling(s)} UCB(sₗ) - UCB(s)
反思推論経路の構築 :Y_reflect = Replace(Y, s, (s_neg, prompt_reflect, s))
CoMCTS探索で得られたデータを使用してモデルを訓練する:
L_CoSFT(πₖ) = ∑_{(Q,Y)∈D} log πₖ(Y|Q)
L_CoSFT-Re(πₖ) = ∑_{(Q,Y_reflect)∈D} log πₖ(Y_reflect|Q)
Mulberry-260kデータセットの構成 :
55K数学データ(GLLaVA, GEOS, UniGeoなど) 116Kグラフ理解データ(DVQA, DocVQA, ChartQAなど) 41K数学応用問題データ(IconQA, TabMWP, CLEVRなど) 2K医学データ(VQA-RAD, PMC-VQA) 17K科学データ(TQA, AI2D, ScienceQA) 24K自然世界質問応答データ(VQA-AS, A-OKVQAなど) 8つの広く使用されている挑戦的なデータセットで評価:MathVista, MMStar, MMMU, ChartQA, DynaMath, HallBench, MM-Math, MME
クローズドソースモデル:GPT-4o, Claude-3.5 Sonnet オープンソースモデル:DeepSeek-VL, InternVL2, MiniCPM-Vなど 推論モデル:LLaVA-CoT, LLaVA-Reasoner, Insight-V 集団学習は4つのモデルを使用:GPT-4o, Qwen2-VL-7B, LLaMA-3.2-11B-Vision-Instruct, Qwen2-VL-72B 最大探索反復回数:20 バッチサイズ:128、学習率:1e-5、訓練エポック:2 ベースラインモデルとの比較 :
Mulberry-7BはQwen2-VL-7Bと比較して平均4.2%向上 Mulberry-11BはLLaMA-3.2-11B-Vision-Instructと比較して平均7.5%向上 Mulberry-2BはQwen2-VL-2Bと比較して平均5.4%向上 Mulberry-8BはLLaVA-NeXT-8Bと比較して平均11.0%向上 推論応答モデルとの比較 :
MathVistaでは、MulberryはLLaVA-Reasoner-8BおよびInsight-V-8Bと比較してそれぞれ5.7%および6.5%向上 MMUUではそれぞれ3.0%および1.0%向上 SOTAモデルとの比較 :
MulberryはほとんどのオープンソースMLLMの中で最高の性能を示し、いくつかの指標ではクローズドソースモデルの性能に近い。
CoMCTSコンポーネント分析 (表2):
GPT-4o直接予測:58.2%探索成功率 GPT-4oのみのCoMCTS:63.8% より多くのモデルを段階的に追加すると継続的にパフォーマンスが向上 完全なCoMCTS:80.2%探索成功率 反思データの貢献 (表3):
MathVistaでは、反思データを追加すると0.8%のパフォーマンス向上が見られ、有効性と反思推論データの相補性を証明している。
CoMCTSは他の木探索方法と比較して顕著に優れている:
探索成功率:80.2% vs 66.2%(Omega-MCTS) 平均探索反復:12.7 vs 24.3(Omega-MCTS) 定性的な比較により、Mulberryは豊富で明確かつ定義された推論段階を生成できるのに対し、ベースラインモデルは比較的短い予測を生成し、エラーが発生しやすいことが示されている。
MLLMは一般的なビジョン言語理解において顕著な進展を遂げたが、深い推論を必要とする複雑なタスクではまだ課題がある。
推論方法は3つのカテゴリに分類できる:
プロンプトベースの方法 :Chain-of-Thought (CoT)など計画ベースの方法 :Tree/Graph-of-thoughtなど学習ベースの方法 :GPT-o1, Star, Iter-MCTSなどMCTSはゲーム、ロボット工学、定理証明などの分野で広く応用されており、本論文は初めてMLLMの推論経路探索に集団学習をMCTSに導入した。
集団学習は複数の個体の集団的知恵を活用して学習結果を改善することを目的としており、本論文はこれを推論経路探索に適用している。
CoMCTSは集団学習を通じて、従来のMCTSのMLLM上での探索効率と有効性の問題を効果的に解決する Mulberry-260kデータセットはマルチモーダル推論研究に貴重なリソースを提供する Mulberryモデルは複数のベンチマークで優れた段階的推論と反思能力を示す 計算コスト :複数のモデルが集団探索に参加する必要があり、計算オーバーヘッドが大きいモデル依存性 :探索品質は集団学習に参加するモデルの品質に依存する領域適応性 :特定の領域でのパフォーマンスは訓練データ分布によって制限される可能性があるより効率的な集団学習メカニズムの探索 より多くのモダリティとタスクタイプへの拡張 適応的な推論段階割り当て戦略の研究 方法の革新性が強い :集団学習の概念をMLLMのMCTSに初めて導入し、従来の方法の主要な問題を解決する実験が充分 :複数のデータセットとモデルで包括的な評価を実施し、アブレーション実験と比較分析を含む実用価値が高い :構築されたデータセットとモデルはコミュニティに重要な価値を持つ技術詳細が完全 :方法の説明が明確で、実装詳細が充分である計算効率 :従来のMCTSと比較して改善されているが、複数モデルの協調が必要であり、計算コストが高い汎化能力 :主に数学とグラフ理解タスクで検証されており、他の複雑な推論タスクでのパフォーマンスはさらなる検証が必要理論分析の不足 :集団学習が有効である理由についての深い理論分析が不足している学術的貢献 :マルチモーダル推論と木探索方法に新しい研究方向を提供する実用価値 :Mulberry-260kデータセットとモデルは関連研究の発展を促進できる再現性 :著者はコードのオープンソース化を約束しており、方法の普及に有利である数学推論タスク :特に複数段階の推論が必要な数学問題に適しているグラフ理解 :グラフ分析とデータ可視化理解において優れたパフォーマンスを示す科学質問応答 :段階的な分析が必要な科学問題の解答に適用可能教育応用 :推論能力を備えた教育AI システムの構築に使用できる論文は広範な関連研究を引用しており、以下を含む:
マルチモーダル大規模言語モデル:LLaVA, Qwen2-VLなど 推論方法:Chain-of-Thought, Tree-of-Thoughtなど モンテカルロ木探索:AlphaGo, MCTS変体など 集団学習:Co-trainingに関連する研究など