2025-11-18T01:52:13.530679

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Yao, Huang, Wu et al.

In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry

academic

Mulberry: 집단 몬테카를로 트리 서치를 통한 o1 유사 추론 및 반성 기능을 갖춘 MLLM 강화

기본 정보

논문 ID: 2412.18319
제목: Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
저자: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
분류: cs.CV cs.AI
발표 시간: 2024년 12월 31일 (arXiv v2)
논문 링크: https://arxiv.org/abs/2412.18319

초록

본 연구는 추론 과정의 각 중간 단계를 생성하여 문제를 이해하고 해결할 수 있는 다중모달 대규모 언어 모델(MLLM)을 개발하는 것을 목표로 합니다. 이를 위해 저자들은 집단 몬테카를로 트리 서치(CoMCTS)를 제안했으며, 이는 "트리 서치"에 집단 학습 개념을 도입하여 효과적이고 효율적인 추론 경로 탐색 및 학습을 구현하는 새로운 MLLM 추론 학습 방법입니다. CoMCTS의 핵심 아이디어는 여러 모델의 집단 지식을 활용하여 확장, 시뮬레이션 및 오류 위치 파악, 역전파, 선택의 네 가지 반복 작업을 통해 협력적으로 추측, 탐색 및 올바른 답변으로 이어지는 효과적인 추론 경로를 식별하는 것입니다. CoMCTS를 기반으로 저자들은 Mulberry-260k 데이터셋을 구축하고 o1 유사의 단계별 추론 및 반성 능력을 갖춘 Mulberry 모델 시리즈를 훈련했습니다.

연구 배경 및 동기

문제 정의

현재의 다중모달 대규모 언어 모델(MLLM)은 복잡한 추론 작업을 처리할 때 명확한 실패율 증가 문제를 보이고 있습니다. 기존 MLLM은 주로 "직접 예측" 모드를 채택하며, 이는 문제에 대한 짧은 최종 답변을 생성하고 명확하고 정의된 중간 추론 단계가 부족합니다.

중요성

파인만이 말했듯이: "내가 창조할 수 없는 것은 이해할 수 없습니다." MLLM은 추론 과정의 각 단계를 창조하고 깊이 있게 이해할 수 있어야 하며, 이는 복잡한 작업 해결에 매우 중요합니다.

기존 방법의 한계

탐색 유효성 문제: 전통적인 MCTS 방법은 자체 지도를 통해 작동하지만, 현재 MLLM은 명확한 중간 추론 단계 훈련이 부족하여 단일 MLLM 추론 공간 내의 동질적인 저품질 노드에 갇히기 쉽습니다.
탐색 효율성 문제: 전통적인 MCTS는 각 탐색 반복에서 하나의 후속 추론 노드만 확장하므로 많은 반복이 필요하며, 계산 집약적인 MLLM에 대해 비효율적입니다.

연구 동기

OpenAI o1 등의 최신 발전에서 영감을 받아 저자들은 "트리 서치" 방법을 MLLM에 적용하고자 했지만 직접 적용이 효과적이지 않아 탐색 과제를 해결하기 위한 새로운 집단 학습 메커니즘을 설계해야 했습니다.

핵심 기여

CoMCTS 방법 제안: 집단 학습 개념을 MCTS에 처음 도입하여 집단 지식을 활용해 MLLM의 효과적이고 반성적인 추론 경로를 협력적으로 추측, 탐색 및 식별합니다.
Mulberry-260k 데이터셋 구축: MLLM의 단계별 추론 및 반성 연구를 진전시키기 위한 귀중한 자원 제공
Mulberry 모델 시리즈 개발: 뛰어난 단계별 추론 및 반성 능력을 갖춘 MLLM
실험 검증: 여러 벤치마크에서 방법의 우월성 입증

S^j_candidate ~ πⱼ(·|Q, Parent(sₖₘ), sₖₘ)

(b) 시뮬레이션 및 오류 위치 파악(Simulation and Error Positioning)

집단 지식을 활용하여 후보 노드의 가치를 평가하고 오류 추론 노드를 식별 및 필터링합니다:

R(sʲᵢ) = (1/K) ∑ᵏₗ₌₁ πₗ(·|prompt_eval, Q, Parent(sʲᵢ), sʲᵢ)
S*_candidate = {sʲᵢ ∈ S_candidate | R(sʲᵢ) ≥ t}

(c) 역전파(Backpropagation)

추론 트리의 각 노드에 대해 방문 횟수 N과 노드 값 V를 하향식으로 업데이트합니다:

V(s) ← [N(s)·V(s) + ∑_{sₗ∈Child(s)} R(sₗ)] / [N(s) + CountChild(S*_candidate, s)]
N(s) ← N(s) + CountChild(S*_candidate, s)

(d) 선택(Selection)

상한 신뢰도(UCB)를 사용하여 다음 시작 노드를 선택합니다:

sₖ*ₘ = argmax_{s∈S*_candidate} V(s) + c·√[log N(ŝ)/(1+N(s))]

반성 추론 확장

CoMCTS로 구축된 통합 추론 트리를 기반으로 음성 샘플 형제 노드를 식별하고 반성 추론 경로를 구성합니다:

음성 샘플 형제 노드 식별:

s_neg = argmin_{sₗ∈Sibling(s)} UCB(sₗ) - UCB(s)

반성 추론 경로 구성:

Y_reflect = Replace(Y, s, (s_neg, prompt_reflect, s))

집단 감독 미세 조정(CoSFT)

CoMCTS 탐색으로 얻은 데이터를 사용하여 모델을 훈련합니다:

L_CoSFT(πₖ) = ∑_{(Q,Y)∈D} log πₖ(Y|Q)
L_CoSFT-Re(πₖ) = ∑_{(Q,Y_reflect)∈D} log πₖ(Y_reflect|Q)

실험 설정

데이터셋

Mulberry-260k 데이터셋 구성:

55K 수학 데이터(GLLaVA, GEOS, UniGeo 등)
116K 차트 이해 데이터(DVQA, DocVQA, ChartQA 등)
41K 수학 응용 문제 데이터(IconQA, TabMWP, CLEVR 등)
2K 의료 데이터(VQA-RAD, PMC-VQA)
17K 과학 데이터(TQA, AI2D, ScienceQA)
24K 자연 세계 질의응답 데이터(VQA-AS, A-OKVQA 등)

평가 지표

8개의 광범위하게 사용되는 도전적 데이터셋에서 평가: MathVista, MMStar, MMMU, ChartQA, DynaMath, HallBench, MM-Math, MME

비교 방법

폐쇄형 모델: GPT-4o, Claude-3.5 Sonnet
오픈소스 모델: DeepSeek-VL, InternVL2, MiniCPM-V 등
추론 모델: LLaVA-CoT, LLaVA-Reasoner, Insight-V

구현 세부사항

집단 학습에 사용된 4개 모델: GPT-4o, Qwen2-VL-7B, LLaMA-3.2-11B-Vision-Instruct, Qwen2-VL-72B
최대 탐색 반복 횟수: 20
배치 크기: 128, 학습률: 1e-5, 훈련 에포크: 2

실험 결과

주요 결과

기준선 모델과의 비교:

Mulberry-7B는 Qwen2-VL-7B 대비 평균 4.2% 향상
Mulberry-11B는 LLaMA-3.2-11B-Vision-Instruct 대비 평균 7.5% 향상
Mulberry-2B는 Qwen2-VL-2B 대비 평균 5.4% 향상
Mulberry-8B는 LLaVA-NeXT-8B 대비 평균 11.0% 향상

추론 응답 모델과의 비교:

MathVista에서 Mulberry는 LLaVA-Reasoner-8B 및 Insight-V-8B 대비 각각 5.7% 및 6.5% 향상
MMMU에서 각각 3.0% 및 1.0% 향상

SOTA 모델과의 비교: Mulberry는 대부분의 오픈소스 MLLM 중 최고 성능을 보이며, 일부 지표에서 폐쇄형 모델 성능에 근접합니다.

제거 실험

CoMCTS 구성 요소 분석(표 2):

GPT-4o 직접 예측: 58.2% 탐색 성공률
GPT-4o만 사용한 CoMCTS: 63.8%
더 많은 모델을 점진적으로 추가하면 성능이 지속적으로 개선됨
완전한 CoMCTS: 80.2% 탐색 성공률

반성 데이터 기여(표 3): MathVista에서 반성 데이터를 추가하면 0.8% 성능 향상을 보이며, 효과성 및 반성 추론 데이터의 상호 보완성을 입증합니다.

트리 서치 방법 비교

CoMCTS는 다른 트리 서치 방법 대비 현저한 우월성을 보입니다:

탐색 성공률: 80.2% vs 66.2%(Omega-MCTS)
평균 탐색 반복: 12.7 vs 24.3(Omega-MCTS)

CoMCTS는 집단 학습을 통해 전통적인 MCTS의 MLLM 탐색 효율성 및 유효성 문제를 효과적으로 해결합니다.
Mulberry-260k 데이터셋은 다중모달 추론 연구에 귀중한 자원을 제공합니다.
Mulberry 모델은 여러 벤치마크에서 우수한 단계별 추론 및 반성 능력을 보여줍니다.

한계

계산 비용: 여러 모델이 집단 탐색에 참여해야 하므로 계산 오버헤드가 상당합니다.
모델 의존성: 탐색 품질은 집단 학습에 참여하는 모델의 품질에 따라 달라집니다.
영역 적응성: 특정 영역에서의 성능은 훈련 데이터 분포에 의해 제한될 수 있습니다.

향후 방향

더욱 효율적인 집단 학습 메커니즘 탐색
더 많은 모달리티 및 작업 유형으로 확장
자적응형 추론 단계 할당 전략 연구

심층 평가

장점

방법 혁신성이 강함: 집단 학습을 MCTS에 처음 도입하여 MLLM에 적용하고 전통적 방법의 핵심 문제를 해결합니다.
실험이 충분함: 여러 데이터셋과 모델에서 포괄적인 평가를 수행하며, 제거 실험 및 비교 분석을 포함합니다.
실용 가치가 높음: 구축된 데이터셋과 모델은 커뮤니티에 중요한 가치를 제공합니다.
기술 세부사항이 완전함: 방법 설명이 명확하고 구현 세부사항이 충분합니다.

부족한 점

계산 효율성: 전통적 MCTS 대비 개선되었지만, 여전히 다중 모델 협력이 필요하여 계산 비용이 높습니다.
일반화 능력: 주로 수학 및 차트 이해 작업에서 검증되었으며, 다른 복잡한 추론 작업에서의 성능은 추가 검증이 필요합니다.
이론 분석 부족: 집단 학습이 왜 효과적인지에 대한 심층적인 이론 분석이 부족합니다.

영향력

학술 기여: 다중모달 추론 및 트리 서치 방법에 새로운 연구 방향을 제공합니다.
실용 가치: Mulberry-260k 데이터셋과 모델은 관련 연구 발전을 촉진할 수 있습니다.
재현성: 저자들이 코드 공개를 약속하여 방법 확산에 유리합니다.

적용 시나리오

수학 추론 작업: 특히 다단계 추론이 필요한 수학 문제에 적합합니다.
차트 이해: 차트 분석 및 데이터 시각화 이해 측면에서 우수한 성능을 보입니다.
과학 질의응답: 단계별 분석이 필요한 과학 문제 해답에 적용 가능합니다.
교육 응용: 추론 능력을 갖춘 교육 AI 시스템 구축에 활용할 수 있습니다.

참고문헌

논문은 광범위한 관련 연구를 인용하며, 다음을 포함합니다:

다중모달 대규모 언어 모델: LLaVA, Qwen2-VL 등
추론 방법: Chain-of-Thought, Tree-of-Thought 등
몬테카를로 트리 서치: AlphaGo, MCTS 변형 등
집단 학습: Co-training 관련 연구 등