Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
Yao, Huang, Wu et al.
In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry
academic
Mulberry: Potenziamento di MLLM con Ragionamento e Riflessione di Tipo o1 tramite Ricerca Collettiva dell'Albero di Monte Carlo
Questo studio mira a sviluppare un modello di linguaggio multimodale di grandi dimensioni (MLLM) capace di comprendere e risolvere problemi attraverso l'apprendimento della creazione di ogni fase intermedia nel processo di ragionamento. A tal fine, gli autori propongono la Ricerca Collettiva dell'Albero di Monte Carlo (CoMCTS), un nuovo metodo di apprendimento del ragionamento per MLLM che introduce il concetto di apprendimento collettivo nella "ricerca dell'albero", realizzando una ricerca e un apprendimento efficaci ed efficienti dei percorsi di ragionamento. L'idea centrale di CoMCTS è sfruttare la conoscenza collettiva di più modelli, attraverso quattro operazioni iterative di espansione, simulazione e localizzazione degli errori, retropropagazione e selezione, per collaborare nella congettura, ricerca e identificazione di percorsi di ragionamento efficaci verso la risposta corretta. Sulla base di CoMCTS, gli autori costruiscono il dataset Mulberry-260k e addestrano la famiglia di modelli Mulberry con capacità di ragionamento passo-passo e riflessione di tipo o1.
Gli attuali modelli di linguaggio multimodale (MLLM) presentano un evidente aumento del tasso di fallimento nel trattamento di compiti di ragionamento complesso. Gli MLLM esistenti adottano principalmente una modalità di "previsione diretta", generando risposte finali brevi per i problemi, mancando di fasi di ragionamento intermedio esplicite e ben definite.
Come ha detto Feynman: "Ciò che non posso creare, non posso comprendere." Gli MLLM dovrebbero essere in grado di creare e comprendere profondamente ogni fase nel processo di ragionamento, il che è cruciale per risolvere compiti complessi.
Problema di Efficacia della Ricerca: I metodi MCTS tradizionali funzionano attraverso l'auto-guida, ma gli MLLM attuali mancano di addestramento esplicito su fasi di ragionamento intermedio, tendendo a cadere in nodi omogenei di bassa qualità all'interno dello spazio di ragionamento di un singolo MLLM
Problema di Efficienza della Ricerca: L'MCTS tradizionale espande solo un nodo di ragionamento successivo per ogni iterazione di ricerca, richiedendo numerose iterazioni, il che è inefficiente per gli MLLM computazionalmente intensivi
Ispirati dai recenti progressi come OpenAI o1, gli autori desiderano applicare il metodo della "ricerca dell'albero" agli MLLM, ma l'applicazione diretta non produce buoni risultati, pertanto è necessario progettare un nuovo meccanismo di apprendimento collettivo per affrontare le sfide della ricerca.
Proposta del Metodo CoMCTS: Introduzione per la prima volta del concetto di apprendimento collettivo in MCTS, sfruttando la conoscenza collettiva per collaborare nella congettura, ricerca e identificazione di percorsi di ragionamento efficaci e riflessivi degli MLLM
Costruzione del Dataset Mulberry-260k: Fornitura di risorse preziose per promuovere la ricerca sul ragionamento passo-passo e la riflessione negli MLLM
Sviluppo della Famiglia di Modelli Mulberry: MLLM con eccellenti capacità di ragionamento passo-passo e riflessione
Verifica Sperimentale: Dimostrazione della superiorità del metodo su più benchmark
Dato un problema multimodale di input Q (come un'istruzione di compito testuale contenente un'immagine), l'obiettivo è generare una sequenza di stati di ragionamento intermedi (s₁, s₂, s₃, ..., sₘ), ottenendo infine la risposta corretta.
CoMCTS sfrutta la conoscenza collettiva di un insieme di MLLM {π₁, π₂, ..., πₖ}, ricercando iterativamente i percorsi di ragionamento attraverso quattro operazioni chiave:
A partire dal nodo foglia corrente sₖₘ, si utilizza il parallelismo di più MLLM per espandere percorsi di ragionamento candidati diversificati e complementari:
Sulla base dell'albero di ragionamento unificato costruito da CoMCTS, si identificano i nodi fratelli negativi e si costruiscono percorsi di ragionamento riflessivo:
Identificazione dei Nodi Fratelli Negativi:
s_neg = argmin_{sₗ∈Sibling(s)} UCB(sₗ) - UCB(s)
Costruzione del Percorso di Ragionamento Riflessivo:
Mulberry-7B rispetto a Qwen2-VL-7B mostra un miglioramento medio del 4.2%
Mulberry-11B rispetto a LLaMA-3.2-11B-Vision-Instruct mostra un miglioramento medio del 7.5%
Mulberry-2B rispetto a Qwen2-VL-2B mostra un miglioramento medio del 5.4%
Mulberry-8B rispetto a LLaVA-NeXT-8B mostra un miglioramento medio del 11.0%
Confronto con Modelli di Risposta di Ragionamento:
Su MathVista, Mulberry rispetto a LLaVA-Reasoner-8B e Insight-V-8B mostra miglioramenti rispettivamente del 5.7% e 6.5%
Su MMMU mostra miglioramenti rispettivamente del 3.0% e 1.0%
Confronto con Modelli SOTA:
Mulberry mostra le migliori prestazioni tra la maggior parte degli MLLM open-source, avvicinandosi alle prestazioni dei modelli closed-source su alcune metriche.
Previsione diretta di GPT-4o: tasso di successo della ricerca del 58.2%
CoMCTS solo con GPT-4o: 63.8%
L'aggiunta graduale di più modelli continua a migliorare le prestazioni
CoMCTS completo: tasso di successo della ricerca dell'80.2%
Contributo dei Dati di Riflessione (Tabella 3):
Su MathVista, l'aggiunta di dati di riflessione migliora le prestazioni dello 0.8%, dimostrando l'efficacia e la complementarità dei dati di ragionamento efficace e riflessivo.
Il confronto qualitativo mostra che Mulberry è in grado di generare fasi di ragionamento ricche, esplicite e ben definite, mentre i modelli di base generano previsioni relativamente brevi e soggette a errori.
Gli MLLM hanno realizzato progressi significativi nella comprensione visivo-linguistica generale, ma rimangono sfide nei compiti complessi che richiedono ragionamento profondo.
MCTS è ampiamente applicato in giochi, robotica, dimostrazione di teoremi e altri campi; questo articolo introduce per la prima volta l'apprendimento collettivo in MCTS per gli MLLM.
L'apprendimento collettivo mira a migliorare i risultati dell'apprendimento sfruttando la saggezza collettiva di più individui; questo articolo lo applica alla ricerca dei percorsi di ragionamento.
CoMCTS risolve efficacemente i problemi di efficienza e efficacia della ricerca dell'MCTS tradizionale negli MLLM attraverso l'apprendimento collettivo
Il dataset Mulberry-260k fornisce risorse preziose per la ricerca sul ragionamento multimodale
I modelli Mulberry dimostrano eccellenti capacità di ragionamento passo-passo e riflessione su più benchmark
Forte Innovazione del Metodo: Introduzione per la prima volta del concetto di apprendimento collettivo in MCTS per gli MLLM, risolvendo i problemi chiave dei metodi tradizionali
Sperimentazione Completa: Valutazione complessiva su più dataset e modelli, includendo esperimenti di ablazione e analisi comparative
Alto Valore Pratico: Il dataset e i modelli costruiti hanno un valore importante per la comunità
Dettagli Tecnici Completi: Descrizione chiara del metodo e dettagli di implementazione sufficienti
Efficienza Computazionale: Sebbene migliore rispetto all'MCTS tradizionale, richiede comunque la collaborazione di più modelli, con costi computazionali relativamente elevati
Capacità di Generalizzazione: Principalmente verificato su compiti di matematica e comprensione di grafici; le prestazioni su altri compiti di ragionamento complesso necessitano di ulteriore verifica
Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita del perché l'apprendimento collettivo sia efficace