2025-11-18T01:52:13.530679

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Yao, Huang, Wu et al.

In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry

academic

Mulberry: Potenziamento di MLLM con Ragionamento e Riflessione di Tipo o1 tramite Ricerca Collettiva dell'Albero di Monte Carlo

Informazioni Fondamentali

ID Articolo: 2412.18319
Titolo: Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
Autori: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
Classificazione: cs.CV cs.AI
Data di Pubblicazione: 31 dicembre 2024 (arXiv v2)
Link Articolo: https://arxiv.org/abs/2412.18319

Riassunto

Questo studio mira a sviluppare un modello di linguaggio multimodale di grandi dimensioni (MLLM) capace di comprendere e risolvere problemi attraverso l'apprendimento della creazione di ogni fase intermedia nel processo di ragionamento. A tal fine, gli autori propongono la Ricerca Collettiva dell'Albero di Monte Carlo (CoMCTS), un nuovo metodo di apprendimento del ragionamento per MLLM che introduce il concetto di apprendimento collettivo nella "ricerca dell'albero", realizzando una ricerca e un apprendimento efficaci ed efficienti dei percorsi di ragionamento. L'idea centrale di CoMCTS è sfruttare la conoscenza collettiva di più modelli, attraverso quattro operazioni iterative di espansione, simulazione e localizzazione degli errori, retropropagazione e selezione, per collaborare nella congettura, ricerca e identificazione di percorsi di ragionamento efficaci verso la risposta corretta. Sulla base di CoMCTS, gli autori costruiscono il dataset Mulberry-260k e addestrano la famiglia di modelli Mulberry con capacità di ragionamento passo-passo e riflessione di tipo o1.

Contesto di Ricerca e Motivazione

Definizione del Problema

Gli attuali modelli di linguaggio multimodale (MLLM) presentano un evidente aumento del tasso di fallimento nel trattamento di compiti di ragionamento complesso. Gli MLLM esistenti adottano principalmente una modalità di "previsione diretta", generando risposte finali brevi per i problemi, mancando di fasi di ragionamento intermedio esplicite e ben definite.

Importanza

Come ha detto Feynman: "Ciò che non posso creare, non posso comprendere." Gli MLLM dovrebbero essere in grado di creare e comprendere profondamente ogni fase nel processo di ragionamento, il che è cruciale per risolvere compiti complessi.

Limitazioni dei Metodi Esistenti

Problema di Efficacia della Ricerca: I metodi MCTS tradizionali funzionano attraverso l'auto-guida, ma gli MLLM attuali mancano di addestramento esplicito su fasi di ragionamento intermedio, tendendo a cadere in nodi omogenei di bassa qualità all'interno dello spazio di ragionamento di un singolo MLLM
Problema di Efficienza della Ricerca: L'MCTS tradizionale espande solo un nodo di ragionamento successivo per ogni iterazione di ricerca, richiedendo numerose iterazioni, il che è inefficiente per gli MLLM computazionalmente intensivi

Motivazione della Ricerca

Ispirati dai recenti progressi come OpenAI o1, gli autori desiderano applicare il metodo della "ricerca dell'albero" agli MLLM, ma l'applicazione diretta non produce buoni risultati, pertanto è necessario progettare un nuovo meccanismo di apprendimento collettivo per affrontare le sfide della ricerca.

Contributi Principali

Proposta del Metodo CoMCTS: Introduzione per la prima volta del concetto di apprendimento collettivo in MCTS, sfruttando la conoscenza collettiva per collaborare nella congettura, ricerca e identificazione di percorsi di ragionamento efficaci e riflessivi degli MLLM
Costruzione del Dataset Mulberry-260k: Fornitura di risorse preziose per promuovere la ricerca sul ragionamento passo-passo e la riflessione negli MLLM
Sviluppo della Famiglia di Modelli Mulberry: MLLM con eccellenti capacità di ragionamento passo-passo e riflessione
Verifica Sperimentale: Dimostrazione della superiorità del metodo su più benchmark

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un problema multimodale di input Q (come un'istruzione di compito testuale contenente un'immagine), l'obiettivo è generare una sequenza di stati di ragionamento intermedi (s₁, s₂, s₃, ..., sₘ), ottenendo infine la risposta corretta.

Architettura Centrale di CoMCTS

CoMCTS sfrutta la conoscenza collettiva di un insieme di MLLM {π₁, π₂, ..., πₖ}, ricercando iterativamente i percorsi di ragionamento attraverso quattro operazioni chiave:

(a) Espansione (Expansion)

A partire dal nodo foglia corrente sₖₘ, si utilizza il parallelismo di più MLLM per espandere percorsi di ragionamento candidati diversificati e complementari:

S^j_candidate ~ πⱼ(·|Q, Parent(sₖₘ), sₖₘ)

(b) Simulazione e Localizzazione degli Errori (Simulation and Error Positioning)

Sfruttamento della conoscenza collettiva per valutare il valore dei nodi candidati, identificando e filtrando i nodi di ragionamento errato:

R(sʲᵢ) = (1/K) ∑ᵏₗ₌₁ πₗ(·|prompt_eval, Q, Parent(sʲᵢ), sʲᵢ)
S*_candidate = {sʲᵢ ∈ S_candidate | R(sʲᵢ) ≥ t}

(c) Retropropagazione (Backpropagation)

Aggiornamento dal basso verso l'alto del numero di visite N e del valore del nodo V per ogni nodo nell'albero di ragionamento:

V(s) ← [N(s)·V(s) + ∑_{sₗ∈Child(s)} R(sₗ)] / [N(s) + CountChild(S*_candidate, s)]
N(s) ← N(s) + CountChild(S*_candidate, s)

(d) Selezione (Selection)

Utilizzo del Limite di Confidenza Superiore (UCB) per selezionare il nodo iniziale successivo:

sₖ*ₘ = argmax_{s∈S*_candidate} V(s) + c·√[log N(ŝ)/(1+N(s))]

Estensione del Ragionamento Riflessivo

Sulla base dell'albero di ragionamento unificato costruito da CoMCTS, si identificano i nodi fratelli negativi e si costruiscono percorsi di ragionamento riflessivo:

Identificazione dei Nodi Fratelli Negativi:

s_neg = argmin_{sₗ∈Sibling(s)} UCB(sₗ) - UCB(s)

Costruzione del Percorso di Ragionamento Riflessivo:

Y_reflect = Replace(Y, s, (s_neg, prompt_reflect, s))

Messa a Punto Supervisionata Collettiva (CoSFT)

Utilizzo dei dati ricercati da CoMCTS per l'addestramento del modello:

L_CoSFT(πₖ) = ∑_{(Q,Y)∈D} log πₖ(Y|Q)
L_CoSFT-Re(πₖ) = ∑_{(Q,Y_reflect)∈D} log πₖ(Y_reflect|Q)

Configurazione Sperimentale

Dataset

Composizione del Dataset Mulberry-260k:

55K dati matematici (GLLaVA, GEOS, UniGeo, ecc.)
116K dati di comprensione di grafici (DVQA, DocVQA, ChartQA, ecc.)
41K dati di problemi matematici applicati (IconQA, TabMWP, CLEVR, ecc.)
2K dati medici (VQA-RAD, PMC-VQA)
17K dati scientifici (TQA, AI2D, ScienceQA)
24K dati di domande e risposte sul mondo naturale (VQA-AS, A-OKVQA, ecc.)

Metriche di Valutazione

Valutazione su 8 dataset ampiamente utilizzati e impegnativi: MathVista, MMStar, MMMU, ChartQA, DynaMath, HallBench, MM-Math, MME

Metodi di Confronto

Modelli closed-source: GPT-4o, Claude-3.5 Sonnet
Modelli open-source: DeepSeek-VL, InternVL2, MiniCPM-V, ecc.
Modelli di ragionamento: LLaVA-CoT, LLaVA-Reasoner, Insight-V

Dettagli di Implementazione

Apprendimento collettivo utilizzando 4 modelli: GPT-4o, Qwen2-VL-7B, LLaMA-3.2-11B-Vision-Instruct, Qwen2-VL-72B
Numero massimo di iterazioni di ricerca: 20
Dimensione del batch: 128, tasso di apprendimento: 1e-5, epoche di addestramento: 2

Risultati Sperimentali

Risultati Principali

Confronto con Modelli di Base:

Mulberry-7B rispetto a Qwen2-VL-7B mostra un miglioramento medio del 4.2%
Mulberry-11B rispetto a LLaMA-3.2-11B-Vision-Instruct mostra un miglioramento medio del 7.5%
Mulberry-2B rispetto a Qwen2-VL-2B mostra un miglioramento medio del 5.4%
Mulberry-8B rispetto a LLaVA-NeXT-8B mostra un miglioramento medio del 11.0%

Confronto con Modelli di Risposta di Ragionamento:

Su MathVista, Mulberry rispetto a LLaVA-Reasoner-8B e Insight-V-8B mostra miglioramenti rispettivamente del 5.7% e 6.5%
Su MMMU mostra miglioramenti rispettivamente del 3.0% e 1.0%

Confronto con Modelli SOTA: Mulberry mostra le migliori prestazioni tra la maggior parte degli MLLM open-source, avvicinandosi alle prestazioni dei modelli closed-source su alcune metriche.

Esperimenti di Ablazione

Analisi dei Componenti di CoMCTS (Tabella 2):

Previsione diretta di GPT-4o: tasso di successo della ricerca del 58.2%
CoMCTS solo con GPT-4o: 63.8%
L'aggiunta graduale di più modelli continua a migliorare le prestazioni
CoMCTS completo: tasso di successo della ricerca dell'80.2%

Contributo dei Dati di Riflessione (Tabella 3): Su MathVista, l'aggiunta di dati di riflessione migliora le prestazioni dello 0.8%, dimostrando l'efficacia e la complementarità dei dati di ragionamento efficace e riflessivo.

Confronto dei Metodi di Ricerca dell'Albero

CoMCTS mostra una superiorità significativa rispetto ad altri metodi di ricerca dell'albero:

Tasso di successo della ricerca: 80.2% vs 66.2% (Omega-MCTS)
Iterazioni medie di ricerca: 12.7 vs 24.3 (Omega-MCTS)

Analisi di Casi

Il confronto qualitativo mostra che Mulberry è in grado di generare fasi di ragionamento ricche, esplicite e ben definite, mentre i modelli di base generano previsioni relativamente brevi e soggette a errori.

Lavori Correlati

Modelli di Linguaggio Multimodale di Grandi Dimensioni

Gli MLLM hanno realizzato progressi significativi nella comprensione visivo-linguistica generale, ma rimangono sfide nei compiti complessi che richiedono ragionamento profondo.

Ragionamento nei Modelli di Linguaggio di Grandi Dimensioni

I metodi di ragionamento possono essere classificati in tre categorie:

Metodi Basati su Prompt: come Chain-of-Thought (CoT)
Metodi Basati su Pianificazione: come Tree/Graph-of-thought
Metodi Basati su Apprendimento: come GPT-o1, Star, Iter-MCTS, ecc.

CoMCTS risolve efficacemente i problemi di efficienza e efficacia della ricerca dell'MCTS tradizionale negli MLLM attraverso l'apprendimento collettivo
Il dataset Mulberry-260k fornisce risorse preziose per la ricerca sul ragionamento multimodale
I modelli Mulberry dimostrano eccellenti capacità di ragionamento passo-passo e riflessione su più benchmark

Limitazioni

Costo Computazionale: Richiede la partecipazione di più modelli nella ricerca collettiva, con un sovraccarico computazionale considerevole
Dipendenza dal Modello: La qualità della ricerca dipende dalla qualità dei modelli che partecipano all'apprendimento collettivo
Adattabilità al Dominio: Le prestazioni in domini specifici potrebbero essere limitate dalla distribuzione dei dati di addestramento

Direzioni Future

Esplorazione di meccanismi di apprendimento collettivo più efficienti
Estensione a più modalità e tipi di compiti
Ricerca di strategie di allocazione dei passi di ragionamento adattive

Valutazione Approfondita

Punti di Forza

Forte Innovazione del Metodo: Introduzione per la prima volta del concetto di apprendimento collettivo in MCTS per gli MLLM, risolvendo i problemi chiave dei metodi tradizionali
Sperimentazione Completa: Valutazione complessiva su più dataset e modelli, includendo esperimenti di ablazione e analisi comparative
Alto Valore Pratico: Il dataset e i modelli costruiti hanno un valore importante per la comunità
Dettagli Tecnici Completi: Descrizione chiara del metodo e dettagli di implementazione sufficienti

Insufficienze

Efficienza Computazionale: Sebbene migliore rispetto all'MCTS tradizionale, richiede comunque la collaborazione di più modelli, con costi computazionali relativamente elevati
Capacità di Generalizzazione: Principalmente verificato su compiti di matematica e comprensione di grafici; le prestazioni su altri compiti di ragionamento complesso necessitano di ulteriore verifica
Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita del perché l'apprendimento collettivo sia efficace

Impatto

Contributo Accademico: Fornisce una nuova direzione di ricerca per il ragionamento multimodale e i metodi di ricerca dell'albero
Valore Pratico: Il dataset Mulberry-260k e i modelli possono promuovere lo sviluppo della ricerca correlata
Riproducibilità: Gli autori si impegnano a rendere open-source il codice, favorendo la diffusione del metodo

Scenari Applicabili

Compiti di Ragionamento Matematico: Particolarmente adatto per problemi matematici che richiedono ragionamento multi-step
Comprensione di Grafici: Prestazioni eccellenti nell'analisi di grafici e nella comprensione della visualizzazione dei dati
Domande Scientifiche: Applicabile alla risposta a domande scientifiche che richiedono analisi passo-passo
Applicazioni Educative: Può essere utilizzato per costruire sistemi di IA educativa con capacità di ragionamento

Riferimenti Bibliografici

L'articolo cita ampiamente lavori correlati, includendo:

Modelli di linguaggio multimodale di grandi dimensioni: LLaVA, Qwen2-VL, ecc.
Metodi di ragionamento: Chain-of-Thought, Tree-of-Thought, ecc.
Ricerca dell'Albero di Monte Carlo: AlphaGo, varianti di MCTS, ecc.
Apprendimento collettivo: Lavori correlati a Co-training, ecc.