2025-11-18T01:52:13.530679

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Yao, Huang, Wu et al.
In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry
academic

Mulberry: Befähigung von MLLM mit o1-ähnlichem Reasoning und Reflexion durch kollektive Monte-Carlo-Baumsuche

Grundinformationen

  • Paper-ID: 2412.18319
  • Titel: Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
  • Autoren: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
  • Klassifizierung: cs.CV cs.AI
  • Veröffentlichungsdatum: 31. Dezember 2024 (arXiv v2)
  • Paper-Link: https://arxiv.org/abs/2412.18319

Zusammenfassung

Diese Forschungsarbeit zielt darauf ab, ein multimodales großes Sprachmodell (MLLM) zu entwickeln, das Probleme verstehen und lösen kann, indem es lernt, jeden Zwischenschritt im Reasoning-Prozess zu erstellen. Zu diesem Zweck schlagen die Autoren die Collective Monte Carlo Tree Search (CoMCTS) vor – eine neuartige MLLM-Lernmethode für Reasoning, die das Konzept des kollektiven Lernens in die „Baumsuche" integriert, um eine effektive und effiziente Suche und Erlernung von Reasoning-Pfaden zu ermöglichen. Die Kernidee von CoMCTS besteht darin, das kollektive Wissen mehrerer Modelle zu nutzen und durch vier iterative Operationen – Expansion, Simulation und Fehlerpositionierung, Rückwärtspropagation und Auswahl – kollaborativ gültige Reasoning-Pfade zu vermuten, zu suchen und zu identifizieren, die zur richtigen Antwort führen. Basierend auf CoMCTS konstruieren die Autoren den Mulberry-260k-Datensatz und trainieren die Mulberry-Modellserie mit o1-ähnlichen schrittweisen Reasoning- und Reflexionsfähigkeiten.

Forschungshintergrund und Motivation

Problemdefinition

Aktuelle multimodale große Sprachmodelle (MLLMs) zeigen eine deutlich erhöhte Fehlerquote bei der Verarbeitung komplexer Reasoning-Aufgaben. Bestehende MLLMs verwenden hauptsächlich einen „direkten Vorhersage"-Modus, bei dem kurze Endantworten auf Fragen generiert werden, ohne explizite und gut definierte Zwischenschritte im Reasoning-Prozess.

Bedeutung

Wie Feynman sagte: „Was ich nicht erschaffen kann, kann ich nicht verstehen." MLLMs sollten in der Lage sein, jeden Schritt im Reasoning-Prozess zu erstellen und tiefgreifend zu verstehen – dies ist entscheidend für die Lösung komplexer Aufgaben.

Einschränkungen bestehender Methoden

  1. Sucheffektivitätsproblem: Traditionelle MCTS-Methoden funktionieren durch Selbststeuerung, aber aktuelle MLLMs mangelt es an explizitem Training für Zwischenschritte im Reasoning, was dazu führt, dass sie in homogenen, minderwertigen Knoten innerhalb des Reasoning-Raums eines einzelnen MLLM steckenbleiben.
  2. Sucheffizenzproblem: Traditionelle MCTS erweitert bei jeder Suchiteration nur einen nachfolgenden Reasoning-Knoten, was zahlreiche Iterationen erfordert und für rechenintensive MLLMs ineffizient ist.

Forschungsmotivation

Inspiriert durch neueste Entwicklungen wie OpenAI o1 möchten die Autoren „Baumsuche"-Methoden auf MLLMs anwenden. Da die direkte Anwendung jedoch unbefriedigend ist, ist es notwendig, neue kollektive Lernmechanismen zu entwerfen, um Suchherausforderungen zu bewältigen.

Kernbeiträge

  1. Vorschlag der CoMCTS-Methode: Erstmalige Integration des Konzepts des kollektiven Lernens in MCTS, um kollektives Wissen zur kollaborativen Vermutung, Suche und Identifikation effektiver und reflexiver Reasoning-Pfade in MLLMs zu nutzen.
  2. Konstruktion des Mulberry-260k-Datensatzes: Bereitstellung wertvoller Ressourcen zur Förderung der Forschung zu schrittweisem Reasoning und Reflexion in MLLMs.
  3. Entwicklung der Mulberry-Modellserie: MLLMs mit hervorragenden schrittweisen Reasoning- und Reflexionsfähigkeiten.
  4. Experimentelle Validierung: Nachweis der Überlegenheit der Methode auf mehreren Benchmarks.

Methodische Details

Aufgabendefinition

Gegeben eine multimodale Eingabefrage Q (z.B. eine Textaufgabenanweisung mit Bildern), besteht das Ziel darin, eine Reihe von Zwischenschritten im Reasoning-Prozess (s₁, s₂, s₃, ..., sₘ) zu generieren, um schließlich die richtige Antwort zu erhalten.

CoMCTS-Kernarchitektur

CoMCTS nutzt das kollektive Wissen einer Menge von MLLMs {π₁, π₂, ..., πₖ} und durchsucht iterativ Reasoning-Pfade durch vier Schlüsseloperationen:

(a) Expansion

Ausgehend vom aktuellen Blattknoten sₖₘ werden mehrere MLLMs parallel genutzt, um diverse und komplementäre Kandidaten-Reasoning-Pfade zu erweitern:

S^j_candidate ~ πⱼ(·|Q, Parent(sₖₘ), sₖₘ)

(b) Simulation und Fehlerpositionierung

Das kollektive Wissen wird genutzt, um den Wert von Kandidatenknoten zu bewerten, fehlerhafte Reasoning-Knoten zu identifizieren und zu filtern:

R(sʲᵢ) = (1/K) ∑ᵏₗ₌₁ πₗ(·|prompt_eval, Q, Parent(sʲᵢ), sʲᵢ)
S*_candidate = {sʲᵢ ∈ S_candidate | R(sʲᵢ) ≥ t}

(c) Rückwärtspropagation

Aktualisierung von oben nach unten der Besuchszahl N und des Knotenwerts V für jeden Knoten im Reasoning-Baum:

V(s) ← [N(s)·V(s) + ∑_{sₗ∈Child(s)} R(sₗ)] / [N(s) + CountChild(S*_candidate, s)]
N(s) ← N(s) + CountChild(S*_candidate, s)

(d) Auswahl

Verwendung der Upper Confidence Bound (UCB) zur Auswahl des nächsten Startknotens:

sₖ*ₘ = argmax_{s∈S*_candidate} V(s) + c·√[log N(ŝ)/(1+N(s))]

Erweiterung des reflexiven Reasoning

Basierend auf dem durch CoMCTS konstruierten einheitlichen Reasoning-Baum werden negative Geschwisterknoten identifiziert und reflexive Reasoning-Pfade konstruiert:

  1. Identifikation negativer Geschwisterknoten:
s_neg = argmin_{sₗ∈Sibling(s)} UCB(sₗ) - UCB(s)
  1. Konstruktion reflexiver Reasoning-Pfade:
Y_reflect = Replace(Y, s, (s_neg, prompt_reflect, s))

Kollektive Supervised Fine-Tuning (CoSFT)

Modelltraining mit durch CoMCTS gesuchten Daten:

L_CoSFT(πₖ) = ∑_{(Q,Y)∈D} log πₖ(Y|Q)
L_CoSFT-Re(πₖ) = ∑_{(Q,Y_reflect)∈D} log πₖ(Y_reflect|Q)

Experimentelle Einrichtung

Datensätze

Zusammensetzung des Mulberry-260k-Datensatzes:

  • 55K Mathematik-Daten (GLLaVA, GEOS, UniGeo usw.)
  • 116K Diagrammverständnis-Daten (DVQA, DocVQA, ChartQA usw.)
  • 41K Mathematik-Anwendungsdaten (IconQA, TabMWP, CLEVR usw.)
  • 2K Medizin-Daten (VQA-RAD, PMC-VQA)
  • 17K Wissenschaftsdaten (TQA, AI2D, ScienceQA)
  • 24K Fragen zur natürlichen Welt (VQA-AS, A-OKVQA usw.)

Bewertungsmetriken

Bewertung auf 8 weit verbreiteten anspruchsvollen Datensätzen: MathVista, MMStar, MMMU, ChartQA, DynaMath, HallBench, MM-Math, MME

Vergleichsmethoden

  • Closed-Source-Modelle: GPT-4o, Claude-3.5 Sonnet
  • Open-Source-Modelle: DeepSeek-VL, InternVL2, MiniCPM-V usw.
  • Reasoning-Modelle: LLaVA-CoT, LLaVA-Reasoner, Insight-V

Implementierungsdetails

  • Kollektives Lernen mit 4 Modellen: GPT-4o, Qwen2-VL-7B, LLaMA-3.2-11B-Vision-Instruct, Qwen2-VL-72B
  • Maximale Suchiterationen: 20
  • Batch-Größe: 128, Lernrate: 1e-5, Trainingsrunden: 2

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich mit Baseline-Modellen:

  • Mulberry-7B zeigt durchschnittliche Verbesserung von 4,2% gegenüber Qwen2-VL-7B
  • Mulberry-11B zeigt durchschnittliche Verbesserung von 7,5% gegenüber LLaMA-3.2-11B-Vision-Instruct
  • Mulberry-2B zeigt durchschnittliche Verbesserung von 5,4% gegenüber Qwen2-VL-2B
  • Mulberry-8B zeigt durchschnittliche Verbesserung von 11,0% gegenüber LLaVA-NeXT-8B

Vergleich mit Reasoning-Response-Modellen:

  • Auf MathVista zeigt Mulberry Verbesserungen von 5,7% bzw. 6,5% gegenüber LLaVA-Reasoner-8B und Insight-V-8B
  • Auf MMMU Verbesserungen von 3,0% bzw. 1,0%

Vergleich mit SOTA-Modellen: Mulberry zeigt die beste Leistung unter den meisten Open-Source-MLLMs und nähert sich in einigen Metriken der Leistung von Closed-Source-Modellen an.

Ablationsstudien

Analyse der CoMCTS-Komponenten (Tabelle 2):

  • Direkte Vorhersage von GPT-4o: 58,2% Sucherfolgquote
  • Nur CoMCTS von GPT-4o: 63,8%
  • Schrittweise Hinzufügung weiterer Modelle führt zu kontinuierlichen Leistungsverbesserungen
  • Vollständiges CoMCTS: 80,2% Sucherfolgquote

Beitrag reflexiver Daten (Tabelle 3): Auf MathVista führt die Hinzufügung reflexiver Daten zu einer Leistungsverbesserung von 0,8%, was die Komplementarität von Effektivitäts- und reflexiven Reasoning-Daten belegt.

Vergleich von Baumsuche-Methoden

CoMCTS zeigt signifikante Überlegenheit gegenüber anderen Baumsuche-Methoden:

  • Sucherfolgquote: 80,2% vs. 66,2% (Omega-MCTS)
  • Durchschnittliche Suchiterationen: 12,7 vs. 24,3 (Omega-MCTS)

Fallstudienanalyse

Qualitative Vergleiche zeigen, dass Mulberry reichhaltige, explizite und gut definierte Reasoning-Schritte generieren kann, während Baseline-Modelle relativ kurze Vorhersagen mit höherer Fehlerquote generieren.

Verwandte Arbeiten

Multimodale große Sprachmodelle

MLLMs haben bedeutende Fortschritte im allgemeinen visuell-sprachlichen Verständnis erzielt, stoßen aber bei komplexen Aufgaben, die tiefes Reasoning erfordern, auf Herausforderungen.

Reasoning in großen Sprachmodellen

Reasoning-Methoden lassen sich in drei Kategorien einteilen:

  1. Prompt-basierte Methoden: wie Chain-of-Thought (CoT)
  2. Planungsbasierte Methoden: wie Tree/Graph-of-Thought
  3. Lernbasierte Methoden: wie GPT-o1, Star, Iter-MCTS usw.

Monte-Carlo-Baumsuche

MCTS wird in Spielen, Robotik, Theorembeweisen und anderen Bereichen weit verbreitet angewendet. Diese Arbeit führt erstmals kollektives Lernen in MCTS für MLLMs ein.

Kollektives Lernen

Kollektives Lernen zielt darauf ab, die kollektive Intelligenz mehrerer Individuen zu nutzen, um Lernergebnisse zu verbessern. Diese Arbeit wendet es auf die Suche nach Reasoning-Pfaden an.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. CoMCTS löst effektiv die Probleme der Sucheffizienz und Effektivität traditioneller MCTS auf MLLMs durch kollektives Lernen.
  2. Der Mulberry-260k-Datensatz bietet wertvolle Ressourcen für die multimodale Reasoning-Forschung.
  3. Die Mulberry-Modellserie zeigt hervorragende schrittweise Reasoning- und Reflexionsfähigkeiten auf mehreren Benchmarks.

Einschränkungen

  1. Rechnerische Kosten: Erfordert die Teilnahme mehrerer Modelle an der kollektiven Suche, was zu erheblichem Rechenaufwand führt.
  2. Modellabhängigkeit: Die Suchqualität hängt von der Qualität der an kollektivem Lernen beteiligten Modelle ab.
  3. Domänenadaptation: Die Leistung in spezifischen Domänen kann durch die Verteilung der Trainingsdaten begrenzt sein.

Zukünftige Richtungen

  1. Erforschung effizienterer Mechanismen für kollektives Lernen
  2. Erweiterung auf weitere Modalitäten und Aufgabentypen
  3. Untersuchung adaptiver Strategien zur Zuweisung von Reasoning-Schritten

Tiefgreifende Bewertung

Stärken

  1. Starke Methodische Innovation: Erstmalige Integration des Konzepts des kollektiven Lernens in MCTS für MLLMs, löst Schlüsselprobleme traditioneller Methoden.
  2. Umfassende Experimente: Vollständige Bewertung auf mehreren Datensätzen und Modellen, einschließlich Ablationsstudien und Vergleichsanalysen.
  3. Hoher praktischer Wert: Der konstruierte Datensatz und die Modelle haben wichtigen Wert für die Gemeinschaft.
  4. Vollständige technische Details: Klare Methodenbeschreibung und ausreichende Implementierungsdetails.

Schwächen

  1. Rechnerische Effizienz: Obwohl Verbesserungen gegenüber traditionellem MCTS vorhanden sind, erfordert die Zusammenarbeit mehrerer Modelle immer noch erhebliche Rechenkosten.
  2. Generalisierungsfähigkeit: Hauptsächlich auf Mathematik- und Diagrammverständnisaufgaben validiert; die Leistung bei anderen komplexen Reasoning-Aufgaben erfordert weitere Verifikation.
  3. Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse, warum kollektives Lernen effektiv ist.

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Forschungsrichtungen für multimodales Reasoning und Baumsuche-Methoden.
  2. Praktischer Wert: Der Mulberry-260k-Datensatz und die Modelle können die Entwicklung verwandter Forschung fördern.
  3. Reproduzierbarkeit: Die Autoren verpflichten sich zur Veröffentlichung des Codes, was die Methodenverbreitung fördert.

Anwendungsszenarien

  1. Mathematische Reasoning-Aufgaben: Besonders geeignet für mathematische Probleme, die mehrstufiges Reasoning erfordern.
  2. Diagrammverständnis: Zeigt hervorragende Leistung bei Diagrammanalyse und Datenvisualisierungsverständnis.
  3. Wissenschaftliche Fragen: Anwendbar auf wissenschaftliche Fragen, die schrittweise Analyse erfordern.
  4. Bildungsanwendungen: Kann zur Konstruktion von Bildungs-KI-Systemen mit Reasoning-Fähigkeiten verwendet werden.

Literaturverzeichnis

Das Paper zitiert umfangreiche verwandte Arbeiten, einschließlich:

  • Multimodale große Sprachmodelle: LLaVA, Qwen2-VL usw.
  • Reasoning-Methoden: Chain-of-Thought, Tree-of-Thought usw.
  • Monte-Carlo-Baumsuche: AlphaGo, MCTS-Varianten usw.
  • Kollektives Lernen: Co-Training verwandte Arbeiten usw.