Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
Yao, Huang, Wu et al.
In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry
academic
Mulberry: Befähigung von MLLM mit o1-ähnlichem Reasoning und Reflexion durch kollektive Monte-Carlo-Baumsuche
Diese Forschungsarbeit zielt darauf ab, ein multimodales großes Sprachmodell (MLLM) zu entwickeln, das Probleme verstehen und lösen kann, indem es lernt, jeden Zwischenschritt im Reasoning-Prozess zu erstellen. Zu diesem Zweck schlagen die Autoren die Collective Monte Carlo Tree Search (CoMCTS) vor – eine neuartige MLLM-Lernmethode für Reasoning, die das Konzept des kollektiven Lernens in die „Baumsuche" integriert, um eine effektive und effiziente Suche und Erlernung von Reasoning-Pfaden zu ermöglichen. Die Kernidee von CoMCTS besteht darin, das kollektive Wissen mehrerer Modelle zu nutzen und durch vier iterative Operationen – Expansion, Simulation und Fehlerpositionierung, Rückwärtspropagation und Auswahl – kollaborativ gültige Reasoning-Pfade zu vermuten, zu suchen und zu identifizieren, die zur richtigen Antwort führen. Basierend auf CoMCTS konstruieren die Autoren den Mulberry-260k-Datensatz und trainieren die Mulberry-Modellserie mit o1-ähnlichen schrittweisen Reasoning- und Reflexionsfähigkeiten.
Aktuelle multimodale große Sprachmodelle (MLLMs) zeigen eine deutlich erhöhte Fehlerquote bei der Verarbeitung komplexer Reasoning-Aufgaben. Bestehende MLLMs verwenden hauptsächlich einen „direkten Vorhersage"-Modus, bei dem kurze Endantworten auf Fragen generiert werden, ohne explizite und gut definierte Zwischenschritte im Reasoning-Prozess.
Wie Feynman sagte: „Was ich nicht erschaffen kann, kann ich nicht verstehen." MLLMs sollten in der Lage sein, jeden Schritt im Reasoning-Prozess zu erstellen und tiefgreifend zu verstehen – dies ist entscheidend für die Lösung komplexer Aufgaben.
Sucheffektivitätsproblem: Traditionelle MCTS-Methoden funktionieren durch Selbststeuerung, aber aktuelle MLLMs mangelt es an explizitem Training für Zwischenschritte im Reasoning, was dazu führt, dass sie in homogenen, minderwertigen Knoten innerhalb des Reasoning-Raums eines einzelnen MLLM steckenbleiben.
Sucheffizenzproblem: Traditionelle MCTS erweitert bei jeder Suchiteration nur einen nachfolgenden Reasoning-Knoten, was zahlreiche Iterationen erfordert und für rechenintensive MLLMs ineffizient ist.
Inspiriert durch neueste Entwicklungen wie OpenAI o1 möchten die Autoren „Baumsuche"-Methoden auf MLLMs anwenden. Da die direkte Anwendung jedoch unbefriedigend ist, ist es notwendig, neue kollektive Lernmechanismen zu entwerfen, um Suchherausforderungen zu bewältigen.
Vorschlag der CoMCTS-Methode: Erstmalige Integration des Konzepts des kollektiven Lernens in MCTS, um kollektives Wissen zur kollaborativen Vermutung, Suche und Identifikation effektiver und reflexiver Reasoning-Pfade in MLLMs zu nutzen.
Konstruktion des Mulberry-260k-Datensatzes: Bereitstellung wertvoller Ressourcen zur Förderung der Forschung zu schrittweisem Reasoning und Reflexion in MLLMs.
Entwicklung der Mulberry-Modellserie: MLLMs mit hervorragenden schrittweisen Reasoning- und Reflexionsfähigkeiten.
Experimentelle Validierung: Nachweis der Überlegenheit der Methode auf mehreren Benchmarks.
Gegeben eine multimodale Eingabefrage Q (z.B. eine Textaufgabenanweisung mit Bildern), besteht das Ziel darin, eine Reihe von Zwischenschritten im Reasoning-Prozess (s₁, s₂, s₃, ..., sₘ) zu generieren, um schließlich die richtige Antwort zu erhalten.
Basierend auf dem durch CoMCTS konstruierten einheitlichen Reasoning-Baum werden negative Geschwisterknoten identifiziert und reflexive Reasoning-Pfade konstruiert:
Mulberry-7B zeigt durchschnittliche Verbesserung von 4,2% gegenüber Qwen2-VL-7B
Mulberry-11B zeigt durchschnittliche Verbesserung von 7,5% gegenüber LLaMA-3.2-11B-Vision-Instruct
Mulberry-2B zeigt durchschnittliche Verbesserung von 5,4% gegenüber Qwen2-VL-2B
Mulberry-8B zeigt durchschnittliche Verbesserung von 11,0% gegenüber LLaVA-NeXT-8B
Vergleich mit Reasoning-Response-Modellen:
Auf MathVista zeigt Mulberry Verbesserungen von 5,7% bzw. 6,5% gegenüber LLaVA-Reasoner-8B und Insight-V-8B
Auf MMMU Verbesserungen von 3,0% bzw. 1,0%
Vergleich mit SOTA-Modellen:
Mulberry zeigt die beste Leistung unter den meisten Open-Source-MLLMs und nähert sich in einigen Metriken der Leistung von Closed-Source-Modellen an.
Direkte Vorhersage von GPT-4o: 58,2% Sucherfolgquote
Nur CoMCTS von GPT-4o: 63,8%
Schrittweise Hinzufügung weiterer Modelle führt zu kontinuierlichen Leistungsverbesserungen
Vollständiges CoMCTS: 80,2% Sucherfolgquote
Beitrag reflexiver Daten (Tabelle 3):
Auf MathVista führt die Hinzufügung reflexiver Daten zu einer Leistungsverbesserung von 0,8%, was die Komplementarität von Effektivitäts- und reflexiven Reasoning-Daten belegt.
Qualitative Vergleiche zeigen, dass Mulberry reichhaltige, explizite und gut definierte Reasoning-Schritte generieren kann, während Baseline-Modelle relativ kurze Vorhersagen mit höherer Fehlerquote generieren.
MLLMs haben bedeutende Fortschritte im allgemeinen visuell-sprachlichen Verständnis erzielt, stoßen aber bei komplexen Aufgaben, die tiefes Reasoning erfordern, auf Herausforderungen.
MCTS wird in Spielen, Robotik, Theorembeweisen und anderen Bereichen weit verbreitet angewendet. Diese Arbeit führt erstmals kollektives Lernen in MCTS für MLLMs ein.
Kollektives Lernen zielt darauf ab, die kollektive Intelligenz mehrerer Individuen zu nutzen, um Lernergebnisse zu verbessern. Diese Arbeit wendet es auf die Suche nach Reasoning-Pfaden an.
Starke Methodische Innovation: Erstmalige Integration des Konzepts des kollektiven Lernens in MCTS für MLLMs, löst Schlüsselprobleme traditioneller Methoden.
Umfassende Experimente: Vollständige Bewertung auf mehreren Datensätzen und Modellen, einschließlich Ablationsstudien und Vergleichsanalysen.
Hoher praktischer Wert: Der konstruierte Datensatz und die Modelle haben wichtigen Wert für die Gemeinschaft.
Vollständige technische Details: Klare Methodenbeschreibung und ausreichende Implementierungsdetails.
Rechnerische Effizienz: Obwohl Verbesserungen gegenüber traditionellem MCTS vorhanden sind, erfordert die Zusammenarbeit mehrerer Modelle immer noch erhebliche Rechenkosten.
Generalisierungsfähigkeit: Hauptsächlich auf Mathematik- und Diagrammverständnisaufgaben validiert; die Leistung bei anderen komplexen Reasoning-Aufgaben erfordert weitere Verifikation.
Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse, warum kollektives Lernen effektiv ist.