Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
Yao, Huang, Wu et al.
In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry
academic
Mulberry: Empoderando MLLM con Razonamiento Tipo o1 y Reflexión a través de Búsqueda Colectiva de Árbol de Monte Carlo
Este estudio tiene como objetivo desarrollar un modelo de lenguaje multimodal de gran escala (MLLM) capaz de comprender y resolver problemas mediante el aprendizaje de la creación de cada paso intermedio en el proceso de razonamiento. Para ello, los autores proponen la Búsqueda Colectiva de Árbol de Monte Carlo (CoMCTS), un nuevo método de aprendizaje de razonamiento para MLLMs que introduce conceptos de aprendizaje colectivo en la "búsqueda de árbol", logrando una búsqueda y aprendizaje de rutas de razonamiento efectivos y eficientes. La idea central de CoMCTS es aprovechar el conocimiento colectivo de múltiples modelos, mediante cuatro operaciones iterativas—expansión, simulación y localización de errores, retropropagación y selección—para colaborativamente conjeturar, buscar e identificar rutas de razonamiento efectivas hacia respuestas correctas. Basándose en CoMCTS, los autores construyen el conjunto de datos Mulberry-260k y entrenan la serie de modelos Mulberry con capacidades de razonamiento paso a paso y reflexión similares a o1.
Los modelos de lenguaje multimodal actuales (MLLMs) presentan una tasa de fallo notablemente aumentada al procesar tareas complejas de razonamiento. Los MLLMs existentes adoptan principalmente un modo de "predicción directa", es decir, generan respuestas finales breves para preguntas, careciendo de pasos de razonamiento intermedio explícitos y bien definidos.
Como dijo Feynman: "Lo que no puedo crear, no puedo entender." Los MLLMs deberían ser capaces de crear y comprender profundamente cada paso en el proceso de razonamiento, lo cual es crucial para resolver tareas complejas.
Problema de Efectividad de Búsqueda: Los métodos MCTS tradicionales funcionan mediante auto-guía, pero los MLLMs actuales carecen de entrenamiento explícito en pasos de razonamiento intermedio, tendiendo a quedar atrapados en nodos de baja calidad homogéneos dentro del espacio de razonamiento de un único MLLM.
Problema de Eficiencia de Búsqueda: El MCTS tradicional expande solo un nodo de razonamiento posterior por iteración de búsqueda, requiriendo numerosas iteraciones, lo que es ineficiente para MLLMs computacionalmente intensivos.
Inspirados por avances recientes como OpenAI o1, los autores desean aplicar métodos de "búsqueda de árbol" a MLLMs, pero la aplicación directa no funciona bien, por lo que necesitan diseñar nuevos mecanismos de aprendizaje colectivo para abordar los desafíos de búsqueda.
Propuesta del Método CoMCTS: Por primera vez, introduce conceptos de aprendizaje colectivo en MCTS, utilizando conocimiento colectivo para colaborativamente conjeturar, buscar e identificar rutas de razonamiento efectivas y reflexivas en MLLMs.
Construcción del Conjunto de Datos Mulberry-260k: Proporciona un recurso valioso para avanzar en la investigación de razonamiento paso a paso y reflexión en MLLMs.
Desarrollo de la Serie de Modelos Mulberry: MLLMs con excelentes capacidades de razonamiento paso a paso y reflexión.
Validación Experimental: Demuestra la superioridad del método en múltiples pruebas de referencia.
Dado un problema multimodal Q (como una instrucción de tarea textual que contiene imágenes), el objetivo es generar una serie de estados de razonamiento intermedio (s₁, s₂, s₃, ..., sₘ) para obtener finalmente la respuesta correcta.
CoMCTS utiliza el conocimiento colectivo de un conjunto de MLLMs {π₁, π₂, ..., πₖ}, iterando a través de cuatro operaciones clave para buscar rutas de razonamiento:
Comenzando desde el nodo hoja actual sₖₘ, utiliza múltiples MLLMs para expandir en paralelo rutas de razonamiento candidatas diversas y complementarias:
Basándose en el árbol de razonamiento unificado construido por CoMCTS, identifica nodos hermanos negativos y construye rutas de razonamiento reflexivo:
Mulberry-7B mejora en promedio 4.2% en comparación con Qwen2-VL-7B
Mulberry-11B mejora en promedio 7.5% en comparación con LLaMA-3.2-11B-Vision-Instruct
Mulberry-2B mejora en promedio 5.4% en comparación con Qwen2-VL-2B
Mulberry-8B mejora en promedio 11.0% en comparación con LLaVA-NeXT-8B
Comparación con Modelos de Respuesta de Razonamiento:
En MathVista, Mulberry mejora 5.7% y 6.5% respectivamente en comparación con LLaVA-Reasoner-8B e Insight-V-8B
En MMMU mejora 3.0% y 1.0% respectivamente
Comparación con Modelos SOTA:
Mulberry muestra el mejor rendimiento entre la mayoría de MLLMs de código abierto, acercándose al rendimiento de modelos de código cerrado en algunas métricas.
Predicción directa de GPT-4o: 58.2% de tasa de éxito de búsqueda
CoMCTS solo con GPT-4o: 63.8%
La adición gradual de más modelos mejora continuamente el rendimiento
CoMCTS completo: 80.2% de tasa de éxito de búsqueda
Contribución de Datos Reflexivos (Tabla 3):
En MathVista, la adición de datos reflexivos mejora el rendimiento en 0.8%, demostrando la complementariedad de datos de razonamiento efectivo y reflexivo.
La comparación cualitativa muestra que Mulberry puede generar pasos de razonamiento ricos, explícitos y bien definidos, mientras que los modelos base generan predicciones relativamente breves y propensas a errores.
Los MLLMs han logrado avances significativos en comprensión visual-lingüística general, pero aún enfrentan desafíos en tareas complejas que requieren razonamiento profundo.
MCTS se ha aplicado ampliamente en juegos, robótica, demostración de teoremas, etc. Este artículo es el primero en introducir aprendizaje colectivo en MCTS para MLLMs.
El aprendizaje colectivo tiene como objetivo mejorar los resultados del aprendizaje aprovechando la sabiduría colectiva de múltiples individuos. Este artículo lo aplica a la búsqueda de rutas de razonamiento.
Fuerte Innovación Metodológica: Por primera vez introduce aprendizaje colectivo en MCTS para MLLMs, resolviendo problemas clave de métodos tradicionales.
Experimentación Completa: Realiza evaluación integral en múltiples conjuntos de datos y modelos, incluyendo experimentos de ablación y análisis comparativos.
Alto Valor Práctico: El conjunto de datos y modelos construidos tienen valor importante para la comunidad.
Detalles Técnicos Completos: La descripción del método es clara y los detalles de implementación son suficientes.
Eficiencia Computacional: Aunque mejora en comparación con MCTS tradicional, aún requiere colaboración de múltiples modelos con costos computacionales relativamente altos.
Capacidad de Generalización: Se valida principalmente en tareas de razonamiento matemático y comprensión de gráficos; el rendimiento en otras tareas complejas de razonamiento requiere validación adicional.
Análisis Teórico Insuficiente: Carece de análisis teórico profundo sobre por qué el aprendizaje colectivo es efectivo.