2025-11-18T01:52:13.530679

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Yao, Huang, Wu et al.
In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry
academic

Mulberry: Empoderando MLLM con Razonamiento Tipo o1 y Reflexión a través de Búsqueda Colectiva de Árbol de Monte Carlo

Información Básica

  • ID del Artículo: 2412.18319
  • Título: Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
  • Autores: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
  • Clasificación: cs.CV cs.AI
  • Fecha de Publicación: 31 de diciembre de 2024 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2412.18319

Resumen

Este estudio tiene como objetivo desarrollar un modelo de lenguaje multimodal de gran escala (MLLM) capaz de comprender y resolver problemas mediante el aprendizaje de la creación de cada paso intermedio en el proceso de razonamiento. Para ello, los autores proponen la Búsqueda Colectiva de Árbol de Monte Carlo (CoMCTS), un nuevo método de aprendizaje de razonamiento para MLLMs que introduce conceptos de aprendizaje colectivo en la "búsqueda de árbol", logrando una búsqueda y aprendizaje de rutas de razonamiento efectivos y eficientes. La idea central de CoMCTS es aprovechar el conocimiento colectivo de múltiples modelos, mediante cuatro operaciones iterativas—expansión, simulación y localización de errores, retropropagación y selección—para colaborativamente conjeturar, buscar e identificar rutas de razonamiento efectivas hacia respuestas correctas. Basándose en CoMCTS, los autores construyen el conjunto de datos Mulberry-260k y entrenan la serie de modelos Mulberry con capacidades de razonamiento paso a paso y reflexión similares a o1.

Contexto de Investigación y Motivación

Definición del Problema

Los modelos de lenguaje multimodal actuales (MLLMs) presentan una tasa de fallo notablemente aumentada al procesar tareas complejas de razonamiento. Los MLLMs existentes adoptan principalmente un modo de "predicción directa", es decir, generan respuestas finales breves para preguntas, careciendo de pasos de razonamiento intermedio explícitos y bien definidos.

Importancia

Como dijo Feynman: "Lo que no puedo crear, no puedo entender." Los MLLMs deberían ser capaces de crear y comprender profundamente cada paso en el proceso de razonamiento, lo cual es crucial para resolver tareas complejas.

Limitaciones de Métodos Existentes

  1. Problema de Efectividad de Búsqueda: Los métodos MCTS tradicionales funcionan mediante auto-guía, pero los MLLMs actuales carecen de entrenamiento explícito en pasos de razonamiento intermedio, tendiendo a quedar atrapados en nodos de baja calidad homogéneos dentro del espacio de razonamiento de un único MLLM.
  2. Problema de Eficiencia de Búsqueda: El MCTS tradicional expande solo un nodo de razonamiento posterior por iteración de búsqueda, requiriendo numerosas iteraciones, lo que es ineficiente para MLLMs computacionalmente intensivos.

Motivación de la Investigación

Inspirados por avances recientes como OpenAI o1, los autores desean aplicar métodos de "búsqueda de árbol" a MLLMs, pero la aplicación directa no funciona bien, por lo que necesitan diseñar nuevos mecanismos de aprendizaje colectivo para abordar los desafíos de búsqueda.

Contribuciones Principales

  1. Propuesta del Método CoMCTS: Por primera vez, introduce conceptos de aprendizaje colectivo en MCTS, utilizando conocimiento colectivo para colaborativamente conjeturar, buscar e identificar rutas de razonamiento efectivas y reflexivas en MLLMs.
  2. Construcción del Conjunto de Datos Mulberry-260k: Proporciona un recurso valioso para avanzar en la investigación de razonamiento paso a paso y reflexión en MLLMs.
  3. Desarrollo de la Serie de Modelos Mulberry: MLLMs con excelentes capacidades de razonamiento paso a paso y reflexión.
  4. Validación Experimental: Demuestra la superioridad del método en múltiples pruebas de referencia.

Explicación Detallada del Método

Definición de la Tarea

Dado un problema multimodal Q (como una instrucción de tarea textual que contiene imágenes), el objetivo es generar una serie de estados de razonamiento intermedio (s₁, s₂, s₃, ..., sₘ) para obtener finalmente la respuesta correcta.

Arquitectura Principal de CoMCTS

CoMCTS utiliza el conocimiento colectivo de un conjunto de MLLMs {π₁, π₂, ..., πₖ}, iterando a través de cuatro operaciones clave para buscar rutas de razonamiento:

(a) Expansión

Comenzando desde el nodo hoja actual sₖₘ, utiliza múltiples MLLMs para expandir en paralelo rutas de razonamiento candidatas diversas y complementarias:

S^j_candidate ~ πⱼ(·|Q, Parent(sₖₘ), sₖₘ)

(b) Simulación y Localización de Errores

Utiliza conocimiento colectivo para evaluar el valor de nodos candidatos, identificando y filtrando nodos de razonamiento erróneo:

R(sʲᵢ) = (1/K) ∑ᵏₗ₌₁ πₗ(·|prompt_eval, Q, Parent(sʲᵢ), sʲᵢ)
S*_candidate = {sʲᵢ ∈ S_candidate | R(sʲᵢ) ≥ t}

(c) Retropropagación

Actualiza de abajo hacia arriba el número de visitas N y el valor del nodo V para cada nodo en el árbol de razonamiento:

V(s) ← [N(s)·V(s) + ∑_{sₗ∈Child(s)} R(sₗ)] / [N(s) + CountChild(S*_candidate, s)]
N(s) ← N(s) + CountChild(S*_candidate, s)

(d) Selección

Utiliza Upper Confidence Bound (UCB) para seleccionar el siguiente nodo de inicio:

sₖ*ₘ = argmax_{s∈S*_candidate} V(s) + c·√[log N(ŝ)/(1+N(s))]

Extensión de Razonamiento Reflexivo

Basándose en el árbol de razonamiento unificado construido por CoMCTS, identifica nodos hermanos negativos y construye rutas de razonamiento reflexivo:

  1. Identificación de Nodos Hermanos Negativos:
s_neg = argmin_{sₗ∈Sibling(s)} UCB(sₗ) - UCB(s)
  1. Construcción de Rutas de Razonamiento Reflexivo:
Y_reflect = Replace(Y, s, (s_neg, prompt_reflect, s))

Ajuste Fino Supervisado Colectivo (CoSFT)

Entrena modelos utilizando datos buscados por CoMCTS:

L_CoSFT(πₖ) = ∑_{(Q,Y)∈D} log πₖ(Y|Q)
L_CoSFT-Re(πₖ) = ∑_{(Q,Y_reflect)∈D} log πₖ(Y_reflect|Q)

Configuración Experimental

Conjuntos de Datos

Composición del Conjunto de Datos Mulberry-260k:

  • 55K datos matemáticos (GLLaVA, GEOS, UniGeo, etc.)
  • 116K datos de comprensión de gráficos (DVQA, DocVQA, ChartQA, etc.)
  • 41K datos de problemas matemáticos aplicados (IconQA, TabMWP, CLEVR, etc.)
  • 2K datos médicos (VQA-RAD, PMC-VQA)
  • 17K datos científicos (TQA, AI2D, ScienceQA)
  • 24K datos de preguntas sobre el mundo natural (VQA-AS, A-OKVQA, etc.)

Métricas de Evaluación

Se evalúa en 8 conjuntos de datos desafiantes ampliamente utilizados: MathVista, MMStar, MMMU, ChartQA, DynaMath, HallBench, MM-Math, MME

Métodos de Comparación

  • Modelos de código cerrado: GPT-4o, Claude-3.5 Sonnet
  • Modelos de código abierto: DeepSeek-VL, InternVL2, MiniCPM-V, etc.
  • Modelos de razonamiento: LLaVA-CoT, LLaVA-Reasoner, Insight-V

Detalles de Implementación

  • Aprendizaje colectivo utilizando 4 modelos: GPT-4o, Qwen2-VL-7B, LLaMA-3.2-11B-Vision-Instruct, Qwen2-VL-72B
  • Número máximo de iteraciones de búsqueda: 20
  • Tamaño de lote: 128, tasa de aprendizaje: 1e-5, épocas de entrenamiento: 2

Resultados Experimentales

Resultados Principales

Comparación con Modelos Base:

  • Mulberry-7B mejora en promedio 4.2% en comparación con Qwen2-VL-7B
  • Mulberry-11B mejora en promedio 7.5% en comparación con LLaMA-3.2-11B-Vision-Instruct
  • Mulberry-2B mejora en promedio 5.4% en comparación con Qwen2-VL-2B
  • Mulberry-8B mejora en promedio 11.0% en comparación con LLaVA-NeXT-8B

Comparación con Modelos de Respuesta de Razonamiento:

  • En MathVista, Mulberry mejora 5.7% y 6.5% respectivamente en comparación con LLaVA-Reasoner-8B e Insight-V-8B
  • En MMMU mejora 3.0% y 1.0% respectivamente

Comparación con Modelos SOTA: Mulberry muestra el mejor rendimiento entre la mayoría de MLLMs de código abierto, acercándose al rendimiento de modelos de código cerrado en algunas métricas.

Experimentos de Ablación

Análisis de Componentes de CoMCTS (Tabla 2):

  • Predicción directa de GPT-4o: 58.2% de tasa de éxito de búsqueda
  • CoMCTS solo con GPT-4o: 63.8%
  • La adición gradual de más modelos mejora continuamente el rendimiento
  • CoMCTS completo: 80.2% de tasa de éxito de búsqueda

Contribución de Datos Reflexivos (Tabla 3): En MathVista, la adición de datos reflexivos mejora el rendimiento en 0.8%, demostrando la complementariedad de datos de razonamiento efectivo y reflexivo.

Comparación de Métodos de Búsqueda de Árbol

CoMCTS muestra una superioridad significativa en comparación con otros métodos de búsqueda de árbol:

  • Tasa de éxito de búsqueda: 80.2% vs 66.2% (Omega-MCTS)
  • Iteraciones promedio de búsqueda: 12.7 vs 24.3 (Omega-MCTS)

Análisis de Casos

La comparación cualitativa muestra que Mulberry puede generar pasos de razonamiento ricos, explícitos y bien definidos, mientras que los modelos base generan predicciones relativamente breves y propensas a errores.

Trabajo Relacionado

Modelos de Lenguaje Multimodal de Gran Escala

Los MLLMs han logrado avances significativos en comprensión visual-lingüística general, pero aún enfrentan desafíos en tareas complejas que requieren razonamiento profundo.

Razonamiento en Modelos de Lenguaje de Gran Escala

Los métodos de razonamiento se pueden clasificar en tres categorías:

  1. Métodos Basados en Indicaciones: Como Chain-of-Thought (CoT)
  2. Métodos Basados en Planificación: Como Tree/Graph-of-thought
  3. Métodos Basados en Aprendizaje: Como GPT-o1, Star, Iter-MCTS, etc.

Búsqueda de Árbol de Monte Carlo

MCTS se ha aplicado ampliamente en juegos, robótica, demostración de teoremas, etc. Este artículo es el primero en introducir aprendizaje colectivo en MCTS para MLLMs.

Aprendizaje Colectivo

El aprendizaje colectivo tiene como objetivo mejorar los resultados del aprendizaje aprovechando la sabiduría colectiva de múltiples individuos. Este artículo lo aplica a la búsqueda de rutas de razonamiento.

Conclusiones y Discusión

Conclusiones Principales

  1. CoMCTS resuelve efectivamente los problemas de eficiencia y efectividad de búsqueda del MCTS tradicional en MLLMs mediante aprendizaje colectivo.
  2. El conjunto de datos Mulberry-260k proporciona un recurso valioso para la investigación de razonamiento multimodal.
  3. Los modelos Mulberry demuestran excelentes capacidades de razonamiento paso a paso y reflexión en múltiples pruebas de referencia.

Limitaciones

  1. Costo Computacional: Requiere la participación de múltiples modelos en búsqueda colectiva, con gastos computacionales considerables.
  2. Dependencia del Modelo: La calidad de búsqueda depende de la calidad de los modelos participantes en el aprendizaje colectivo.
  3. Adaptabilidad de Dominio: El rendimiento en dominios específicos puede estar limitado por la distribución de datos de entrenamiento.

Direcciones Futuras

  1. Explorar mecanismos de aprendizaje colectivo más eficientes.
  2. Extender a más modalidades y tipos de tareas.
  3. Investigar estrategias adaptativas de asignación de pasos de razonamiento.

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación Metodológica: Por primera vez introduce aprendizaje colectivo en MCTS para MLLMs, resolviendo problemas clave de métodos tradicionales.
  2. Experimentación Completa: Realiza evaluación integral en múltiples conjuntos de datos y modelos, incluyendo experimentos de ablación y análisis comparativos.
  3. Alto Valor Práctico: El conjunto de datos y modelos construidos tienen valor importante para la comunidad.
  4. Detalles Técnicos Completos: La descripción del método es clara y los detalles de implementación son suficientes.

Insuficiencias

  1. Eficiencia Computacional: Aunque mejora en comparación con MCTS tradicional, aún requiere colaboración de múltiples modelos con costos computacionales relativamente altos.
  2. Capacidad de Generalización: Se valida principalmente en tareas de razonamiento matemático y comprensión de gráficos; el rendimiento en otras tareas complejas de razonamiento requiere validación adicional.
  3. Análisis Teórico Insuficiente: Carece de análisis teórico profundo sobre por qué el aprendizaje colectivo es efectivo.

Impacto

  1. Contribución Académica: Proporciona nuevas direcciones de investigación para razonamiento multimodal y métodos de búsqueda de árbol.
  2. Valor Práctico: El conjunto de datos Mulberry-260k y los modelos pueden promover el desarrollo de investigación relacionada.
  3. Reproducibilidad: Los autores se comprometen a liberar el código, facilitando la promoción del método.

Escenarios Aplicables

  1. Tareas de Razonamiento Matemático: Particularmente adecuado para problemas matemáticos que requieren razonamiento multietapa.
  2. Comprensión de Gráficos: Muestra rendimiento excelente en análisis de gráficos y comprensión de visualización de datos.
  3. Preguntas Científicas: Aplicable a la resolución de preguntas científicas que requieren análisis paso a paso.
  4. Aplicaciones Educativas: Puede utilizarse para construir sistemas de IA educativa con capacidades de razonamiento.

Referencias

El artículo cita ampliamente trabajos relacionados, incluyendo:

  • Modelos de lenguaje multimodal de gran escala: LLaVA, Qwen2-VL, etc.
  • Métodos de razonamiento: Chain-of-Thought, Tree-of-Thought, etc.
  • Búsqueda de Árbol de Monte Carlo: AlphaGo, variantes de MCTS, etc.
  • Aprendizaje colectivo: Trabajos relacionados con Co-training, etc.