Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
Yao, Huang, Wu et al.
In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry
academic
Mulberry: Расширение MLLM с помощью рассуждений, подобных o1, и рефлексии через коллективный поиск по дереву Монте-Карло
Данное исследование направлено на разработку многомодального большого языковой модели (MLLM), способной понимать и решать проблемы путём создания каждого промежуточного этапа в процессе рассуждения. Для этого авторы предлагают коллективный поиск по дереву Монте-Карло (CoMCTS) — новый метод обучения рассуждениям для MLLM, который вводит концепцию коллективного обучения в "поиск по дереву", обеспечивая эффективный и результативный поиск и обучение путей рассуждения. Основная идея CoMCTS заключается в использовании коллективных знаний нескольких моделей для совместного предположения, поиска и определения эффективных путей рассуждения, ведущих к правильному ответу, посредством четырёх итеративных операций: расширение, моделирование и определение ошибок, обратное распространение и выбор. На основе CoMCTS авторы создали набор данных Mulberry-260k и обучили семейство моделей Mulberry с пошаговыми рассуждениями и способностями к рефлексии, подобными o1.
Современные многомодальные большие языковые модели (MLLM) демонстрируют значительное увеличение частоты ошибок при обработке сложных задач рассуждения. Существующие MLLM в основном используют режим "прямого предсказания", то есть генерируют краткие окончательные ответы на вопросы, лишённые явных и чётко определённых промежуточных этапов рассуждения.
Как сказал Ричард Фейнман: "То, что я не могу создать, я не могу понять". MLLM должны быть способны создавать и глубоко понимать каждый этап процесса рассуждения, что критически важно для решения сложных задач.
Проблема эффективности поиска: Традиционные методы MCTS работают на основе самоуправления, но современные MLLM не имеют явного обучения промежуточным этапам рассуждения, что приводит к застреванию в однородных низкокачественных узлах в пространстве рассуждений одной MLLM
Проблема эффективности поиска: Традиционный MCTS расширяет только один последующий узел рассуждения на каждой итерации поиска, требуя множество итераций, что неэффективно для вычислительно интенсивных MLLM
Вдохновлённые недавними достижениями, такими как OpenAI o1, авторы стремились применить методы "поиска по дереву" к MLLM, однако прямое применение оказалось неэффективным, поэтому потребовалось разработать новый механизм коллективного обучения для решения проблем поиска.
Предложение метода CoMCTS: Впервые вводит концепцию коллективного обучения в MCTS, используя коллективные знания для совместного предположения, поиска и определения эффективных и рефлексивных путей рассуждения для MLLM
Создание набора данных Mulberry-260k: Предоставляет ценный ресурс для продвижения исследований пошагового рассуждения и рефлексии в MLLM
Разработка семейства моделей Mulberry: MLLM с выдающимися способностями пошагового рассуждения и рефлексии
Экспериментальная верификация: Демонстрирует превосходство метода на множестве эталонных тестов
Учитывая многомодальный входной вопрос Q (например, текстовую инструкцию задачи, содержащую изображение), целью является генерирование последовательности промежуточных состояний рассуждения (s₁, s₂, s₃, ..., sₘ), в результате чего получается правильный ответ.
Начиная с текущего листового узла sₖₘ, используются несколько MLLM для параллельного расширения разнообразных и дополняющих друг друга кандидатов путей рассуждения:
На основе унифицированного дерева рассуждения, построенного CoMCTS, определяются узлы-братья отрицательных примеров и строятся пути рефлексивного рассуждения:
Mulberry-7B показывает среднее улучшение на 4,2% по сравнению с Qwen2-VL-7B
Mulberry-11B показывает среднее улучшение на 7,5% по сравнению с LLaMA-3.2-11B-Vision-Instruct
Mulberry-2B показывает среднее улучшение на 5,4% по сравнению с Qwen2-VL-2B
Mulberry-8B показывает среднее улучшение на 11,0% по сравнению с LLaVA-NeXT-8B
Сравнение с моделями рассуждений:
На MathVista Mulberry показывает улучшение на 5,7% и 6,5% по сравнению с LLaVA-Reasoner-8B и Insight-V-8B соответственно
На MMMU улучшение составляет 3,0% и 1,0% соответственно
Сравнение с моделями SOTA:
Mulberry демонстрирует лучшие результаты среди большинства открытых MLLM и приближается к производительности закрытых моделей по некоторым метрикам.
Постепенное добавление большего количества моделей обеспечивает непрерывное улучшение производительности
Полный CoMCTS: 80,2% успешности поиска
Вклад данных рефлексии (Таблица 3):
На MathVista добавление данных рефлексии улучшает производительность на 0,8%, что подтверждает дополняющий характер данных эффективности и рефлексивного рассуждения.
Качественное сравнение показывает, что Mulberry способна генерировать богатые, явные и чётко определённые этапы рассуждения, тогда как базовые модели генерируют относительно краткие предсказания, подверженные ошибкам.
MLLM достигли значительного прогресса в общем понимании визуально-языковой информации, однако всё ещё сталкиваются с проблемами при решении сложных задач, требующих глубокого рассуждения.
MCTS широко применяется в играх, робототехнике, доказательстве теорем и других областях. В данной работе впервые вводится коллективное обучение в MCTS для MLLM.
Коллективное обучение направлено на улучшение результатов обучения путём использования коллективной мудрости нескольких индивидов. В данной работе оно применяется к поиску путей рассуждения.
Вычислительная эффективность: Хотя улучшена по сравнению с традиционным MCTS, всё ещё требует сотрудничества нескольких моделей, что приводит к высоким вычислительным затратам
Способность к обобщению: Главным образом проверена на задачах математического рассуждения и понимания диаграмм, требуется дальнейшая проверка производительности на других сложных задачах рассуждения
Недостаток теоретического анализа: Отсутствует глубокий теоретический анализ того, почему коллективное обучение эффективно