2025-11-18T01:52:13.530679

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Yao, Huang, Wu et al.
In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry
academic

Mulberry: Расширение MLLM с помощью рассуждений, подобных o1, и рефлексии через коллективный поиск по дереву Монте-Карло

Основная информация

  • ID статьи: 2412.18319
  • Название: Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
  • Авторы: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
  • Классификация: cs.CV cs.AI
  • Дата публикации: 31 декабря 2024 г. (arXiv v2)
  • Ссылка на статью: https://arxiv.org/abs/2412.18319

Аннотация

Данное исследование направлено на разработку многомодального большого языковой модели (MLLM), способной понимать и решать проблемы путём создания каждого промежуточного этапа в процессе рассуждения. Для этого авторы предлагают коллективный поиск по дереву Монте-Карло (CoMCTS) — новый метод обучения рассуждениям для MLLM, который вводит концепцию коллективного обучения в "поиск по дереву", обеспечивая эффективный и результативный поиск и обучение путей рассуждения. Основная идея CoMCTS заключается в использовании коллективных знаний нескольких моделей для совместного предположения, поиска и определения эффективных путей рассуждения, ведущих к правильному ответу, посредством четырёх итеративных операций: расширение, моделирование и определение ошибок, обратное распространение и выбор. На основе CoMCTS авторы создали набор данных Mulberry-260k и обучили семейство моделей Mulberry с пошаговыми рассуждениями и способностями к рефлексии, подобными o1.

Исследовательский контекст и мотивация

Определение проблемы

Современные многомодальные большие языковые модели (MLLM) демонстрируют значительное увеличение частоты ошибок при обработке сложных задач рассуждения. Существующие MLLM в основном используют режим "прямого предсказания", то есть генерируют краткие окончательные ответы на вопросы, лишённые явных и чётко определённых промежуточных этапов рассуждения.

Значимость

Как сказал Ричард Фейнман: "То, что я не могу создать, я не могу понять". MLLM должны быть способны создавать и глубоко понимать каждый этап процесса рассуждения, что критически важно для решения сложных задач.

Ограничения существующих методов

  1. Проблема эффективности поиска: Традиционные методы MCTS работают на основе самоуправления, но современные MLLM не имеют явного обучения промежуточным этапам рассуждения, что приводит к застреванию в однородных низкокачественных узлах в пространстве рассуждений одной MLLM
  2. Проблема эффективности поиска: Традиционный MCTS расширяет только один последующий узел рассуждения на каждой итерации поиска, требуя множество итераций, что неэффективно для вычислительно интенсивных MLLM

Исследовательская мотивация

Вдохновлённые недавними достижениями, такими как OpenAI o1, авторы стремились применить методы "поиска по дереву" к MLLM, однако прямое применение оказалось неэффективным, поэтому потребовалось разработать новый механизм коллективного обучения для решения проблем поиска.

Основные вклады

  1. Предложение метода CoMCTS: Впервые вводит концепцию коллективного обучения в MCTS, используя коллективные знания для совместного предположения, поиска и определения эффективных и рефлексивных путей рассуждения для MLLM
  2. Создание набора данных Mulberry-260k: Предоставляет ценный ресурс для продвижения исследований пошагового рассуждения и рефлексии в MLLM
  3. Разработка семейства моделей Mulberry: MLLM с выдающимися способностями пошагового рассуждения и рефлексии
  4. Экспериментальная верификация: Демонстрирует превосходство метода на множестве эталонных тестов

Подробное описание метода

Определение задачи

Учитывая многомодальный входной вопрос Q (например, текстовую инструкцию задачи, содержащую изображение), целью является генерирование последовательности промежуточных состояний рассуждения (s₁, s₂, s₃, ..., sₘ), в результате чего получается правильный ответ.

Основная архитектура CoMCTS

CoMCTS использует коллективные знания набора MLLM {π₁, π₂, ..., πₖ} для итеративного поиска путей рассуждения посредством четырёх ключевых операций:

(a) Расширение (Expansion)

Начиная с текущего листового узла sₖₘ, используются несколько MLLM для параллельного расширения разнообразных и дополняющих друг друга кандидатов путей рассуждения:

S^j_candidate ~ πⱼ(·|Q, Parent(sₖₘ), sₖₘ)

(b) Моделирование и определение ошибок (Simulation and Error Positioning)

Используются коллективные знания для оценки стоимости кандидатных узлов, определения и фильтрации ошибочных узлов рассуждения:

R(sʲᵢ) = (1/K) ∑ᵏₗ₌₁ πₗ(·|prompt_eval, Q, Parent(sʲᵢ), sʲᵢ)
S*_candidate = {sʲᵢ ∈ S_candidate | R(sʲᵢ) ≥ t}

(c) Обратное распространение (Backpropagation)

Обновление снизу вверх количества посещений N и значения узла V для каждого узла в дереве рассуждения:

V(s) ← [N(s)·V(s) + ∑_{sₗ∈Child(s)} R(sₗ)] / [N(s) + CountChild(S*_candidate, s)]
N(s) ← N(s) + CountChild(S*_candidate, s)

(d) Выбор (Selection)

Использование верхней доверительной границы (UCB) для выбора следующего начального узла:

sₖ*ₘ = argmax_{s∈S*_candidate} V(s) + c·√[log N(ŝ)/(1+N(s))]

Расширение рефлексивного рассуждения

На основе унифицированного дерева рассуждения, построенного CoMCTS, определяются узлы-братья отрицательных примеров и строятся пути рефлексивного рассуждения:

  1. Определение узлов-братьев отрицательных примеров:
s_neg = argmin_{sₗ∈Sibling(s)} UCB(sₗ) - UCB(s)
  1. Построение пути рефлексивного рассуждения:
Y_reflect = Replace(Y, s, (s_neg, prompt_reflect, s))

Коллективная контролируемая тонкая настройка (CoSFT)

Обучение модели с использованием данных, полученных при поиске CoMCTS:

L_CoSFT(πₖ) = ∑_{(Q,Y)∈D} log πₖ(Y|Q)
L_CoSFT-Re(πₖ) = ∑_{(Q,Y_reflect)∈D} log πₖ(Y_reflect|Q)

Экспериментальная установка

Наборы данных

Состав набора данных Mulberry-260k:

  • 55K математических данных (GLLaVA, GEOS, UniGeo и др.)
  • 116K данных понимания диаграмм (DVQA, DocVQA, ChartQA и др.)
  • 41K данных математических задач приложений (IconQA, TabMWP, CLEVR и др.)
  • 2K медицинских данных (VQA-RAD, PMC-VQA)
  • 17K научных данных (TQA, AI2D, ScienceQA)
  • 24K данных вопросов и ответов о естественном мире (VQA-AS, A-OKVQA и др.)

Метрики оценки

Оценка на 8 широко используемых сложных наборах данных: MathVista, MMStar, MMMU, ChartQA, DynaMath, HallBench, MM-Math, MME

Методы сравнения

  • Закрытые модели: GPT-4o, Claude-3.5 Sonnet
  • Открытые модели: DeepSeek-VL, InternVL2, MiniCPM-V и др.
  • Модели рассуждения: LLaVA-CoT, LLaVA-Reasoner, Insight-V

Детали реализации

  • Коллективное обучение использует 4 модели: GPT-4o, Qwen2-VL-7B, LLaMA-3.2-11B-Vision-Instruct, Qwen2-VL-72B
  • Максимальное количество итераций поиска: 20
  • Размер пакета: 128, скорость обучения: 1e-5, количество эпох обучения: 2

Результаты экспериментов

Основные результаты

Сравнение с базовыми моделями:

  • Mulberry-7B показывает среднее улучшение на 4,2% по сравнению с Qwen2-VL-7B
  • Mulberry-11B показывает среднее улучшение на 7,5% по сравнению с LLaMA-3.2-11B-Vision-Instruct
  • Mulberry-2B показывает среднее улучшение на 5,4% по сравнению с Qwen2-VL-2B
  • Mulberry-8B показывает среднее улучшение на 11,0% по сравнению с LLaVA-NeXT-8B

Сравнение с моделями рассуждений:

  • На MathVista Mulberry показывает улучшение на 5,7% и 6,5% по сравнению с LLaVA-Reasoner-8B и Insight-V-8B соответственно
  • На MMMU улучшение составляет 3,0% и 1,0% соответственно

Сравнение с моделями SOTA: Mulberry демонстрирует лучшие результаты среди большинства открытых MLLM и приближается к производительности закрытых моделей по некоторым метрикам.

Абляционные исследования

Анализ компонентов CoMCTS (Таблица 2):

  • Прямое предсказание GPT-4o: 58,2% успешности поиска
  • CoMCTS только с GPT-4o: 63,8%
  • Постепенное добавление большего количества моделей обеспечивает непрерывное улучшение производительности
  • Полный CoMCTS: 80,2% успешности поиска

Вклад данных рефлексии (Таблица 3): На MathVista добавление данных рефлексии улучшает производительность на 0,8%, что подтверждает дополняющий характер данных эффективности и рефлексивного рассуждения.

Сравнение методов поиска по дереву

CoMCTS демонстрирует значительное превосходство над другими методами поиска по дереву:

  • Успешность поиска: 80,2% против 66,2% (Omega-MCTS)
  • Среднее количество итераций поиска: 12,7 против 24,3 (Omega-MCTS)

Анализ примеров

Качественное сравнение показывает, что Mulberry способна генерировать богатые, явные и чётко определённые этапы рассуждения, тогда как базовые модели генерируют относительно краткие предсказания, подверженные ошибкам.

Связанные работы

Многомодальные большие языковые модели

MLLM достигли значительного прогресса в общем понимании визуально-языковой информации, однако всё ещё сталкиваются с проблемами при решении сложных задач, требующих глубокого рассуждения.

Рассуждение в больших языковых моделях

Методы рассуждения можно разделить на три категории:

  1. Методы на основе подсказок: такие как Chain-of-Thought (CoT)
  2. Методы на основе планирования: такие как Tree/Graph-of-thought
  3. Методы на основе обучения: такие как GPT-o1, Star, Iter-MCTS и др.

Поиск по дереву Монте-Карло

MCTS широко применяется в играх, робототехнике, доказательстве теорем и других областях. В данной работе впервые вводится коллективное обучение в MCTS для MLLM.

Коллективное обучение

Коллективное обучение направлено на улучшение результатов обучения путём использования коллективной мудрости нескольких индивидов. В данной работе оно применяется к поиску путей рассуждения.

Заключение и обсуждение

Основные выводы

  1. CoMCTS эффективно решает проблемы эффективности и результативности поиска традиционного MCTS на MLLM посредством коллективного обучения
  2. Набор данных Mulberry-260k предоставляет ценный ресурс для исследований многомодального рассуждения
  3. Модели Mulberry демонстрируют выдающиеся способности пошагового рассуждения и рефлексии на множестве эталонных тестов

Ограничения

  1. Вычислительные затраты: Требует участия нескольких моделей в коллективном поиске, что приводит к значительным вычислительным расходам
  2. Зависимость от модели: Качество поиска зависит от качества моделей, участвующих в коллективном обучении
  3. Адаптивность к предметной области: Производительность в конкретных предметных областях может быть ограничена распределением данных обучения

Направления будущих исследований

  1. Исследование более эффективных механизмов коллективного обучения
  2. Расширение на дополнительные модальности и типы задач
  3. Изучение стратегий адаптивного распределения этапов рассуждения

Глубокая оценка

Преимущества

  1. Высокая инновационность метода: Впервые вводит коллективное обучение в MCTS для MLLM, решая ключевые проблемы традиционных методов
  2. Полнота экспериментов: Проводит комплексную оценку на множестве наборов данных и моделей, включая абляционные исследования и сравнительный анализ
  3. Высокая практическая ценность: Построенный набор данных и модели имеют важное значение для сообщества
  4. Полнота технических деталей: Метод описан ясно, детали реализации достаточны

Недостатки

  1. Вычислительная эффективность: Хотя улучшена по сравнению с традиционным MCTS, всё ещё требует сотрудничества нескольких моделей, что приводит к высоким вычислительным затратам
  2. Способность к обобщению: Главным образом проверена на задачах математического рассуждения и понимания диаграмм, требуется дальнейшая проверка производительности на других сложных задачах рассуждения
  3. Недостаток теоретического анализа: Отсутствует глубокий теоретический анализ того, почему коллективное обучение эффективно

Влияние

  1. Академический вклад: Предоставляет новое направление исследований для многомодального рассуждения и методов поиска по дереву
  2. Практическая ценность: Набор данных Mulberry-260k и модели могут способствовать развитию соответствующих исследований
  3. Воспроизводимость: Авторы обещают открыть исходный код, что способствует распространению метода

Применимые сценарии

  1. Задачи математического рассуждения: Особенно подходит для математических задач, требующих многошагового рассуждения
  2. Понимание диаграмм: Демонстрирует отличную производительность в анализе диаграмм и понимании визуализации данных
  3. Научные вопросы и ответы: Применимо к решению научных вопросов, требующих пошагового анализа
  4. Образовательные приложения: Может использоваться для построения образовательных систем ИИ с возможностями рассуждения

Библиография

Статья цитирует широкий спектр связанных работ, включая:

  • Многомодальные большие языковые модели: LLaVA, Qwen2-VL и др.
  • Методы рассуждения: Chain-of-Thought, Tree-of-Thought и др.
  • Поиск по дереву Монте-Карло: AlphaGo, варианты MCTS и др.
  • Коллективное обучение: работы, связанные с Co-training и др.