ReZero: Boosting MCTS-based Algorithms by Backward-view and Entire-buffer Reanalyze
Xuan, Niu, Pu et al.
Monte Carlo Tree Search (MCTS)-based algorithms, such as MuZero and its derivatives, have achieved widespread success in various decision-making domains. These algorithms employ the reanalyze process to enhance sample efficiency from stale data, albeit at the expense of significant wall-clock time consumption. To address this issue, we propose a general approach named ReZero to boost tree search operations for MCTS-based algorithms. Specifically, drawing inspiration from the one-armed bandit model, we reanalyze training samples through a backward-view reuse technique which uses the value estimation of a certain child node to save the corresponding sub-tree search time. To further adapt to this design, we periodically reanalyze the entire buffer instead of frequently reanalyzing the mini-batch. The synergy of these two designs can significantly reduce the search cost and meanwhile guarantee or even improve performance, simplifying both data collecting and reanalyzing. Experiments conducted on Atari environments, DMControl suites and board games demonstrate that ReZero substantially improves training speed while maintaining high sample efficiency. The code is available as part of the LightZero MCTS benchmark at https://github.com/opendilab/LightZero.
academic
ReZero: Ускорение алгоритмов на основе MCTS с помощью обратного представления и переанализа всего буфера
Алгоритмы на основе поиска методом Монте-Карло (MCTS), такие как MuZero и его производные, достигли широкого успеха в различных областях принятия решений. Эти алгоритмы используют процесс переанализа для повышения эффективности выборки устаревших данных, но это сопровождается значительными затратами на время вычисления. Для решения этой проблемы в данной работе предлагается универсальный метод ReZero для ускорения операций поиска по дереву в алгоритмах MCTS. В частности, вдохновляясь моделью одноруких бандитов, предлагается переанализировать обучающие образцы с использованием техники повторного использования обратного представления, экономя время поиска соответствующих поддеревьев путём использования оценок стоимости конкретных дочерних узлов. Для дальнейшей адаптации к этому дизайну применяется стратегия периодического переанализа всего буфера вместо частого переанализа небольших пакетов. Синергия этих двух подходов значительно снижает затраты на поиск, одновременно гарантируя и даже улучшая производительность.
Основная проблема, с которой сталкиваются алгоритмы MCTS в обучении с подкреплением, заключается в чрезмерных затратах на время вычисления, проявляющихся в двух аспектах:
Этап сбора данных: агент должен выполнять MCTS каждый раз при получении нового состояния для выбора действия
Этап переанализа: для получения целевых значений более высокого качества необходимо повторно запустить MCTS с использованием последней модели
Хотя алгоритмы MCTS демонстрируют отличную эффективность по выборкам, временная эффективность становится узким местом для их дальнейшего распространения
Вычисления поиска по дереву сложно распараллеливать с использованием обычных векторизованных сред, что ещё больше усугубляет проблему скорости
Существующие методы ускорения либо требуют дополнительных вычислительных ресурсов (например, SpeedyZero), либо сжимают пространство поиска посредством абстракции состояния (например, PTSAZero)
Целью данной работы является предложение стратегии ускорения, ортогональной существующим методам, которая не требует сжатия пространства состояний и не вводит дополнительные аппаратные затраты, а вместо этого напрямую сокращает пространство поиска посредством оценки стоимости.
Предложена техника переанализа с обратным представлением: ускорение одного поиска по дереву с использованием метода, вдохновленного моделью одноруких бандитов, с теоретическими гарантиями сходимости
Разработана структура переанализа всего буфера: дальнейшее сокращение количества вызовов MCTS и повышение возможностей параллелизации
Универсальная структура: может быть беспрепятственно интегрирована в различные алгоритмы MCTS без дополнительных вычислительных ресурсов
Комплексная экспериментальная верификация: валидация метода в среде Atari, наборе DMControl и настольных играх
В данной работе исследуется, как значительно снизить затраты на время вычисления алгоритмов MCTS, сохраняя при этом их эффективность по выборкам. Входными данными являются данные траектории алгоритма MCTS, выходными данными — ускоренная стратегия поиска и оценка стоимости.
Теоретическая основа: вдохновляясь моделью одноруких бандитов, корневой узел поиска по дереву рассматривается как игровой автомат, а каждый дочерний узел — как рычаг. Если можно заранее узнать истинную стоимость состояния конкретного дочернего узла, можно сэкономить время поиска по его поддереву.
Конкретная реализация:
Для соседних временных шагов S^t_l и S^{t+1}_l:
- При поиске S^{t+1}_l получается стоимость корневого узла m^{t+1}_l
- При поиске S^t_l стоимость S^{t+1}_l фиксируется как m^{t+1}_l
Стратегия выбора действия:
a_root = argmax_a I^t_l(a)
где I^t_l(a) = {
UCBscore(S^t_l, a), если a ≠ a^t_l
r^t_l + γm^{t+1}_l, если a = a^t_l
}
При выборе действия, соответствующего S^{t+1}_l, предварительно сохранённая стоимость используется напрямую, избегая поиска по поддереву.
Мотивация дизайна: переанализ с обратным представлением требует разделения пакетов на более мелкие подпакеты, что может снизить преимущества параллелизации.
Решение:
Улучшение этапа сбора: прямое использование выборки действий из выходных данных сетевой политики вместо выбора MCTS
Периодический переанализ: переанализ всего буфера после фиксированного количества итераций обучения вместо переанализа небольших пакетов на каждой итерации
Преимущества:
Аналогично механизму фиксированной целевой сети в DQN, снижает частоту обновления целевой политики
Концентрирует все вызовы MCTS в процессе переанализа, полностью используя преимущества параллелизации больших пакетов
Разделяет переанализ и процесс обучения, обеспечивая большее пространство для параллелизации
Теорема 1: для нестационарного одноруких бандитов, удовлетворяющих предположениям уравнения (2), использование оценок выборки вместо значений UCB для оценки конкретного рычага гарантирует ET_i(n)/n → 0 при n → ∞.
Эта теорема доказывает сходимость метода переанализа с обратным представлением и имеет более низкую верхнюю границу сожаления, указывая на то, что алгоритм может создавать распределение посещений, более сосредоточенное на оптимальном рычаге.
В большинстве игр ReZero требует в 2-4 раза меньше времени вычисления, чем базовые методы
Игра Pong: ReZero-M 1,0±0,1 часа против MuZero 4,0±0,5 часа
Игра MsPacman: ReZero-M 1,4±0,2 часа против MuZero 6,9±0,3 часа
Игра Connect4: ReZero-M 5,5±0,6 часа против MuZero 9,1±0,8 часа
Сохранение эффективности по выборкам: во всех тестируемых средах ReZero сохраняет сравнимую или даже лучшую эффективность по выборкам, чем базовые методы.
Верификация на игрушечном примере: эксперимент в сеточном мире 7×7 наглядно демонстрирует эффект ускорения пропуска поиска по поддереву. Время поиска в позициях, удалённых от конечной точки, увеличивается, и использование вспомогательной стоимости корневого узла обычно снижает время поиска.
Ограничения одномашинной установки: текущие эксперименты проводились в основном в одномашинной среде, пространство оптимизации для распределённого обучения требует дальнейшего исследования
Охват окружающей среды: эксперименты в среде непрерывного управления относительно ограничены, требуется более полное тестирование
Теоретический анализ: хотя предоставлено доказательство сходимости, теоретические гарантии в реальных сложных средах требуют дальнейшего исследования
Schrittwieser, J., et al. (2019). Mastering Atari, Go, chess and shogi by planning with a learned model. Nature, 588, 604-609.
Silver, D., et al. (2017). Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv preprint arXiv:1712.01815.
Ye, W., et al. (2021). Mastering atari games with limited data. Advances in Neural Information Processing Systems, 34, 25476-25488.
Mei, Y., et al. (2023). Speedyzero: Mastering atari with limited data and time. ICLR 2023.
Общая оценка: это высококачественная исследовательская работа, предлагающая инновационное и практичное решение для узкого места в практическом развёртывании алгоритмов MCTS. Дизайн метода остроумен, теоретическая основа прочна, экспериментальная верификация полна, что имеет важное значение для продвижения популяризации алгоритмов MCTS в практических приложениях.