ReZero: Boosting MCTS-based Algorithms by Backward-view and Entire-buffer Reanalyze
Xuan, Niu, Pu et al.
Monte Carlo Tree Search (MCTS)-based algorithms, such as MuZero and its derivatives, have achieved widespread success in various decision-making domains. These algorithms employ the reanalyze process to enhance sample efficiency from stale data, albeit at the expense of significant wall-clock time consumption. To address this issue, we propose a general approach named ReZero to boost tree search operations for MCTS-based algorithms. Specifically, drawing inspiration from the one-armed bandit model, we reanalyze training samples through a backward-view reuse technique which uses the value estimation of a certain child node to save the corresponding sub-tree search time. To further adapt to this design, we periodically reanalyze the entire buffer instead of frequently reanalyzing the mini-batch. The synergy of these two designs can significantly reduce the search cost and meanwhile guarantee or even improve performance, simplifying both data collecting and reanalyzing. Experiments conducted on Atari environments, DMControl suites and board games demonstrate that ReZero substantially improves training speed while maintaining high sample efficiency. The code is available as part of the LightZero MCTS benchmark at https://github.com/opendilab/LightZero.
몬테카를로 트리 탐색(MCTS) 기반 알고리즘(예: MuZero 및 그 파생 알고리즘)은 다양한 의사결정 영역에서 광범위한 성공을 거두었습니다. 이러한 알고리즘은 재분석(reanalyze) 프로세스를 통해 만료된 데이터의 샘플 효율성을 향상시키지만, 상당한 벽시계 시간 소비가 대가입니다. 이 문제를 해결하기 위해 본 논문은 MCTS 알고리즘의 트리 탐색 작업을 가속화하는 ReZero라는 범용 방법을 제안합니다. 구체적으로, 단팔 밴딧 모델에서 영감을 받아 후향 관점 재사용 기술을 통해 훈련 샘플을 재분석하고, 특정 자식 노드의 가치 추정을 활용하여 해당 부분트리의 탐색 시간을 절약합니다. 이 설계에 더욱 적응하기 위해 소규모 배치를 자주 재분석하는 대신 주기적으로 전체 버퍼를 재분석하는 전략을 채택합니다. 이 두 설계의 시너지 효과는 탐색 비용을 크게 줄이면서 성능을 보장하거나 심지어 향상시킵니다.