ReZero: Boosting MCTS-based Algorithms by Backward-view and Entire-buffer Reanalyze
Xuan, Niu, Pu et al.
Monte Carlo Tree Search (MCTS)-based algorithms, such as MuZero and its derivatives, have achieved widespread success in various decision-making domains. These algorithms employ the reanalyze process to enhance sample efficiency from stale data, albeit at the expense of significant wall-clock time consumption. To address this issue, we propose a general approach named ReZero to boost tree search operations for MCTS-based algorithms. Specifically, drawing inspiration from the one-armed bandit model, we reanalyze training samples through a backward-view reuse technique which uses the value estimation of a certain child node to save the corresponding sub-tree search time. To further adapt to this design, we periodically reanalyze the entire buffer instead of frequently reanalyzing the mini-batch. The synergy of these two designs can significantly reduce the search cost and meanwhile guarantee or even improve performance, simplifying both data collecting and reanalyzing. Experiments conducted on Atari environments, DMControl suites and board games demonstrate that ReZero substantially improves training speed while maintaining high sample efficiency. The code is available as part of the LightZero MCTS benchmark at https://github.com/opendilab/LightZero.
academic
ReZero : Accélération des Algorithmes Basés sur MCTS par Réanalyse Rétroactive et Complète du Tampon
Les algorithmes basés sur la recherche arborescente de Monte-Carlo (MCTS), tels que MuZero et ses variantes dérivées, ont connu un succès considérable dans diverses applications de prise de décision. Ces algorithmes emploient un processus de réanalyse pour améliorer l'efficacité des échantillons de données obsolètes, mais au prix d'une consommation de temps d'horloge significative. Pour résoudre ce problème, cet article propose une méthode générique appelée ReZero pour accélérer les opérations de recherche arborescente des algorithmes MCTS. Concrètement, inspirée par le modèle de bandit à un bras, la technique de réutilisation par vue rétroactive réanalyse les échantillons d'entraînement, en utilisant les estimations de valeur de sous-nœuds spécifiques pour économiser le temps de recherche des sous-arbres correspondants. Pour adapter davantage cette conception, une stratégie de réanalyse périodique du tampon entier est adoptée plutôt qu'une réanalyse fréquente de petits lots. L'effet synergique de ces deux conceptions réduit considérablement le coût de recherche tout en garantissant et même en améliorant les performances.
Le problème fondamental auquel font face les algorithmes MCTS en apprentissage par renforcement est la surcharge de temps d'horloge excessive, se manifestant principalement de deux façons :
Phase de collecte de données : l'agent doit exécuter MCTS chaque fois qu'il reçoit un nouvel état pour sélectionner une action
Phase de réanalyse : pour obtenir des cibles de mise à jour de meilleure qualité, il est nécessaire de réexécuter MCTS avec le modèle le plus récent
Bien que les algorithmes MCTS affichent d'excellentes performances en termes d'efficacité des échantillons, l'efficacité temporelle devient un goulot d'étranglement pour leur diffusion ultérieure
Le calcul de la recherche arborescente ne peut pas être parallélisé facilement à l'aide des environnements vectorisés courants, amplifiant davantage les désavantages de vitesse
Les méthodes d'accélération existantes nécessitent soit des ressources informatiques supplémentaires (comme SpeedyZero), soit compriment l'espace de recherche par abstraction d'état (comme PTSAZero)
Cet article vise à proposer une stratégie d'accélération orthogonale aux méthodes existantes, ne nécessitant ni compression d'espace d'état ni surcharge matérielle supplémentaire, mais réduisant directement l'espace de recherche par estimation de valeur.
Proposition de la technique de réanalyse par vue rétroactive : accélération d'une seule recherche arborescente inspirée par le modèle de bandit à un bras, avec garanties théoriques de convergence
Conception d'un cadre de réanalyse du tampon complet : réduction supplémentaire du nombre d'appels MCTS et amélioration de la capacité de parallélisation
Cadre générique : intégration transparente dans divers algorithmes MCTS sans ressources informatiques supplémentaires
Vérification expérimentale complète : validation de l'efficacité de la méthode dans les environnements Atari, la suite DMControl et les jeux de stratégie
Cet article étudie comment réduire considérablement la surcharge de temps d'horloge des algorithmes MCTS tout en maintenant leur efficacité d'échantillonnage. L'entrée est constituée de données de trajectoire de l'algorithme MCTS, et la sortie est la stratégie de recherche accélérée et l'estimation de valeur.
Fondement Théorique : inspirée par le modèle de bandit à un bras, le nœud racine de la recherche arborescente est considéré comme une machine à sous, chaque nœud enfant servant de bras. Si la véritable valeur d'état d'un nœud enfant peut être connue à l'avance, le temps de recherche pour celui-ci peut être économisé.
Implémentation Concrète :
Pour les pas de temps adjacents S^t_l et S^{t+1}_l :
- Lors de la recherche de S^{t+1}_l, obtenir la valeur du nœud racine m^{t+1}_l
- Lors de la recherche de S^t_l, fixer la valeur de S^{t+1}_l à m^{t+1}_l
Stratégie de Sélection d'Action :
a_root = argmax_a I^t_l(a)
où I^t_l(a) = {
UCBscore(S^t_l, a), si a ≠ a^t_l
r^t_l + γm^{t+1}_l, si a = a^t_l
}
Lors de la sélection de l'action correspondant à S^{t+1}_l, la valeur pré-stockée est utilisée directement, évitant la recherche du sous-arbre.
Motivation de la Conception : la réanalyse par vue rétroactive nécessite de diviser les lots en sous-lots plus petits, ce qui peut réduire les avantages de parallélisation.
Solution Proposée :
Amélioration de la phase de collecte : utilisation directe de la sortie du réseau de politique pour l'échantillonnage d'actions, plutôt que la sélection par MCTS
Réanalyse Périodique : réanalyse du tampon entier après un nombre fixe d'itérations d'entraînement, plutôt que réanalyse de petits lots à chaque itération
Avantages :
Similaire au mécanisme de réseau cible fixe de DQN, réduisant la fréquence de mise à jour de la cible de politique
Concentration de tous les appels MCTS dans le processus de réanalyse, exploitant pleinement les avantages de parallélisation des grands lots
Découplage du processus de réanalyse et d'entraînement, offrant un plus grand espace de parallélisation
Théorème 1 : pour un bandit non-stationnaire satisfaisant les hypothèses de l'équation (2), l'utilisation d'une estimation par échantillonnage plutôt que de valeurs UCB pour évaluer un bras spécifique garantit que ET_i(n)/n → 0 quand n → ∞.
Ce théorème prouve la convergence de la méthode de réanalyse par vue rétroactive, avec une borne de regret inférieure, indiquant que l'algorithme peut produire une distribution de visites plus concentrée sur le bras optimal.
Dans la plupart des jeux, ReZero nécessite 2 à 4 fois moins de temps d'horloge que les méthodes de base
Jeu Pong : ReZero-M 1,0±0,1 heure vs MuZero 4,0±0,5 heure
Jeu MsPacman : ReZero-M 1,4±0,2 heure vs MuZero 6,9±0,3 heure
Jeu Connect4 : ReZero-M 5,5±0,6 heure vs MuZero 9,1±0,8 heure
Maintien de l'Efficacité des Échantillons : dans tous les environnements testés, ReZero maintient une efficacité d'échantillonnage comparable ou même supérieure aux méthodes de base.
Vérification sur Cas Jouet : l'expérience dans un monde en grille 7×7 démontre intuitivement l'effet d'accélération du saut de recherche de sous-arbre. Les positions plus éloignées du point terminal ont des temps de recherche plus longs, et le temps de recherche diminue généralement après utilisation de l'assistance par valeur du nœud racine.
SpeedyZero : réduction de la surcharge temporelle par conception de système parallèle, mais nécessite plus de ressources informatiques
PTSAZero : compression de l'espace de recherche par abstraction d'état
KataGo : utilisation de techniques naïves de réutilisation d'informations, mais la méthode de vue rétroactive de cet article en diffère fondamentalement
Limitation du Cadre Monoposte : les expériences actuelles sont principalement menées dans un environnement monoposte, l'espace d'optimisation pour l'entraînement distribué reste à explorer
Couverture d'Environnement : les expériences en environnement de contrôle continu sont relativement limitées, nécessitant des tests de référence plus complets
Analyse Théorique : bien qu'une preuve de convergence soit fournie, les garanties théoriques dans les environnements complexes réels nécessitent une recherche supplémentaire
Profondeur de l'Analyse Théorique : bien qu'une preuve de convergence soit fournie, les garanties théoriques pour les environnements complexes nécessitent encore un renforcement
Scénarios Distribués : absence de vérification et d'optimisation dans les environnements multi-machines multi-cartes
Contrôle Continu : les expériences dans l'espace d'action continu sont relativement limitées
Impact à Long Terme : l'impact à long terme sur la stabilité d'entraînement et les performances finales nécessite une analyse supplémentaire
Schrittwieser, J., et al. (2019). Mastering Atari, Go, chess and shogi by planning with a learned model. Nature, 588, 604-609.
Silver, D., et al. (2017). Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv preprint arXiv:1712.01815.
Ye, W., et al. (2021). Mastering atari games with limited data. Advances in Neural Information Processing Systems, 34, 25476-25488.
Mei, Y., et al. (2023). Speedyzero: Mastering atari with limited data and time. ICLR 2023.
Évaluation Globale : il s'agit d'un article de recherche de haute qualité qui propose une solution innovante et pratique au goulot d'étranglement du déploiement réel des algorithmes MCTS. La conception de la méthode est ingénieuse, les fondements théoriques sont solides, la vérification expérimentale est complète, et elle a une valeur importante pour promouvoir la popularisation des algorithmes MCTS dans les applications pratiques.