ReZero: Boosting MCTS-based Algorithms by Backward-view and Entire-buffer Reanalyze
Xuan, Niu, Pu et al.
Monte Carlo Tree Search (MCTS)-based algorithms, such as MuZero and its derivatives, have achieved widespread success in various decision-making domains. These algorithms employ the reanalyze process to enhance sample efficiency from stale data, albeit at the expense of significant wall-clock time consumption. To address this issue, we propose a general approach named ReZero to boost tree search operations for MCTS-based algorithms. Specifically, drawing inspiration from the one-armed bandit model, we reanalyze training samples through a backward-view reuse technique which uses the value estimation of a certain child node to save the corresponding sub-tree search time. To further adapt to this design, we periodically reanalyze the entire buffer instead of frequently reanalyzing the mini-batch. The synergy of these two designs can significantly reduce the search cost and meanwhile guarantee or even improve performance, simplifying both data collecting and reanalyzing. Experiments conducted on Atari environments, DMControl suites and board games demonstrate that ReZero substantially improves training speed while maintaining high sample efficiency. The code is available as part of the LightZero MCTS benchmark at https://github.com/opendilab/LightZero.
academic
ReZero: Aceleración de Algoritmos Basados en MCTS mediante Reanalización de Vista Hacia Atrás y Buffer Completo
Los algoritmos basados en búsqueda de árbol de Monte Carlo (MCTS), como MuZero y sus algoritmos derivados, han logrado un éxito generalizado en diversos dominios de toma de decisiones. Estos algoritmos emplean un proceso de reanalización para mejorar la eficiencia de muestreo de datos obsoletos, pero a costa de un consumo significativo de tiempo de reloj. Para abordar este problema, el presente artículo propone un método universal denominado ReZero para acelerar las operaciones de búsqueda de árbol en algoritmos MCTS. Específicamente, inspirado en el modelo de máquina tragaperras de un solo brazo, se reutilizan muestras de entrenamiento mediante técnicas de vista hacia atrás, aprovechando estimaciones de valor de subnodos específicos para ahorrar tiempo de búsqueda en subárboles correspondientes. Para adaptarse mejor a este diseño, se adopta una estrategia de reanalización periódica del buffer completo en lugar de reanalización frecuente de minilotes. La sinergia de estos dos diseños reduce significativamente el costo de búsqueda mientras garantiza e incluso mejora el rendimiento.
El problema central que enfrentan los algoritmos MCTS en aprendizaje por refuerzo es el excesivo gasto de tiempo de reloj, que se manifiesta en dos aspectos:
Fase de recopilación de datos: El agente debe ejecutar MCTS cada vez que recibe un nuevo estado para seleccionar una acción
Fase de reanalización: Para obtener objetivos de actualización de mayor calidad, es necesario ejecutar nuevamente MCTS con el modelo más reciente
Aunque los algoritmos MCTS muestran un rendimiento excepcional en eficiencia de muestreo, la eficiencia temporal se convierte en un cuello de botella para su promoción adicional
La computación de búsqueda de árbol es difícil de paralelizar utilizando entornos vectorizados comunes, lo que amplifica aún más la desventaja de velocidad
Los métodos de aceleración existentes requieren recursos computacionales adicionales (como SpeedyZero) o comprimen el espacio de búsqueda mediante abstracción de estados (como PTSAZero)
Este artículo tiene como objetivo proponer una estrategia de aceleración ortogonal a los métodos existentes, que no requiera compresión del espacio de estados ni introduzca gastos de hardware adicionales, sino que reduzca directamente el espacio de búsqueda mediante estimaciones de valor.
Propuesta de técnica de reanalización de vista hacia atrás: Acelera la búsqueda de árbol individual mediante un método inspirado en el modelo de máquina tragaperras de un solo brazo, con garantías teóricas de convergencia
Diseño de marco de reanalización de buffer completo: Reduce aún más el número de llamadas a MCTS y mejora la capacidad de paralelización
Marco universal: Puede integrarse sin problemas en diversos algoritmos MCTS sin requerir recursos computacionales adicionales
Verificación experimental exhaustiva: Valida la efectividad del método en entornos Atari, suite DMControl y juegos de mesa
Este artículo investiga cómo reducir significativamente el gasto de tiempo de reloj de los algoritmos MCTS mientras se mantiene su eficiencia de muestreo. La entrada consiste en datos de trayectoria del algoritmo MCTS, y la salida es la estrategia de búsqueda acelerada y estimaciones de valor.
Fundamento Teórico: Inspirado en el modelo de máquina tragaperras de un solo brazo, se considera el nodo raíz de la búsqueda de árbol como una máquina tragaperras, con cada subnodo actuando como un brazo. Si se puede conocer anticipadamente el verdadero valor de estado de un subnodo específico, se puede ahorrar tiempo de búsqueda en ese subnodo.
Implementación Específica:
Para pasos de tiempo adyacentes S^t_l y S^{t+1}_l:
- Al buscar S^{t+1}_l, se obtiene el valor del nodo raíz m^{t+1}_l
- Al buscar S^t_l, se fija el valor de S^{t+1}_l como m^{t+1}_l
Estrategia de Selección de Acciones:
a_root = argmax_a I^t_l(a)
donde I^t_l(a) = {
UCBscore(S^t_l, a), si a ≠ a^t_l
r^t_l + γm^{t+1}_l, si a = a^t_l
}
Al seleccionar la acción correspondiente a S^{t+1}_l, se utiliza directamente el valor prealmacenado, evitando la búsqueda de subárbol.
Motivación del Diseño: La reanalización de vista hacia atrás requiere dividir lotes en sublotes más pequeños, lo que potencialmente reduce las ventajas de paralelización.
Solución Propuesta:
Mejora de la fase de recopilación: Muestrear acciones directamente de la salida de la red de política en lugar de seleccionar mediante MCTS
Reanalización periódica: Después de un número fijo de iteraciones de entrenamiento, reanalizar el buffer completo en lugar de reanalizar minilotes en cada iteración
Ventajas:
Similar al mecanismo de red objetivo fijo de DQN, reduce la frecuencia de actualización del objetivo de política
Concentra todas las llamadas a MCTS en el proceso de reanalización, aprovechando plenamente las ventajas de paralelización de lotes grandes
Desacopla el proceso de reanalización del entrenamiento, proporcionando mayor espacio para paralelización
Teorema 1: Para máquinas tragaperras no estacionarias que satisfacen los supuestos de la ecuación (2), el uso de estimaciones de muestreo en lugar de valores UCB para evaluar un brazo específico garantiza que ET_i(n)/n → 0 cuando n → ∞.
Este teorema demuestra la convergencia del método de reanalización de vista hacia atrás, con un límite superior de arrepentimiento más bajo, indicando que el algoritmo puede producir una distribución de visitas más concentrada en el brazo óptimo.
En la mayoría de los juegos, ReZero requiere 2-4 veces menos tiempo de reloj que los métodos de referencia
Juego Pong: ReZero-M 1.0±0.1 horas vs MuZero 4.0±0.5 horas
Juego MsPacman: ReZero-M 1.4±0.2 horas vs MuZero 6.9±0.3 horas
Juego Connect4: ReZero-M 5.5±0.6 horas vs MuZero 9.1±0.8 horas
Mantenimiento de Eficiencia de Muestreo: ReZero mantiene una eficiencia de muestreo comparable o incluso mejor que los métodos de referencia en todos los entornos de prueba.
Validación de Caso de Juguete: Experimentos en un mundo de cuadrícula de 7×7 demuestran intuitivamente el efecto de aceleración de omitir búsquedas de subárbol. Las posiciones más alejadas del punto final tienen tiempos de búsqueda más largos, y el tiempo de búsqueda generalmente se reduce después de usar la asistencia de valor del nodo raíz.
Limitaciones de Configuración de Máquina Única: Los experimentos actuales se realizan principalmente en entornos de máquina única, con espacio de optimización pendiente en entrenamiento distribuido
Cobertura de Entornos: Los experimentos en entornos de control continuo son relativamente limitados, requiriendo pruebas de referencia más exhaustivas
Análisis Teórico: Aunque se proporciona prueba de convergencia, las garantías teóricas en entornos complejos reales requieren investigación adicional
Profundidad del Análisis Teórico: Aunque se proporciona prueba de convergencia, las garantías teóricas para entornos complejos aún necesitan fortalecimiento
Escenarios Distribuidos: Falta verificación y optimización en entornos multi-máquina multi-GPU
Control Continuo: Los experimentos en espacios de acciones continuas son relativamente limitados
Impacto a Largo Plazo: El impacto en la estabilidad del entrenamiento y el rendimiento final requiere análisis adicional
Schrittwieser, J., et al. (2019). Mastering Atari, Go, chess and shogi by planning with a learned model. Nature, 588, 604-609.
Silver, D., et al. (2017). Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv preprint arXiv:1712.01815.
Ye, W., et al. (2021). Mastering atari games with limited data. Advances in Neural Information Processing Systems, 34, 25476-25488.
Mei, Y., et al. (2023). Speedyzero: Mastering atari with limited data and time. ICLR 2023.
Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora y práctica para el cuello de botella de implementación de algoritmos MCTS. El diseño del método es ingenioso, el fundamento teórico es sólido, la verificación experimental es exhaustiva, y tiene valor importante para promover la adopción generalizada de algoritmos MCTS en aplicaciones prácticas.