ReZero: Boosting MCTS-based Algorithms by Backward-view and Entire-buffer Reanalyze
Xuan, Niu, Pu et al.
Monte Carlo Tree Search (MCTS)-based algorithms, such as MuZero and its derivatives, have achieved widespread success in various decision-making domains. These algorithms employ the reanalyze process to enhance sample efficiency from stale data, albeit at the expense of significant wall-clock time consumption. To address this issue, we propose a general approach named ReZero to boost tree search operations for MCTS-based algorithms. Specifically, drawing inspiration from the one-armed bandit model, we reanalyze training samples through a backward-view reuse technique which uses the value estimation of a certain child node to save the corresponding sub-tree search time. To further adapt to this design, we periodically reanalyze the entire buffer instead of frequently reanalyzing the mini-batch. The synergy of these two designs can significantly reduce the search cost and meanwhile guarantee or even improve performance, simplifying both data collecting and reanalyzing. Experiments conducted on Atari environments, DMControl suites and board games demonstrate that ReZero substantially improves training speed while maintaining high sample efficiency. The code is available as part of the LightZero MCTS benchmark at https://github.com/opendilab/LightZero.
academic
ReZero: Beschleunigung von MCTS-basierten Algorithmen durch Rückwärtsansicht und Gesamtpuffer-Reanalyse
Auf Monte-Carlo-Baumsuche (MCTS) basierende Algorithmen wie MuZero und deren Ableitungen haben in verschiedenen Entscheidungsbereichen großen Erfolg erzielt. Diese Algorithmen nutzen einen Reanalyseprozess, um die Stichprobeneffizienz veralteter Daten zu verbessern, allerdings auf Kosten erheblicher Rechenzeit. Um dieses Problem zu lösen, wird in diesem Papier eine universelle Methode namens ReZero vorgeschlagen, um die Baumsuche von MCTS-Algorithmen zu beschleunigen. Konkret wird durch eine von dem Einarmigen-Bandit-Modell inspirierte Rückwärtsansicht-Wiederverwendungstechnik das Training von Stichproben reanalysiert, wobei Wertschätzungen spezifischer Unterknoten verwendet werden, um Suchzeit in entsprechenden Unterbäumen zu sparen. Um diesen Entwurf weiter anzupassen, wird eine Strategie der periodischen Reanalyse des gesamten Puffers anstelle häufiger Reanalyse kleiner Batches verwendet. Die synergistische Wirkung dieser beiden Entwürfe reduziert die Suchkosten erheblich, während die Leistung gewährleistet oder sogar verbessert wird.
Das Kernproblem, dem sich MCTS-Algorithmen in der Verstärkungslernforschung gegenübersehen, ist der übermäßige Rechenzeit-Overhead, der sich in zwei Aspekten manifestiert:
Datenerfassungsphase: Der Agent muss jedes Mal, wenn er einen neuen Zustand empfängt, MCTS ausführen, um eine Aktion auszuwählen
Reanalysephase: Um höherwertige Aktualisierungsziele zu erhalten, muss MCTS mit dem neuesten Modell erneut ausgeführt werden
Obwohl MCTS-Algorithmen bei der Stichprobeneffizienz hervorragende Leistungen zeigen, wird die Zeiteffizienz zum Engpass für ihre weitere Verbreitung
Die Baumsuche-Berechnung lässt sich nicht leicht mit gängigen vektorisierten Umgebungen parallelisieren, was den Geschwindigkeitsnachteil weiter verschärft
Bestehende Beschleunigungsmethoden erfordern entweder zusätzliche Rechenressourcen (wie SpeedyZero) oder komprimieren den Suchraum durch Zustandsabstraktion (wie PTSAZero)
Dieses Papier zielt darauf ab, eine Beschleunigungsstrategie vorzuschlagen, die orthogonal zu bestehenden Methoden ist und weder Zustandsraumkompression noch zusätzliche Hardware-Kosten erfordert, sondern den Suchraum durch Wertschätzung direkt reduziert.
Vorschlag der Rückwärtsansicht-Reanalysestechnik: Beschleunigung einer einzelnen Baumsuche durch ein vom Einarmigen-Bandit-Modell inspiriertes Verfahren mit theoretischen Konvergenzgarantien
Entwurf eines Gesamtpuffer-Reanalyse-Rahmens: Weitere Reduzierung der MCTS-Aufrufe und Verbesserung der Parallelisierungsfähigkeit
Universeller Rahmen: Kann nahtlos in verschiedene MCTS-Algorithmen integriert werden, ohne zusätzliche Rechenressourcen zu benötigen
Umfassende experimentelle Validierung: Validierung der Methode in Atari-Umgebungen, DMControl-Suite und Schachspielen
Dieses Papier untersucht, wie die Rechenzeit von MCTS-Algorithmen erheblich reduziert werden kann, während gleichzeitig deren Stichprobeneffizienz erhalten bleibt. Die Eingabe besteht aus Trajektoriendaten des MCTS-Algorithmus, die Ausgabe ist die beschleunigte Suchstrategie und Wertschätzung.
Theoretische Grundlage: Inspiriert vom Einarmigen-Bandit-Modell wird der Wurzelknoten der Baumsuche als Bandit betrachtet, wobei jeder Unterknoten einen Arm darstellt. Wenn der wahre Zustandswert eines bestimmten Unterknotens im Voraus bekannt ist, kann die Suchzeit für diesen Knoten gespart werden.
Konkrete Implementierung:
Für benachbarte Zeitschritte S^t_l und S^{t+1}_l:
- Bei der Suche nach S^{t+1}_l wird der Wurzelknotenwert m^{t+1}_l erhalten
- Bei der Suche nach S^t_l wird der Wert von S^{t+1}_l auf m^{t+1}_l festgelegt
Aktionsauswahlstrategie:
a_root = argmax_a I^t_l(a)
wobei I^t_l(a) = {
UCBscore(S^t_l, a), wenn a ≠ a^t_l
r^t_l + γm^{t+1}_l, wenn a = a^t_l
}
Bei der Auswahl der Aktion, die S^{t+1}_l entspricht, wird der vorgespeicherte Wert direkt verwendet, wodurch die Unterbaum-Suche vermieden wird.
Entwurfsmotivation: Die Rückwärtsansicht-Reanalyse erfordert die Aufteilung von Batches in kleinere Sub-Batches, was die Parallelisierungsvorteile verringern kann.
Lösungsansatz:
Verbesserung der Erfassungsphase: Direkte Stichprobenentnahme von Aktionen aus der Ausgabe des Richtliniennetzwerks anstelle von MCTS-Auswahl
Periodische Reanalyse: Nach einer festen Anzahl von Trainingsiterationen wird der gesamte Puffer reanalysiert, anstatt bei jeder Iteration kleine Batches zu reanalysieren
Vorteile:
Ähnlich dem Mechanismus des festen Zielnetzwerks in DQN, reduziert die Aktualisierungshäufigkeit der Richtlinienziele
Konzentriert alle MCTS-Aufrufe auf den Reanalyseprozess und nutzt die Parallelisierungsvorteile großer Batches vollständig
Entkoppelt Reanalyse und Trainingsprozess und bietet größere Parallelisierungsmöglichkeiten
Satz 1: Für nichtstatische Banditen, die die Annahmen in Gleichung (2) erfüllen, kann die Verwendung von Stichprobenschätzungen anstelle von UCB-Werten zur Bewertung eines bestimmten Arms sicherstellen, dass ET_i(n)/n → 0 wenn n → ∞.
Dieser Satz beweist die Konvergenz der Rückwärtsansicht-Reanalysemethode und hat eine niedrigere Bedauernsobergrenze, was darauf hindeutet, dass der Algorithmus möglicherweise eine Besuchsverteilung erzeugt, die stärker auf den optimalen Arm konzentriert ist.
In den meisten Spielen benötigt ReZero 2-4 mal weniger Rechenzeit als Baseline-Methoden
Pong-Spiel: ReZero-M 1,0±0,1 Stunden vs. MuZero 4,0±0,5 Stunden
MsPacman-Spiel: ReZero-M 1,4±0,2 Stunden vs. MuZero 6,9±0,3 Stunden
Connect4-Spiel: ReZero-M 5,5±0,6 Stunden vs. MuZero 9,1±0,8 Stunden
Beibehaltung der Stichprobeneffizienz: In allen Testumgebungen behält ReZero eine vergleichbare oder sogar bessere Stichprobeneffizienz als Baseline-Methoden.
Spielzeug-Fallvalidierung: Experimente in einer 7×7-Gitterwelt zeigen anschaulich die Beschleunigungseffekte durch das Überspringen von Unterbaum-Suchen. Je weiter eine Position vom Endziel entfernt ist, desto länger ist die Suchzeit, und mit Hilfe des Wurzelknotenwerts wird die Suchzeit allgemein reduziert.
Beschränkung auf Single-Machine-Einstellung: Aktuelle Experimente finden hauptsächlich in Single-Machine-Umgebungen statt, Optimierungsmöglichkeiten für verteiltes Training sind noch zu erforschen
Umgebungsabdeckung: Experimente in kontinuierlichen Steuerungsumgebungen sind relativ begrenzt und erfordern umfassendere Benchmark-Tests
Theoretische Analyse: Obwohl Konvergenzbeweise bereitgestellt werden, müssen theoretische Garantien in praktischen komplexen Umgebungen weiter erforscht werden
Tiefe der theoretischen Analyse: Obwohl Konvergenzbeweise bereitgestellt werden, müssen theoretische Garantien für komplexe Umgebungen noch gestärkt werden
Verteilte Szenarien: Mangel an Validierung und Optimierung in Multi-Machine-Multi-GPU-Umgebungen
Kontinuierliche Steuerung: Experimente im kontinuierlichen Aktionsraum sind relativ begrenzt
Langzeitauswirkungen: Langzeitauswirkungen auf Trainingsstabilität und endgültige Leistung erfordern weitere Analyse
Schrittwieser, J., et al. (2019). Mastering Atari, Go, chess and shogi by planning with a learned model. Nature, 588, 604-609.
Silver, D., et al. (2017). Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv preprint arXiv:1712.01815.
Ye, W., et al. (2021). Mastering atari games with limited data. Advances in Neural Information Processing Systems, 34, 25476-25488.
Mei, Y., et al. (2023). Speedyzero: Mastering atari with limited data and time. ICLR 2023.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative und praktische Lösung für den Engpass bei der praktischen Bereitstellung von MCTS-Algorithmen bietet. Das Methodendesign ist elegant, die theoretische Grundlage solide und die experimentelle Validierung umfassend. Es hat großen Wert für die Förderung der Verbreitung von MCTS-Algorithmen in praktischen Anwendungen.