ReZero: Boosting MCTS-based Algorithms by Backward-view and Entire-buffer Reanalyze
Xuan, Niu, Pu et al.
Monte Carlo Tree Search (MCTS)-based algorithms, such as MuZero and its derivatives, have achieved widespread success in various decision-making domains. These algorithms employ the reanalyze process to enhance sample efficiency from stale data, albeit at the expense of significant wall-clock time consumption. To address this issue, we propose a general approach named ReZero to boost tree search operations for MCTS-based algorithms. Specifically, drawing inspiration from the one-armed bandit model, we reanalyze training samples through a backward-view reuse technique which uses the value estimation of a certain child node to save the corresponding sub-tree search time. To further adapt to this design, we periodically reanalyze the entire buffer instead of frequently reanalyzing the mini-batch. The synergy of these two designs can significantly reduce the search cost and meanwhile guarantee or even improve performance, simplifying both data collecting and reanalyzing. Experiments conducted on Atari environments, DMControl suites and board games demonstrate that ReZero substantially improves training speed while maintaining high sample efficiency. The code is available as part of the LightZero MCTS benchmark at https://github.com/opendilab/LightZero.
academic
ريزيرو: تعزيز خوارزميات البحث بشجرة مونت كارلو من خلال إعادة التحليل بالرؤية العكسية والمخزن المؤقت الكامل
حققت الخوارزميات المستندة إلى البحث بشجرة مونت كارلو (MCTS)، مثل MuZero والخوارزميات المشتقة منها، نجاحاً واسع النطاق في مختلف مجالات اتخاذ القرار. تستخدم هذه الخوارزميات عملية إعادة التحليل لتحسين كفاءة العينات للبيانات القديمة، لكن على حساب استهلاك وقت الساعة الكبير. لحل هذه المشكلة، تقترح هذه الورقة طريقة عامة تسمى ريزيرو لتسريع عمليات البحث بالشجرة في خوارزميات MCTS. بالتحديد، بإلهام من نموذج ذراع واحدة، يتم إعادة تحليل عينات التدريب من خلال تقنية إعادة استخدام الرؤية العكسية، مما يوفر وقت البحث للأشجار الفرعية المقابلة باستخدام تقديرات القيمة للعقد الفرعية المحددة. لمزيد من التكيف مع هذا التصميم، يتم اعتماد استراتيجية إعادة تحليل دوري للمخزن المؤقت بالكامل بدلاً من إعادة التحليل المتكرر للدفعات الصغيرة. يؤدي التآزر بين هذين التصميمين إلى تقليل كبير في تكاليف البحث مع ضمان وحتى تحسين الأداء.
تهدف هذه الورقة إلى اقتراح استراتيجية تسريع متعامدة مع الطرق الموجودة، والتي لا تتطلب ضغط مساحة الحالة ولا تدخل تكاليف أجهزة إضافية، بل تقلل مساحة البحث مباشرة من خلال تقديرات القيمة.
تبحث هذه الورقة عن كيفية تقليل استهلاك وقت الساعة بشكل كبير مع الحفاظ على كفاءة العينات لخوارزميات MCTS. الإدخال هو بيانات المسار من خوارزمية MCTS، والإخراج هو استراتيجية البحث المسرعة وتقديرات القيمة.
الأساس النظري: بإلهام من نموذج ذراع واحدة، يتم اعتبار عقدة جذر البحث بالشجرة كآلة قمار، وكل عقدة فرعية كذراع واحدة. إذا كان بإمكاننا معرفة القيمة الحقيقية للحالة لعقدة فرعية معينة مقدماً، يمكننا توفير وقت البحث لها.
التنفيذ المحدد:
للخطوات الزمنية المتجاورة S^t_l و S^{t+1}_l:
- عند البحث عن S^{t+1}_l، احصل على قيمة العقدة الجذرية m^{t+1}_l
- عند البحث عن S^t_l، ثبّت قيمة S^{t+1}_l على m^{t+1}_l
استراتيجية اختيار الإجراء:
a_root = argmax_a I^t_l(a)
حيث I^t_l(a) = {
UCBscore(S^t_l, a), إذا كان a ≠ a^t_l
r^t_l + γm^{t+1}_l, إذا كان a = a^t_l
}
عند اختيار الإجراء المقابل لـ S^{t+1}_l، يتم استخدام القيمة المخزنة مسبقاً مباشرة، مما يتجنب البحث في الشجرة الفرعية.
النظرية 1: بالنسبة لآلات القمار غير الثابتة التي تفي بافتراضات المعادلة (2)، فإن استخدام تقديرات العينات بدلاً من قيم UCB لتقييم ذراع معينة يضمن ET_i(n)/n → 0 عندما n → ∞.
تثبت هذه النظرية تقارب طريقة إعادة التحليل بالرؤية العكسية، وتتمتع بحد ندم أقل، مما يشير إلى أن الخوارزمية قد تنتج توزيع زيارات أكثر تركيزاً على الذراع المثلى.
التحقق من الحالات البسيطة: أظهرت التجارب في عالم شبكة 7×7 بشكل مباشر تأثير التسريع من تخطي البحث في الشجرة الفرعية. كلما كان الموضع أبعد عن نقطة النهاية، كان وقت البحث أطول، وعند استخدام قيمة العقدة الجذرية المساعدة، انخفض وقت البحث بشكل عام.
Schrittwieser, J., et al. (2019). Mastering Atari, Go, chess and shogi by planning with a learned model. Nature, 588, 604-609.
Silver, D., et al. (2017). Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv preprint arXiv:1712.01815.
Ye, W., et al. (2021). Mastering atari games with limited data. Advances in Neural Information Processing Systems, 34, 25476-25488.
Mei, Y., et al. (2023). Speedyzero: Mastering atari with limited data and time. ICLR 2023.
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكراً وعملياً لاختناق النشر الفعلي لخوارزميات MCTS. يتميز تصميم الطريقة بالذكاء، والأساس النظري متين، والتحقق التجريبي شامل، مما له قيمة مهمة في تعزيز انتشار خوارزميات MCTS في التطبيقات العملية.