2025-11-24T20:25:17.007327

ReZero: Boosting MCTS-based Algorithms by Backward-view and Entire-buffer Reanalyze

Xuan, Niu, Pu et al.

Monte Carlo Tree Search (MCTS)-based algorithms, such as MuZero and its derivatives, have achieved widespread success in various decision-making domains. These algorithms employ the reanalyze process to enhance sample efficiency from stale data, albeit at the expense of significant wall-clock time consumption. To address this issue, we propose a general approach named ReZero to boost tree search operations for MCTS-based algorithms. Specifically, drawing inspiration from the one-armed bandit model, we reanalyze training samples through a backward-view reuse technique which uses the value estimation of a certain child node to save the corresponding sub-tree search time. To further adapt to this design, we periodically reanalyze the entire buffer instead of frequently reanalyzing the mini-batch. The synergy of these two designs can significantly reduce the search cost and meanwhile guarantee or even improve performance, simplifying both data collecting and reanalyzing. Experiments conducted on Atari environments, DMControl suites and board games demonstrate that ReZero substantially improves training speed while maintaining high sample efficiency. The code is available as part of the LightZero MCTS benchmark at https://github.com/opendilab/LightZero.

academic

ReZero: পশ্চাদমুখী দৃষ্টিভঙ্গি এবং সম্পূর্ণ-বাফার পুনর্বিশ্লেষণের মাধ্যমে MCTS-ভিত্তিক অ্যালগরিদম বৃদ্ধি

মৌলিক তথ্য

পেপার আইডি: 2404.16364
শিরোনাম: ReZero: পশ্চাদমুখী দৃষ্টিভঙ্গি এবং সম্পূর্ণ-বাফার পুনর্বিশ্লেষণের মাধ্যমে MCTS-ভিত্তিক অ্যালগরিদম বৃদ্ধি
লেখক: Chunyu Xuan, Yazhe Niu, Yuan Pu, Shuai Hu, Yu Liu, Jing Yang
শ্রেণীবিভাগ: cs.AI
প্রকাশনার সময়: ২০২৪ সালের ৩১ ডিসেম্বর (arXiv সর্বশেষ সংস্করণ)
পেপার লিঙ্ক: https://arxiv.org/abs/2404.16364

সারসংক্ষেপ

মন্টে কার্লো ট্রি সার্চ (MCTS) ভিত্তিক অ্যালগরিদম, যেমন MuZero এবং এর উদ্ভূত অ্যালগরিদমগুলি, বিভিন্ন সিদ্ধান্ত গ্রহণের ক্ষেত্রে ব্যাপক সাফল্য অর্জন করেছে। এই অ্যালগরিদমগুলি পুরানো ডেটার নমুনা দক্ষতা উন্নত করতে পুনর্বিশ্লেষণ প্রক্রিয়া ব্যবহার করে, তবে উল্লেখযোগ্য ঘড়ির সময় খরচের মূল্যে। এই সমস্যার সমাধানের জন্য, এই পত্রটি MCTS অ্যালগরিদমের ট্রি সার্চ অপারেশন ত্বরান্বিত করার জন্য ReZero নামক একটি সর্বজনীন পদ্ধতি প্রস্তাব করে। বিশেষভাবে, একক-বাহু ব্যান্ডিট মডেল দ্বারা অনুপ্রাণিত হয়ে, পশ্চাদমুখী দৃষ্টিভঙ্গি পুনর্ব্যবহার কৌশলের মাধ্যমে প্রশিক্ষণ নমুনাগুলি পুনর্বিশ্লেষণ করা হয়, নির্দিষ্ট সাব-নোডের মূল্য অনুমান ব্যবহার করে সংশ্লিষ্ট সাব-ট্রির সার্চ সময় সাশ্রয় করা হয়। এই ডিজাইনের সাথে আরও খাপ খাইয়ে নিতে, ঘন ঘন ছোট ব্যাচ পুনর্বিশ্লেষণের পরিবর্তে সম্পূর্ণ বাফার পর্যায়ক্রমে পুনর্বিশ্লেষণ করার কৌশল গ্রহণ করা হয়। এই দুটি ডিজাইনের সহযোগী কর্ম সার্চ খরচ উল্লেখযোগ্যভাবে হ্রাস করে, যখন কর্মক্ষমতা নিশ্চিত করে এমনকি উন্নত করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

MCTS অ্যালগরিদম শক্তিশালী শেখার ক্ষেত্রে মুখোমুখি মূল সমস্যা হল ঘড়ির সময় ওভারহেড অত্যধিক, যা দুটি দিক থেকে প্রকাশ পায়:

ডেটা সংগ্রহ পর্যায়: এজেন্ট প্রতিটি নতুন অবস্থা গ্রহণ করার সময় অ্যাকশন নির্বাচনের জন্য MCTS সম্পাদন করতে হবে
পুনর্বিশ্লেষণ পর্যায়: উচ্চতর মানের আপডেট লক্ষ্য পেতে, সর্বশেষ মডেল ব্যবহার করে MCTS পুনরায় চালাতে হবে

সমস্যার গুরুত্ব

MCTS অ্যালগরিদম নমুনা দক্ষতার ক্ষেত্রে চমৎকার পারফরম্যান্স প্রদর্শন করে, কিন্তু সময় দক্ষতা এর আরও প্রচারের বাধা হয়ে ওঠে
ট্রি সার্চ গণনা সাধারণ ভেক্টরাইজড পরিবেশ ব্যবহার করে সমান্তরালকরণ করা কঠিন, যা গতির অসুবিধা আরও বাড়ায়
বিদ্যমান ত্বরণ পদ্ধতি হয় অতিরিক্ত গণনা সম্পদের প্রয়োজন (যেমন SpeedyZero), অথবা অবস্থা বিমূর্ততার মাধ্যমে সার্চ স্পেস সংকুচিত করে (যেমন PTSAZero)

গবেষণা প্রেরণা

এই পত্রটি বিদ্যমান পদ্ধতির সাথে অর্থোগোনাল একটি ত্বরণ কৌশল প্রস্তাব করার লক্ষ্য রাখে, যা অবস্থা স্পেস সংকোচনের প্রয়োজন নেই এবং অতিরিক্ত হার্ডওয়্যার ওভারহেড প্রবর্তন করে না, বরং মূল্য অনুমান দ্বারা সরাসরি সার্চ স্পেস হ্রাস করে।

মূল অবদান

পশ্চাদমুখী দৃষ্টিভঙ্গি পুনর্বিশ্লেষণ কৌশল প্রস্তাব: একক-বাহু ব্যান্ডিট মডেল দ্বারা অনুপ্রাণিত পদ্ধতির মাধ্যমে একক ট্রি সার্চ ত্বরান্বিত করা এবং সংমিশ্রণের জন্য তাত্ত্বিক গ্যারান্টি প্রদান করা
সম্পূর্ণ বাফার পুনর্বিশ্লেষণ কাঠামো ডিজাইন: MCTS কল সংখ্যা আরও হ্রাস করা এবং সমান্তরালকরণ ক্ষমতা বৃদ্ধি করা
সর্বজনীন কাঠামো: বিভিন্ন MCTS অ্যালগরিদমে নির্বিঘ্নে একীভূত করা যায়, অতিরিক্ত গণনা সম্পদের প্রয়োজন নেই
ব্যাপক পরীক্ষামূলক যাচাইকরণ: Atari পরিবেশ, DMControl স্যুট এবং বোর্ড গেমে পদ্ধতির কার্যকারিতা যাচাই করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

এই পত্রটি অধ্যয়ন করে কীভাবে MCTS অ্যালগরিদমের নমুনা দক্ষতা বজায় রেখে এর ঘড়ির সময় ওভারহেড উল্লেখযোগ্যভাবে হ্রাস করা যায়। ইনপুট হল MCTS অ্যালগরিদমের ট্র্যাজেক্টরি ডেটা, আউটপুট হল ত্বরান্বিত সার্চ নীতি এবং মূল্য অনুমান।

মূল পদ্ধতি স্থাপত্য

1. পশ্চাদমুখী দৃষ্টিভঙ্গি পুনর্বিশ্লেষণ (Backward-view Reanalyze)

তাত্ত্বিক ভিত্তি: একক-বাহু ব্যান্ডিট মডেল দ্বারা অনুপ্রাণিত হয়ে, ট্রি সার্চের রুট নোডকে ব্যান্ডিট হিসাবে দেখা হয়, প্রতিটি সাব-নোড একটি বাহু হিসাবে কাজ করে। যদি কোনো সাব-নোডের প্রকৃত অবস্থা মূল্য আগে থেকে জানা যায়, তাহলে এর সার্চ সময় সাশ্রয় করা যায়।

নির্দিষ্ট বাস্তবায়ন:

সংলগ্ন সময় ধাপ S^t_l এবং S^{t+1}_l এর জন্য:
- S^{t+1}_l সার্চ করার সময়, রুট নোড মূল্য m^{t+1}_l পান
- S^t_l সার্চ করার সময়, S^{t+1}_l এর মূল্য m^{t+1}_l এ নির্ধারণ করুন

অ্যাকশন নির্বাচন কৌশল:

a_root = argmax_a I^t_l(a)

যেখানে I^t_l(a) = {
    UCBscore(S^t_l, a),  যদি a ≠ a^t_l
    r^t_l + γm^{t+1}_l,  যদি a = a^t_l
}

S^{t+1}_l এর সাথে সংশ্লিষ্ট অ্যাকশন নির্বাচন করার সময়, পূর্ব-সংরক্ষিত মূল্য সরাসরি ব্যবহার করা হয়, সাব-ট্রি সার্চ এড়ানো হয়।

2. সম্পূর্ণ বাফার পুনর্বিশ্লেষণ (Entire-buffer Reanalyze)

ডিজাইন প্রেরণা: পশ্চাদমুখী দৃষ্টিভঙ্গি পুনর্বিশ্লেষণের জন্য ব্যাচগুলিকে ছোট সাব-ব্যাচে বিভক্ত করা প্রয়োজন, যা সমান্তরালকরণ সুবিধা হ্রাস করতে পারে।

সমাধান:

সংগ্রহ পর্যায় উন্নতি: নীতি নেটওয়ার্ক আউটপুট থেকে সরাসরি অ্যাকশন নমুনা করা, MCTS নির্বাচনের পরিবর্তে
পর্যায়ক্রমিক পুনর্বিশ্লেষণ: নির্দিষ্ট প্রশিক্ষণ পুনরাবৃত্তির পরে সম্পূর্ণ বাফার পুনর্বিশ্লেষণ করা, প্রতিটি পুনরাবৃত্তিতে ছোট ব্যাচ পুনর্বিশ্লেষণের পরিবর্তে

সুবিধা:

DQN এর নির্ধারিত লক্ষ্য নেটওয়ার্ক প্রক্রিয়ার মতো, নীতি লক্ষ্য আপডেট ফ্রিকোয়েন্সি হ্রাস করা
সমস্ত MCTS কল পুনর্বিশ্লেষণ প্রক্রিয়ায় কেন্দ্রীভূত করা, বড় ব্যাচ সমান্তরালকরণ সুবিধা সম্পূর্ণভাবে ব্যবহার করা
পুনর্বিশ্লেষণ এবং প্রশিক্ষণ প্রক্রিয়া বিচ্ছিন্ন করা, আরও বড় সমান্তরালকরণ স্থান প্রদান করা

তাত্ত্বিক বিশ্লেষণ

উপপাদ্য 1: সমীকরণ (2) অনুমান পূরণকারী অ-স্থির ব্যান্ডিটের জন্য, UCB মান মূল্যায়নের পরিবর্তে নমুনা অনুমান ব্যবহার করে নির্দিষ্ট বাহু মূল্যায়ন করা নিশ্চিত করে যে ET_i(n)/n → 0 যখন n → ∞।

এই উপপাদ্য পশ্চাদমুখী দৃষ্টিভঙ্গি পুনর্বিশ্লেষণ পদ্ধতির সংমিশ্রণ প্রমাণ করে এবং নিম্ন অনুশোচনা উপরের সীমা রয়েছে, যা নির্দেশ করে যে অ্যালগরিদম সর্বোত্তম বাহুতে আরও কেন্দ্রীভূত পরিদর্শন বিতরণ উৎপাদন করতে পারে।

পরীক্ষামূলক সেটআপ

ডেটাসেট এবং পরিবেশ

Atari পরিবেশ: ২৬টি প্রতিনিধিত্বমূলক গেম, উচ্চ-মাত্রিক ভিজ্যুয়াল ইনপুট এবং বিচ্ছিন্ন অ্যাকশন স্পেস সহ
DMControl স্যুট: ball_in_cup-catch এবং walker-stand দুটি ক্রমাগত নিয়ন্ত্রণ কাজ
বোর্ড গেম: Connect4 এবং Gomoku, বিশেষ অবস্থা স্পেস সহ কৌশলগত গেম

মূল্যায়ন মেট্রিক্স

সময় দক্ষতা: একই কর্মক্ষমতা স্তরে পৌঁছাতে প্রয়োজনীয় ঘড়ির সময়
নমুনা দক্ষতা: সফল নীতিতে পৌঁছাতে প্রয়োজনীয় পরিবেশ মিথস্ক্রিয়া সংখ্যা
সার্চ ত্বরণ: একক MCTS এর সময় খরচ এবং ফাংশন কল সংখ্যা

তুলনামূলক পদ্ধতি

MuZero: মূল MuZero অ্যালগরিদম
EfficientZero: উন্নত MuZero ভেরিয়েন্ট
ReZero-M: ReZero একীভূত MuZero
ReZero-E: ReZero একীভূত EfficientZero

বাস্তবায়ন বিবরণ

পুনরাবৃত্তি অনুপাত: 0.25
পুনর্বিশ্লেষণ ফ্রিকোয়েন্সি: 1
ব্যাচ আকার: 256 (Atari), 64 (DMControl)
MCTS সিমুলেশন সংখ্যা: 50
হার্ডওয়্যার: একক NVIDIA A100 GPU, 30 CPU কোর, 120 GiB মেমরি

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

সময় দক্ষতা উন্নতি:

বেশিরভাগ গেমে, ReZero বেসলাইন পদ্ধতির চেয়ে 2-4 গুণ কম ঘড়ির সময় প্রয়োজন
Pong গেম: ReZero-M 1.0±0.1 ঘণ্টা বনাম MuZero 4.0±0.5 ঘণ্টা
MsPacman গেম: ReZero-M 1.4±0.2 ঘণ্টা বনাম MuZero 6.9±0.3 ঘণ্টা
Connect4 গেম: ReZero-M 5.5±0.6 ঘণ্টা বনাম MuZero 9.1±0.8 ঘণ্টা

নমুনা দক্ষতা বজায় রাখা: সমস্ত পরীক্ষিত পরিবেশে, ReZero বেসলাইন পদ্ধতির সাথে তুলনীয় এমনকি উন্নত নমুনা দক্ষতা বজায় রাখে।

অ্যাবলেশন পরীক্ষা

1. পুনর্বিশ্লেষণ ফ্রিকোয়েন্সি প্রভাব

পুনর্বিশ্লেষণ ফ্রিকোয়েন্সি {0, 1/3, 1, 2} এর প্রভাব পরীক্ষা করা হয়েছে:

উপযুক্ত পুনর্বিশ্লেষণ ফ্রিকোয়েন্সি কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস না করে সময় ওভারহেড সাশ্রয় করতে পারে
ফ্রিকোয়েন্সি 1 এ সময় এবং নমুনা দক্ষতার মধ্যে সর্বোত্তম ভারসাম্য অর্জিত হয়

2. পশ্চাদমুখী দৃষ্টিভঙ্গি পুনর্বিশ্লেষণ প্রভাব

বিস্তারিত পরিসংখ্যান দেখায়:

গড় সার্চ সময়: ReZero-M 0.69±0.02ms বনাম MuZero 1.08±0.09ms
ট্রি সার্চ কল সংখ্যা: ReZero-M 6089 বনাম MuZero 13284
গতিশীল মডেল কল: ReZero-M 122 বনাম MuZero 256

কেস বিশ্লেষণ

খেলনা কেস যাচাইকরণ: 7×7 গ্রিড বিশ্বে পরীক্ষা সাব-ট্রি সার্চ এড়ানোর ত্বরণ প্রভাব স্বজ্ঞাগতভাবে প্রদর্শন করে। টার্মিনাল পয়েন্ট থেকে যত দূরে অবস্থান, সার্চ সময় তত দীর্ঘ, রুট নোড মূল্য সহায়তা ব্যবহারের পরে সার্চ সময় সাধারণত হ্রাস পায়।

পরীক্ষামূলক আবিষ্কার

পশ্চাদমুখী দৃষ্টিভঙ্গি পুনর্বিশ্লেষণ শুধুমাত্র একক সার্চ গতি উন্নত করে না, বরং নমুনা দক্ষতাও উন্নত করে
সম্পূর্ণ বাফার পুনর্বিশ্লেষণ কার্যকরভাবে MCTS কল সংখ্যা হ্রাস করে
পদ্ধতি বিভিন্ন ধরনের সিদ্ধান্ত গ্রহণের পরিবেশে সামঞ্জস্যপূর্ণ ত্বরণ প্রভাব প্রদর্শন করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

ReZero সফলভাবে MCTS অ্যালগরিদমের ঘড়ির সময় ওভারহেড অত্যধিক সমস্যার সমাধান করে
পশ্চাদমুখী দৃষ্টিভঙ্গি পুনর্বিশ্লেষণ এবং সম্পূর্ণ বাফার পুনর্বিশ্লেষণের সহযোগী কর্ম সময় দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে
পদ্ধতি সর্বজনীন, বিভিন্ন MCTS অ্যালগরিদম ভেরিয়েন্টে প্রয়োগ করা যায়
নমুনা দক্ষতা বজায় রেখে 2-4 গুণ সময় ত্বরণ অর্জন করা

সীমাবদ্ধতা

একক-মেশিন সেটআপ সীমাবদ্ধতা: বর্তমান পরীক্ষা প্রধানত একক-মেশিন পরিবেশে পরিচালিত হয়, বিতরণকৃত প্রশিক্ষণের অপ্টিমাইজেশন স্থান অন্বেষণের অপেক্ষায় রয়েছে
পরিবেশ কভারেজ: ক্রমাগত নিয়ন্ত্রণ পরিবেশের পরীক্ষা তুলনামূলকভাবে সীমিত, আরও ব্যাপক বেঞ্চমার্ক পরীক্ষার প্রয়োজন
তাত্ত্বিক বিশ্লেষণ: সংমিশ্রণ প্রমাণ প্রদান করা হয়েছে, তবে প্রকৃত জটিল পরিবেশে তাত্ত্বিক গ্যারান্টি আরও গবেষণার প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

বিতরণকৃত অপ্টিমাইজেশন: ReZero কে বিতরণকৃত শক্তিশালী শেখার প্রশিক্ষণে প্রয়োগ করা
অফলাইন শেখা: MuZero Unplugged এর সাথে একত্রিত করা, অফলাইন ডেটাসেটে প্রয়োগ
ভিত্তি মডেল: RT-X এর মতো বড় আকারের ডেটাসেটের সাথে একত্রিত করে সিদ্ধান্ত ভিত্তি মডেল নির্মাণ
ওজনযুক্ত নমুনা: বাফারে অংশ নির্বাচনী পুনর্বিশ্লেষণের জন্য আরও যুক্তিসঙ্গত উপায় ব্যবহার করা

গভীর মূল্যায়ন

শক্তি

শক্তিশালী উদ্ভাবনী: পশ্চাদমুখী দৃষ্টিভঙ্গি পুনর্বিশ্লেষণ MCTS ত্বরণের একটি নতুন চিন্তাভাবনা, শক্তিশালী তাত্ত্বিক ভিত্তি
উচ্চ ব্যবহারিক মূল্য: উল্লেখযোগ্য সময় ত্বরণ প্রভাব MCTS অ্যালগরিদমের প্রকৃত প্রয়োগের জন্য গুরুত্বপূর্ণ
ভাল সর্বজনীনতা: কাঠামো ডিজাইন এটিকে বিভিন্ন MCTS অ্যালগরিদমে নির্বিঘ্নে একীভূত করতে সক্ষম করে
পর্যাপ্ত পরীক্ষা: বিভিন্ন পরিবেশ ধরনে পদ্ধতির কার্যকারিতা যাচাই করা, বিস্তারিত অ্যাবলেশন পরীক্ষা অন্তর্ভুক্ত

অপূর্ণতা

তাত্ত্বিক বিশ্লেষণ গভীরতা: সংমিশ্রণ প্রমাণ প্রদান করা হয়েছে, কিন্তু জটিল পরিবেশে তাত্ত্বিক গ্যারান্টি এখনও শক্তিশালী করা প্রয়োজন
বিতরণকৃত পরিস্থিতি: মাল্টি-মেশিন মাল্টি-কার্ড পরিবেশে যাচাইকরণ এবং অপ্টিমাইজেশন অনুপস্থিত
ক্রমাগত নিয়ন্ত্রণ: ক্রমাগত অ্যাকশন স্পেসে পরীক্ষা তুলনামূলকভাবে সীমিত
দীর্ঘমেয়াদী প্রভাব: প্রশিক্ষণ স্থিতিশীলতা এবং চূড়ান্ত কর্মক্ষমতার উপর দীর্ঘমেয়াদী প্রভাব আরও বিশ্লেষণের প্রয়োজন

প্রভাবশীলতা

একাডেমিক অবদান: MCTS ত্বরণের জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করা, তত্ত্ব এবং অনুশীলন উভয়ই গুরুত্বপূর্ণ
ব্যবহারিক মূল্য: সরাসরি MCTS অ্যালগরিদম স্থাপনার মূল বাধা সমস্যা সমাধান করা
পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ ওপেন সোর্স বাস্তবায়ন প্রদান করা, গবেষণা সম্প্রদায়ের ব্যবহার এবং সম্প্রসারণ সহজতর করা

প্রযোজ্য পরিস্থিতি

গেম AI: বোর্ড গেম, ভিডিও গেম ইত্যাদি রিয়েল-টাইম সিদ্ধান্ত গ্রহণের প্রয়োজনীয় পরিস্থিতি
রোবট নিয়ন্ত্রণ: অনলাইন পরিকল্পনা প্রয়োজনীয় রোবট কাজ
স্বয়ংচালিত গাড়ি: রিয়েল-টাইম পথ পরিকল্পনা এবং সিদ্ধান্ত গ্রহণ
আর্থিক বাণিজ্য: উচ্চ-ফ্রিকোয়েন্সি বাণিজ্যে দ্রুত সিদ্ধান্ত গ্রহণ

সংদর্ভ

Schrittwieser, J., et al. (2019). Mastering Atari, Go, chess and shogi by planning with a learned model. Nature, 588, 604-609.
Silver, D., et al. (2017). Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv preprint arXiv:1712.01815.
Ye, W., et al. (2021). Mastering atari games with limited data. Advances in Neural Information Processing Systems, 34, 25476-25488.
Mei, Y., et al. (2023). Speedyzero: Mastering atari with limited data and time. ICLR 2023.

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পত্র যা MCTS অ্যালগরিদমের প্রকৃত স্থাপনা বাধার জন্য উদ্ভাবনী এবং ব্যবহারিক সমাধান প্রস্তাব করে। পদ্ধতি ডিজাইন চতুর, তাত্ত্বিক ভিত্তি শক্তিশালী, পরীক্ষামূলক যাচাইকরণ পর্যাপ্ত, MCTS অ্যালগরিদমকে প্রকৃত প্রয়োগে জনপ্রিয় করার জন্য গুরুত্বপূর্ণ মূল্য রয়েছে।