We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $γ$-discounted return in that model. At each time, with probability $1-γ$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(ÏS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $Ï$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.
تقترح هذه الورقة خوارزمية تعلم تعزيزي قائمة على أخذ العينات اللاحقة للبيئات المستمرة (Continuing PSRL)، والتي يمكن دمجها بشكل طبيعي في تصاميم الوكلاء القابلة للتوسع. تحافظ الخوارزمية على نموذج بيئة معقول إحصائياً وتتبع سياسة تعظم العائد المخصوم بـ γ في هذا النموذج. في كل خطوة زمنية، تعيد الخوارزمية أخذ عينات من النموذج من التوزيع اللاحق للبيئة باحتمالية 1-γ. من خلال اختيار عامل الخصم بشكل مناسب بناءً على نطاق زمني T، يتم إنشاء حد ندم بايزي بقيمة Õ(τS√AT)، حيث S هو عدد الحالات في البيئة، و A هو عدد الإجراءات، و τ يمثل متوسط الوقت للمكافأة.
تم تصميم خوارزميات أخذ العينات اللاحقة الموجودة في التعلم التعزيزي بشكل أساسي للبيئات الحلقية (episodic)، وتعتمد على الحفاظ على عدادات زيارة الحالة-الإجراء، مما يجعلها غير مناسبة للبيئات المستمرة المعقدة ذات فضاء الحالة عالي الأبعاد.
الإدخال: التوزيع السابق f، عامل الخصم γ، إجمالي وقت التعلم T
1. تهيئة t=1, k=1, X₁=0
2. for t ≤ T:
3. if Xₜ = 0:
4. tₖ ← t
5. أخذ عينات Eₖ ~ f(·|H_tₖ)
6. حساب πₖ = π^γ_Eₖ
7. k ← k+1
8. أخذ عينات وتنفيذ Aₜ ~ πₖ(·|Sₜ)
9. ملاحظة Rₜ₊₁ و Sₜ₊₁
10. t ← t+1
11. أخذ عينات Xₜ₊₁ ~ Bernoulli(γ)
تستشهد الورقة بأعمال مهمة في مجال التعلم التعزيزي، بما في ذلك:
الأعمال الكلاسيكية لـ Thompson sampling (Thompson, 1933)
الأعمال الرائدة لـ PSRL (Osband et al., 2013)
الأبحاث ذات الصلة بالبيئات المستمرة (Ouyang et al., 2017; Theocharous et al., 2018)
التطورات المهمة في التعلم التعزيزي العميق (Mnih et al., 2015)
التقييم الشامل: هذه ورقة بحثية عالية الجودة في مجال التعلم التعزيزي النظري، تقدم مساهمات مهمة في طرق أخذ العينات اللاحقة للبيئات المستمرة. تتميز الخوارزمية بتصميم بسيط وأنيق، والتحليل النظري صارم وكامل، مما يوفر منظوراً جديداً وأدوات للمجال. على الرغم من وجود مجال للتحسين في التحقق التجريبي، فإن قيمتها النظرية وإمكانياتها العملية بارزة جداً.