We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $γ$-discounted return in that model. At each time, with probability $1-γ$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(ÏS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $Ï$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.
본 논문은 지속적 환경에 적용 가능한 후험 샘플링 강화학습 알고리즘(Continuing PSRL)을 제안하며, 이 알고리즘은 확장 가능한 에이전트 설계에 자연스럽게 통합될 수 있습니다. 알고리즘은 통계적으로 타당한 환경 모델을 유지하고 해당 모델에서 γ 할인 보상을 최대화하는 정책을 따릅니다. 각 시간 단계에서 알고리즘은 확률 1-γ로 환경의 후험 분포에서 모델을 재샘플링합니다. 시간 범위 T에 따라 할인 인자를 적절히 선택함으로써, Õ(τS√AT)의 베이지안 후회 한계를 수립했습니다. 여기서 S는 환경 상태 수, A는 동작 수, τ는 보상 평균 시간을 나타냅니다.
입력: 사전 분포 f, 할인 인자 γ, 총 학습 시간 T
1. 초기화 t=1, k=1, X₁=0
2. t ≤ T에 대해:
3. Xₜ = 0이면:
4. tₖ ← t
5. Eₖ ~ f(·|H_tₖ)를 샘플링
6. πₖ = π^γ_Eₖ 계산
7. k ← k+1
8. Aₜ ~ πₖ(·|Sₜ)를 샘플링하고 실행
9. Rₜ₊₁ 및 Sₜ₊₁ 관찰
10. t ← t+1
11. Xₜ₊₁ ~ Bernoulli(γ)를 샘플링
지속적 환경 관련 연구 (Ouyang et al., 2017; Theocharous et al., 2018)
심층 강화학습의 중요한 진전 (Mnih et al., 2015)
종합 평가: 이는 지속적 환경의 후험 샘플링 방법에 중요한 기여를 한 고품질의 이론 강화학습 논문입니다. 알고리즘 설계는 단순하고 우아하며, 이론적 분석은 엄격하고 완전하여 해당 분야에 새로운 관점과 도구를 제공합니다. 실험 검증 측면에서는 개선의 여지가 있지만, 이론적 가치와 실용적 잠재력이 모두 뛰어납니다.