Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs
Ding, Zhang, Duan et al.
We study the sequential decision making problem of maximizing the expected total reward while satisfying a constraint on the expected total utility. We employ the natural policy gradient method to solve the discounted infinite-horizon optimal control problem for Constrained Markov Decision Processes (constrained MDPs). Specifically, we propose a new Natural Policy Gradient Primal-Dual (NPG-PD) method that updates the primal variable via natural policy gradient ascent and the dual variable via projected subgradient descent. Although the underlying maximization involves a nonconcave objective function and a nonconvex constraint set, under the softmax policy parametrization, we prove that our method achieves global convergence with sublinear rates regarding both the optimality gap and the constraint violation. Such convergence is independent of the size of the state-action space, i.e., it is~dimension-free. Furthermore, for log-linear and general smooth policy parametrizations, we establish sublinear convergence rates up to a function approximation error caused by restricted policy parametrization. We also provide convergence and finite-sample complexity guarantees for two sample-based NPG-PD algorithms. We use a set of computational experiments to showcase the effectiveness of our approach.
academic
제약 조건이 있는 MDP에 대한 자연 정책 그래디언트 원-대 방법의 수렴성 및 표본 복잡도
본 논문은 기대 총 효용 제약 조건을 만족하면서 기대 총 보상을 최대화하는 순차 의사결정 문제를 연구한다. 저자들은 자연 정책 그래디언트 방법을 사용하여 제약 조건이 있는 마르코프 의사결정 과정(constrained MDPs)의 할인된 무한 시간 최적 제어 문제를 해결한다. 구체적으로, 자연 정책 그래디언트 상승으로 원 변수를 업데이트하고 투영 부분 그래디언트 하강으로 대 변수를 업데이트하는 새로운 자연 정책 그래디언트 원-대(NPG-PD) 방법을 제안한다. 기저 최대화 문제가 비오목 목적 함수와 비볼록 제약 집합을 포함하지만, softmax 정책 매개변수화 하에서 이 방법은 최적성 간격과 제약 위반 측면에서 모두 전역 수렴의 부선형 속도를 달성한다. 이러한 수렴성은 상태-동작 공간의 크기와 무관하다. 또한 로그-선형 및 일반 매끄러운 정책 매개변수화에 대해, 제한된 정책 매개변수화로 인한 함수 근사 오차까지의 부선형 수렴 속도를 확립한다.