2025-11-20T12:37:14.096690

Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs

Ding, Zhang, Duan et al.

We study the sequential decision making problem of maximizing the expected total reward while satisfying a constraint on the expected total utility. We employ the natural policy gradient method to solve the discounted infinite-horizon optimal control problem for Constrained Markov Decision Processes (constrained MDPs). Specifically, we propose a new Natural Policy Gradient Primal-Dual (NPG-PD) method that updates the primal variable via natural policy gradient ascent and the dual variable via projected subgradient descent. Although the underlying maximization involves a nonconcave objective function and a nonconvex constraint set, under the softmax policy parametrization, we prove that our method achieves global convergence with sublinear rates regarding both the optimality gap and the constraint violation. Such convergence is independent of the size of the state-action space, i.e., it is~dimension-free. Furthermore, for log-linear and general smooth policy parametrizations, we establish sublinear convergence rates up to a function approximation error caused by restricted policy parametrization. We also provide convergence and finite-sample complexity guarantees for two sample-based NPG-PD algorithms. We use a set of computational experiments to showcase the effectiveness of our approach.

academic

제약 조건이 있는 MDP에 대한 자연 정책 그래디언트 원-대 방법의 수렴성 및 표본 복잡도

기본 정보

논문 ID: 2206.02346
제목: Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs
저자: Dongsheng Ding, Kaiqing Zhang, Jiali Duan, Tamer Başar, Mihailo R. Jovanović
분류: math.OC cs.AI cs.LG cs.SY eess.SY
게재 저널: Journal of Machine Learning Research 26 (2025) 1-76
논문 링크: https://arxiv.org/abs/2206.02346

초록

본 논문은 기대 총 효용 제약 조건을 만족하면서 기대 총 보상을 최대화하는 순차 의사결정 문제를 연구한다. 저자들은 자연 정책 그래디언트 방법을 사용하여 제약 조건이 있는 마르코프 의사결정 과정(constrained MDPs)의 할인된 무한 시간 최적 제어 문제를 해결한다. 구체적으로, 자연 정책 그래디언트 상승으로 원 변수를 업데이트하고 투영 부분 그래디언트 하강으로 대 변수를 업데이트하는 새로운 자연 정책 그래디언트 원-대(NPG-PD) 방법을 제안한다. 기저 최대화 문제가 비오목 목적 함수와 비볼록 제약 집합을 포함하지만, softmax 정책 매개변수화 하에서 이 방법은 최적성 간격과 제약 위반 측면에서 모두 전역 수렴의 부선형 속도를 달성한다. 이러한 수렴성은 상태-동작 공간의 크기와 무관하다. 또한 로그-선형 및 일반 매끄러운 정책 매개변수화에 대해, 제한된 정책 매개변수화로 인한 함수 근사 오차까지의 부선형 수렴 속도를 확립한다.

연구 배경 및 동기

문제 정의

본 논문이 해결하는 핵심 문제는 제약 조건이 있는 마르코프 의사결정 과정(Constrained MDPs)에서의 최적 정책 학습 문제이다:

목표: 기대 총 보상 $V^π_r(ρ)$ 최대화
제약: 기대 총 효용 제약 $V^π_g(ρ) ≥ b$ 만족
도전 과제: 목적 함수는 비오목, 제약 집합은 비볼록

중요성

제약 조건이 있는 MDP는 안전 관련 응용에서 중요한 의미를 갖는다:

자율 주행: 성능 최대화와 동시에 안전 제약 보장 필요
로봇 공학: 작업 수행 시 물리적 및 안전 제한 준수 필수
네트워크 보안: 시스템 성능 최적화와 동시에 보안 정책 유지
금융 관리: 수익 추구와 동시에 위험 통제

기존 방법의 한계

이론적 보장 부족: 대부분의 기존 방법은 점근 수렴 또는 국소 수렴 보장만 제공
차원 의존성: 수렴 속도는 일반적으로 상태-동작 공간 크기에 의존
함수 근사 오차: 함수 근사 상황에서의 엄밀한 분석 부족
표본 복잡도: 유한 표본 복잡도의 이론적 보장 부족

핵심 기여

NPG-PD 알고리즘 제안: 자연 정책 그래디언트와 원-대 방법을 결합한 새로운 알고리즘 프레임워크 설계
전역 수렴 보장: softmax 매개변수화 하에서 차원 무관 전역 수렴성 증명
함수 근사 이론: 로그-선형 및 일반 매끄러운 정책 매개변수화에 대한 수렴 이론 확립
표본 복잡도 분석: 두 가지 표본 기반 NPG-PD 알고리즘의 유한 표본 복잡도 보장 제공
실험 검증: 로봇 시뮬레이션 작업을 통해 방법의 유효성 검증

방법 상세 설명

작업 정의

제약 MDP는 일곱 원소 조직 $(\mathcal{S}, \mathcal{A}, P, r, g, b, γ, ρ)$ 로 정의된다:

$\mathcal{S}$ : 유한 상태 공간
$\mathcal{A}$ : 유한 동작 공간
$P$ : 전이 확률
$r, g$ : 보상 및 효용 함수
$b$ : 제약 임계값
$γ$ : 할인 인수
$ρ$ : 초기 상태 분포

최적화 문제: $\max_{π ∈ Π} V^π_r(ρ) \quad \text{s.t.} \quad V^π_g(ρ) ≥ b$

모델 구조

1. 라그랑주 쌍대화

제약 최적화 문제를 안장점 문제로 변환: $\max_{π ∈ Π} \min_{λ ≥ 0} V^π_r(ρ) + λ(V^π_g(ρ) - b)$

2. NPG-PD 알고리즘 핵심 업데이트

원 변수 업데이트(자연 정책 그래디언트): $θ^{(t+1)} = θ^{(t)} + η_1 F^†_ρ(θ^{(t)})∇_θ V^{θ^{(t)},λ^{(t)}}_L(ρ)$

대 변수 업데이트(투영 부분 그래디언트 하강): $λ^{(t+1)} = P_Λ\left(λ^{(t)} - η_2(V^{θ^{(t)}}_g(ρ) - b)\right)$

여기서:

$F^†_ρ(θ)$ : Fisher 정보 행렬의 Moore-Penrose 역행렬
$P_Λ$ : 구간 $[0, 2/((1-γ)ξ)]$ 로의 투영

3. Softmax 정책 매개변수화 하에서의 단순화된 형태

Softmax 매개변수화 $π_θ(a|s) = \frac{\exp(θ_{s,a})}{\sum_{a'} \exp(θ_{s,a'})}$ 하에서, 업데이트는 다음과 같이 단순화된다:

$θ^{(t+1)}_{s,a} = θ^{(t)}_{s,a} + \frac{η_1}{1-γ}A^{(t)}_L(s,a)$

승법적 가중치 업데이트와 동등: $π^{(t+1)}(a|s) = \frac{π^{(t)}(a|s)\exp\left(\frac{η_1}{1-γ}A^{(t)}_L(s,a)\right)}{Z^{(t)}(s)}$

기술적 혁신점

차원 무관 수렴: softmax 구조를 활용하여 상태-동작 공간 크기와 무관한 수렴 속도 달성
비볼록 제약 처리: 새로운 원-대 분석을 통해 비볼록 제약 집합 처리
함수 근사 오차 분해: 추정-전파 오차 분해 프레임워크 도입
후회 유형 분석: 온라인 학습의 후회 분석 기법 채택

이론적 결과

주요 수렴 정리

정리 10 (Softmax 매개변수화 전역 수렴): Slater 조건 하에서, $η_1 = 2\log|A|$ , $η_2 = 2(1-γ)/\sqrt{T}$ 를 선택하면, NPG-PD 알고리즘은 다음을 만족한다:

최적성 간격: $\frac{1}{T}\sum_{t=0}^{T-1}(V^*_r(ρ) - V^{(t)}_r(ρ)) ≤ \frac{7}{(1-γ)^2}\frac{1}{\sqrt{T}}$

제약 위반: $\left[\frac{1}{T}\sum_{t=0}^{T-1}(b - V^{(t)}_g(ρ))\right]_+ ≤ \frac{2}{ξ} + \frac{4ξ}{(1-γ)^2}\frac{1}{\sqrt{T}}$

함수 근사 경우

정리 16 (로그-선형 매개변수화): 함수 근사 설정에서, 수렴 속도는: $E\left[\frac{1}{T}\sum_{t=0}^{T-1}(V^*_r(ρ) - V^{(t)}_r(ρ))\right] ≤ \frac{C_3}{(1-γ)^5}\frac{1}{\sqrt{T}} + \text{함수 근사 오차}$

표본 복잡도

정리 28/29 (표본 복잡도):

반복 복잡도: $O(1/ε^2)$
표본 복잡도: $O(1/ε^4)$

이는 이전의 $O(1/ε^8)$ 결과에 비해 현저한 개선이다.

실험 설정

로봇 시뮬레이션 작업

MuJoCo 환경의 6가지 로봇 보행 작업 사용:

Ant-v1, Humanoid-v1, HalfCheetah-v1, Walker2d-v1, Hopper-v1, Swimmer-v1
제약: 이동 속도가 주어진 임계값을 초과하지 않음(안전 제약)

비교 방법

고전적 원-대 방법: TRPOLag, PPOLag
최신 정책 최적화 방법: CUP, FOCOPS

평가 지표

평균 보상: 작업 성능
평균 비용: 제약 위반 정도(평균 속도)

실험 결과

주요 발견

성능 우위: NPG-PD는 대부분의 작업에서 더 높은 보상을 달성하면서 유사한 제약 만족 수준 유지
수렴 속도: 고전적 라그랑주 방법보다 더 빠른 수렴
경쟁력 있는 성능: 최신 방법(FOCOPS, CUP)과 동등하거나 우수한 성능

구체적 결과 분석

Ant-v1 및 Humanoid-v1: NPG-PD가 다른 네 가지 방법을 일관되게 능가
HalfCheetah-v1 및 Walker2d-v1: NPG-PD와 PPOLag의 성능이 유사하며, 둘 다 다른 방법보다 우수
Hopper-v1 및 Swimmer-v1: NPG-PD가 FOCOPS, CUP와 치열한 경쟁을 벌이며, 초기 진동이 있지만 최종적으로 더 높은 보상 달성