2025-11-20T12:37:14.096690

Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs

Ding, Zhang, Duan et al.
We study the sequential decision making problem of maximizing the expected total reward while satisfying a constraint on the expected total utility. We employ the natural policy gradient method to solve the discounted infinite-horizon optimal control problem for Constrained Markov Decision Processes (constrained MDPs). Specifically, we propose a new Natural Policy Gradient Primal-Dual (NPG-PD) method that updates the primal variable via natural policy gradient ascent and the dual variable via projected subgradient descent. Although the underlying maximization involves a nonconcave objective function and a nonconvex constraint set, under the softmax policy parametrization, we prove that our method achieves global convergence with sublinear rates regarding both the optimality gap and the constraint violation. Such convergence is independent of the size of the state-action space, i.e., it is~dimension-free. Furthermore, for log-linear and general smooth policy parametrizations, we establish sublinear convergence rates up to a function approximation error caused by restricted policy parametrization. We also provide convergence and finite-sample complexity guarantees for two sample-based NPG-PD algorithms. We use a set of computational experiments to showcase the effectiveness of our approach.
academic

제약 조건이 있는 MDP에 대한 자연 정책 그래디언트 원-대 방법의 수렴성 및 표본 복잡도

기본 정보

  • 논문 ID: 2206.02346
  • 제목: Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs
  • 저자: Dongsheng Ding, Kaiqing Zhang, Jiali Duan, Tamer Başar, Mihailo R. Jovanović
  • 분류: math.OC cs.AI cs.LG cs.SY eess.SY
  • 게재 저널: Journal of Machine Learning Research 26 (2025) 1-76
  • 논문 링크: https://arxiv.org/abs/2206.02346

초록

본 논문은 기대 총 효용 제약 조건을 만족하면서 기대 총 보상을 최대화하는 순차 의사결정 문제를 연구한다. 저자들은 자연 정책 그래디언트 방법을 사용하여 제약 조건이 있는 마르코프 의사결정 과정(constrained MDPs)의 할인된 무한 시간 최적 제어 문제를 해결한다. 구체적으로, 자연 정책 그래디언트 상승으로 원 변수를 업데이트하고 투영 부분 그래디언트 하강으로 대 변수를 업데이트하는 새로운 자연 정책 그래디언트 원-대(NPG-PD) 방법을 제안한다. 기저 최대화 문제가 비오목 목적 함수와 비볼록 제약 집합을 포함하지만, softmax 정책 매개변수화 하에서 이 방법은 최적성 간격과 제약 위반 측면에서 모두 전역 수렴의 부선형 속도를 달성한다. 이러한 수렴성은 상태-동작 공간의 크기와 무관하다. 또한 로그-선형 및 일반 매끄러운 정책 매개변수화에 대해, 제한된 정책 매개변수화로 인한 함수 근사 오차까지의 부선형 수렴 속도를 확립한다.

연구 배경 및 동기

문제 정의

본 논문이 해결하는 핵심 문제는 제약 조건이 있는 마르코프 의사결정 과정(Constrained MDPs)에서의 최적 정책 학습 문제이다:

  • 목표: 기대 총 보상 Vrπ(ρ)V^π_r(ρ) 최대화
  • 제약: 기대 총 효용 제약 Vgπ(ρ)bV^π_g(ρ) ≥ b 만족
  • 도전 과제: 목적 함수는 비오목, 제약 집합은 비볼록

중요성

제약 조건이 있는 MDP는 안전 관련 응용에서 중요한 의미를 갖는다:

  1. 자율 주행: 성능 최대화와 동시에 안전 제약 보장 필요
  2. 로봇 공학: 작업 수행 시 물리적 및 안전 제한 준수 필수
  3. 네트워크 보안: 시스템 성능 최적화와 동시에 보안 정책 유지
  4. 금융 관리: 수익 추구와 동시에 위험 통제

기존 방법의 한계

  1. 이론적 보장 부족: 대부분의 기존 방법은 점근 수렴 또는 국소 수렴 보장만 제공
  2. 차원 의존성: 수렴 속도는 일반적으로 상태-동작 공간 크기에 의존
  3. 함수 근사 오차: 함수 근사 상황에서의 엄밀한 분석 부족
  4. 표본 복잡도: 유한 표본 복잡도의 이론적 보장 부족

핵심 기여

  1. NPG-PD 알고리즘 제안: 자연 정책 그래디언트와 원-대 방법을 결합한 새로운 알고리즘 프레임워크 설계
  2. 전역 수렴 보장: softmax 매개변수화 하에서 차원 무관 전역 수렴성 증명
  3. 함수 근사 이론: 로그-선형 및 일반 매끄러운 정책 매개변수화에 대한 수렴 이론 확립
  4. 표본 복잡도 분석: 두 가지 표본 기반 NPG-PD 알고리즘의 유한 표본 복잡도 보장 제공
  5. 실험 검증: 로봇 시뮬레이션 작업을 통해 방법의 유효성 검증

방법 상세 설명

작업 정의

제약 MDP는 일곱 원소 조직 (S,A,P,r,g,b,γ,ρ)(\mathcal{S}, \mathcal{A}, P, r, g, b, γ, ρ)로 정의된다:

  • S\mathcal{S}: 유한 상태 공간
  • A\mathcal{A}: 유한 동작 공간
  • PP: 전이 확률
  • r,gr, g: 보상 및 효용 함수
  • bb: 제약 임계값
  • γγ: 할인 인수
  • ρρ: 초기 상태 분포

최적화 문제: maxπΠVrπ(ρ)s.t.Vgπ(ρ)b\max_{π ∈ Π} V^π_r(ρ) \quad \text{s.t.} \quad V^π_g(ρ) ≥ b

모델 구조

1. 라그랑주 쌍대화

제약 최적화 문제를 안장점 문제로 변환: maxπΠminλ0Vrπ(ρ)+λ(Vgπ(ρ)b)\max_{π ∈ Π} \min_{λ ≥ 0} V^π_r(ρ) + λ(V^π_g(ρ) - b)

2. NPG-PD 알고리즘 핵심 업데이트

원 변수 업데이트(자연 정책 그래디언트): θ(t+1)=θ(t)+η1Fρ(θ(t))θVLθ(t),λ(t)(ρ)θ^{(t+1)} = θ^{(t)} + η_1 F^†_ρ(θ^{(t)})∇_θ V^{θ^{(t)},λ^{(t)}}_L(ρ)

대 변수 업데이트(투영 부분 그래디언트 하강): λ(t+1)=PΛ(λ(t)η2(Vgθ(t)(ρ)b))λ^{(t+1)} = P_Λ\left(λ^{(t)} - η_2(V^{θ^{(t)}}_g(ρ) - b)\right)

여기서:

  • Fρ(θ)F^†_ρ(θ): Fisher 정보 행렬의 Moore-Penrose 역행렬
  • PΛP_Λ: 구간 [0,2/((1γ)ξ)][0, 2/((1-γ)ξ)]로의 투영

3. Softmax 정책 매개변수화 하에서의 단순화된 형태

Softmax 매개변수화 πθ(as)=exp(θs,a)aexp(θs,a)π_θ(a|s) = \frac{\exp(θ_{s,a})}{\sum_{a'} \exp(θ_{s,a'})} 하에서, 업데이트는 다음과 같이 단순화된다:

θs,a(t+1)=θs,a(t)+η11γAL(t)(s,a)θ^{(t+1)}_{s,a} = θ^{(t)}_{s,a} + \frac{η_1}{1-γ}A^{(t)}_L(s,a)

승법적 가중치 업데이트와 동등: π(t+1)(as)=π(t)(as)exp(η11γAL(t)(s,a))Z(t)(s)π^{(t+1)}(a|s) = \frac{π^{(t)}(a|s)\exp\left(\frac{η_1}{1-γ}A^{(t)}_L(s,a)\right)}{Z^{(t)}(s)}

기술적 혁신점

  1. 차원 무관 수렴: softmax 구조를 활용하여 상태-동작 공간 크기와 무관한 수렴 속도 달성
  2. 비볼록 제약 처리: 새로운 원-대 분석을 통해 비볼록 제약 집합 처리
  3. 함수 근사 오차 분해: 추정-전파 오차 분해 프레임워크 도입
  4. 후회 유형 분석: 온라인 학습의 후회 분석 기법 채택

이론적 결과

주요 수렴 정리

정리 10 (Softmax 매개변수화 전역 수렴): Slater 조건 하에서, η1=2logAη_1 = 2\log|A|, η2=2(1γ)/Tη_2 = 2(1-γ)/\sqrt{T}를 선택하면, NPG-PD 알고리즘은 다음을 만족한다:

최적성 간격: 1Tt=0T1(Vr(ρ)Vr(t)(ρ))7(1γ)21T\frac{1}{T}\sum_{t=0}^{T-1}(V^*_r(ρ) - V^{(t)}_r(ρ)) ≤ \frac{7}{(1-γ)^2}\frac{1}{\sqrt{T}}

제약 위반: [1Tt=0T1(bVg(t)(ρ))]+2ξ+4ξ(1γ)21T\left[\frac{1}{T}\sum_{t=0}^{T-1}(b - V^{(t)}_g(ρ))\right]_+ ≤ \frac{2}{ξ} + \frac{4ξ}{(1-γ)^2}\frac{1}{\sqrt{T}}

함수 근사 경우

정리 16 (로그-선형 매개변수화): 함수 근사 설정에서, 수렴 속도는: E[1Tt=0T1(Vr(ρ)Vr(t)(ρ))]C3(1γ)51T+함수 근사 오차E\left[\frac{1}{T}\sum_{t=0}^{T-1}(V^*_r(ρ) - V^{(t)}_r(ρ))\right] ≤ \frac{C_3}{(1-γ)^5}\frac{1}{\sqrt{T}} + \text{함수 근사 오차}

표본 복잡도

정리 28/29 (표본 복잡도):

  • 반복 복잡도: O(1/ε2)O(1/ε^2)
  • 표본 복잡도: O(1/ε4)O(1/ε^4)

이는 이전의 O(1/ε8)O(1/ε^8) 결과에 비해 현저한 개선이다.

실험 설정

로봇 시뮬레이션 작업

MuJoCo 환경의 6가지 로봇 보행 작업 사용:

  • Ant-v1, Humanoid-v1, HalfCheetah-v1, Walker2d-v1, Hopper-v1, Swimmer-v1
  • 제약: 이동 속도가 주어진 임계값을 초과하지 않음(안전 제약)

비교 방법

  1. 고전적 원-대 방법: TRPOLag, PPOLag
  2. 최신 정책 최적화 방법: CUP, FOCOPS

평가 지표

  • 평균 보상: 작업 성능
  • 평균 비용: 제약 위반 정도(평균 속도)

실험 결과

주요 발견

  1. 성능 우위: NPG-PD는 대부분의 작업에서 더 높은 보상을 달성하면서 유사한 제약 만족 수준 유지
  2. 수렴 속도: 고전적 라그랑주 방법보다 더 빠른 수렴
  3. 경쟁력 있는 성능: 최신 방법(FOCOPS, CUP)과 동등하거나 우수한 성능

구체적 결과 분석

  • Ant-v1 및 Humanoid-v1: NPG-PD가 다른 네 가지 방법을 일관되게 능가
  • HalfCheetah-v1 및 Walker2d-v1: NPG-PD와 PPOLag의 성능이 유사하며, 둘 다 다른 방법보다 우수
  • Hopper-v1 및 Swimmer-v1: NPG-PD가 FOCOPS, CUP와 치열한 경쟁을 벌이며, 초기 진동이 있지만 최종적으로 더 높은 보상 달성

관련 연구

제약 MDP 알고리즘 발전

  1. 초기 연구: 라그랑주 기반 방법(Altman 1999, Borkar 2005)
  2. 국소 수렴 방법: CPG, accelerated PDPO, CPO 등
  3. 전역 수렴 연구: 본 논문은 유한 시간 전역 수렴 보장을 제공하는 첫 번째 연구

정책 그래디언트 방법

  1. 제약 없는 수렴 이론: Agarwal et al. (2021) 등
  2. 제약 최적화 도전: 비볼록 제약 집합 처리의 추가 어려움

결론 및 논의

주요 결론

  1. 이론적 돌파: 제약 MDP의 정책 그래디언트 방법에 대한 차원 무관 전역 수렴 보장을 처음으로 제공
  2. 실용적 알고리즘: NPG-PD 알고리즘은 간단하고 효과적이며 대규모 문제에 적용 가능
  3. 함수 근사 이론: 완전한 함수 근사 오차 분석 프레임워크 확립

한계

  1. 진동 현상: 원-대 방법의 일반적인 초기 진동 현상
  2. Slater 조건: 엄격한 실행 가능성 가정 필요
  3. Softmax 매개변수화: 가장 강력한 결과는 특정 매개변수화에만 적용

향후 방향

  1. 정책 반복 수렴: 단일 시간 척도 알고리즘의 정책 반복 수렴성 연구
  2. 정규화 기법: 진동 제거를 위한 정규화 도입
  3. 연속 공간 확장: 연속 상태-동작 공간으로 확장
  4. 강건성 분석: 모델 불확실성의 영향 고려

심층 평가

장점

  1. 이론적 혁신: 제약 MDP의 차원 무관 전역 수렴 이론을 처음으로 확립
  2. 기술적 깊이: 온라인 학습과 제약 최적화 기법을 교묘하게 결합
  3. 완전한 분석: 표 형식에서 함수 근사까지의 완전한 이론 프레임워크
  4. 실험 검증: 실제 로봇 작업에서 이론적 예측 검증

부족한 점

  1. 매개변수화 제한: 가장 강력한 이론적 결과는 softmax 매개변수화에만 적용
  2. 실험 범위: 실험은 주로 로봇 제어 분야에 집중
  3. 수렴 속도: 부선형 수렴 속도는 실제 응용에서 느릴 수 있음
  4. 진동 문제: 원-대 방법의 진동 현상이 충분히 해결되지 않음

영향력

  1. 이론적 기여: 제약 강화 학습에 중요한 이론적 기초 제공
  2. 방법론적 가치: NPG-PD 프레임워크는 다른 제약 최적화 문제로 확장 가능
  3. 실용적 가치: 알고리즘은 간단하고 구현하기 쉬우며 공학 응용에 적합
  4. 후속 연구: 해당 분야의 후속 연구를 위한 이론적 기초 마련

적용 시나리오

  1. 안전 관련 시스템: 자율 주행, 의료 로봇 등 하드 제약이 필요한 시나리오
  2. 자원 제한 환경: 계산 및 저장 자원이 제한된 온라인 학습 시나리오
  3. 대규모 MDP: 상태-동작 공간이 거대한 복잡한 의사결정 문제
  4. 다중 목표 최적화: 여러 성능 지표의 균형이 필요한 응용

기술적 세부 사항 보충

핵심 보조정리

보조정리 11 (비단조 개선): 각 원 변수 업데이트는 라그랑주 항을 개선하지만, 보상 및 효용 함수 자체는 비단조일 수 있다.

보조정리 12 (유계 평균 성능): 후회 분석을 통해 평균 성능 경계 확립.

증명 기법

  1. 승법적 가중치 업데이트 연결: NPG 업데이트를 온라인 학습의 MWU로 해석
  2. Fisher 정보 행렬 역행렬: softmax 구조를 활용하여 NPG 계산 단순화
  3. 강 쌍대성: Slater 조건 하에서 강 쌍대 관계 확립
  4. 제약 위반 경계: 볼록 분석 기법을 통해 제약 위반 경계 설정

이 논문은 제약 강화 학습 이론 분야에서 중요한 기여를 하였으며, 해당 분야의 발전을 위한 견고한 이론적 기초와 실용적 알고리즘 프레임워크를 제공한다.