2025-11-20T12:37:14.096690

Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs

Ding, Zhang, Duan et al.
We study the sequential decision making problem of maximizing the expected total reward while satisfying a constraint on the expected total utility. We employ the natural policy gradient method to solve the discounted infinite-horizon optimal control problem for Constrained Markov Decision Processes (constrained MDPs). Specifically, we propose a new Natural Policy Gradient Primal-Dual (NPG-PD) method that updates the primal variable via natural policy gradient ascent and the dual variable via projected subgradient descent. Although the underlying maximization involves a nonconcave objective function and a nonconvex constraint set, under the softmax policy parametrization, we prove that our method achieves global convergence with sublinear rates regarding both the optimality gap and the constraint violation. Such convergence is independent of the size of the state-action space, i.e., it is~dimension-free. Furthermore, for log-linear and general smooth policy parametrizations, we establish sublinear convergence rates up to a function approximation error caused by restricted policy parametrization. We also provide convergence and finite-sample complexity guarantees for two sample-based NPG-PD algorithms. We use a set of computational experiments to showcase the effectiveness of our approach.
academic

Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs

基本信息

  • 论文ID: 2206.02346
  • 标题: Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs
  • 作者: Dongsheng Ding, Kaiqing Zhang, Jiali Duan, Tamer Başar, Mihailo R. Jovanović
  • 分类: math.OC cs.AI cs.LG cs.SY eess.SY
  • 发表期刊: Journal of Machine Learning Research 26 (2025) 1-76
  • 论文链接: https://arxiv.org/abs/2206.02346

摘要

本文研究在满足期望总效用约束的条件下最大化期望总奖励的序列决策问题。作者采用自然策略梯度方法求解约束马尔可夫决策过程(constrained MDPs)的折扣无限时域最优控制问题。具体提出了一种新的自然策略梯度原对偶(NPG-PD)方法,通过自然策略梯度上升更新原变量,通过投影次梯度下降更新对偶变量。尽管底层最大化问题涉及非凹目标函数和非凸约束集,但在softmax策略参数化下,该方法在最优性间隙和约束违反方面都达到了全局收敛的次线性率。这种收敛性独立于状态-动作空间的大小,即无维度依赖。此外,对于对数线性和一般光滑策略参数化,建立了直到由受限策略参数化引起的函数逼近误差的次线性收敛率。

研究背景与动机

问题定义

本文要解决的核心问题是约束马尔可夫决策过程(Constrained MDPs)中的最优策略学习问题:

  • 目标:最大化期望总奖励 Vrπ(ρ)V^π_r(ρ)
  • 约束:满足期望总效用约束 Vgπ(ρ)bV^π_g(ρ) ≥ b
  • 挑战:目标函数非凹,约束集非凸

重要性

约束MDPs在安全关键应用中具有重要意义:

  1. 自动驾驶:需要在最大化性能的同时保证安全约束
  2. 机器人学:在执行任务时必须满足物理和安全限制
  3. 网络安全:在优化系统性能的同时维护安全策略
  4. 金融管理:在追求收益的同时控制风险

现有方法局限性

  1. 理论保证不足:大多数现有方法只提供渐近收敛或局部收敛保证
  2. 维度依赖:收敛率通常依赖于状态-动作空间大小
  3. 函数逼近误差:缺乏对函数逼近情况下的严格分析
  4. 样本复杂度:缺乏有限样本复杂度的理论保证

核心贡献

  1. 提出NPG-PD算法:设计了结合自然策略梯度和原对偶方法的新算法框架
  2. 全局收敛保证:在softmax参数化下证明了维度无关的全局收敛性
  3. 函数逼近理论:为对数线性和一般光滑策略参数化建立了收敛理论
  4. 样本复杂度分析:提供了两种基于样本的NPG-PD算法的有限样本复杂度保证
  5. 实验验证:通过机器人仿真任务验证了方法的有效性

方法详解

任务定义

约束MDP定义为七元组 (S,A,P,r,g,b,γ,ρ)(\mathcal{S}, \mathcal{A}, P, r, g, b, γ, ρ)

  • S\mathcal{S}:有限状态空间
  • A\mathcal{A}:有限动作空间
  • PP:转移概率
  • r,gr, g:奖励和效用函数
  • bb:约束阈值
  • γγ:折扣因子
  • ρρ:初始状态分布

优化问题maxπΠVrπ(ρ)s.t.Vgπ(ρ)b\max_{π ∈ Π} V^π_r(ρ) \quad \text{s.t.} \quad V^π_g(ρ) ≥ b

模型架构

1. 拉格朗日对偶化

将约束优化问题转化为鞍点问题: maxπΠminλ0Vrπ(ρ)+λ(Vgπ(ρ)b)\max_{π ∈ Π} \min_{λ ≥ 0} V^π_r(ρ) + λ(V^π_g(ρ) - b)

2. NPG-PD算法核心更新

原变量更新(自然策略梯度): θ(t+1)=θ(t)+η1Fρ(θ(t))θVLθ(t),λ(t)(ρ)θ^{(t+1)} = θ^{(t)} + η_1 F^†_ρ(θ^{(t)})∇_θ V^{θ^{(t)},λ^{(t)}}_L(ρ)

对偶变量更新(投影次梯度下降): λ(t+1)=PΛ(λ(t)η2(Vgθ(t)(ρ)b))λ^{(t+1)} = P_Λ\left(λ^{(t)} - η_2(V^{θ^{(t)}}_g(ρ) - b)\right)

其中:

  • Fρ(θ)F^†_ρ(θ):Fisher信息矩阵的Moore-Penrose逆
  • PΛP_Λ:投影到区间 [0,2/((1γ)ξ)][0, 2/((1-γ)ξ)]

3. Softmax策略参数化下的简化形式

在softmax参数化 πθ(as)=exp(θs,a)aexp(θs,a)π_θ(a|s) = \frac{\exp(θ_{s,a})}{\sum_{a'} \exp(θ_{s,a'})} 下,更新简化为:

θs,a(t+1)=θs,a(t)+η11γAL(t)(s,a)θ^{(t+1)}_{s,a} = θ^{(t)}_{s,a} + \frac{η_1}{1-γ}A^{(t)}_L(s,a)

等价于乘性权重更新: π(t+1)(as)=π(t)(as)exp(η11γAL(t)(s,a))Z(t)(s)π^{(t+1)}(a|s) = \frac{π^{(t)}(a|s)\exp\left(\frac{η_1}{1-γ}A^{(t)}_L(s,a)\right)}{Z^{(t)}(s)}

技术创新点

  1. 维度无关收敛:利用softmax结构实现与状态-动作空间大小无关的收敛率
  2. 非凸约束处理:通过新的原对偶分析处理非凸约束集
  3. 函数逼近误差分解:引入估计-传递误差分解框架
  4. 遗憾型分析:采用在线学习中的遗憾分析技术

理论结果

主要收敛定理

定理10(Softmax参数化全局收敛): 在Slater条件下,选择 η1=2logAη_1 = 2\log|A|η2=2(1γ)/Tη_2 = 2(1-γ)/\sqrt{T},NPG-PD算法满足:

最优性间隙1Tt=0T1(Vr(ρ)Vr(t)(ρ))7(1γ)21T\frac{1}{T}\sum_{t=0}^{T-1}(V^*_r(ρ) - V^{(t)}_r(ρ)) ≤ \frac{7}{(1-γ)^2}\frac{1}{\sqrt{T}}

约束违反[1Tt=0T1(bVg(t)(ρ))]+2ξ+4ξ(1γ)21T\left[\frac{1}{T}\sum_{t=0}^{T-1}(b - V^{(t)}_g(ρ))\right]_+ ≤ \frac{2}{ξ} + \frac{4ξ}{(1-γ)^2}\frac{1}{\sqrt{T}}

函数逼近情况

定理16(对数线性参数化): 在函数逼近设置下,收敛率为: E[1Tt=0T1(Vr(ρ)Vr(t)(ρ))]C3(1γ)51T+函数逼近误差E\left[\frac{1}{T}\sum_{t=0}^{T-1}(V^*_r(ρ) - V^{(t)}_r(ρ))\right] ≤ \frac{C_3}{(1-γ)^5}\frac{1}{\sqrt{T}} + \text{函数逼近误差}

样本复杂度

定理28/29(样本复杂度)

  • 迭代复杂度O(1/ε2)O(1/ε^2)
  • 样本复杂度O(1/ε4)O(1/ε^4)

这比之前的 O(1/ε8)O(1/ε^8) 结果有显著改进。

实验设置

机器人仿真任务

使用MuJoCo环境中的6个机器人行走任务:

  • Ant-v1, Humanoid-v1, HalfCheetah-1, Walker2d-v1, Hopper-v1, Swimmer-v1
  • 约束:移动速度不超过给定阈值(安全约束)

对比方法

  1. 经典原对偶方法:TRPOLag, PPOLag
  2. 最新策略优化方法:CUP, FOCOPS

评价指标

  • 平均奖励:任务性能
  • 平均代价:约束违反程度(平均速度)

实验结果

主要发现

  1. 性能优势:NPG-PD在大多数任务中达到更高奖励,同时保持相似的约束满足程度
  2. 收敛速度:比经典拉格朗日方法收敛更快
  3. 竞争性表现:与最新方法(FOCOPS, CUP)性能相当或更优

具体结果分析

  • Ant-v1和Humanoid-v1:NPG-PD统一优于其他四种方法
  • HalfCheetah-v1和Walker2d-v1:NPG-PD与PPOLag性能相似,均优于其他方法
  • Hopper-v1和Swimmer-v1:NPG-PD与FOCOPS、CUP竞争激烈,尽管存在早期振荡但最终达到更高奖励

相关工作

约束MDP算法发展

  1. 早期工作:基于拉格朗日的方法(Altman 1999, Borkar 2005)
  2. 局部收敛方法:CPG, accelerated PDPO, CPO等
  3. 全局收敛研究:本文是首个提供有限时间全局收敛保证的工作

策略梯度方法

  1. 无约束收敛理论:Agarwal et al. (2021)等
  2. 约束优化挑战:处理非凸约束集的额外困难

结论与讨论

主要结论

  1. 理论突破:首次为约束MDP的策略梯度方法提供维度无关的全局收敛保证
  2. 实用算法:NPG-PD算法简单有效,适用于大规模问题
  3. 函数逼近理论:建立了完整的函数逼近误差分析框架

局限性

  1. 振荡行为:原对偶方法常见的早期振荡现象
  2. Slater条件:需要严格可行性假设
  3. softmax参数化:最强结果仅适用于特定参数化

未来方向

  1. 策略迭代收敛:研究单时间尺度算法的策略迭代收敛性
  2. 正则化技术:引入正则化消除振荡行为
  3. 连续空间扩展:扩展到连续状态-动作空间
  4. 鲁棒性分析:考虑模型不确定性的影响

深度评价

优点

  1. 理论创新:首次建立约束MDP的维度无关全局收敛理论
  2. 技术深度:巧妙结合在线学习和约束优化技术
  3. 完整分析:从表格情况到函数逼近的完整理论框架
  4. 实验验证:在实际机器人任务中验证了理论预测

不足

  1. 参数化限制:最强理论结果仅适用于softmax参数化
  2. 实验范围:实验主要集中在机器人控制领域
  3. 收敛率:次线性收敛率可能在实际应用中较慢
  4. 振荡问题:未充分解决原对偶方法的振荡现象

影响力

  1. 理论贡献:为约束强化学习提供了重要理论基础
  2. 方法论价值:NPG-PD框架可扩展到其他约束优化问题
  3. 实用价值:算法简单易实现,适合工程应用
  4. 后续研究:为该领域后续研究奠定了理论基础

适用场景

  1. 安全关键系统:自动驾驶、医疗机器人等需要硬约束的场景
  2. 资源受限环境:计算和存储资源有限的在线学习场景
  3. 大规模MDP:状态-动作空间巨大的复杂决策问题
  4. 多目标优化:需要平衡多个性能指标的应用

技术细节补充

关键引理

引理11(非单调改进):每次原变量更新都改进拉格朗日项,但奖励和效用函数本身可能非单调。

引理12(有界平均性能):通过遗憾分析建立平均性能界限。

证明技巧

  1. 乘性权重更新连接:将NPG更新解释为在线学习中的MWU
  2. Fisher信息矩阵逆:利用softmax结构简化NPG计算
  3. 强对偶性:在Slater条件下建立强对偶关系
  4. 约束违反界:通过凸分析技术界定约束违反

这篇论文在约束强化学习理论方面做出了重要贡献,为该领域的发展提供了坚实的理论基础和实用的算法框架。