We study the sequential decision making problem of maximizing the expected total reward while satisfying a constraint on the expected total utility. We employ the natural policy gradient method to solve the discounted infinite-horizon optimal control problem for Constrained Markov Decision Processes (constrained MDPs). Specifically, we propose a new Natural Policy Gradient Primal-Dual (NPG-PD) method that updates the primal variable via natural policy gradient ascent and the dual variable via projected subgradient descent. Although the underlying maximization involves a nonconcave objective function and a nonconvex constraint set, under the softmax policy parametrization, we prove that our method achieves global convergence with sublinear rates regarding both the optimality gap and the constraint violation. Such convergence is independent of the size of the state-action space, i.e., it is~dimension-free. Furthermore, for log-linear and general smooth policy parametrizations, we establish sublinear convergence rates up to a function approximation error caused by restricted policy parametrization. We also provide convergence and finite-sample complexity guarantees for two sample-based NPG-PD algorithms. We use a set of computational experiments to showcase the effectiveness of our approach.
Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs 论文ID : 2206.02346标题 : Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs作者 : Dongsheng Ding, Kaiqing Zhang, Jiali Duan, Tamer Başar, Mihailo R. Jovanović分类 : math.OC cs.AI cs.LG cs.SY eess.SY发表期刊 : Journal of Machine Learning Research 26 (2025) 1-76论文链接 : https://arxiv.org/abs/2206.02346 本文研究在满足期望总效用约束的条件下最大化期望总奖励的序列决策问题。作者采用自然策略梯度方法求解约束马尔可夫决策过程(constrained MDPs)的折扣无限时域最优控制问题。具体提出了一种新的自然策略梯度原对偶(NPG-PD)方法,通过自然策略梯度上升更新原变量,通过投影次梯度下降更新对偶变量。尽管底层最大化问题涉及非凹目标函数和非凸约束集,但在softmax策略参数化下,该方法在最优性间隙和约束违反方面都达到了全局收敛的次线性率。这种收敛性独立于状态-动作空间的大小,即无维度依赖。此外,对于对数线性和一般光滑策略参数化,建立了直到由受限策略参数化引起的函数逼近误差的次线性收敛率。
本文要解决的核心问题是约束马尔可夫决策过程(Constrained MDPs)中的最优策略学习问题:
目标 :最大化期望总奖励 V r π ( ρ ) V^π_r(ρ) V r π ( ρ ) 约束 :满足期望总效用约束 V g π ( ρ ) ≥ b V^π_g(ρ) ≥ b V g π ( ρ ) ≥ b 挑战 :目标函数非凹,约束集非凸约束MDPs在安全关键应用中具有重要意义:
自动驾驶 :需要在最大化性能的同时保证安全约束机器人学 :在执行任务时必须满足物理和安全限制网络安全 :在优化系统性能的同时维护安全策略金融管理 :在追求收益的同时控制风险理论保证不足 :大多数现有方法只提供渐近收敛或局部收敛保证维度依赖 :收敛率通常依赖于状态-动作空间大小函数逼近误差 :缺乏对函数逼近情况下的严格分析样本复杂度 :缺乏有限样本复杂度的理论保证提出NPG-PD算法 :设计了结合自然策略梯度和原对偶方法的新算法框架全局收敛保证 :在softmax参数化下证明了维度无关的全局收敛性函数逼近理论 :为对数线性和一般光滑策略参数化建立了收敛理论样本复杂度分析 :提供了两种基于样本的NPG-PD算法的有限样本复杂度保证实验验证 :通过机器人仿真任务验证了方法的有效性约束MDP 定义为七元组 ( S , A , P , r , g , b , γ , ρ ) (\mathcal{S}, \mathcal{A}, P, r, g, b, γ, ρ) ( S , A , P , r , g , b , γ , ρ ) :
S \mathcal{S} S :有限状态空间A \mathcal{A} A :有限动作空间P P P :转移概率r , g r, g r , g :奖励和效用函数b b b :约束阈值γ γ γ :折扣因子ρ ρ ρ :初始状态分布优化问题 :
max π ∈ Π V r π ( ρ ) s.t. V g π ( ρ ) ≥ b \max_{π ∈ Π} V^π_r(ρ) \quad \text{s.t.} \quad V^π_g(ρ) ≥ b max π ∈ Π V r π ( ρ ) s.t. V g π ( ρ ) ≥ b
将约束优化问题转化为鞍点问题:
max π ∈ Π min λ ≥ 0 V r π ( ρ ) + λ ( V g π ( ρ ) − b ) \max_{π ∈ Π} \min_{λ ≥ 0} V^π_r(ρ) + λ(V^π_g(ρ) - b) max π ∈ Π min λ ≥ 0 V r π ( ρ ) + λ ( V g π ( ρ ) − b )
原变量更新 (自然策略梯度):
θ ( t + 1 ) = θ ( t ) + η 1 F ρ † ( θ ( t ) ) ∇ θ V L θ ( t ) , λ ( t ) ( ρ ) θ^{(t+1)} = θ^{(t)} + η_1 F^†_ρ(θ^{(t)})∇_θ V^{θ^{(t)},λ^{(t)}}_L(ρ) θ ( t + 1 ) = θ ( t ) + η 1 F ρ † ( θ ( t ) ) ∇ θ V L θ ( t ) , λ ( t ) ( ρ )
对偶变量更新 (投影次梯度下降):
λ ( t + 1 ) = P Λ ( λ ( t ) − η 2 ( V g θ ( t ) ( ρ ) − b ) ) λ^{(t+1)} = P_Λ\left(λ^{(t)} - η_2(V^{θ^{(t)}}_g(ρ) - b)\right) λ ( t + 1 ) = P Λ ( λ ( t ) − η 2 ( V g θ ( t ) ( ρ ) − b ) )
其中:
F ρ † ( θ ) F^†_ρ(θ) F ρ † ( θ ) :Fisher信息矩阵的Moore-Penrose逆P Λ P_Λ P Λ :投影到区间 [ 0 , 2 / ( ( 1 − γ ) ξ ) ] [0, 2/((1-γ)ξ)] [ 0 , 2/ (( 1 − γ ) ξ )] 在softmax参数化 π θ ( a ∣ s ) = exp ( θ s , a ) ∑ a ′ exp ( θ s , a ′ ) π_θ(a|s) = \frac{\exp(θ_{s,a})}{\sum_{a'} \exp(θ_{s,a'})} π θ ( a ∣ s ) = ∑ a ′ e x p ( θ s , a ′ ) e x p ( θ s , a ) 下,更新简化为:
θ s , a ( t + 1 ) = θ s , a ( t ) + η 1 1 − γ A L ( t ) ( s , a ) θ^{(t+1)}_{s,a} = θ^{(t)}_{s,a} + \frac{η_1}{1-γ}A^{(t)}_L(s,a) θ s , a ( t + 1 ) = θ s , a ( t ) + 1 − γ η 1 A L ( t ) ( s , a )
等价于乘性权重更新:
π ( t + 1 ) ( a ∣ s ) = π ( t ) ( a ∣ s ) exp ( η 1 1 − γ A L ( t ) ( s , a ) ) Z ( t ) ( s ) π^{(t+1)}(a|s) = \frac{π^{(t)}(a|s)\exp\left(\frac{η_1}{1-γ}A^{(t)}_L(s,a)\right)}{Z^{(t)}(s)} π ( t + 1 ) ( a ∣ s ) = Z ( t ) ( s ) π ( t ) ( a ∣ s ) e x p ( 1 − γ η 1 A L ( t ) ( s , a ) )
维度无关收敛 :利用softmax结构实现与状态-动作空间大小无关的收敛率非凸约束处理 :通过新的原对偶分析处理非凸约束集函数逼近误差分解 :引入估计-传递误差分解框架遗憾型分析 :采用在线学习中的遗憾分析技术定理10(Softmax参数化全局收敛) :
在Slater条件下,选择 η 1 = 2 log ∣ A ∣ η_1 = 2\log|A| η 1 = 2 log ∣ A ∣ ,η 2 = 2 ( 1 − γ ) / T η_2 = 2(1-γ)/\sqrt{T} η 2 = 2 ( 1 − γ ) / T ,NPG-PD算法满足:
最优性间隙 :
1 T ∑ t = 0 T − 1 ( V r ∗ ( ρ ) − V r ( t ) ( ρ ) ) ≤ 7 ( 1 − γ ) 2 1 T \frac{1}{T}\sum_{t=0}^{T-1}(V^*_r(ρ) - V^{(t)}_r(ρ)) ≤ \frac{7}{(1-γ)^2}\frac{1}{\sqrt{T}} T 1 ∑ t = 0 T − 1 ( V r ∗ ( ρ ) − V r ( t ) ( ρ )) ≤ ( 1 − γ ) 2 7 T 1
约束违反 :
[ 1 T ∑ t = 0 T − 1 ( b − V g ( t ) ( ρ ) ) ] + ≤ 2 ξ + 4 ξ ( 1 − γ ) 2 1 T \left[\frac{1}{T}\sum_{t=0}^{T-1}(b - V^{(t)}_g(ρ))\right]_+ ≤ \frac{2}{ξ} + \frac{4ξ}{(1-γ)^2}\frac{1}{\sqrt{T}} [ T 1 ∑ t = 0 T − 1 ( b − V g ( t ) ( ρ )) ] + ≤ ξ 2 + ( 1 − γ ) 2 4 ξ T 1
定理16(对数线性参数化) :
在函数逼近设置下,收敛率为:
E [ 1 T ∑ t = 0 T − 1 ( V r ∗ ( ρ ) − V r ( t ) ( ρ ) ) ] ≤ C 3 ( 1 − γ ) 5 1 T + 函数逼近误差 E\left[\frac{1}{T}\sum_{t=0}^{T-1}(V^*_r(ρ) - V^{(t)}_r(ρ))\right] ≤ \frac{C_3}{(1-γ)^5}\frac{1}{\sqrt{T}} + \text{函数逼近误差} E [ T 1 ∑ t = 0 T − 1 ( V r ∗ ( ρ ) − V r ( t ) ( ρ )) ] ≤ ( 1 − γ ) 5 C 3 T 1 + 函数逼近误差
定理28/29(样本复杂度) :
迭代复杂度 :O ( 1 / ε 2 ) O(1/ε^2) O ( 1/ ε 2 ) 样本复杂度 :O ( 1 / ε 4 ) O(1/ε^4) O ( 1/ ε 4 ) 这比之前的 O ( 1 / ε 8 ) O(1/ε^8) O ( 1/ ε 8 ) 结果有显著改进。
使用MuJoCo环境中的6个机器人行走任务:
Ant-v1, Humanoid-v1, HalfCheetah-1, Walker2d-v1, Hopper-v1, Swimmer-v1 约束 :移动速度不超过给定阈值(安全约束)经典原对偶方法 :TRPOLag, PPOLag最新策略优化方法 :CUP, FOCOPS平均奖励 :任务性能平均代价 :约束违反程度(平均速度)性能优势 :NPG-PD在大多数任务中达到更高奖励,同时保持相似的约束满足程度收敛速度 :比经典拉格朗日方法收敛更快竞争性表现 :与最新方法(FOCOPS, CUP)性能相当或更优Ant-v1和Humanoid-v1 :NPG-PD统一优于其他四种方法HalfCheetah-v1和Walker2d-v1 :NPG-PD与PPOLag性能相似,均优于其他方法Hopper-v1和Swimmer-v1 :NPG-PD与FOCOPS、CUP竞争激烈,尽管存在早期振荡但最终达到更高奖励早期工作 :基于拉格朗日的方法(Altman 1999, Borkar 2005)局部收敛方法 :CPG, accelerated PDPO, CPO等全局收敛研究 :本文是首个提供有限时间全局收敛保证的工作无约束收敛理论 :Agarwal et al. (2021)等约束优化挑战 :处理非凸约束集的额外困难理论突破 :首次为约束MDP的策略梯度方法提供维度无关的全局收敛保证实用算法 :NPG-PD算法简单有效,适用于大规模问题函数逼近理论 :建立了完整的函数逼近误差分析框架振荡行为 :原对偶方法常见的早期振荡现象Slater条件 :需要严格可行性假设softmax参数化 :最强结果仅适用于特定参数化策略迭代收敛 :研究单时间尺度算法的策略迭代收敛性正则化技术 :引入正则化消除振荡行为连续空间扩展 :扩展到连续状态-动作空间鲁棒性分析 :考虑模型不确定性的影响理论创新 :首次建立约束MDP的维度无关全局收敛理论技术深度 :巧妙结合在线学习和约束优化技术完整分析 :从表格情况到函数逼近的完整理论框架实验验证 :在实际机器人任务中验证了理论预测参数化限制 :最强理论结果仅适用于softmax参数化实验范围 :实验主要集中在机器人控制领域收敛率 :次线性收敛率可能在实际应用中较慢振荡问题 :未充分解决原对偶方法的振荡现象理论贡献 :为约束强化学习提供了重要理论基础方法论价值 :NPG-PD框架可扩展到其他约束优化问题实用价值 :算法简单易实现,适合工程应用后续研究 :为该领域后续研究奠定了理论基础安全关键系统 :自动驾驶、医疗机器人等需要硬约束的场景资源受限环境 :计算和存储资源有限的在线学习场景大规模MDP :状态-动作空间巨大的复杂决策问题多目标优化 :需要平衡多个性能指标的应用引理11(非单调改进) :每次原变量更新都改进拉格朗日项,但奖励和效用函数本身可能非单调。
引理12(有界平均性能) :通过遗憾分析建立平均性能界限。
乘性权重更新连接 :将NPG更新解释为在线学习中的MWUFisher信息矩阵逆 :利用softmax结构简化NPG计算强对偶性 :在Slater条件下建立强对偶关系约束违反界 :通过凸分析技术界定约束违反这篇论文在约束强化学习理论方面做出了重要贡献,为该领域的发展提供了坚实的理论基础和实用的算法框架。