We study the sequential decision making problem of maximizing the expected total reward while satisfying a constraint on the expected total utility. We employ the natural policy gradient method to solve the discounted infinite-horizon optimal control problem for Constrained Markov Decision Processes (constrained MDPs). Specifically, we propose a new Natural Policy Gradient Primal-Dual (NPG-PD) method that updates the primal variable via natural policy gradient ascent and the dual variable via projected subgradient descent. Although the underlying maximization involves a nonconcave objective function and a nonconvex constraint set, under the softmax policy parametrization, we prove that our method achieves global convergence with sublinear rates regarding both the optimality gap and the constraint violation. Such convergence is independent of the size of the state-action space, i.e., it is~dimension-free. Furthermore, for log-linear and general smooth policy parametrizations, we establish sublinear convergence rates up to a function approximation error caused by restricted policy parametrization. We also provide convergence and finite-sample complexity guarantees for two sample-based NPG-PD algorithms. We use a set of computational experiments to showcase the effectiveness of our approach.
論文ID : 2206.02346タイトル : Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs著者 : Dongsheng Ding, Kaiqing Zhang, Jiali Duan, Tamer Başar, Mihailo R. Jovanović分類 : math.OC cs.AI cs.LG cs.SY eess.SY掲載誌 : Journal of Machine Learning Research 26 (2025) 1-76論文リンク : https://arxiv.org/abs/2206.02346 本論文は、期待総効用制約を満たす条件下で期待総報酬を最大化する逐次意思決定問題を研究している。著者らは自然政策勾配法を用いて制約付きマルコフ決定過程(constrained MDPs)の割引無限時間最適制御問題を解く。具体的には、新しい自然政策勾配主双対(NPG-PD)法を提案し、主変数を自然政策勾配上昇により、双対変数を投影部分勾配下降により更新する。基礎となる最大化問題が非凹目標関数と非凸制約集合を含むにもかかわらず、ソフトマックス政策パラメータ化の下で、本手法は最適性ギャップと制約違反の両方において全域収束の準線形率を達成する。この収束性は状態-行動空間の大きさに依存しない、すなわち無次元依存である。さらに、対数線形および一般的な滑らかな政策パラメータ化に対して、制限付き政策パラメータ化に起因する関数近似誤差までの準線形収束率が確立される。
本論文が解決する中核的な問題は、制約付きマルコフ決定過程(Constrained MDPs)における最適政策学習問題である:
目標 :期待総報酬 V r π ( ρ ) V^π_r(ρ) V r π ( ρ ) を最大化する制約 :期待総効用制約 V g π ( ρ ) ≥ b V^π_g(ρ) ≥ b V g π ( ρ ) ≥ b を満たす課題 :目的関数が非凹、制約集合が非凸制約付きMDPは安全関連アプリケーションにおいて重要な意義を持つ:
自動運転 :性能最大化と同時に安全制約を保証する必要があるロボット工学 :タスク実行時に物理的および安全上の制限を満たす必要があるネットワークセキュリティ :システム性能最適化と同時にセキュリティ政策を維持する金融管理 :収益追求と同時にリスクを制御する理論的保証の不足 :ほとんどの既存手法は漸近収束または局所収束保証のみを提供する次元依存性 :収束率は通常、状態-行動空間の大きさに依存する関数近似誤差 :関数近似下での厳密な分析が不足しているサンプル複雑度 :有限サンプル複雑度の理論的保証が不足しているNPG-PDアルゴリズムの提案 :自然政策勾配と主双対法を組み合わせた新しいアルゴリズムフレームワークを設計全域収束保証 :ソフトマックスパラメータ化の下で次元無関の全域収束性を証明関数近似理論 :対数線形および一般的な滑らかな政策パラメータ化に対する収束理論を確立サンプル複雑度分析 :2つのサンプルベースのNPG-PDアルゴリズムの有限サンプル複雑度保証を提供実験検証 :ロボット制御シミュレーションタスクを通じて手法の有効性を検証制約付きMDP は7つ組 ( S , A , P , r , g , b , γ , ρ ) (\mathcal{S}, \mathcal{A}, P, r, g, b, γ, ρ) ( S , A , P , r , g , b , γ , ρ ) として定義される:
S \mathcal{S} S :有限状態空間A \mathcal{A} A :有限行動空間P P P :遷移確率r , g r, g r , g :報酬および効用関数b b b :制約閾値γ γ γ :割引因子ρ ρ ρ :初期状態分布最適化問題 :
max π ∈ Π V r π ( ρ ) s.t. V g π ( ρ ) ≥ b \max_{π ∈ Π} V^π_r(ρ) \quad \text{s.t.} \quad V^π_g(ρ) ≥ b max π ∈ Π V r π ( ρ ) s.t. V g π ( ρ ) ≥ b
制約付き最適化問題を鞍点問題に変換する:
max π ∈ Π min λ ≥ 0 V r π ( ρ ) + λ ( V g π ( ρ ) − b ) \max_{π ∈ Π} \min_{λ ≥ 0} V^π_r(ρ) + λ(V^π_g(ρ) - b) max π ∈ Π min λ ≥ 0 V r π ( ρ ) + λ ( V g π ( ρ ) − b )
主変数更新 (自然政策勾配):
θ ( t + 1 ) = θ ( t ) + η 1 F ρ † ( θ ( t ) ) ∇ θ V L θ ( t ) , λ ( t ) ( ρ ) θ^{(t+1)} = θ^{(t)} + η_1 F^†_ρ(θ^{(t)})∇_θ V^{θ^{(t)},λ^{(t)}}_L(ρ) θ ( t + 1 ) = θ ( t ) + η 1 F ρ † ( θ ( t ) ) ∇ θ V L θ ( t ) , λ ( t ) ( ρ )
双対変数更新 (投影部分勾配下降):
λ ( t + 1 ) = P Λ ( λ ( t ) − η 2 ( V g θ ( t ) ( ρ ) − b ) ) λ^{(t+1)} = P_Λ\left(λ^{(t)} - η_2(V^{θ^{(t)}}_g(ρ) - b)\right) λ ( t + 1 ) = P Λ ( λ ( t ) − η 2 ( V g θ ( t ) ( ρ ) − b ) )
ここで:
F ρ † ( θ ) F^†_ρ(θ) F ρ † ( θ ) :フィッシャー情報行列のムーア・ペンローズ逆行列P Λ P_Λ P Λ :区間 [ 0 , 2 / ( ( 1 − γ ) ξ ) ] [0, 2/((1-γ)ξ)] [ 0 , 2/ (( 1 − γ ) ξ )] への投影ソフトマックスパラメータ化 π θ ( a ∣ s ) = exp ( θ s , a ) ∑ a ′ exp ( θ s , a ′ ) π_θ(a|s) = \frac{\exp(θ_{s,a})}{\sum_{a'} \exp(θ_{s,a'})} π θ ( a ∣ s ) = ∑ a ′ e x p ( θ s , a ′ ) e x p ( θ s , a ) の下で、更新は以下のように簡略化される:
θ s , a ( t + 1 ) = θ s , a ( t ) + η 1 1 − γ A L ( t ) ( s , a ) θ^{(t+1)}_{s,a} = θ^{(t)}_{s,a} + \frac{η_1}{1-γ}A^{(t)}_L(s,a) θ s , a ( t + 1 ) = θ s , a ( t ) + 1 − γ η 1 A L ( t ) ( s , a )
乗法的重み付け更新と等価:
π ( t + 1 ) ( a ∣ s ) = π ( t ) ( a ∣ s ) exp ( η 1 1 − γ A L ( t ) ( s , a ) ) Z ( t ) ( s ) π^{(t+1)}(a|s) = \frac{π^{(t)}(a|s)\exp\left(\frac{η_1}{1-γ}A^{(t)}_L(s,a)\right)}{Z^{(t)}(s)} π ( t + 1 ) ( a ∣ s ) = Z ( t ) ( s ) π ( t ) ( a ∣ s ) e x p ( 1 − γ η 1 A L ( t ) ( s , a ) )
次元無関収束 :ソフトマックス構造を利用して状態-行動空間の大きさに無関な収束率を実現非凸制約処理 :新しい主双対分析を通じて非凸制約集合を処理関数近似誤差分解 :推定-伝播誤差分解フレームワークを導入後悔型分析 :オンライン学習における後悔分析技術を採用定理10(ソフトマックスパラメータ化の全域収束) :
スレーター条件の下で、η 1 = 2 log ∣ A ∣ η_1 = 2\log|A| η 1 = 2 log ∣ A ∣ 、η 2 = 2 ( 1 − γ ) / T η_2 = 2(1-γ)/\sqrt{T} η 2 = 2 ( 1 − γ ) / T を選択すると、NPG-PDアルゴリズムは以下を満たす:
最適性ギャップ :
1 T ∑ t = 0 T − 1 ( V r ∗ ( ρ ) − V r ( t ) ( ρ ) ) ≤ 7 ( 1 − γ ) 2 1 T \frac{1}{T}\sum_{t=0}^{T-1}(V^*_r(ρ) - V^{(t)}_r(ρ)) ≤ \frac{7}{(1-γ)^2}\frac{1}{\sqrt{T}} T 1 ∑ t = 0 T − 1 ( V r ∗ ( ρ ) − V r ( t ) ( ρ )) ≤ ( 1 − γ ) 2 7 T 1
制約違反 :
[ 1 T ∑ t = 0 T − 1 ( b − V g ( t ) ( ρ ) ) ] + ≤ 2 ξ + 4 ξ ( 1 − γ ) 2 1 T \left[\frac{1}{T}\sum_{t=0}^{T-1}(b - V^{(t)}_g(ρ))\right]_+ ≤ \frac{2}{ξ} + \frac{4ξ}{(1-γ)^2}\frac{1}{\sqrt{T}} [ T 1 ∑ t = 0 T − 1 ( b − V g ( t ) ( ρ )) ] + ≤ ξ 2 + ( 1 − γ ) 2 4 ξ T 1
定理16(対数線形パラメータ化) :
関数近似設定の下で、収束率は以下の通り:
E [ 1 T ∑ t = 0 T − 1 ( V r ∗ ( ρ ) − V r ( t ) ( ρ ) ) ] ≤ C 3 ( 1 − γ ) 5 1 T + 関数近似誤差 E\left[\frac{1}{T}\sum_{t=0}^{T-1}(V^*_r(ρ) - V^{(t)}_r(ρ))\right] ≤ \frac{C_3}{(1-γ)^5}\frac{1}{\sqrt{T}} + \text{関数近似誤差} E [ T 1 ∑ t = 0 T − 1 ( V r ∗ ( ρ ) − V r ( t ) ( ρ )) ] ≤ ( 1 − γ ) 5 C 3 T 1 + 関数近似誤差
定理28/29(サンプル複雑度) :
反復複雑度 :O ( 1 / ε 2 ) O(1/ε^2) O ( 1/ ε 2 ) サンプル複雑度 :O ( 1 / ε 4 ) O(1/ε^4) O ( 1/ ε 4 ) これは従来の O ( 1 / ε 8 ) O(1/ε^8) O ( 1/ ε 8 ) の結果から大幅な改善である。
MuJoCo環境における6つのロボット歩行タスクを使用:
Ant-v1、Humanoid-v1、HalfCheetah-v1、Walker2d-v1、Hopper-v1、Swimmer-v1 制約 :移動速度が指定された閾値を超えない(安全制約)古典的主双対法 :TRPOLag、PPOLag最新政策最適化法 :CUP、FOCOPS平均報酬 :タスク性能平均コスト :制約違反の程度(平均速度)性能優位性 :NPG-PDはほとんどのタスクでより高い報酬を達成しながら、同様の制約満足度を維持収束速度 :古典的ラグランジュ法より高速に収束競争的性能 :最新手法(FOCOPS、CUP)と同等またはそれ以上の性能Ant-v1およびHumanoid-v1 :NPG-PDは他の4つの手法を統一的に上回るHalfCheetah-v1およびWalker2d-v1 :NPG-PDはPPOLagと同様の性能を示し、他の手法を上回るHopper-v1およびSwimmer-v1 :NPG-PDはFOCOPS、CUPと激しく競争し、初期振動があるものの最終的にはより高い報酬に到達初期の研究 :ラグランジュベースの手法(Altman 1999、Borkar 2005)局所収束法 :CPG、加速PDPO、CPOなど全域収束研究 :本論文は有限時間全域収束保証を提供する初の研究無制約収束理論 :Agarwal et al. (2021)など制約付き最適化の課題 :非凸制約集合処理の追加的困難理論的突破 :制約付きMDPの政策勾配法に対する初の次元無関全域収束保証を提供実用的アルゴリズム :NPG-PDアルゴリズムは単純で効果的、大規模問題に適用可能関数近似理論 :完全な関数近似誤差分析フレームワークを確立振動挙動 :主双対法に一般的な初期振動現象スレーター条件 :厳密な実行可能性仮説が必要ソフトマックスパラメータ化 :最強の結果は特定のパラメータ化にのみ適用可能政策反復収束 :単一時間スケールアルゴリズムの政策反復収束性を研究正則化技術 :正則化を導入して振動挙動を排除連続空間への拡張 :連続状態-行動空間への拡張ロバスト性分析 :モデル不確実性の影響を考慮理論的革新 :制約付きMDPの次元無関全域収束理論を初めて確立技術的深さ :オンライン学習と制約付き最適化技術を巧妙に組み合わせ完全な分析 :表形式から関数近似までの完全な理論フレームワーク実験検証 :実際のロボット制御タスクで理論予測を検証パラメータ化の制限 :最強の理論結果はソフトマックスパラメータ化にのみ適用実験範囲 :実験は主にロボット制御領域に集中収束率 :準線形収束率は実際のアプリケーションでは遅い可能性振動問題 :主双対法の振動現象を十分に解決していない理論的貢献 :制約付き強化学習に重要な理論的基礎を提供方法論的価値 :NPG-PDフレームワークは他の制約付き最適化問題に拡張可能実用的価値 :アルゴリズムは単純で実装しやすく、工学応用に適している後続研究 :この分野の後続研究に理論的基礎を提供安全関連システム :自動運転、医療ロボットなど硬い制約が必要なシーンリソース制限環境 :計算およびストレージリソースが限定されたオンライン学習シーン大規模MDP :状態-行動空間が巨大な複雑な意思決定問題多目的最適化 :複数の性能指標のバランスが必要なアプリケーション補題11(非単調改善) :各主変数更新はラグランジュ項を改善するが、報酬および効用関数自体は非単調である可能性がある。
補題12(有界平均性能) :後悔分析を通じて平均性能の界限を確立。
乗法的重み付け更新との関連 :NPG更新をオンライン学習のMWUとして解釈フィッシャー情報行列の逆 :ソフトマックス構造を利用してNPG計算を簡略化強双対性 :スレーター条件の下で強双対関係を確立制約違反界 :凸解析技術を通じて制約違反を界定本論文は制約付き強化学習理論において重要な貢献を行い、この分野の発展に堅実な理論的基礎と実用的なアルゴリズムフレームワークを提供している。