We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.
論文ID : 2510.14898タイトル : Convergence of actor-critic for entropy regularised MDPs in general action spaces著者 : Denis Zorba, David Šiška, Lukasz Szpruch分類 : math.OC (最適化と制御)発表日 : 2025年10月16日 (arXivプレプリント)論文リンク : https://arxiv.org/abs/2510.14898 本論文は、連続状態および動作空間において、線形関数近似とQ関数実現可能性条件の下で、無限時間地平線エントロピー正則化マルコフ決定過程(MDP)の結合アクター・クリティック勾配流の安定性および大域収束性を証明している。本研究は、クリティックが時間差分(TD)学習で更新され、ポリシーが異なる時間スケールでポリシーミラー降下法を用いて更新されるアクター・クリティック勾配流の変種を考察している。論文は、アクター・クリティック流が最適ポリシーへの安定性と指数収束性を証明し、時間スケール分離とエントロピー正則化の相互作用が安定性と収束性に与える影響を分析している。
本論文が解決する中核的な問題は、一般的な動作空間(連続または無限)のエントロピー正則化MDPにおけるアクター・クリティック法の安定性と収束性の分析である。具体的には:
安定性問題 :連続時間力学系の下で、アクターとクリティックの結合更新がシステムの不安定性をもたらすかどうか収束性問題 :システムが最適ポリシーに収束するか、収束速度はいかほどか時間スケール分離 :異なる更新速度がシステム性能に与える影響理論的基礎 :実際の応用で広く使用されるアクター・クリティック法に厳密な理論的保証を提供一般化への拡張 :既存の有限動作空間の結果を連続/無限動作空間に拡張エントロピー正則化 :エントロピー正則化が探索促進と収束加速に果たす役割の分析動作空間の制限 :既存のエントロピー正則化MDP収束結果は主に有限動作空間に限定関数近似の課題 :一般的な状態および動作空間における関数近似の先験的境界が不足結合分析の複雑性 :ユークリッド空間と測度空間上の凸解析ツールの組み合わせが必要安定性フレームワーク :エントロピー正則化と時間スケール分離の相互作用を捉えるLyapunov型安定性フレームワークの開発収束性証明 :無限動作空間のエントロピー正則化MDPにおけるアクター・クリティック力学系の収束性証明指数収束率 :最適ポリシーへの指数収束率の確立連続時間分析 :連続時間極限における結合更新の分析により、クリティックの半勾配流とアクターの近似Fisher-Rao勾配流を形成無限時間地平線MDP ( S , A , P , c , γ ) (S,A,P,c,γ) ( S , A , P , c , γ ) を考察する。ここで:
S S S , A A A :ポーランド空間(状態および動作空間)P ∈ P ( S ∣ S × A ) P \in P(S|S \times A) P ∈ P ( S ∣ S × A ) :状態遷移核c c c :有界コスト関数γ ∈ ( 0 , 1 ) γ \in (0,1) γ ∈ ( 0 , 1 ) :割引因子τ > 0 τ > 0 τ > 0 :正則化パラメータエントロピー正則化価値関数は以下のように定義される:
V τ π ( s ) = E s π [ ∑ n = 0 ∞ γ n ( c ( s n , a n ) + τ KL ( π ( ⋅ ∣ s n ) ∣ μ ) ) ] V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right] V τ π ( s ) = E s π [ ∑ n = 0 ∞ γ n ( c ( s n , a n ) + τ KL ( π ( ⋅ ∣ s n ) ∣ μ )) ]
ポリシーは許容ポリシークラスΠ μ Π_μ Π μ に属する:
π ( d a ∣ s ) = exp ( f ( s , a ) ) ∫ A exp ( f ( s , a ) ) μ ( d a ) μ ( d a ) π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da) π ( d a ∣ s ) = ∫ A e x p ( f ( s , a )) μ ( d a ) e x p ( f ( s , a )) μ ( d a )
特徴写像φ : S × A → R N φ: S \times A → R^N φ : S × A → R N を使用:
Q ( s , a ; θ ) = ⟨ θ , φ ( s , a ) ⟩ Q(s,a;θ) = ⟨θ, φ(s,a)⟩ Q ( s , a ; θ ) = ⟨ θ , φ ( s , a )⟩
連続時間アクター・クリティック流:
d θ t d t = − η t g ( θ t , π t ) \frac{dθ_t}{dt} = -η_t g(θ_t, π_t) d t d θ t = − η t g ( θ t , π t ) ∂ t π t ( d a ∣ s ) = − A t ( s , a ) π t ( d a ∣ s ) ∂_t π_t(da|s) = -A_t(s,a)π_t(da|s) ∂ t π t ( d a ∣ s ) = − A t ( s , a ) π t ( d a ∣ s )
ここで:
g ( θ , π ) g(θ,π) g ( θ , π ) :平均二乗ベルマン誤差(MSBE)の半勾配A t ( s , a ) A_t(s,a) A t ( s , a ) :近似ソフト優位関数η t η_t η t :時間スケール分離パラメータポリシー更新を確率測度空間上のFisher-Rao勾配流としてモデル化:
∂ t ln d π t d μ ( s , a ) = − A τ π t ( s , a ) ∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a) ∂ t ln d μ d π t ( s , a ) = − A τ π t ( s , a )
クリティックは高速時間スケールで更新(TD学習) アクターは低速時間スケールで更新(ポリシーミラー降下) Lyapunov関数を構築してシステム安定性を分析し、以下を組み合わせる:
仮定 4.1 (Q^π_τ-実現可能性) :すべてのπ ∈ Π μ π ∈ Π_μ π ∈ Π μ および( s , a ) ∈ S × A (s,a) ∈ S × A ( s , a ) ∈ S × A に対して、θ π ∈ R N θ^π ∈ R^N θ π ∈ R N が存在して:
Q π ( s , a ) = ⟨ θ π , φ ( s , a ) ⟩ Q^π(s,a) = ⟨θ^π, φ(s,a)⟩ Q π ( s , a ) = ⟨ θ π , φ ( s , a )⟩
仮定 4.2 :すべての( s , a ) ∈ S × A (s,a) ∈ S × A ( s , a ) ∈ S × A に対して∣ φ ( s , a ) ∣ ≤ 1 |φ(s,a)| ≤ 1 ∣ φ ( s , a ) ∣ ≤ 1
仮定 4.3 :行列∫ S × A φ ( s , a ) φ ( s , a ) ⊤ β ( d s , d a ) \int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da) ∫ S × A φ ( s , a ) φ ( s , a ) ⊤ β ( d s , d a ) の最小固有値λ β > 0 λ_β > 0 λ β > 0
η 0 > τ Γ η_0 > \frac{τ}{Γ} η 0 > Γ τ を設定する。ここでΓ = λ β ( 1 − γ ) ( 1 − γ ) Γ = λ_β(1-γ)(1-\sqrt{γ}) Γ = λ β ( 1 − γ ) ( 1 − γ ) とすると、定数a 1 , a 2 > 0 a_1, a_2 > 0 a 1 , a 2 > 0 が存在して:
K t 2 ≤ a 1 + a 2 ∫ 0 t e − τ ( t − r ) K r 2 d r K_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr K t 2 ≤ a 1 + a 2 ∫ 0 t e − τ ( t − r ) K r 2 d r
ここでK t = sup s ∈ S KL ( π t ( ⋅ ∣ s ) ∣ μ ) K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ) K t = sup s ∈ S KL ( π t ( ⋅ ∣ s ) ∣ μ ) 。
すべてのt > 0 t > 0 t > 0 に対して:
min r ∈ [ 0 , t ] V τ π r ( ρ ) − V τ π ∗ ( ρ ) ≤ τ 2 ( 1 − γ ) ( 1 − e − τ 2 t ) ( e − τ 2 t ∫ S KL ( π ∗ ( ⋅ ∣ s ) ∣ π 0 ( ⋅ ∣ s ) ) d ρ π ∗ ( d s ) + 1 2 τ ∫ 0 t e − τ 2 ( t − r ) ∣ θ r − θ π r ∣ 2 d r ) \min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right) min r ∈ [ 0 , t ] V τ π r ( ρ ) − V τ π ∗ ( ρ ) ≤ 2 ( 1 − γ ) ( 1 − e − 2 τ t ) τ ( e − 2 τ t ∫ S KL ( π ∗ ( ⋅ ∣ s ) ∣ π 0 ( ⋅ ∣ s )) d ρ π ∗ ( d s ) + 2 τ 1 ∫ 0 t e − 2 τ ( t − r ) ∣ θ r − θ π r ∣ 2 d r )
適切な条件の下で、η t = η 0 e k 1 t η_t = η_0 e^{k_1 t} η t = η 0 e k 1 t および定数k 2 > 0 k_2 > 0 k 2 > 0 が存在して:
min r ∈ [ 0 , t ] V τ π r ( ρ ) − V τ π ∗ ( ρ ) ≤ τ e − τ 2 t 2 ( 1 − γ ) ( 1 − e − τ 2 t ) ( ∫ S KL ( π ∗ ( ⋅ ∣ s ) ∣ π 0 ( ⋅ ∣ s ) ) d ρ π ∗ ( d s ) + k 2 2 τ ) \min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right) min r ∈ [ 0 , t ] V τ π r ( ρ ) − V τ π ∗ ( ρ ) ≤ 2 ( 1 − γ ) ( 1 − e − 2 τ t ) τ e − 2 τ t ( ∫ S KL ( π ∗ ( ⋅ ∣ s ) ∣ π 0 ( ⋅ ∣ s )) d ρ π ∗ ( d s ) + 2 τ k 2 )
V τ π ( ρ ) − V τ π ′ ( ρ ) = 1 1 − γ ∫ S [ ∫ A ( Q τ π ′ ( s , a ) + τ ln d π ′ d μ ( a , s ) ) ( π − π ′ ) ( d a ∣ s ) + τ KL ( π ( ⋅ ∣ s ) ∣ π ′ ( ⋅ ∣ s ) ) ] d ρ π ( d s ) V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds) V τ π ( ρ ) − V τ π ′ ( ρ ) = 1 − γ 1 ∫ S [ ∫ A ( Q τ π ′ ( s , a ) + τ ln d μ d π ′ ( a , s )) ( π − π ′ ) ( d a ∣ s ) + τ KL ( π ( ⋅ ∣ s ) ∣ π ′ ( ⋅ ∣ s )) ] d ρ π ( d s )
KL散度とパラメータノルムの増加を制御するために使用。
補題 5.1 :
d J π β π ( E ) = J π d β π ( E ) d^π_{Jπβ}(E) = J_π d^π_β(E) d J π β π ( E ) = J π d β π ( E ) d β π ( E ) − γ d J π β π ( E ) = ( 1 − γ ) β ( E ) d^π_β(E) - γd^π_{J_π β}(E) = (1-γ)β(E) d β π ( E ) − γ d J π β π ( E ) = ( 1 − γ ) β ( E )
Borkar & Konda (1997):二時間スケール確率近似 Bhandari et al. (2021):線形関数近似の有限時間分析 Zhang et al. (2021):Wasserstein流と表現学習 Cayci et al. (2024):有限動作空間の自然ポリシー勾配 本論文は一般的な動作空間に拡張 本論文が既存研究に対して有する利点:
連続/無限動作空間の処理 厳密な安定性と収束性証明 エントロピー正則化と時間スケール分離の相互作用分析 安定性保証 :適切な時間スケール分離条件の下で、システムは安定性を保持指数収束 :最適ポリシーへの指数収束率エントロピー正則化の効果 :エントロピー正則化は唯一の最適ポリシーを保証し、収束を加速連続時間の仮定 :連続時間力学系のみを分析し、離散時間がより実用的線形関数近似 :実際には非線形ニューラルネットワークが一般的に使用される正確な積分の仮定 :実際にはサンプリング推定が必要であり、モンテカルロ誤差が導入されるQ関数実現可能性 :強い仮定であり、実際には満たされない可能性がある離散時間アルゴリズムの厳密な分析 非線形関数近似への拡張 サンプリング誤差の処理 より弱い実現可能性条件 理論的厳密性 :完全な安定性と収束性証明を提供技術的革新 :Fisher-Rao幾何とLyapunov分析の巧妙な組み合わせ一般性 :連続動作空間に拡張し、理論的空白を埋める明確な表現 :数学的導出が詳細で論理が明確実用性の制限 :強い仮定条件が実際には満たしにくい実験検証の欠落 :純粋な理論研究であり、数値検証が不足計算複雑性 :アルゴリズムの計算複雑性について未検討適用可能性の限定 :連続時間の仮定が実際の応用を制限理論的貢献 :エントロピー正則化MDPに重要な理論的基礎を提供方法論的価値 :分析技術は他の強化学習アルゴリズムに適用可能後続研究 :離散時間およびより一般的な設定の研究の基礎を構築理論研究 :他の研究に理論的ツールと洞察を提供アルゴリズム設計 :実際のアルゴリズムのパラメータ選択と収束性分析を指導連続制御 :連続状態-動作空間の制御問題論文は25篇の重要な文献を引用しており、以下を含む:
アクター・クリティック法の古典的研究 (Konda & Tsitsiklis, 1999) エントロピー正則化MDP (Kerimkulov et al., 2024) ポリシー勾配法 (Schulman et al., 2015, 2017) 関数近似理論 (Bhandari et al., 2021) 総合評価 :これは高品質な理論論文であり、エントロピー正則化MDPにおけるアクター・クリティック法に厳密な数学的分析を提供している。実際の応用面での限界は存在するが、その理論的貢献と方法論的価値は顕著であり、当該分野のさらなる発展のための重要な基礎を構築している。