2025-11-25T16:46:17.731757

Convergence of actor-critic for entropy regularised MDPs in general action spaces

Zorba, Šiška, Szpruch
We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.
academic

一般的動作空間におけるエントロピー正則化MDPのアクター・クリティック法の収束性

基本情報

  • 論文ID: 2510.14898
  • タイトル: Convergence of actor-critic for entropy regularised MDPs in general action spaces
  • 著者: Denis Zorba, David Šiška, Lukasz Szpruch
  • 分類: math.OC (最適化と制御)
  • 発表日: 2025年10月16日 (arXivプレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.14898

要約

本論文は、連続状態および動作空間において、線形関数近似とQ関数実現可能性条件の下で、無限時間地平線エントロピー正則化マルコフ決定過程(MDP)の結合アクター・クリティック勾配流の安定性および大域収束性を証明している。本研究は、クリティックが時間差分(TD)学習で更新され、ポリシーが異なる時間スケールでポリシーミラー降下法を用いて更新されるアクター・クリティック勾配流の変種を考察している。論文は、アクター・クリティック流が最適ポリシーへの安定性と指数収束性を証明し、時間スケール分離とエントロピー正則化の相互作用が安定性と収束性に与える影響を分析している。

研究背景と動機

問題定義

本論文が解決する中核的な問題は、一般的な動作空間(連続または無限)のエントロピー正則化MDPにおけるアクター・クリティック法の安定性と収束性の分析である。具体的には:

  1. 安定性問題:連続時間力学系の下で、アクターとクリティックの結合更新がシステムの不安定性をもたらすかどうか
  2. 収束性問題:システムが最適ポリシーに収束するか、収束速度はいかほどか
  3. 時間スケール分離:異なる更新速度がシステム性能に与える影響

研究の重要性

  1. 理論的基礎:実際の応用で広く使用されるアクター・クリティック法に厳密な理論的保証を提供
  2. 一般化への拡張:既存の有限動作空間の結果を連続/無限動作空間に拡張
  3. エントロピー正則化:エントロピー正則化が探索促進と収束加速に果たす役割の分析

既存手法の限界

  1. 動作空間の制限:既存のエントロピー正則化MDP収束結果は主に有限動作空間に限定
  2. 関数近似の課題:一般的な状態および動作空間における関数近似の先験的境界が不足
  3. 結合分析の複雑性:ユークリッド空間と測度空間上の凸解析ツールの組み合わせが必要

主要な貢献

  1. 安定性フレームワーク:エントロピー正則化と時間スケール分離の相互作用を捉えるLyapunov型安定性フレームワークの開発
  2. 収束性証明:無限動作空間のエントロピー正則化MDPにおけるアクター・クリティック力学系の収束性証明
  3. 指数収束率:最適ポリシーへの指数収束率の確立
  4. 連続時間分析:連続時間極限における結合更新の分析により、クリティックの半勾配流とアクターの近似Fisher-Rao勾配流を形成

方法論の詳細

タスク定義

無限時間地平線MDP (S,A,P,c,γ)(S,A,P,c,γ)を考察する。ここで:

  • SS, AA:ポーランド空間(状態および動作空間)
  • PP(SS×A)P \in P(S|S \times A):状態遷移核
  • cc:有界コスト関数
  • γ(0,1)γ \in (0,1):割引因子
  • τ>0τ > 0:正則化パラメータ

エントロピー正則化価値関数は以下のように定義される: Vτπ(s)=Esπ[n=0γn(c(sn,an)+τKL(π(sn)μ))]V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right]

モデルアーキテクチャ

1. ポリシーのパラメータ化

ポリシーは許容ポリシークラスΠμΠ_μに属する: π(das)=exp(f(s,a))Aexp(f(s,a))μ(da)μ(da)π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da)

2. Q関数の線形近似

特徴写像φ:S×ARNφ: S \times A → R^Nを使用: Q(s,a;θ)=θ,φ(s,a)Q(s,a;θ) = ⟨θ, φ(s,a)⟩

3. 結合力学系

連続時間アクター・クリティック流: dθtdt=ηtg(θt,πt)\frac{dθ_t}{dt} = -η_t g(θ_t, π_t)tπt(das)=At(s,a)πt(das)∂_t π_t(da|s) = -A_t(s,a)π_t(da|s)

ここで:

  • g(θ,π)g(θ,π):平均二乗ベルマン誤差(MSBE)の半勾配
  • At(s,a)A_t(s,a):近似ソフト優位関数
  • ηtη_t:時間スケール分離パラメータ

技術的革新点

1. Fisher-Rao勾配流

ポリシー更新を確率測度空間上のFisher-Rao勾配流としてモデル化: tlndπtdμ(s,a)=Aτπt(s,a)∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a)

2. 二時間スケール分析

  • クリティックは高速時間スケールで更新(TD学習)
  • アクターは低速時間スケールで更新(ポリシーミラー降下)

3. Lyapunov安定性分析

Lyapunov関数を構築してシステム安定性を分析し、以下を組み合わせる:

  • ユークリッド空間の凸解析
  • 測度空間の凸解析

理論的分析

主要な仮定

仮定 4.1 (Q^π_τ-実現可能性):すべてのπΠμπ ∈ Π_μおよび(s,a)S×A(s,a) ∈ S × Aに対して、θπRNθ^π ∈ R^Nが存在して: Qπ(s,a)=θπ,φ(s,a)Q^π(s,a) = ⟨θ^π, φ(s,a)⟩

仮定 4.2:すべての(s,a)S×A(s,a) ∈ S × Aに対してφ(s,a)1|φ(s,a)| ≤ 1

仮定 4.3:行列S×Aφ(s,a)φ(s,a)β(ds,da)\int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da)の最小固有値λβ>0λ_β > 0

主要な理論的結果

安定性定理 (定理 5.1)

η0>τΓη_0 > \frac{τ}{Γ}を設定する。ここでΓ=λβ(1γ)(1γ)Γ = λ_β(1-γ)(1-\sqrt{γ})とすると、定数a1,a2>0a_1, a_2 > 0が存在して: Kt2a1+a20teτ(tr)Kr2drK_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr

ここでKt=supsSKL(πt(s)μ)K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ)

収束性定理 (定理 6.1)

すべてのt>0t > 0に対して: minr[0,t]Vτπr(ρ)Vτπ(ρ)τ2(1γ)(1eτ2t)(eτ2tSKL(π(s)π0(s))dρπ(ds)+12τ0teτ2(tr)θrθπr2dr)\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right)

指数収束 (定理 6.3)

適切な条件の下で、ηt=η0ek1tη_t = η_0 e^{k_1 t}および定数k2>0k_2 > 0が存在して: minr[0,t]Vτπr(ρ)Vτπ(ρ)τeτ2t2(1γ)(1eτ2t)(SKL(π(s)π0(s))dρπ(ds)+k22τ)\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right)

主要な技術的ツール

1. 性能差異補題 (Performance Difference Lemma)

Vτπ(ρ)Vτπ(ρ)=11γS[A(Qτπ(s,a)+τlndπdμ(a,s))(ππ)(das)+τKL(π(s)π(s))]dρπ(ds)V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds)

2. Gronwall不等式の応用

KL散度とパラメータノルムの増加を制御するために使用。

3. 状態-動作占有測度の性質

補題 5.1dJπβπ(E)=Jπdβπ(E)d^π_{Jπβ}(E) = J_π d^π_β(E)dβπ(E)γdJπβπ(E)=(1γ)β(E)d^π_β(E) - γd^π_{J_π β}(E) = (1-γ)β(E)

関連研究

正則化なしの設定

  • Borkar & Konda (1997):二時間スケール確率近似
  • Bhandari et al. (2021):線形関数近似の有限時間分析
  • Zhang et al. (2021):Wasserstein流と表現学習

エントロピー正則化の設定

  • Cayci et al. (2024):有限動作空間の自然ポリシー勾配
  • 本論文は一般的な動作空間に拡張

技術的貢献の比較

本論文が既存研究に対して有する利点:

  1. 連続/無限動作空間の処理
  2. 厳密な安定性と収束性証明
  3. エントロピー正則化と時間スケール分離の相互作用分析

結論と考察

主要な結論

  1. 安定性保証:適切な時間スケール分離条件の下で、システムは安定性を保持
  2. 指数収束:最適ポリシーへの指数収束率
  3. エントロピー正則化の効果:エントロピー正則化は唯一の最適ポリシーを保証し、収束を加速

限界

  1. 連続時間の仮定:連続時間力学系のみを分析し、離散時間がより実用的
  2. 線形関数近似:実際には非線形ニューラルネットワークが一般的に使用される
  3. 正確な積分の仮定:実際にはサンプリング推定が必要であり、モンテカルロ誤差が導入される
  4. Q関数実現可能性:強い仮定であり、実際には満たされない可能性がある

今後の方向性

  1. 離散時間アルゴリズムの厳密な分析
  2. 非線形関数近似への拡張
  3. サンプリング誤差の処理
  4. より弱い実現可能性条件

深い評価

利点

  1. 理論的厳密性:完全な安定性と収束性証明を提供
  2. 技術的革新:Fisher-Rao幾何とLyapunov分析の巧妙な組み合わせ
  3. 一般性:連続動作空間に拡張し、理論的空白を埋める
  4. 明確な表現:数学的導出が詳細で論理が明確

不足点

  1. 実用性の制限:強い仮定条件が実際には満たしにくい
  2. 実験検証の欠落:純粋な理論研究であり、数値検証が不足
  3. 計算複雑性:アルゴリズムの計算複雑性について未検討
  4. 適用可能性の限定:連続時間の仮定が実際の応用を制限

影響力

  1. 理論的貢献:エントロピー正則化MDPに重要な理論的基礎を提供
  2. 方法論的価値:分析技術は他の強化学習アルゴリズムに適用可能
  3. 後続研究:離散時間およびより一般的な設定の研究の基礎を構築

適用シーン

  1. 理論研究:他の研究に理論的ツールと洞察を提供
  2. アルゴリズム設計:実際のアルゴリズムのパラメータ選択と収束性分析を指導
  3. 連続制御:連続状態-動作空間の制御問題

参考文献

論文は25篇の重要な文献を引用しており、以下を含む:

  • アクター・クリティック法の古典的研究 (Konda & Tsitsiklis, 1999)
  • エントロピー正則化MDP (Kerimkulov et al., 2024)
  • ポリシー勾配法 (Schulman et al., 2015, 2017)
  • 関数近似理論 (Bhandari et al., 2021)

総合評価:これは高品質な理論論文であり、エントロピー正則化MDPにおけるアクター・クリティック法に厳密な数学的分析を提供している。実際の応用面での限界は存在するが、その理論的貢献と方法論的価値は顕著であり、当該分野のさらなる発展のための重要な基礎を構築している。