2025-11-25T16:46:17.731757

Convergence of actor-critic for entropy regularised MDPs in general action spaces

Zorba, Å iÅ¡ka, Szpruch

We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.

academic

一般的動作空間におけるエントロピー正則化MDPのアクター・クリティック法の収束性

基本情報

論文ID: 2510.14898
タイトル: Convergence of actor-critic for entropy regularised MDPs in general action spaces
著者: Denis Zorba, David Šiška, Lukasz Szpruch
分類: math.OC (最適化と制御)
発表日: 2025年10月16日 (arXivプレプリント)
論文リンク: https://arxiv.org/abs/2510.14898

要約

本論文は、連続状態および動作空間において、線形関数近似とQ関数実現可能性条件の下で、無限時間地平線エントロピー正則化マルコフ決定過程(MDP)の結合アクター・クリティック勾配流の安定性および大域収束性を証明している。本研究は、クリティックが時間差分(TD)学習で更新され、ポリシーが異なる時間スケールでポリシーミラー降下法を用いて更新されるアクター・クリティック勾配流の変種を考察している。論文は、アクター・クリティック流が最適ポリシーへの安定性と指数収束性を証明し、時間スケール分離とエントロピー正則化の相互作用が安定性と収束性に与える影響を分析している。

研究背景と動機

問題定義

本論文が解決する中核的な問題は、一般的な動作空間(連続または無限)のエントロピー正則化MDPにおけるアクター・クリティック法の安定性と収束性の分析である。具体的には：

安定性問題：連続時間力学系の下で、アクターとクリティックの結合更新がシステムの不安定性をもたらすかどうか
収束性問題：システムが最適ポリシーに収束するか、収束速度はいかほどか
時間スケール分離：異なる更新速度がシステム性能に与える影響

研究の重要性

理論的基礎：実際の応用で広く使用されるアクター・クリティック法に厳密な理論的保証を提供
一般化への拡張：既存の有限動作空間の結果を連続/無限動作空間に拡張
エントロピー正則化：エントロピー正則化が探索促進と収束加速に果たす役割の分析

既存手法の限界

動作空間の制限：既存のエントロピー正則化MDP収束結果は主に有限動作空間に限定
関数近似の課題：一般的な状態および動作空間における関数近似の先験的境界が不足
結合分析の複雑性：ユークリッド空間と測度空間上の凸解析ツールの組み合わせが必要

主要な貢献

安定性フレームワーク：エントロピー正則化と時間スケール分離の相互作用を捉えるLyapunov型安定性フレームワークの開発
収束性証明：無限動作空間のエントロピー正則化MDPにおけるアクター・クリティック力学系の収束性証明
指数収束率：最適ポリシーへの指数収束率の確立
連続時間分析：連続時間極限における結合更新の分析により、クリティックの半勾配流とアクターの近似Fisher-Rao勾配流を形成

方法論の詳細

タスク定義

無限時間地平線MDP $(S,A,P,c,γ)$ を考察する。ここで：

$S$ , $A$ ：ポーランド空間(状態および動作空間)
$P \in P(S|S \times A)$ ：状態遷移核
$c$ ：有界コスト関数
$γ \in (0,1)$ ：割引因子
$τ > 0$ ：正則化パラメータ

エントロピー正則化価値関数は以下のように定義される： $V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right]$

モデルアーキテクチャ

1. ポリシーのパラメータ化

ポリシーは許容ポリシークラス $Π_μ$ に属する： $π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da)$

2. Q関数の線形近似

特徴写像 $φ: S \times A → R^N$ を使用： $Q(s,a;θ) = ⟨θ, φ(s,a)⟩$

3. 結合力学系

連続時間アクター・クリティック流： $\frac{dθ_t}{dt} = -η_t g(θ_t, π_t)$ $∂_t π_t(da|s) = -A_t(s,a)π_t(da|s)$

ここで：

$g(θ,π)$ ：平均二乗ベルマン誤差(MSBE)の半勾配
$A_t(s,a)$ ：近似ソフト優位関数
$η_t$ ：時間スケール分離パラメータ

技術的革新点

1. Fisher-Rao勾配流

ポリシー更新を確率測度空間上のFisher-Rao勾配流としてモデル化： $∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a)$

2. 二時間スケール分析

クリティックは高速時間スケールで更新(TD学習)
アクターは低速時間スケールで更新(ポリシーミラー降下)

3. Lyapunov安定性分析

Lyapunov関数を構築してシステム安定性を分析し、以下を組み合わせる：

ユークリッド空間の凸解析
測度空間の凸解析

理論的分析

主要な仮定

仮定 4.1 (Q^π_τ-実現可能性)：すべての $π ∈ Π_μ$ および $(s,a) ∈ S × A$ に対して、 $θ^π ∈ R^N$ が存在して： $Q^π(s,a) = ⟨θ^π, φ(s,a)⟩$

仮定 4.2：すべての $(s,a) ∈ S × A$ に対して $|φ(s,a)| ≤ 1$

仮定 4.3：行列 $\int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da)$ の最小固有値 $λ_β > 0$

主要な理論的結果

安定性定理 (定理 5.1)

$η_0 > \frac{τ}{Γ}$ を設定する。ここで $Γ = λ_β(1-γ)(1-\sqrt{γ})$ とすると、定数 $a_1, a_2 > 0$ が存在して： $K_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr$

ここで $K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ)$ 。

収束性定理 (定理 6.1)

すべての $t > 0$ に対して： $\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right)$

指数収束 (定理 6.3)

適切な条件の下で、 $η_t = η_0 e^{k_1 t}$ および定数 $k_2 > 0$ が存在して： $\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right)$

主要な技術的ツール

1. 性能差異補題 (Performance Difference Lemma)

$V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds)$