We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.
论文ID : 2510.14898标题 : Convergence of actor-critic for entropy regularised MDPs in general action spaces作者 : Denis Zorba, David Šiška, Lukasz Szpruch分类 : math.OC (Optimization and Control)发表时间 : 2025年10月16日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.14898 本文证明了在连续状态和动作空间中,具有线性函数逼近和Q函数可实现性条件下,无限时域熵正则化马尔可夫决策过程(MDPs)的耦合actor-critic梯度流的稳定性和全局收敛性。研究考虑了一种actor-critic梯度流变体,其中critic使用时序差分(TD)学习更新,而策略使用策略镜像下降方法在不同时间尺度上更新。论文证明了actor-critic流向最优策略的稳定性和指数收敛性,并分析了时间尺度分离与熵正则化的相互作用对稳定性和收敛性的影响。
本文要解决的核心问题是在一般动作空间(连续或无限)的熵正则化MDP中,actor-critic方法的稳定性和收敛性分析。具体来说:
稳定性问题 :在连续时间动力学下,actor和critic的耦合更新是否会导致系统不稳定收敛性问题 :系统是否能收敛到最优策略,收敛速度如何时间尺度分离 :不同更新速度对系统性能的影响理论基础 :为实际应用中广泛使用的actor-critic算法提供严格的理论保证一般性扩展 :将现有的有限动作空间结果扩展到连续/无限动作空间熵正则化 :分析熵正则化在促进探索和加速收敛中的作用动作空间限制 :现有熵正则化MDP的收敛结果主要局限于有限动作空间函数逼近挑战 :缺乏在一般状态和动作空间中对函数逼近的先验界限耦合分析复杂性 :需要结合欧几里得空间和测度空间上的凸分析工具稳定性框架 :开发了基于Lyapunov的稳定性框架,捕捉熵正则化与时间尺度分离的相互作用收敛性证明 :证明了在无限动作空间的熵正则化MDP中actor-critic动力学的收敛性指数收敛率 :建立了向最优策略的指数收敛率连续时间分析 :在连续时间极限下分析耦合更新,形成critic的半梯度流和actor的近似Fisher-Rao梯度流考虑无限时域MDP ( S , A , P , c , γ ) (S,A,P,c,γ) ( S , A , P , c , γ ) ,其中:
S S S , A A A :波兰空间(状态和动作空间)P ∈ P ( S ∣ S × A ) P \in P(S|S \times A) P ∈ P ( S ∣ S × A ) :状态转移核c c c :有界成本函数γ ∈ ( 0 , 1 ) γ \in (0,1) γ ∈ ( 0 , 1 ) :折扣因子τ > 0 τ > 0 τ > 0 :正则化参数熵正则化价值函数定义为:
V τ π ( s ) = E s π [ ∑ n = 0 ∞ γ n ( c ( s n , a n ) + τ KL ( π ( ⋅ ∣ s n ) ∣ μ ) ) ] V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right] V τ π ( s ) = E s π [ ∑ n = 0 ∞ γ n ( c ( s n , a n ) + τ KL ( π ( ⋅ ∣ s n ) ∣ μ )) ]
策略属于可容许策略类Π μ Π_μ Π μ :
π ( d a ∣ s ) = exp ( f ( s , a ) ) ∫ A exp ( f ( s , a ) ) μ ( d a ) μ ( d a ) π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da) π ( d a ∣ s ) = ∫ A e x p ( f ( s , a )) μ ( d a ) e x p ( f ( s , a )) μ ( d a )
使用特征映射φ : S × A → R N φ: S \times A → R^N φ : S × A → R N :
Q ( s , a ; θ ) = ⟨ θ , φ ( s , a ) ⟩ Q(s,a;θ) = ⟨θ, φ(s,a)⟩ Q ( s , a ; θ ) = ⟨ θ , φ ( s , a )⟩
连续时间actor-critic流:
d θ t d t = − η t g ( θ t , π t ) \frac{dθ_t}{dt} = -η_t g(θ_t, π_t) d t d θ t = − η t g ( θ t , π t ) ∂ t π t ( d a ∣ s ) = − A t ( s , a ) π t ( d a ∣ s ) ∂_t π_t(da|s) = -A_t(s,a)π_t(da|s) ∂ t π t ( d a ∣ s ) = − A t ( s , a ) π t ( d a ∣ s )
其中:
g ( θ , π ) g(θ,π) g ( θ , π ) :均方贝尔曼误差(MSBE)的半梯度A t ( s , a ) A_t(s,a) A t ( s , a ) :近似软优势函数η t η_t η t :时间尺度分离参数将策略更新建模为概率测度空间上的Fisher-Rao梯度流:
∂ t ln d π t d μ ( s , a ) = − A τ π t ( s , a ) ∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a) ∂ t ln d μ d π t ( s , a ) = − A τ π t ( s , a )
Critic在快时间尺度上更新(TD学习) Actor在慢时间尺度上更新(策略镜像下降) 构造Lyapunov函数分析系统稳定性,结合:
假设 4.1 (Q^π_τ-可实现性) :对所有π ∈ Π μ π ∈ Π_μ π ∈ Π μ 和( s , a ) ∈ S × A (s,a) ∈ S × A ( s , a ) ∈ S × A ,存在θ π ∈ R N θ^π ∈ R^N θ π ∈ R N 使得:
Q π ( s , a ) = ⟨ θ π , φ ( s , a ) ⟩ Q^π(s,a) = ⟨θ^π, φ(s,a)⟩ Q π ( s , a ) = ⟨ θ π , φ ( s , a )⟩
假设 4.2 :∣ φ ( s , a ) ∣ ≤ 1 |φ(s,a)| ≤ 1 ∣ φ ( s , a ) ∣ ≤ 1 对所有( s , a ) ∈ S × A (s,a) ∈ S × A ( s , a ) ∈ S × A 成立
假设 4.3 :矩阵∫ S × A φ ( s , a ) φ ( s , a ) ⊤ β ( d s , d a ) \int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da) ∫ S × A φ ( s , a ) φ ( s , a ) ⊤ β ( d s , d a ) 的最小特征值λ β > 0 λ_β > 0 λ β > 0
设η 0 > τ Γ η_0 > \frac{τ}{Γ} η 0 > Γ τ ,其中Γ = λ β ( 1 − γ ) ( 1 − γ ) Γ = λ_β(1-γ)(1-\sqrt{γ}) Γ = λ β ( 1 − γ ) ( 1 − γ ) ,则存在常数a 1 , a 2 > 0 a_1, a_2 > 0 a 1 , a 2 > 0 使得:
K t 2 ≤ a 1 + a 2 ∫ 0 t e − τ ( t − r ) K r 2 d r K_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr K t 2 ≤ a 1 + a 2 ∫ 0 t e − τ ( t − r ) K r 2 d r
其中K t = sup s ∈ S KL ( π t ( ⋅ ∣ s ) ∣ μ ) K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ) K t = sup s ∈ S KL ( π t ( ⋅ ∣ s ) ∣ μ ) 。
对所有t > 0 t > 0 t > 0 :
min r ∈ [ 0 , t ] V τ π r ( ρ ) − V τ π ∗ ( ρ ) ≤ τ 2 ( 1 − γ ) ( 1 − e − τ 2 t ) ( e − τ 2 t ∫ S KL ( π ∗ ( ⋅ ∣ s ) ∣ π 0 ( ⋅ ∣ s ) ) d ρ π ∗ ( d s ) + 1 2 τ ∫ 0 t e − τ 2 ( t − r ) ∣ θ r − θ π r ∣ 2 d r ) \min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right) min r ∈ [ 0 , t ] V τ π r ( ρ ) − V τ π ∗ ( ρ ) ≤ 2 ( 1 − γ ) ( 1 − e − 2 τ t ) τ ( e − 2 τ t ∫ S KL ( π ∗ ( ⋅ ∣ s ) ∣ π 0 ( ⋅ ∣ s )) d ρ π ∗ ( d s ) + 2 τ 1 ∫ 0 t e − 2 τ ( t − r ) ∣ θ r − θ π r ∣ 2 d r )
在适当条件下,存在η t = η 0 e k 1 t η_t = η_0 e^{k_1 t} η t = η 0 e k 1 t 和常数k 2 > 0 k_2 > 0 k 2 > 0 使得:
min r ∈ [ 0 , t ] V τ π r ( ρ ) − V τ π ∗ ( ρ ) ≤ τ e − τ 2 t 2 ( 1 − γ ) ( 1 − e − τ 2 t ) ( ∫ S KL ( π ∗ ( ⋅ ∣ s ) ∣ π 0 ( ⋅ ∣ s ) ) d ρ π ∗ ( d s ) + k 2 2 τ ) \min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right) min r ∈ [ 0 , t ] V τ π r ( ρ ) − V τ π ∗ ( ρ ) ≤ 2 ( 1 − γ ) ( 1 − e − 2 τ t ) τ e − 2 τ t ( ∫ S KL ( π ∗ ( ⋅ ∣ s ) ∣ π 0 ( ⋅ ∣ s )) d ρ π ∗ ( d s ) + 2 τ k 2 )
V τ π ( ρ ) − V τ π ′ ( ρ ) = 1 1 − γ ∫ S [ ∫ A ( Q τ π ′ ( s , a ) + τ ln d π ′ d μ ( a , s ) ) ( π − π ′ ) ( d a ∣ s ) + τ KL ( π ( ⋅ ∣ s ) ∣ π ′ ( ⋅ ∣ s ) ) ] d ρ π ( d s ) V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds) V τ π ( ρ ) − V τ π ′ ( ρ ) = 1 − γ 1 ∫ S [ ∫ A ( Q τ π ′ ( s , a ) + τ ln d μ d π ′ ( a , s )) ( π − π ′ ) ( d a ∣ s ) + τ KL ( π ( ⋅ ∣ s ) ∣ π ′ ( ⋅ ∣ s )) ] d ρ π ( d s )
用于控制KL散度和参数范数的增长。
引理 5.1 :
d J π β π ( E ) = J π d β π ( E ) d^π_{Jπβ}(E) = J_π d^π_β(E) d J π β π ( E ) = J π d β π ( E ) d β π ( E ) − γ d J π β π ( E ) = ( 1 − γ ) β ( E ) d^π_β(E) - γd^π_{J_π β}(E) = (1-γ)β(E) d β π ( E ) − γ d J π β π ( E ) = ( 1 − γ ) β ( E )
Borkar & Konda (1997):双时间尺度随机逼近 Bhandari et al. (2021):线性函数逼近的有限时间分析 Zhang et al. (2021):Wasserstein流与表示学习 Cayci et al. (2024):有限动作空间的自然策略梯度 本文扩展到一般动作空间 本文相比现有工作的优势:
处理连续/无限动作空间 严格的稳定性和收敛性证明 熵正则化与时间尺度分离的相互作用分析 稳定性保证 :在适当的时间尺度分离条件下,系统保持稳定指数收敛 :向最优策略的指数收敛率熵正则化效应 :熵正则化确保唯一最优策略并加速收敛连续时间假设 :仅分析连续时间动力学,离散时间更实际线性函数逼近 :实际中常用非线性神经网络精确积分假设 :实际中需要采样估计,引入蒙特卡洛误差Q函数可实现性 :强假设,实际中可能不满足离散时间算法的严格分析 非线性函数逼近的扩展 采样误差的处理 更弱的可实现性条件 理论严谨性 :提供了完整的稳定性和收敛性证明技术创新 :巧妙结合Fisher-Rao几何与Lyapunov分析一般性 :扩展到连续动作空间,填补理论空白清晰表述 :数学推导详细,逻辑清晰实用性限制 :强假设条件在实际中难以满足实验验证缺失 :纯理论工作,缺乏数值验证计算复杂性 :未讨论算法的计算复杂性有限适用性 :连续时间假设限制了实际应用理论贡献 :为熵正则化MDP提供重要理论基础方法论价值 :分析技术可应用于其他强化学习算法后续研究 :为离散时间和更一般设定的研究奠定基础理论研究 :为其他研究提供理论工具和洞察算法设计 :指导实际算法的参数选择和收敛性分析连续控制 :连续状态-动作空间的控制问题论文引用了25篇重要文献,涵盖:
Actor-critic方法的经典工作 (Konda & Tsitsiklis, 1999) 熵正则化MDP (Kerimkulov et al., 2024) 策略梯度方法 (Schulman et al., 2015, 2017) 函数逼近理论 (Bhandari et al., 2021) 总体评价 :这是一篇高质量的理论论文,为熵正则化MDP中的actor-critic方法提供了严格的数学分析。虽然在实际应用方面存在局限性,但其理论贡献和方法论价值显著,为该领域的进一步发展奠定了重要基础。