2025-11-25T16:46:17.731757

Convergence of actor-critic for entropy regularised MDPs in general action spaces

Zorba, Å iÅ¡ka, Szpruch

We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.

academic

Convergence of actor-critic for entropy regularised MDPs in general action spaces

基本信息

论文ID: 2510.14898
标题: Convergence of actor-critic for entropy regularised MDPs in general action spaces
作者: Denis Zorba, David Šiška, Lukasz Szpruch
分类: math.OC (Optimization and Control)
发表时间: 2025年10月16日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.14898

摘要

本文证明了在连续状态和动作空间中，具有线性函数逼近和Q函数可实现性条件下，无限时域熵正则化马尔可夫决策过程(MDPs)的耦合actor-critic梯度流的稳定性和全局收敛性。研究考虑了一种actor-critic梯度流变体，其中critic使用时序差分(TD)学习更新，而策略使用策略镜像下降方法在不同时间尺度上更新。论文证明了actor-critic流向最优策略的稳定性和指数收敛性，并分析了时间尺度分离与熵正则化的相互作用对稳定性和收敛性的影响。

研究背景与动机

问题定义

本文要解决的核心问题是在一般动作空间(连续或无限)的熵正则化MDP中，actor-critic方法的稳定性和收敛性分析。具体来说：

稳定性问题：在连续时间动力学下，actor和critic的耦合更新是否会导致系统不稳定
收敛性问题：系统是否能收敛到最优策略，收敛速度如何
时间尺度分离：不同更新速度对系统性能的影响

研究重要性

理论基础：为实际应用中广泛使用的actor-critic算法提供严格的理论保证
一般性扩展：将现有的有限动作空间结果扩展到连续/无限动作空间
熵正则化：分析熵正则化在促进探索和加速收敛中的作用

现有方法局限性

动作空间限制：现有熵正则化MDP的收敛结果主要局限于有限动作空间
函数逼近挑战：缺乏在一般状态和动作空间中对函数逼近的先验界限
耦合分析复杂性：需要结合欧几里得空间和测度空间上的凸分析工具

核心贡献

稳定性框架：开发了基于Lyapunov的稳定性框架，捕捉熵正则化与时间尺度分离的相互作用
收敛性证明：证明了在无限动作空间的熵正则化MDP中actor-critic动力学的收敛性
指数收敛率：建立了向最优策略的指数收敛率
连续时间分析：在连续时间极限下分析耦合更新，形成critic的半梯度流和actor的近似Fisher-Rao梯度流

方法详解

任务定义

考虑无限时域MDP $(S,A,P,c,γ)$ ，其中：

$S$ , $A$ ：波兰空间(状态和动作空间)
$P \in P(S|S \times A)$ ：状态转移核
$c$ ：有界成本函数
$γ \in (0,1)$ ：折扣因子
$τ > 0$ ：正则化参数

熵正则化价值函数定义为： $V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right]$

模型架构

1. 策略参数化

策略属于可容许策略类 $Π_μ$ ： $π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da)$

2. Q函数线性逼近

使用特征映射 $φ: S \times A → R^N$ ： $Q(s,a;θ) = ⟨θ, φ(s,a)⟩$

3. 耦合动力学系统

连续时间actor-critic流： $\frac{dθ_t}{dt} = -η_t g(θ_t, π_t)$ $∂_t π_t(da|s) = -A_t(s,a)π_t(da|s)$

其中：

$g(θ,π)$ ：均方贝尔曼误差(MSBE)的半梯度
$A_t(s,a)$ ：近似软优势函数
$η_t$ ：时间尺度分离参数

技术创新点

1. Fisher-Rao梯度流

将策略更新建模为概率测度空间上的Fisher-Rao梯度流： $∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a)$

2. 两时间尺度分析

Critic在快时间尺度上更新(TD学习)
Actor在慢时间尺度上更新(策略镜像下降)

3. Lyapunov稳定性分析

构造Lyapunov函数分析系统稳定性，结合：

欧几里得空间的凸分析
测度空间的凸分析

理论分析

关键假设

假设 4.1 (Q^π_τ-可实现性)：对所有 $π ∈ Π_μ$ 和 $(s,a) ∈ S × A$ ，存在 $θ^π ∈ R^N$ 使得： $Q^π(s,a) = ⟨θ^π, φ(s,a)⟩$

假设 4.2： $|φ(s,a)| ≤ 1$ 对所有 $(s,a) ∈ S × A$ 成立

假设 4.3：矩阵 $\int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da)$ 的最小特征值 $λ_β > 0$

主要理论结果

稳定性定理 (Theorem 5.1)

设 $η_0 > \frac{τ}{Γ}$ ，其中 $Γ = λ_β(1-γ)(1-\sqrt{γ})$ ，则存在常数 $a_1, a_2 > 0$ 使得： $K_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr$

其中 $K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ)$ 。

收敛性定理 (Theorem 6.1)

对所有 $t > 0$ ： $\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right)$

指数收敛 (Theorem 6.3)

在适当条件下，存在 $η_t = η_0 e^{k_1 t}$ 和常数 $k_2 > 0$ 使得： $\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right)$

关键技术工具

1. 性能差异引理 (Performance Difference Lemma)

$V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds)$