2025-11-25T16:46:17.731757

Convergence of actor-critic for entropy regularised MDPs in general action spaces

Zorba, Šiška, Szpruch
We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.
academic

Convergence of actor-critic for entropy regularised MDPs in general action spaces

基本信息

  • 论文ID: 2510.14898
  • 标题: Convergence of actor-critic for entropy regularised MDPs in general action spaces
  • 作者: Denis Zorba, David Šiška, Lukasz Szpruch
  • 分类: math.OC (Optimization and Control)
  • 发表时间: 2025年10月16日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.14898

摘要

本文证明了在连续状态和动作空间中,具有线性函数逼近和Q函数可实现性条件下,无限时域熵正则化马尔可夫决策过程(MDPs)的耦合actor-critic梯度流的稳定性和全局收敛性。研究考虑了一种actor-critic梯度流变体,其中critic使用时序差分(TD)学习更新,而策略使用策略镜像下降方法在不同时间尺度上更新。论文证明了actor-critic流向最优策略的稳定性和指数收敛性,并分析了时间尺度分离与熵正则化的相互作用对稳定性和收敛性的影响。

研究背景与动机

问题定义

本文要解决的核心问题是在一般动作空间(连续或无限)的熵正则化MDP中,actor-critic方法的稳定性和收敛性分析。具体来说:

  1. 稳定性问题:在连续时间动力学下,actor和critic的耦合更新是否会导致系统不稳定
  2. 收敛性问题:系统是否能收敛到最优策略,收敛速度如何
  3. 时间尺度分离:不同更新速度对系统性能的影响

研究重要性

  1. 理论基础:为实际应用中广泛使用的actor-critic算法提供严格的理论保证
  2. 一般性扩展:将现有的有限动作空间结果扩展到连续/无限动作空间
  3. 熵正则化:分析熵正则化在促进探索和加速收敛中的作用

现有方法局限性

  1. 动作空间限制:现有熵正则化MDP的收敛结果主要局限于有限动作空间
  2. 函数逼近挑战:缺乏在一般状态和动作空间中对函数逼近的先验界限
  3. 耦合分析复杂性:需要结合欧几里得空间和测度空间上的凸分析工具

核心贡献

  1. 稳定性框架:开发了基于Lyapunov的稳定性框架,捕捉熵正则化与时间尺度分离的相互作用
  2. 收敛性证明:证明了在无限动作空间的熵正则化MDP中actor-critic动力学的收敛性
  3. 指数收敛率:建立了向最优策略的指数收敛率
  4. 连续时间分析:在连续时间极限下分析耦合更新,形成critic的半梯度流和actor的近似Fisher-Rao梯度流

方法详解

任务定义

考虑无限时域MDP (S,A,P,c,γ)(S,A,P,c,γ),其中:

  • SS, AA:波兰空间(状态和动作空间)
  • PP(SS×A)P \in P(S|S \times A):状态转移核
  • cc:有界成本函数
  • γ(0,1)γ \in (0,1):折扣因子
  • τ>0τ > 0:正则化参数

熵正则化价值函数定义为: Vτπ(s)=Esπ[n=0γn(c(sn,an)+τKL(π(sn)μ))]V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right]

模型架构

1. 策略参数化

策略属于可容许策略类ΠμΠ_μπ(das)=exp(f(s,a))Aexp(f(s,a))μ(da)μ(da)π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da)

2. Q函数线性逼近

使用特征映射φ:S×ARNφ: S \times A → R^NQ(s,a;θ)=θ,φ(s,a)Q(s,a;θ) = ⟨θ, φ(s,a)⟩

3. 耦合动力学系统

连续时间actor-critic流: dθtdt=ηtg(θt,πt)\frac{dθ_t}{dt} = -η_t g(θ_t, π_t)tπt(das)=At(s,a)πt(das)∂_t π_t(da|s) = -A_t(s,a)π_t(da|s)

其中:

  • g(θ,π)g(θ,π):均方贝尔曼误差(MSBE)的半梯度
  • At(s,a)A_t(s,a):近似软优势函数
  • ηtη_t:时间尺度分离参数

技术创新点

1. Fisher-Rao梯度流

将策略更新建模为概率测度空间上的Fisher-Rao梯度流: tlndπtdμ(s,a)=Aτπt(s,a)∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a)

2. 两时间尺度分析

  • Critic在快时间尺度上更新(TD学习)
  • Actor在慢时间尺度上更新(策略镜像下降)

3. Lyapunov稳定性分析

构造Lyapunov函数分析系统稳定性,结合:

  • 欧几里得空间的凸分析
  • 测度空间的凸分析

理论分析

关键假设

假设 4.1 (Q^π_τ-可实现性):对所有πΠμπ ∈ Π_μ(s,a)S×A(s,a) ∈ S × A,存在θπRNθ^π ∈ R^N使得: Qπ(s,a)=θπ,φ(s,a)Q^π(s,a) = ⟨θ^π, φ(s,a)⟩

假设 4.2φ(s,a)1|φ(s,a)| ≤ 1对所有(s,a)S×A(s,a) ∈ S × A成立

假设 4.3:矩阵S×Aφ(s,a)φ(s,a)β(ds,da)\int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da)的最小特征值λβ>0λ_β > 0

主要理论结果

稳定性定理 (Theorem 5.1)

η0>τΓη_0 > \frac{τ}{Γ},其中Γ=λβ(1γ)(1γ)Γ = λ_β(1-γ)(1-\sqrt{γ}),则存在常数a1,a2>0a_1, a_2 > 0使得: Kt2a1+a20teτ(tr)Kr2drK_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr

其中Kt=supsSKL(πt(s)μ)K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ)

收敛性定理 (Theorem 6.1)

对所有t>0t > 0minr[0,t]Vτπr(ρ)Vτπ(ρ)τ2(1γ)(1eτ2t)(eτ2tSKL(π(s)π0(s))dρπ(ds)+12τ0teτ2(tr)θrθπr2dr)\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right)

指数收敛 (Theorem 6.3)

在适当条件下,存在ηt=η0ek1tη_t = η_0 e^{k_1 t}和常数k2>0k_2 > 0使得: minr[0,t]Vτπr(ρ)Vτπ(ρ)τeτ2t2(1γ)(1eτ2t)(SKL(π(s)π0(s))dρπ(ds)+k22τ)\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right)

关键技术工具

1. 性能差异引理 (Performance Difference Lemma)

Vτπ(ρ)Vτπ(ρ)=11γS[A(Qτπ(s,a)+τlndπdμ(a,s))(ππ)(das)+τKL(π(s)π(s))]dρπ(ds)V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds)

2. Gronwall不等式应用

用于控制KL散度和参数范数的增长。

3. 状态-动作占用测度性质

引理 5.1dJπβπ(E)=Jπdβπ(E)d^π_{Jπβ}(E) = J_π d^π_β(E)dβπ(E)γdJπβπ(E)=(1γ)β(E)d^π_β(E) - γd^π_{J_π β}(E) = (1-γ)β(E)

相关工作

无正则化设定

  • Borkar & Konda (1997):双时间尺度随机逼近
  • Bhandari et al. (2021):线性函数逼近的有限时间分析
  • Zhang et al. (2021):Wasserstein流与表示学习

熵正则化设定

  • Cayci et al. (2024):有限动作空间的自然策略梯度
  • 本文扩展到一般动作空间

技术贡献对比

本文相比现有工作的优势:

  1. 处理连续/无限动作空间
  2. 严格的稳定性和收敛性证明
  3. 熵正则化与时间尺度分离的相互作用分析

结论与讨论

主要结论

  1. 稳定性保证:在适当的时间尺度分离条件下,系统保持稳定
  2. 指数收敛:向最优策略的指数收敛率
  3. 熵正则化效应:熵正则化确保唯一最优策略并加速收敛

局限性

  1. 连续时间假设:仅分析连续时间动力学,离散时间更实际
  2. 线性函数逼近:实际中常用非线性神经网络
  3. 精确积分假设:实际中需要采样估计,引入蒙特卡洛误差
  4. Q函数可实现性:强假设,实际中可能不满足

未来方向

  1. 离散时间算法的严格分析
  2. 非线性函数逼近的扩展
  3. 采样误差的处理
  4. 更弱的可实现性条件

深度评价

优点

  1. 理论严谨性:提供了完整的稳定性和收敛性证明
  2. 技术创新:巧妙结合Fisher-Rao几何与Lyapunov分析
  3. 一般性:扩展到连续动作空间,填补理论空白
  4. 清晰表述:数学推导详细,逻辑清晰

不足

  1. 实用性限制:强假设条件在实际中难以满足
  2. 实验验证缺失:纯理论工作,缺乏数值验证
  3. 计算复杂性:未讨论算法的计算复杂性
  4. 有限适用性:连续时间假设限制了实际应用

影响力

  1. 理论贡献:为熵正则化MDP提供重要理论基础
  2. 方法论价值:分析技术可应用于其他强化学习算法
  3. 后续研究:为离散时间和更一般设定的研究奠定基础

适用场景

  1. 理论研究:为其他研究提供理论工具和洞察
  2. 算法设计:指导实际算法的参数选择和收敛性分析
  3. 连续控制:连续状态-动作空间的控制问题

参考文献

论文引用了25篇重要文献,涵盖:

  • Actor-critic方法的经典工作 (Konda & Tsitsiklis, 1999)
  • 熵正则化MDP (Kerimkulov et al., 2024)
  • 策略梯度方法 (Schulman et al., 2015, 2017)
  • 函数逼近理论 (Bhandari et al., 2021)

总体评价:这是一篇高质量的理论论文,为熵正则化MDP中的actor-critic方法提供了严格的数学分析。虽然在实际应用方面存在局限性,但其理论贡献和方法论价值显著,为该领域的进一步发展奠定了重要基础。