2025-11-25T16:46:17.731757

Convergence of actor-critic for entropy regularised MDPs in general action spaces

Zorba, Å iÅ¡ka, Szpruch

We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.

academic

일반 동작 공간에서 엔트로피 정규화 MDP의 액터-크리틱 수렴성

기본 정보

논문 ID: 2510.14898
제목: Convergence of actor-critic for entropy regularised MDPs in general action spaces
저자: Denis Zorba, David Šiška, Lukasz Szpruch
분류: math.OC (최적화 및 제어)
발표 시간: 2025년 10월 16일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.14898

초록

본 논문은 연속 상태 및 동작 공간에서 선형 함수 근사 및 Q함수 실현 가능성 조건 하에서, 무한 시간 지평 엔트로피 정규화 마르코프 결정 과정(MDP)의 결합된 액터-크리틱 그래디언트 흐름의 안정성과 전역 수렴성을 증명합니다. 본 연구는 크리틱이 시간차(TD) 학습으로 업데이트되고 정책이 서로 다른 시간 척도에서 정책 미러 하강법을 사용하여 업데이트되는 액터-크리틱 그래디언트 흐름 변형을 고려합니다. 논문은 액터-크리틱 흐름이 최적 정책으로 수렴하는 안정성과 지수 수렴성을 증명하며, 시간 척도 분리와 엔트로피 정규화의 상호작용이 안정성과 수렴성에 미치는 영향을 분석합니다.

연구 배경 및 동기

문제 정의

본 논문이 해결하고자 하는 핵심 문제는 일반 동작 공간(연속 또는 무한)의 엔트로피 정규화 MDP에서 액터-크리틱 방법의 안정성과 수렴성 분석입니다. 구체적으로:

안정성 문제: 연속 시간 동역학 하에서 액터와 크리틱의 결합 업데이트가 시스템 불안정성을 초래하는지 여부
수렴성 문제: 시스템이 최적 정책으로 수렴하는지, 수렴 속도는 어떠한지
시간 척도 분리: 서로 다른 업데이트 속도가 시스템 성능에 미치는 영향

연구의 중요성

이론적 기초: 실제 응용에서 광범위하게 사용되는 액터-크리틱 알고리즘에 대한 엄격한 이론적 보장 제공
일반성 확장: 기존의 유한 동작 공간 결과를 연속/무한 동작 공간으로 확장
엔트로피 정규화: 탐색 촉진 및 수렴 가속화에서 엔트로피 정규화의 역할 분석

기존 방법의 한계

동작 공간 제한: 기존 엔트로피 정규화 MDP의 수렴 결과는 주로 유한 동작 공간에 국한됨
함수 근사 과제: 일반 상태 및 동작 공간에서 함수 근사에 대한 사전 경계 부재
결합 분석 복잡성: 유클리드 공간과 측도 공간의 볼록 분석 도구 결합 필요

핵심 기여

안정성 프레임워크: 엔트로피 정규화와 시간 척도 분리의 상호작용을 포착하는 Lyapunov 기반 안정성 프레임워크 개발
수렴성 증명: 무한 동작 공간의 엔트로피 정규화 MDP에서 액터-크리틱 동역학의 수렴성 증명
지수 수렴율: 최적 정책으로의 지수 수렴율 확립
연속 시간 분석: 연속 시간 극한에서 결합 업데이트 분석, 크리틱의 반-그래디언트 흐름 및 액터의 근사 Fisher-Rao 그래디언트 흐름 형성

방법 상세 설명

작업 정의

무한 시간 지평 MDP $(S,A,P,c,γ)$ 를 고려합니다. 여기서:

$S$ , $A$ : 폴란드 공간(상태 및 동작 공간)
$P \in P(S|S \times A)$ : 상태 전이 커널
$c$ : 유계 비용 함수
$γ \in (0,1)$ : 할인 인자
$τ > 0$ : 정규화 매개변수

엔트로피 정규화 가치 함수는 다음과 같이 정의됩니다: $V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right]$

모델 아키텍처

1. 정책 매개변수화

정책은 허용 가능한 정책 클래스 $Π_μ$ 에 속합니다: $π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da)$

2. Q함수 선형 근사

특성 매핑 $φ: S \times A → R^N$ 을 사용합니다: $Q(s,a;θ) = ⟨θ, φ(s,a)⟩$

3. 결합 동역학 시스템

연속 시간 액터-크리틱 흐름: $\frac{dθ_t}{dt} = -η_t g(θ_t, π_t)$ $∂_t π_t(da|s) = -A_t(s,a)π_t(da|s)$

여기서:

$g(θ,π)$ : 평균 제곱 벨만 오류(MSBE)의 반-그래디언트
$A_t(s,a)$ : 근사 소프트 우위 함수
$η_t$ : 시간 척도 분리 매개변수

기술 혁신점

1. Fisher-Rao 그래디언트 흐름

정책 업데이트를 확률 측도 공간의 Fisher-Rao 그래디언트 흐름으로 모델링합니다: $∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a)$

2. 이중 시간 척도 분석

크리틱은 빠른 시간 척도에서 업데이트(TD 학습)
액터는 느린 시간 척도에서 업데이트(정책 미러 하강)

3. Lyapunov 안정성 분석

Lyapunov 함수를 구성하여 시스템 안정성을 분석하며, 다음을 결합합니다:

유클리드 공간의 볼록 분석
측도 공간의 볼록 분석

이론적 분석

주요 가정

가정 4.1 (Q^π_τ-실현 가능성): 모든 $π ∈ Π_μ$ 와 $(s,a) ∈ S × A$ 에 대해, $θ^π ∈ R^N$ 이 존재하여: $Q^π(s,a) = ⟨θ^π, φ(s,a)⟩$

가정 4.2: $|φ(s,a)| ≤ 1$ 이 모든 $(s,a) ∈ S × A$ 에 대해 성립

가정 4.3: 행렬 $\int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da)$ 의 최소 고유값 $λ_β > 0$

주요 이론적 결과

안정성 정리 (정리 5.1)

$η_0 > \frac{τ}{Γ}$ 를 설정합니다. 여기서 $Γ = λ_β(1-γ)(1-\sqrt{γ})$ 이면, 상수 $a_1, a_2 > 0$ 이 존재하여: $K_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr$

여기서 $K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ)$ 입니다.

수렴성 정리 (정리 6.1)

모든 $t > 0$ 에 대해: $\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right)$

지수 수렴 (정리 6.3)

적절한 조건 하에서, $η_t = η_0 e^{k_1 t}$ 와 상수 $k_2 > 0$ 이 존재하여: $\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right)$

주요 기술 도구

1. 성능 차이 보조정리 (Performance Difference Lemma)

$V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds)$