We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.
논문 ID : 2510.14898제목 : Convergence of actor-critic for entropy regularised MDPs in general action spaces저자 : Denis Zorba, David Šiška, Lukasz Szpruch분류 : math.OC (최적화 및 제어)발표 시간 : 2025년 10월 16일 (arXiv 사전인쇄본)논문 링크 : https://arxiv.org/abs/2510.14898 본 논문은 연속 상태 및 동작 공간에서 선형 함수 근사 및 Q함수 실현 가능성 조건 하에서, 무한 시간 지평 엔트로피 정규화 마르코프 결정 과정(MDP)의 결합된 액터-크리틱 그래디언트 흐름의 안정성과 전역 수렴성을 증명합니다. 본 연구는 크리틱이 시간차(TD) 학습으로 업데이트되고 정책이 서로 다른 시간 척도에서 정책 미러 하강법을 사용하여 업데이트되는 액터-크리틱 그래디언트 흐름 변형을 고려합니다. 논문은 액터-크리틱 흐름이 최적 정책으로 수렴하는 안정성과 지수 수렴성을 증명하며, 시간 척도 분리와 엔트로피 정규화의 상호작용이 안정성과 수렴성에 미치는 영향을 분석합니다.
본 논문이 해결하고자 하는 핵심 문제는 일반 동작 공간(연속 또는 무한)의 엔트로피 정규화 MDP에서 액터-크리틱 방법의 안정성과 수렴성 분석입니다. 구체적으로:
안정성 문제 : 연속 시간 동역학 하에서 액터와 크리틱의 결합 업데이트가 시스템 불안정성을 초래하는지 여부수렴성 문제 : 시스템이 최적 정책으로 수렴하는지, 수렴 속도는 어떠한지시간 척도 분리 : 서로 다른 업데이트 속도가 시스템 성능에 미치는 영향이론적 기초 : 실제 응용에서 광범위하게 사용되는 액터-크리틱 알고리즘에 대한 엄격한 이론적 보장 제공일반성 확장 : 기존의 유한 동작 공간 결과를 연속/무한 동작 공간으로 확장엔트로피 정규화 : 탐색 촉진 및 수렴 가속화에서 엔트로피 정규화의 역할 분석동작 공간 제한 : 기존 엔트로피 정규화 MDP의 수렴 결과는 주로 유한 동작 공간에 국한됨함수 근사 과제 : 일반 상태 및 동작 공간에서 함수 근사에 대한 사전 경계 부재결합 분석 복잡성 : 유클리드 공간과 측도 공간의 볼록 분석 도구 결합 필요안정성 프레임워크 : 엔트로피 정규화와 시간 척도 분리의 상호작용을 포착하는 Lyapunov 기반 안정성 프레임워크 개발수렴성 증명 : 무한 동작 공간의 엔트로피 정규화 MDP에서 액터-크리틱 동역학의 수렴성 증명지수 수렴율 : 최적 정책으로의 지수 수렴율 확립연속 시간 분석 : 연속 시간 극한에서 결합 업데이트 분석, 크리틱의 반-그래디언트 흐름 및 액터의 근사 Fisher-Rao 그래디언트 흐름 형성무한 시간 지평 MDP ( S , A , P , c , γ ) (S,A,P,c,γ) ( S , A , P , c , γ ) 를 고려합니다. 여기서:
S S S , A A A : 폴란드 공간(상태 및 동작 공간)P ∈ P ( S ∣ S × A ) P \in P(S|S \times A) P ∈ P ( S ∣ S × A ) : 상태 전이 커널c c c : 유계 비용 함수γ ∈ ( 0 , 1 ) γ \in (0,1) γ ∈ ( 0 , 1 ) : 할인 인자τ > 0 τ > 0 τ > 0 : 정규화 매개변수엔트로피 정규화 가치 함수는 다음과 같이 정의됩니다:
V τ π ( s ) = E s π [ ∑ n = 0 ∞ γ n ( c ( s n , a n ) + τ KL ( π ( ⋅ ∣ s n ) ∣ μ ) ) ] V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right] V τ π ( s ) = E s π [ ∑ n = 0 ∞ γ n ( c ( s n , a n ) + τ KL ( π ( ⋅ ∣ s n ) ∣ μ )) ]
정책은 허용 가능한 정책 클래스 Π μ Π_μ Π μ 에 속합니다:
π ( d a ∣ s ) = exp ( f ( s , a ) ) ∫ A exp ( f ( s , a ) ) μ ( d a ) μ ( d a ) π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da) π ( d a ∣ s ) = ∫ A e x p ( f ( s , a )) μ ( d a ) e x p ( f ( s , a )) μ ( d a )
특성 매핑 φ : S × A → R N φ: S \times A → R^N φ : S × A → R N 을 사용합니다:
Q ( s , a ; θ ) = ⟨ θ , φ ( s , a ) ⟩ Q(s,a;θ) = ⟨θ, φ(s,a)⟩ Q ( s , a ; θ ) = ⟨ θ , φ ( s , a )⟩
연속 시간 액터-크리틱 흐름:
d θ t d t = − η t g ( θ t , π t ) \frac{dθ_t}{dt} = -η_t g(θ_t, π_t) d t d θ t = − η t g ( θ t , π t ) ∂ t π t ( d a ∣ s ) = − A t ( s , a ) π t ( d a ∣ s ) ∂_t π_t(da|s) = -A_t(s,a)π_t(da|s) ∂ t π t ( d a ∣ s ) = − A t ( s , a ) π t ( d a ∣ s )
여기서:
g ( θ , π ) g(θ,π) g ( θ , π ) : 평균 제곱 벨만 오류(MSBE)의 반-그래디언트A t ( s , a ) A_t(s,a) A t ( s , a ) : 근사 소프트 우위 함수η t η_t η t : 시간 척도 분리 매개변수정책 업데이트를 확률 측도 공간의 Fisher-Rao 그래디언트 흐름으로 모델링합니다:
∂ t ln d π t d μ ( s , a ) = − A τ π t ( s , a ) ∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a) ∂ t ln d μ d π t ( s , a ) = − A τ π t ( s , a )
크리틱은 빠른 시간 척도에서 업데이트(TD 학습) 액터는 느린 시간 척도에서 업데이트(정책 미러 하강) Lyapunov 함수를 구성하여 시스템 안정성을 분석하며, 다음을 결합합니다:
유클리드 공간의 볼록 분석 측도 공간의 볼록 분석 가정 4.1 (Q^π_τ-실현 가능성) : 모든 π ∈ Π μ π ∈ Π_μ π ∈ Π μ 와 ( s , a ) ∈ S × A (s,a) ∈ S × A ( s , a ) ∈ S × A 에 대해, θ π ∈ R N θ^π ∈ R^N θ π ∈ R N 이 존재하여:
Q π ( s , a ) = ⟨ θ π , φ ( s , a ) ⟩ Q^π(s,a) = ⟨θ^π, φ(s,a)⟩ Q π ( s , a ) = ⟨ θ π , φ ( s , a )⟩
가정 4.2 : ∣ φ ( s , a ) ∣ ≤ 1 |φ(s,a)| ≤ 1 ∣ φ ( s , a ) ∣ ≤ 1 이 모든 ( s , a ) ∈ S × A (s,a) ∈ S × A ( s , a ) ∈ S × A 에 대해 성립
가정 4.3 : 행렬 ∫ S × A φ ( s , a ) φ ( s , a ) ⊤ β ( d s , d a ) \int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da) ∫ S × A φ ( s , a ) φ ( s , a ) ⊤ β ( d s , d a ) 의 최소 고유값 λ β > 0 λ_β > 0 λ β > 0
η 0 > τ Γ η_0 > \frac{τ}{Γ} η 0 > Γ τ 를 설정합니다. 여기서 Γ = λ β ( 1 − γ ) ( 1 − γ ) Γ = λ_β(1-γ)(1-\sqrt{γ}) Γ = λ β ( 1 − γ ) ( 1 − γ ) 이면, 상수 a 1 , a 2 > 0 a_1, a_2 > 0 a 1 , a 2 > 0 이 존재하여:
K t 2 ≤ a 1 + a 2 ∫ 0 t e − τ ( t − r ) K r 2 d r K_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr K t 2 ≤ a 1 + a 2 ∫ 0 t e − τ ( t − r ) K r 2 d r
여기서 K t = sup s ∈ S KL ( π t ( ⋅ ∣ s ) ∣ μ ) K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ) K t = sup s ∈ S KL ( π t ( ⋅ ∣ s ) ∣ μ ) 입니다.
모든 t > 0 t > 0 t > 0 에 대해:
min r ∈ [ 0 , t ] V τ π r ( ρ ) − V τ π ∗ ( ρ ) ≤ τ 2 ( 1 − γ ) ( 1 − e − τ 2 t ) ( e − τ 2 t ∫ S KL ( π ∗ ( ⋅ ∣ s ) ∣ π 0 ( ⋅ ∣ s ) ) d ρ π ∗ ( d s ) + 1 2 τ ∫ 0 t e − τ 2 ( t − r ) ∣ θ r − θ π r ∣ 2 d r ) \min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right) min r ∈ [ 0 , t ] V τ π r ( ρ ) − V τ π ∗ ( ρ ) ≤ 2 ( 1 − γ ) ( 1 − e − 2 τ t ) τ ( e − 2 τ t ∫ S KL ( π ∗ ( ⋅ ∣ s ) ∣ π 0 ( ⋅ ∣ s )) d ρ π ∗ ( d s ) + 2 τ 1 ∫ 0 t e − 2 τ ( t − r ) ∣ θ r − θ π r ∣ 2 d r )
적절한 조건 하에서, η t = η 0 e k 1 t η_t = η_0 e^{k_1 t} η t = η 0 e k 1 t 와 상수 k 2 > 0 k_2 > 0 k 2 > 0 이 존재하여:
min r ∈ [ 0 , t ] V τ π r ( ρ ) − V τ π ∗ ( ρ ) ≤ τ e − τ 2 t 2 ( 1 − γ ) ( 1 − e − τ 2 t ) ( ∫ S KL ( π ∗ ( ⋅ ∣ s ) ∣ π 0 ( ⋅ ∣ s ) ) d ρ π ∗ ( d s ) + k 2 2 τ ) \min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right) min r ∈ [ 0 , t ] V τ π r ( ρ ) − V τ π ∗ ( ρ ) ≤ 2 ( 1 − γ ) ( 1 − e − 2 τ t ) τ e − 2 τ t ( ∫ S KL ( π ∗ ( ⋅ ∣ s ) ∣ π 0 ( ⋅ ∣ s )) d ρ π ∗ ( d s ) + 2 τ k 2 )
V τ π ( ρ ) − V τ π ′ ( ρ ) = 1 1 − γ ∫ S [ ∫ A ( Q τ π ′ ( s , a ) + τ ln d π ′ d μ ( a , s ) ) ( π − π ′ ) ( d a ∣ s ) + τ KL ( π ( ⋅ ∣ s ) ∣ π ′ ( ⋅ ∣ s ) ) ] d ρ π ( d s ) V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds) V τ π ( ρ ) − V τ π ′ ( ρ ) = 1 − γ 1 ∫ S [ ∫ A ( Q τ π ′ ( s , a ) + τ ln d μ d π ′ ( a , s )) ( π − π ′ ) ( d a ∣ s ) + τ KL ( π ( ⋅ ∣ s ) ∣ π ′ ( ⋅ ∣ s )) ] d ρ π ( d s )
KL 발산 및 매개변수 범위의 증가를 제어하는 데 사용됩니다.
보조정리 5.1 :
d J π β π ( E ) = J π d β π ( E ) d^π_{Jπβ}(E) = J_π d^π_β(E) d J π β π ( E ) = J π d β π ( E ) d β π ( E ) − γ d J π β π ( E ) = ( 1 − γ ) β ( E ) d^π_β(E) - γd^π_{J_π β}(E) = (1-γ)β(E) d β π ( E ) − γ d J π β π ( E ) = ( 1 − γ ) β ( E )
Borkar & Konda (1997): 이중 시간 척도 확률 근사 Bhandari et al. (2021): 선형 함수 근사의 유한 시간 분석 Zhang et al. (2021): Wasserstein 흐름 및 표현 학습 Cayci et al. (2024): 유한 동작 공간의 자연 정책 그래디언트 본 논문: 일반 동작 공간으로 확장 기존 연구 대비 본 논문의 장점:
연속/무한 동작 공간 처리 엄격한 안정성 및 수렴성 증명 엔트로피 정규화와 시간 척도 분리의 상호작용 분석 안정성 보장 : 적절한 시간 척도 분리 조건 하에서 시스템이 안정적으로 유지됨지수 수렴 : 최적 정책으로의 지수 수렴율엔트로피 정규화 효과 : 엔트로피 정규화가 유일한 최적 정책을 보장하고 수렴을 가속화함연속 시간 가정 : 연속 시간 동역학만 분석하며, 이산 시간이 더 실용적선형 함수 근사 : 실제로는 비선형 신경망이 자주 사용됨정확한 적분 가정 : 실제로는 샘플링 추정이 필요하며, 몬테카를로 오류 도입Q함수 실현 가능성 : 강한 가정이며, 실제로는 만족하지 않을 수 있음이산 시간 알고리즘의 엄격한 분석 비선형 함수 근사로의 확장 샘플링 오류 처리 더 약한 실현 가능성 조건 이론적 엄밀성 : 완전한 안정성 및 수렴성 증명 제공기술 혁신 : Fisher-Rao 기하학과 Lyapunov 분석을 교묘하게 결합일반성 : 연속 동작 공간으로 확장하여 이론적 공백 메움명확한 표현 : 수학적 유도가 상세하고 논리가 명확함실용성 제한 : 강한 가정 조건이 실제로 만족하기 어려움실험 검증 부재 : 순수 이론 연구로 수치 검증 부족계산 복잡성 : 알고리즘의 계산 복잡성 미논의제한된 적용성 : 연속 시간 가정이 실제 응용을 제한함이론적 기여 : 엔트로피 정규화 MDP에 중요한 이론적 기초 제공방법론적 가치 : 분석 기법을 다른 강화학습 알고리즘에 적용 가능후속 연구 : 이산 시간 및 더 일반적인 설정 연구의 기초 마련이론 연구 : 다른 연구에 이론적 도구 및 통찰력 제공알고리즘 설계 : 실제 알고리즘의 매개변수 선택 및 수렴성 분석 지도연속 제어 : 연속 상태-동작 공간의 제어 문제논문은 25개의 중요 문헌을 인용하며, 다음을 포함합니다:
액터-크리틱 방법의 고전 연구 (Konda & Tsitsiklis, 1999) 엔트로피 정규화 MDP (Kerimkulov et al., 2024) 정책 그래디언트 방법 (Schulman et al., 2015, 2017) 함수 근사 이론 (Bhandari et al., 2021) 종합 평가 : 이는 엔트로피 정규화 MDP에서 액터-크리틱 방법에 대한 엄격한 수학적 분석을 제공하는 고품질 이론 논문입니다. 실제 응용 측면에서 한계가 있지만, 이론적 기여와 방법론적 가치가 상당하며, 해당 분야의 추가 발전을 위한 중요한 기초를 마련합니다.