2025-11-25T16:46:17.731757

Convergence of actor-critic for entropy regularised MDPs in general action spaces

Zorba, Šiška, Szpruch
We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.
academic

일반 동작 공간에서 엔트로피 정규화 MDP의 액터-크리틱 수렴성

기본 정보

  • 논문 ID: 2510.14898
  • 제목: Convergence of actor-critic for entropy regularised MDPs in general action spaces
  • 저자: Denis Zorba, David Šiška, Lukasz Szpruch
  • 분류: math.OC (최적화 및 제어)
  • 발표 시간: 2025년 10월 16일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.14898

초록

본 논문은 연속 상태 및 동작 공간에서 선형 함수 근사 및 Q함수 실현 가능성 조건 하에서, 무한 시간 지평 엔트로피 정규화 마르코프 결정 과정(MDP)의 결합된 액터-크리틱 그래디언트 흐름의 안정성과 전역 수렴성을 증명합니다. 본 연구는 크리틱이 시간차(TD) 학습으로 업데이트되고 정책이 서로 다른 시간 척도에서 정책 미러 하강법을 사용하여 업데이트되는 액터-크리틱 그래디언트 흐름 변형을 고려합니다. 논문은 액터-크리틱 흐름이 최적 정책으로 수렴하는 안정성과 지수 수렴성을 증명하며, 시간 척도 분리와 엔트로피 정규화의 상호작용이 안정성과 수렴성에 미치는 영향을 분석합니다.

연구 배경 및 동기

문제 정의

본 논문이 해결하고자 하는 핵심 문제는 일반 동작 공간(연속 또는 무한)의 엔트로피 정규화 MDP에서 액터-크리틱 방법의 안정성과 수렴성 분석입니다. 구체적으로:

  1. 안정성 문제: 연속 시간 동역학 하에서 액터와 크리틱의 결합 업데이트가 시스템 불안정성을 초래하는지 여부
  2. 수렴성 문제: 시스템이 최적 정책으로 수렴하는지, 수렴 속도는 어떠한지
  3. 시간 척도 분리: 서로 다른 업데이트 속도가 시스템 성능에 미치는 영향

연구의 중요성

  1. 이론적 기초: 실제 응용에서 광범위하게 사용되는 액터-크리틱 알고리즘에 대한 엄격한 이론적 보장 제공
  2. 일반성 확장: 기존의 유한 동작 공간 결과를 연속/무한 동작 공간으로 확장
  3. 엔트로피 정규화: 탐색 촉진 및 수렴 가속화에서 엔트로피 정규화의 역할 분석

기존 방법의 한계

  1. 동작 공간 제한: 기존 엔트로피 정규화 MDP의 수렴 결과는 주로 유한 동작 공간에 국한됨
  2. 함수 근사 과제: 일반 상태 및 동작 공간에서 함수 근사에 대한 사전 경계 부재
  3. 결합 분석 복잡성: 유클리드 공간과 측도 공간의 볼록 분석 도구 결합 필요

핵심 기여

  1. 안정성 프레임워크: 엔트로피 정규화와 시간 척도 분리의 상호작용을 포착하는 Lyapunov 기반 안정성 프레임워크 개발
  2. 수렴성 증명: 무한 동작 공간의 엔트로피 정규화 MDP에서 액터-크리틱 동역학의 수렴성 증명
  3. 지수 수렴율: 최적 정책으로의 지수 수렴율 확립
  4. 연속 시간 분석: 연속 시간 극한에서 결합 업데이트 분석, 크리틱의 반-그래디언트 흐름 및 액터의 근사 Fisher-Rao 그래디언트 흐름 형성

방법 상세 설명

작업 정의

무한 시간 지평 MDP (S,A,P,c,γ)(S,A,P,c,γ)를 고려합니다. 여기서:

  • SS, AA: 폴란드 공간(상태 및 동작 공간)
  • PP(SS×A)P \in P(S|S \times A): 상태 전이 커널
  • cc: 유계 비용 함수
  • γ(0,1)γ \in (0,1): 할인 인자
  • τ>0τ > 0: 정규화 매개변수

엔트로피 정규화 가치 함수는 다음과 같이 정의됩니다: Vτπ(s)=Esπ[n=0γn(c(sn,an)+τKL(π(sn)μ))]V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right]

모델 아키텍처

1. 정책 매개변수화

정책은 허용 가능한 정책 클래스 ΠμΠ_μ에 속합니다: π(das)=exp(f(s,a))Aexp(f(s,a))μ(da)μ(da)π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da)

2. Q함수 선형 근사

특성 매핑 φ:S×ARNφ: S \times A → R^N을 사용합니다: Q(s,a;θ)=θ,φ(s,a)Q(s,a;θ) = ⟨θ, φ(s,a)⟩

3. 결합 동역학 시스템

연속 시간 액터-크리틱 흐름: dθtdt=ηtg(θt,πt)\frac{dθ_t}{dt} = -η_t g(θ_t, π_t)tπt(das)=At(s,a)πt(das)∂_t π_t(da|s) = -A_t(s,a)π_t(da|s)

여기서:

  • g(θ,π)g(θ,π): 평균 제곱 벨만 오류(MSBE)의 반-그래디언트
  • At(s,a)A_t(s,a): 근사 소프트 우위 함수
  • ηtη_t: 시간 척도 분리 매개변수

기술 혁신점

1. Fisher-Rao 그래디언트 흐름

정책 업데이트를 확률 측도 공간의 Fisher-Rao 그래디언트 흐름으로 모델링합니다: tlndπtdμ(s,a)=Aτπt(s,a)∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a)

2. 이중 시간 척도 분석

  • 크리틱은 빠른 시간 척도에서 업데이트(TD 학습)
  • 액터는 느린 시간 척도에서 업데이트(정책 미러 하강)

3. Lyapunov 안정성 분석

Lyapunov 함수를 구성하여 시스템 안정성을 분석하며, 다음을 결합합니다:

  • 유클리드 공간의 볼록 분석
  • 측도 공간의 볼록 분석

이론적 분석

주요 가정

가정 4.1 (Q^π_τ-실현 가능성): 모든 πΠμπ ∈ Π_μ(s,a)S×A(s,a) ∈ S × A에 대해, θπRNθ^π ∈ R^N이 존재하여: Qπ(s,a)=θπ,φ(s,a)Q^π(s,a) = ⟨θ^π, φ(s,a)⟩

가정 4.2: φ(s,a)1|φ(s,a)| ≤ 1이 모든 (s,a)S×A(s,a) ∈ S × A에 대해 성립

가정 4.3: 행렬 S×Aφ(s,a)φ(s,a)β(ds,da)\int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da)의 최소 고유값 λβ>0λ_β > 0

주요 이론적 결과

안정성 정리 (정리 5.1)

η0>τΓη_0 > \frac{τ}{Γ}를 설정합니다. 여기서 Γ=λβ(1γ)(1γ)Γ = λ_β(1-γ)(1-\sqrt{γ})이면, 상수 a1,a2>0a_1, a_2 > 0이 존재하여: Kt2a1+a20teτ(tr)Kr2drK_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr

여기서 Kt=supsSKL(πt(s)μ)K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ)입니다.

수렴성 정리 (정리 6.1)

모든 t>0t > 0에 대해: minr[0,t]Vτπr(ρ)Vτπ(ρ)τ2(1γ)(1eτ2t)(eτ2tSKL(π(s)π0(s))dρπ(ds)+12τ0teτ2(tr)θrθπr2dr)\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right)

지수 수렴 (정리 6.3)

적절한 조건 하에서, ηt=η0ek1tη_t = η_0 e^{k_1 t}와 상수 k2>0k_2 > 0이 존재하여: minr[0,t]Vτπr(ρ)Vτπ(ρ)τeτ2t2(1γ)(1eτ2t)(SKL(π(s)π0(s))dρπ(ds)+k22τ)\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right)

주요 기술 도구

1. 성능 차이 보조정리 (Performance Difference Lemma)

Vτπ(ρ)Vτπ(ρ)=11γS[A(Qτπ(s,a)+τlndπdμ(a,s))(ππ)(das)+τKL(π(s)π(s))]dρπ(ds)V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds)

2. Gronwall 부등식 적용

KL 발산 및 매개변수 범위의 증가를 제어하는 데 사용됩니다.

3. 상태-동작 점유 측도 성질

보조정리 5.1: dJπβπ(E)=Jπdβπ(E)d^π_{Jπβ}(E) = J_π d^π_β(E)dβπ(E)γdJπβπ(E)=(1γ)β(E)d^π_β(E) - γd^π_{J_π β}(E) = (1-γ)β(E)

관련 연구

정규화 없는 설정

  • Borkar & Konda (1997): 이중 시간 척도 확률 근사
  • Bhandari et al. (2021): 선형 함수 근사의 유한 시간 분석
  • Zhang et al. (2021): Wasserstein 흐름 및 표현 학습

엔트로피 정규화 설정

  • Cayci et al. (2024): 유한 동작 공간의 자연 정책 그래디언트
  • 본 논문: 일반 동작 공간으로 확장

기술 기여 비교

기존 연구 대비 본 논문의 장점:

  1. 연속/무한 동작 공간 처리
  2. 엄격한 안정성 및 수렴성 증명
  3. 엔트로피 정규화와 시간 척도 분리의 상호작용 분석

결론 및 논의

주요 결론

  1. 안정성 보장: 적절한 시간 척도 분리 조건 하에서 시스템이 안정적으로 유지됨
  2. 지수 수렴: 최적 정책으로의 지수 수렴율
  3. 엔트로피 정규화 효과: 엔트로피 정규화가 유일한 최적 정책을 보장하고 수렴을 가속화함

한계

  1. 연속 시간 가정: 연속 시간 동역학만 분석하며, 이산 시간이 더 실용적
  2. 선형 함수 근사: 실제로는 비선형 신경망이 자주 사용됨
  3. 정확한 적분 가정: 실제로는 샘플링 추정이 필요하며, 몬테카를로 오류 도입
  4. Q함수 실현 가능성: 강한 가정이며, 실제로는 만족하지 않을 수 있음

향후 방향

  1. 이산 시간 알고리즘의 엄격한 분석
  2. 비선형 함수 근사로의 확장
  3. 샘플링 오류 처리
  4. 더 약한 실현 가능성 조건

심층 평가

장점

  1. 이론적 엄밀성: 완전한 안정성 및 수렴성 증명 제공
  2. 기술 혁신: Fisher-Rao 기하학과 Lyapunov 분석을 교묘하게 결합
  3. 일반성: 연속 동작 공간으로 확장하여 이론적 공백 메움
  4. 명확한 표현: 수학적 유도가 상세하고 논리가 명확함

부족한 점

  1. 실용성 제한: 강한 가정 조건이 실제로 만족하기 어려움
  2. 실험 검증 부재: 순수 이론 연구로 수치 검증 부족
  3. 계산 복잡성: 알고리즘의 계산 복잡성 미논의
  4. 제한된 적용성: 연속 시간 가정이 실제 응용을 제한함

영향력

  1. 이론적 기여: 엔트로피 정규화 MDP에 중요한 이론적 기초 제공
  2. 방법론적 가치: 분석 기법을 다른 강화학습 알고리즘에 적용 가능
  3. 후속 연구: 이산 시간 및 더 일반적인 설정 연구의 기초 마련

적용 시나리오

  1. 이론 연구: 다른 연구에 이론적 도구 및 통찰력 제공
  2. 알고리즘 설계: 실제 알고리즘의 매개변수 선택 및 수렴성 분석 지도
  3. 연속 제어: 연속 상태-동작 공간의 제어 문제

참고문헌

논문은 25개의 중요 문헌을 인용하며, 다음을 포함합니다:

  • 액터-크리틱 방법의 고전 연구 (Konda & Tsitsiklis, 1999)
  • 엔트로피 정규화 MDP (Kerimkulov et al., 2024)
  • 정책 그래디언트 방법 (Schulman et al., 2015, 2017)
  • 함수 근사 이론 (Bhandari et al., 2021)

종합 평가: 이는 엔트로피 정규화 MDP에서 액터-크리틱 방법에 대한 엄격한 수학적 분석을 제공하는 고품질 이론 논문입니다. 실제 응용 측면에서 한계가 있지만, 이론적 기여와 방법론적 가치가 상당하며, 해당 분야의 추가 발전을 위한 중요한 기초를 마련합니다.