Finite-time Convergence Analysis of Actor-Critic with Evolving Reward
Hu, Chen, Huang
Many popular practical reinforcement learning (RL) algorithms employ evolving reward functions-through techniques such as reward shaping, entropy regularization, or curriculum learning-yet their theoretical foundations remain underdeveloped. This paper provides the first finite-time convergence analysis of a single-timescale actor-critic algorithm in the presence of an evolving reward function under Markovian sampling. We consider a setting where the reward parameters may change at each time step, affecting both policy optimization and value estimation. Under standard assumptions, we derive non-asymptotic bounds for both actor and critic errors. Our result shows that an $O(1/\sqrt{T})$ convergence rate is achievable, matching the best-known rate for static rewards, provided the reward parameters evolve slowly enough. This rate is preserved when the reward is updated via a gradient-based rule with bounded gradient and on the same timescale as the actor and critic, offering a theoretical foundation for many popular RL techniques. As a secondary contribution, we introduce a novel analysis of distribution mismatch under Markovian sampling, improving the best-known rate by a factor of $\log^2T$ in the static-reward case.
많은 인기 있는 강화학습 알고리즘은 보상 형성, 엔트로피 정규화 또는 커리큘럼 학습 등의 기법을 통해 진화하는 보상 함수를 채택하지만, 그 이론적 기초는 여전히 불완전하다. 본 논문은 마르코프 샘플링 하에서 진화하는 보상 함수가 존재할 때 단일 시간 척도 Actor-Critic 알고리즘의 유한시간 수렴 분석을 처음으로 제공한다. 본 연구는 보상 매개변수가 매 시간 단계마다 변할 수 있는 설정을 고려하며, 이는 정책 최적화와 가치 추정에 모두 영향을 미친다. 표준 가정 하에서 Actor와 Critic 오차의 비점근적 경계를 도출한다. 결과는 보상 매개변수 진화가 충분히 느린 조건 하에서 O(1/T)의 수렴률을 달성할 수 있음을 보여주며, 이는 정적 보상의 최적 알려진 률과 일치한다. 보상이 Actor 및 Critic과 동일한 시간 척도에서 유계 기울기를 갖는 기울기 기반 규칙을 통해 업데이트될 때, 이 수렴률이 유지되어 많은 인기 있는 강화학습 기법에 대한 이론적 기초를 제공한다.
Chen et al. (2021), Olshevsky & Gharesifard (2023): 단일 시간 척도 Actor-Critic 분석
Haarnoja et al. (2018): 소프트 Actor-Critic 알고리즘
Pathak et al. (2017): 호기심 기반 탐색
전체 평가: 이것은 고품질의 이론 논문으로, 진화하는 보상 하에서 Actor-Critic 알고리즘에 대한 엄격한 수렴성 분석을 처음으로 제공한다. 적용 범위에서 일정한 한계가 있지만, 이론적 기여는 상당하며 실제 RL 알고리즘의 이해와 설계를 위한 중요한 이론적 기초를 제공한다.