Convergence of actor-critic for entropy regularised MDPs in general action spaces
Zorba, Šiška, Szpruch
We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.
academic
Сходимость actor-critic для энтропийно-регуляризованных МДП в общих пространствах действий
В данной статье доказывается устойчивость и глобальная сходимость связанного потока градиентов actor-critic для бесконечногоизмерения энтропийно-регуляризованных марковских процессов принятия решений (МДП) в непрерывных пространствах состояний и действий с линейной функциональной аппроксимацией и условием реализуемости Q-функции. Исследование рассматривает вариант потока градиентов actor-critic, в котором критик обновляется с использованием обучения временным разностям (TD), а политика обновляется с использованием метода зеркального спуска политики в разных временных масштабах. Статья доказывает устойчивость и экспоненциальную сходимость потока actor-critic к оптимальной политике и анализирует влияние взаимодействия разделения временных масштабов и энтропийной регуляризации на устойчивость и сходимость.
Основная проблема, которую решает данная статья, — это анализ устойчивости и сходимости метода actor-critic в энтропийно-регуляризованных МДП с общими пространствами действий (непрерывными или бесконечными). Конкретно:
Проблема устойчивости: приводят ли связанные обновления actor и critic к нестабильности системы в непрерывной динамике
Проблема сходимости: сходится ли система к оптимальной политике и какова скорость сходимости
Разделение временных масштабов: влияние различных скоростей обновления на производительность системы
Теоретическая база: обеспечение строгих теоретических гарантий для широко используемого в практических приложениях метода actor-critic
Расширение общности: распространение существующих результатов сходимости с конечных пространств действий на непрерывные/бесконечные пространства действий
Энтропийная регуляризация: анализ роли энтропийной регуляризации в содействии исследованию и ускорении сходимости
Ограничение пространства действий: существующие результаты сходимости для энтропийно-регуляризованных МДП в основном ограничены конечными пространствами действий
Вызовы функциональной аппроксимации: отсутствие априорных границ для функциональной аппроксимации в общих пространствах состояний и действий
Сложность связанного анализа: необходимость объединения инструментов выпуклого анализа в евклидовых пространствах и пространствах мер
Фреймворк устойчивости: разработка фреймворка устойчивости на основе функций Ляпунова, отражающего взаимодействие энтропийной регуляризации и разделения временных масштабов
Доказательство сходимости: доказательство сходимости динамики actor-critic в энтропийно-регуляризованных МДП с бесконечным пространством действий
Экспоненциальная скорость сходимости: установление экспоненциальной скорости сходимости к оптимальной политике
Анализ в непрерывном времени: анализ связанных обновлений в пределе непрерывного времени, формирующий полуградиентный поток критика и приблизительный градиентный поток Fisher-Rao для actor
При надлежащих условиях существуют ηt=η0ek1t и константа k2>0 такие, что:
minr∈[0,t]Vτπr(ρ)−Vτπ∗(ρ)≤2(1−γ)(1−e−2τt)τe−2τt(∫SKL(π∗(⋅∣s)∣π0(⋅∣s))dρπ∗(ds)+2τk2)
Классические работы по методам actor-critic (Konda & Tsitsiklis, 1999)
Энтропийно-регуляризованные МДП (Kerimkulov et al., 2024)
Методы градиента политики (Schulman et al., 2015, 2017)
Теория функциональной аппроксимации (Bhandari et al., 2021)
Общая оценка: Это высококачественная теоретическая статья, обеспечивающая строгий математический анализ метода actor-critic в энтропийно-регуляризованных МДП. Хотя она имеет ограничения в практическом применении, её теоретические вклады и методологическая ценность значительны и закладывают важную основу для дальнейшего развития данной области.