2025-11-25T16:46:17.731757

Convergence of actor-critic for entropy regularised MDPs in general action spaces

Zorba, Šiška, Szpruch
We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.
academic

Сходимость actor-critic для энтропийно-регуляризованных МДП в общих пространствах действий

Основная информация

  • ID статьи: 2510.14898
  • Название: Convergence of actor-critic for entropy regularised MDPs in general action spaces
  • Авторы: Denis Zorba, David Šiška, Lukasz Szpruch
  • Классификация: math.OC (Оптимизация и управление)
  • Дата публикации: 16 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.14898

Аннотация

В данной статье доказывается устойчивость и глобальная сходимость связанного потока градиентов actor-critic для бесконечногоизмерения энтропийно-регуляризованных марковских процессов принятия решений (МДП) в непрерывных пространствах состояний и действий с линейной функциональной аппроксимацией и условием реализуемости Q-функции. Исследование рассматривает вариант потока градиентов actor-critic, в котором критик обновляется с использованием обучения временным разностям (TD), а политика обновляется с использованием метода зеркального спуска политики в разных временных масштабах. Статья доказывает устойчивость и экспоненциальную сходимость потока actor-critic к оптимальной политике и анализирует влияние взаимодействия разделения временных масштабов и энтропийной регуляризации на устойчивость и сходимость.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данная статья, — это анализ устойчивости и сходимости метода actor-critic в энтропийно-регуляризованных МДП с общими пространствами действий (непрерывными или бесконечными). Конкретно:

  1. Проблема устойчивости: приводят ли связанные обновления actor и critic к нестабильности системы в непрерывной динамике
  2. Проблема сходимости: сходится ли система к оптимальной политике и какова скорость сходимости
  3. Разделение временных масштабов: влияние различных скоростей обновления на производительность системы

Значимость исследования

  1. Теоретическая база: обеспечение строгих теоретических гарантий для широко используемого в практических приложениях метода actor-critic
  2. Расширение общности: распространение существующих результатов сходимости с конечных пространств действий на непрерывные/бесконечные пространства действий
  3. Энтропийная регуляризация: анализ роли энтропийной регуляризации в содействии исследованию и ускорении сходимости

Ограничения существующих методов

  1. Ограничение пространства действий: существующие результаты сходимости для энтропийно-регуляризованных МДП в основном ограничены конечными пространствами действий
  2. Вызовы функциональной аппроксимации: отсутствие априорных границ для функциональной аппроксимации в общих пространствах состояний и действий
  3. Сложность связанного анализа: необходимость объединения инструментов выпуклого анализа в евклидовых пространствах и пространствах мер

Основные вклады

  1. Фреймворк устойчивости: разработка фреймворка устойчивости на основе функций Ляпунова, отражающего взаимодействие энтропийной регуляризации и разделения временных масштабов
  2. Доказательство сходимости: доказательство сходимости динамики actor-critic в энтропийно-регуляризованных МДП с бесконечным пространством действий
  3. Экспоненциальная скорость сходимости: установление экспоненциальной скорости сходимости к оптимальной политике
  4. Анализ в непрерывном времени: анализ связанных обновлений в пределе непрерывного времени, формирующий полуградиентный поток критика и приблизительный градиентный поток Fisher-Rao для actor

Подробное описание методов

Определение задачи

Рассмотрим МДП с бесконечным горизонтом (S,A,P,c,γ)(S,A,P,c,γ), где:

  • SS, AA: польские пространства (пространства состояний и действий)
  • PP(SS×A)P \in P(S|S \times A): ядро переходов состояний
  • cc: ограниченная функция стоимости
  • γ(0,1)γ \in (0,1): коэффициент дисконтирования
  • τ>0τ > 0: параметр регуляризации

Энтропийно-регуляризованная функция стоимости определяется как: Vτπ(s)=Esπ[n=0γn(c(sn,an)+τKL(π(sn)μ))]V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right]

Архитектура модели

1. Параметризация политики

Политика принадлежит классу допустимых политик ΠμΠ_μ: π(das)=exp(f(s,a))Aexp(f(s,a))μ(da)μ(da)π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da)

2. Линейная аппроксимация Q-функции

Использование отображения признаков φ:S×ARNφ: S \times A → R^N: Q(s,a;θ)=θ,φ(s,a)Q(s,a;θ) = ⟨θ, φ(s,a)⟩

3. Связанная динамическая система

Поток actor-critic в непрерывном времени: dθtdt=ηtg(θt,πt)\frac{dθ_t}{dt} = -η_t g(θ_t, π_t)tπt(das)=At(s,a)πt(das)∂_t π_t(da|s) = -A_t(s,a)π_t(da|s)

где:

  • g(θ,π)g(θ,π): полуградиент среднеквадратичной ошибки Беллмана (MSBE)
  • At(s,a)A_t(s,a): приблизительная функция мягкого преимущества
  • ηtη_t: параметр разделения временных масштабов

Технические инновации

1. Градиентный поток Fisher-Rao

Моделирование обновления политики как градиентного потока Fisher-Rao в пространстве вероятностных мер: tlndπtdμ(s,a)=Aτπt(s,a)∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a)

2. Двухвременной масштабный анализ

  • Критик обновляется в быстром временном масштабе (обучение TD)
  • Actor обновляется в медленном временном масштабе (зеркальный спуск политики)

3. Анализ устойчивости Ляпунова

Построение функции Ляпунова для анализа устойчивости системы, объединяющей:

  • Выпуклый анализ в евклидовых пространствах
  • Выпуклый анализ в пространствах мер

Теоретический анализ

Ключевые предположения

Предположение 4.1 (Q^π_τ-реализуемость): для всех πΠμπ ∈ Π_μ и (s,a)S×A(s,a) ∈ S × A существует θπRNθ^π ∈ R^N такой, что: Qπ(s,a)=θπ,φ(s,a)Q^π(s,a) = ⟨θ^π, φ(s,a)⟩

Предположение 4.2: φ(s,a)1|φ(s,a)| ≤ 1 для всех (s,a)S×A(s,a) ∈ S × A

Предположение 4.3: минимальное собственное значение λβ>0λ_β > 0 матрицы S×Aφ(s,a)φ(s,a)β(ds,da)\int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da)

Основные теоретические результаты

Теорема устойчивости (Theorem 5.1)

Пусть η0>τΓη_0 > \frac{τ}{Γ}, где Γ=λβ(1γ)(1γ)Γ = λ_β(1-γ)(1-\sqrt{γ}), тогда существуют константы a1,a2>0a_1, a_2 > 0 такие, что: Kt2a1+a20teτ(tr)Kr2drK_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr

где Kt=supsSKL(πt(s)μ)K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ).

Теорема сходимости (Theorem 6.1)

Для всех t>0t > 0: minr[0,t]Vτπr(ρ)Vτπ(ρ)τ2(1γ)(1eτ2t)(eτ2tSKL(π(s)π0(s))dρπ(ds)+12τ0teτ2(tr)θrθπr2dr)\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right)

Экспоненциальная сходимость (Theorem 6.3)

При надлежащих условиях существуют ηt=η0ek1tη_t = η_0 e^{k_1 t} и константа k2>0k_2 > 0 такие, что: minr[0,t]Vτπr(ρ)Vτπ(ρ)τeτ2t2(1γ)(1eτ2t)(SKL(π(s)π0(s))dρπ(ds)+k22τ)\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right)

Ключевые технические инструменты

1. Лемма о разности производительности (Performance Difference Lemma)

Vτπ(ρ)Vτπ(ρ)=11γS[A(Qτπ(s,a)+τlndπdμ(a,s))(ππ)(das)+τKL(π(s)π(s))]dρπ(ds)V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds)

2. Применение неравенства Гронуолла

Используется для контроля роста расхождения Кульбака-Лейблера и нормы параметров.

3. Свойства занятости состояния-действия

Лемма 5.1: dJπβπ(E)=Jπdβπ(E)d^π_{Jπβ}(E) = J_π d^π_β(E)dβπ(E)γdJπβπ(E)=(1γ)β(E)d^π_β(E) - γd^π_{J_π β}(E) = (1-γ)β(E)

Связанные работы

Параметр без регуляризации

  • Borkar & Konda (1997): двухвременной масштабный стохастический процесс приближения
  • Bhandari et al. (2021): анализ конечного времени с линейной функциональной аппроксимацией
  • Zhang et al. (2021): потоки Вассерштейна и представленческое обучение

Параметр с энтропийной регуляризацией

  • Cayci et al. (2024): естественный градиент политики для конечного пространства действий
  • Данная статья расширяет результаты на общие пространства действий

Сравнение технических вкладов

Преимущества данной работы по сравнению с существующими:

  1. Обработка непрерывных/бесконечных пространств действий
  2. Строгие доказательства устойчивости и сходимости
  3. Анализ взаимодействия энтропийной регуляризации и разделения временных масштабов

Заключение и обсуждение

Основные выводы

  1. Гарантии устойчивости: при надлежащих условиях разделения временных масштабов система остается устойчивой
  2. Экспоненциальная сходимость: экспоненциальная скорость сходимости к оптимальной политике
  3. Эффект энтропийной регуляризации: энтропийная регуляризация обеспечивает единственность оптимальной политики и ускоряет сходимость

Ограничения

  1. Предположение непрерывного времени: анализируется только непрерывная динамика, дискретное время более практично
  2. Линейная функциональная аппроксимация: на практике часто используются нелинейные нейронные сети
  3. Предположение точного интегрирования: на практике требуется выборочная оценка с введением ошибок Монте-Карло
  4. Реализуемость Q-функции: сильное предположение, которое может не выполняться на практике

Направления будущих исследований

  1. Строгий анализ дискретных алгоритмов
  2. Расширение на нелинейную функциональную аппроксимацию
  3. Обработка ошибок выборки
  4. Более слабые условия реализуемости

Глубокая оценка

Преимущества

  1. Теоретическая строгость: полные доказательства устойчивости и сходимости
  2. Технические инновации: умелое объединение геометрии Fisher-Rao и анализа Ляпунова
  3. Общность: расширение на непрерывные пространства действий, заполнение теоретического пробела
  4. Ясное изложение: детальные математические выводы, четкая логика

Недостатки

  1. Ограничения практичности: сильные условия предположений трудно удовлетворить на практике
  2. Отсутствие экспериментальной проверки: чисто теоретическая работа без численной верификации
  3. Вычислительная сложность: не обсуждается вычислительная сложность алгоритма
  4. Ограниченная применимость: предположение непрерывного времени ограничивает практическое применение

Влияние

  1. Теоретический вклад: важная теоретическая база для энтропийно-регуляризованных МДП
  2. Методологическая ценность: методы анализа применимы к другим алгоритмам обучения с подкреплением
  3. Последующие исследования: закладывает основу для исследований в дискретном времени и более общих параметрах

Применимые сценарии

  1. Теоретические исследования: предоставление теоретических инструментов и идей для других исследований
  2. Разработка алгоритмов: руководство выбором параметров практических алгоритмов и анализом сходимости
  3. Непрерывное управление: задачи управления в непрерывных пространствах состояния-действия

Библиография

Статья цитирует 25 важных работ, охватывающих:

  • Классические работы по методам actor-critic (Konda & Tsitsiklis, 1999)
  • Энтропийно-регуляризованные МДП (Kerimkulov et al., 2024)
  • Методы градиента политики (Schulman et al., 2015, 2017)
  • Теория функциональной аппроксимации (Bhandari et al., 2021)

Общая оценка: Это высококачественная теоретическая статья, обеспечивающая строгий математический анализ метода actor-critic в энтропийно-регуляризованных МДП. Хотя она имеет ограничения в практическом применении, её теоретические вклады и методологическая ценность значительны и закладывают важную основу для дальнейшего развития данной области.