Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs
Ding, Zhang, Duan et al.
We study the sequential decision making problem of maximizing the expected total reward while satisfying a constraint on the expected total utility. We employ the natural policy gradient method to solve the discounted infinite-horizon optimal control problem for Constrained Markov Decision Processes (constrained MDPs). Specifically, we propose a new Natural Policy Gradient Primal-Dual (NPG-PD) method that updates the primal variable via natural policy gradient ascent and the dual variable via projected subgradient descent. Although the underlying maximization involves a nonconcave objective function and a nonconvex constraint set, under the softmax policy parametrization, we prove that our method achieves global convergence with sublinear rates regarding both the optimality gap and the constraint violation. Such convergence is independent of the size of the state-action space, i.e., it is~dimension-free. Furthermore, for log-linear and general smooth policy parametrizations, we establish sublinear convergence rates up to a function approximation error caused by restricted policy parametrization. We also provide convergence and finite-sample complexity guarantees for two sample-based NPG-PD algorithms. We use a set of computational experiments to showcase the effectiveness of our approach.
academic
Сходимость и сложность выборки методов естественного градиента политики типа прямо-двойственных для ограниченных МДП
В данной работе исследуется задача последовательного принятия решений по максимизации ожидаемого совокупного вознаграждения при условии удовлетворения ограничений на ожидаемую совокупную полезность. Авторы применяют метод естественного градиента политики для решения задачи оптимального управления с дисконтированием на бесконечном горизонте для ограниченных марковских процессов принятия решений (constrained MDPs). Конкретно предложен новый метод естественного градиента политики типа прямо-двойственный (NPG-PD), который обновляет прямые переменные посредством восхождения по естественному градиенту политики, а двойственные переменные — посредством проецируемого субградиентного спуска. Несмотря на то, что базовая задача максимизации включает невогнутую целевую функцию и невыпуклое множество ограничений, при параметризации политики softmax метод достигает сублинейной скорости глобальной сходимости как для зазора оптимальности, так и для нарушения ограничений. Эта сходимость не зависит от размера пространства состояний-действий, то есть является безразмерной. Кроме того, для логарифмически-линейной и общей гладкой параметризации политики установлена сублинейная скорость сходимости вплоть до ошибки функциональной аппроксимации, вызванной ограниченной параметризацией политики.
Основная проблема, решаемая в данной работе, — это задача обучения оптимальной политике в ограниченных марковских процессах принятия решений (Constrained MDPs):
Преимущество производительности: NPG-PD достигает более высокого вознаграждения в большинстве задач при сохранении аналогичной степени удовлетворения ограничений
Скорость сходимости: сходится быстрее, чем классические методы Лагранжа
Конкурентная производительность: производительность сравнима или превосходит новейшие методы (FOCOPS, CUP)
Лемма 11 (немонотонное улучшение): каждое обновление прямых переменных улучшает лагранжев член, но сами функции вознаграждения и полезности могут быть немонотонными.
Лемма 12 (ограниченная средняя производительность): через анализ ожидаемого сожаления устанавливаются границы средней производительности.
Связь с обновлением мультипликативных весов: интерпретация обновления NPG как MWU в онлайн-обучении
Обратная матрица информации Фишера: использование структуры softmax для упрощения вычислений NPG
Сильная двойственность: установление сильной двойственности при условии Слейтера
Граница нарушения ограничений: использование техник выпуклого анализа для ограничения нарушения ограничений
Данная статья вносит важный вклад в теорию ограниченного обучения с подкреплением, предоставляя прочную теоретическую основу и практическую архитектуру алгоритма для развития этой области.