Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs
Ding, Zhang, Duan et al.
We study the sequential decision making problem of maximizing the expected total reward while satisfying a constraint on the expected total utility. We employ the natural policy gradient method to solve the discounted infinite-horizon optimal control problem for Constrained Markov Decision Processes (constrained MDPs). Specifically, we propose a new Natural Policy Gradient Primal-Dual (NPG-PD) method that updates the primal variable via natural policy gradient ascent and the dual variable via projected subgradient descent. Although the underlying maximization involves a nonconcave objective function and a nonconvex constraint set, under the softmax policy parametrization, we prove that our method achieves global convergence with sublinear rates regarding both the optimality gap and the constraint violation. Such convergence is independent of the size of the state-action space, i.e., it is~dimension-free. Furthermore, for log-linear and general smooth policy parametrizations, we establish sublinear convergence rates up to a function approximation error caused by restricted policy parametrization. We also provide convergence and finite-sample complexity guarantees for two sample-based NPG-PD algorithms. We use a set of computational experiments to showcase the effectiveness of our approach.
academic
Konvergenz und Stichprobenkomplexität von natürlichen Policy-Gradient-Primal-Dual-Methoden für beschränkte MDPs
Diese Arbeit untersucht das sequenzielle Entscheidungsproblem der Maximierung der erwarteten Gesamtbelohnung unter Einhaltung von Nebenbedingungen der erwarteten Gesamtnutzenfunktion. Die Autoren verwenden die natürliche Policy-Gradient-Methode zur Lösung des diskontierten unendlichen Zeithorizonts-Optimalsteuerungsproblems für beschränkte Markov-Entscheidungsprozesse (constrained MDPs). Konkret wird eine neue natürliche Policy-Gradient-Primal-Dual-Methode (NPG-PD) vorgeschlagen, die Primärvariablen durch natürliche Policy-Gradient-Aufstieg aktualisiert und Dualvariablen durch projizierte Subgradient-Abwärts-Iteration aktualisiert. Obwohl das zugrunde liegende Maximierungsproblem nicht-konkave Zielfunktionen und nicht-konvexe Nebenbedingungsmengen beinhaltet, erreicht die Methode unter Softmax-Policy-Parametrisierung sublineare Konvergenzraten sowohl in Bezug auf Optimalitätslücke als auch Nebenbedingungsverletzung. Diese Konvergenz ist unabhängig von der Größe des Zustands-Aktions-Raums, d.h. dimensionsfrei. Darüber hinaus werden sublineare Konvergenzraten bis zur Funktionsapproximationsfehler, die durch die eingeschränkte Policy-Parametrisierung verursacht werden, für logarithmisch-lineare und allgemeine glatte Policy-Parametrisierungen etabliert.
Satz 10 (Globale Konvergenz unter Softmax-Parametrisierung):
Unter Slater-Bedingung, mit Wahl von η1=2log∣A∣, η2=2(1−γ)/T, erfüllt der NPG-PD-Algorithmus:
Satz 16 (Logarithmisch-lineare Parametrisierung):
In der Funktionsapproximationseinstellung beträgt die Konvergenzrate:
E[T1∑t=0T−1(Vr∗(ρ)−Vr(t)(ρ))]≤(1−γ)5C3T1+Funktionsapproximationsfehler
Lemma 11 (Nicht-monotone Verbesserung): Jede Primärvariablen-Aktualisierung verbessert den Lagrange-Term, aber die Belohnungs- und Nutzenfunktionen selbst können nicht-monoton sein.
Lemma 12 (Begrenzte durchschnittliche Leistung): Etablierung von Leistungsgrenzen durch Bedauerns-Analyse.
Multiplikative Gewichtsupdate-Verbindung: Interpretation der NPG-Aktualisierung als MWU im Online-Lernen
Fisher-Informationsmatrix-Inverse: Nutzung der Softmax-Struktur zur Vereinfachung der NPG-Berechnung
Starke Dualität: Etablierung starker Dualitätsbeziehungen unter Slater-Bedingung
Nebenbedingungsverletzungsgrenze: Begrenzung der Nebenbedingungsverletzung durch konvexe Analysetechniken
Diese Arbeit leistet wichtige Beiträge zur Theorie des eingeschränkten Reinforcement Learning und bietet eine solide theoretische Grundlage und einen praktischen Algorithmus-Rahmen für die Entwicklung dieses Bereichs.