2025-11-20T12:37:14.096690

Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs

Ding, Zhang, Duan et al.
We study the sequential decision making problem of maximizing the expected total reward while satisfying a constraint on the expected total utility. We employ the natural policy gradient method to solve the discounted infinite-horizon optimal control problem for Constrained Markov Decision Processes (constrained MDPs). Specifically, we propose a new Natural Policy Gradient Primal-Dual (NPG-PD) method that updates the primal variable via natural policy gradient ascent and the dual variable via projected subgradient descent. Although the underlying maximization involves a nonconcave objective function and a nonconvex constraint set, under the softmax policy parametrization, we prove that our method achieves global convergence with sublinear rates regarding both the optimality gap and the constraint violation. Such convergence is independent of the size of the state-action space, i.e., it is~dimension-free. Furthermore, for log-linear and general smooth policy parametrizations, we establish sublinear convergence rates up to a function approximation error caused by restricted policy parametrization. We also provide convergence and finite-sample complexity guarantees for two sample-based NPG-PD algorithms. We use a set of computational experiments to showcase the effectiveness of our approach.
academic

Konvergenz und Stichprobenkomplexität von natürlichen Policy-Gradient-Primal-Dual-Methoden für beschränkte MDPs

Grundlegende Informationen

  • Paper-ID: 2206.02346
  • Titel: Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs
  • Autoren: Dongsheng Ding, Kaiqing Zhang, Jiali Duan, Tamer Başar, Mihailo R. Jovanović
  • Klassifizierung: math.OC cs.AI cs.LG cs.SY eess.SY
  • Veröffentlichtes Journal: Journal of Machine Learning Research 26 (2025) 1-76
  • Paper-Link: https://arxiv.org/abs/2206.02346

Zusammenfassung

Diese Arbeit untersucht das sequenzielle Entscheidungsproblem der Maximierung der erwarteten Gesamtbelohnung unter Einhaltung von Nebenbedingungen der erwarteten Gesamtnutzenfunktion. Die Autoren verwenden die natürliche Policy-Gradient-Methode zur Lösung des diskontierten unendlichen Zeithorizonts-Optimalsteuerungsproblems für beschränkte Markov-Entscheidungsprozesse (constrained MDPs). Konkret wird eine neue natürliche Policy-Gradient-Primal-Dual-Methode (NPG-PD) vorgeschlagen, die Primärvariablen durch natürliche Policy-Gradient-Aufstieg aktualisiert und Dualvariablen durch projizierte Subgradient-Abwärts-Iteration aktualisiert. Obwohl das zugrunde liegende Maximierungsproblem nicht-konkave Zielfunktionen und nicht-konvexe Nebenbedingungsmengen beinhaltet, erreicht die Methode unter Softmax-Policy-Parametrisierung sublineare Konvergenzraten sowohl in Bezug auf Optimalitätslücke als auch Nebenbedingungsverletzung. Diese Konvergenz ist unabhängig von der Größe des Zustands-Aktions-Raums, d.h. dimensionsfrei. Darüber hinaus werden sublineare Konvergenzraten bis zur Funktionsapproximationsfehler, die durch die eingeschränkte Policy-Parametrisierung verursacht werden, für logarithmisch-lineare und allgemeine glatte Policy-Parametrisierungen etabliert.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Arbeit ist das Problem des optimalen Policy-Lernens in beschränkten Markov-Entscheidungsprozessen (Constrained MDPs):

  • Ziel: Maximierung der erwarteten Gesamtbelohnung Vrπ(ρ)V^π_r(ρ)
  • Nebenbedingung: Einhaltung der erwarteten Gesamtnutzen-Nebenbedingung Vgπ(ρ)bV^π_g(ρ) ≥ b
  • Herausforderung: Nicht-konkave Zielfunktion, nicht-konvexe Nebenbedingungsmenge

Bedeutung

Beschränkte MDPs sind in sicherheitskritischen Anwendungen von großer Bedeutung:

  1. Autonomes Fahren: Erfordert Maximierung der Leistung bei gleichzeitiger Gewährleistung von Sicherheitsnebenbedingungen
  2. Robotik: Muss physische und Sicherheitsbeschränkungen bei der Aufgabenausführung erfüllen
  3. Netzwerksicherheit: Aufrechterhaltung von Sicherheitsrichtlinien bei gleichzeitiger Optimierung der Systemleistung
  4. Finanzmanagement: Risikokontrolle bei der Verfolgung von Renditen

Einschränkungen bestehender Methoden

  1. Unzureichende theoretische Garantien: Die meisten bestehenden Methoden bieten nur asymptotische oder lokale Konvergenzgarantien
  2. Dimensionsabhängigkeit: Konvergenzraten hängen typischerweise von der Größe des Zustands-Aktions-Raums ab
  3. Funktionsapproximationsfehler: Mangel an rigoroser Analyse unter Funktionsapproximation
  4. Stichprobenkomplexität: Mangel an theoretischen Garantien für endliche Stichprobenkomplexität

Kernbeiträge

  1. NPG-PD-Algorithmus: Entwurf eines neuen Algorithmus-Rahmens, der natürliche Policy-Gradienten und Primal-Dual-Methoden kombiniert
  2. Globale Konvergenzgarantie: Beweis der dimensionsfreien globalen Konvergenz unter Softmax-Parametrisierung
  3. Funktionsapproximationstheorie: Etablierung von Konvergenztheorie für logarithmisch-lineare und allgemeine glatte Policy-Parametrisierungen
  4. Stichprobenkomplexitätsanalyse: Bereitstellung von Garantien für endliche Stichprobenkomplexität für zwei stichprobenbasierte NPG-PD-Algorithmen
  5. Experimentelle Validierung: Validierung der Methodeneffektivität durch Roboter-Simulationsaufgaben

Methodische Details

Aufgabendefinition

Beschränktes MDP ist als Septupel (S,A,P,r,g,b,γ,ρ)(\mathcal{S}, \mathcal{A}, P, r, g, b, γ, ρ) definiert:

  • S\mathcal{S}: Endlicher Zustandsraum
  • A\mathcal{A}: Endlicher Aktionsraum
  • PP: Übergangwahrscheinlichkeit
  • r,gr, g: Belohnungs- und Nutzenfunktion
  • bb: Nebenbedingungsschwelle
  • γγ: Diskontfaktor
  • ρρ: Anfangszustandsverteilung

Optimierungsproblem: maxπΠVrπ(ρ)s.t.Vgπ(ρ)b\max_{π ∈ Π} V^π_r(ρ) \quad \text{s.t.} \quad V^π_g(ρ) ≥ b

Modellarchitektur

1. Lagrange-Dualisierung

Umwandlung des beschränkten Optimierungsproblems in ein Sattelpunktproblem: maxπΠminλ0Vrπ(ρ)+λ(Vgπ(ρ)b)\max_{π ∈ Π} \min_{λ ≥ 0} V^π_r(ρ) + λ(V^π_g(ρ) - b)

2. NPG-PD-Algorithmus-Kernaktualisierungen

Primärvariablen-Aktualisierung (natürlicher Policy-Gradient): θ(t+1)=θ(t)+η1Fρ(θ(t))θVLθ(t),λ(t)(ρ)θ^{(t+1)} = θ^{(t)} + η_1 F^†_ρ(θ^{(t)})∇_θ V^{θ^{(t)},λ^{(t)}}_L(ρ)

Dualvariablen-Aktualisierung (projizierte Subgradient-Abwärts-Iteration): λ(t+1)=PΛ(λ(t)η2(Vgθ(t)(ρ)b))λ^{(t+1)} = P_Λ\left(λ^{(t)} - η_2(V^{θ^{(t)}}_g(ρ) - b)\right)

Wobei:

  • Fρ(θ)F^†_ρ(θ): Moore-Penrose-Inverse der Fisher-Informationsmatrix
  • PΛP_Λ: Projektion auf das Intervall [0,2/((1γ)ξ)][0, 2/((1-γ)ξ)]

3. Vereinfachte Form unter Softmax-Policy-Parametrisierung

Unter Softmax-Parametrisierung πθ(as)=exp(θs,a)aexp(θs,a)π_θ(a|s) = \frac{\exp(θ_{s,a})}{\sum_{a'} \exp(θ_{s,a'})} vereinfacht sich die Aktualisierung zu:

θs,a(t+1)=θs,a(t)+η11γAL(t)(s,a)θ^{(t+1)}_{s,a} = θ^{(t)}_{s,a} + \frac{η_1}{1-γ}A^{(t)}_L(s,a)

Äquivalent zu multiplikativer Gewichtsaktualisierung: π(t+1)(as)=π(t)(as)exp(η11γAL(t)(s,a))Z(t)(s)π^{(t+1)}(a|s) = \frac{π^{(t)}(a|s)\exp\left(\frac{η_1}{1-γ}A^{(t)}_L(s,a)\right)}{Z^{(t)}(s)}

Technische Innovationspunkte

  1. Dimensionsfreie Konvergenz: Nutzung der Softmax-Struktur zur Erreichung von Konvergenzraten unabhängig von der Größe des Zustands-Aktions-Raums
  2. Behandlung nicht-konvexer Nebenbedingungen: Neue Primal-Dual-Analyse zur Behandlung nicht-konvexer Nebenbedingungsmengen
  3. Zerlegung von Funktionsapproximationsfehlern: Einführung eines Schätzungs-Propagations-Fehlerzerlegungsrahmens
  4. Bedauerns-Analyse: Anwendung von Bedauerns-Analysetechniken aus dem Online-Lernen

Theoretische Ergebnisse

Hauptkonvergenzsatz

Satz 10 (Globale Konvergenz unter Softmax-Parametrisierung): Unter Slater-Bedingung, mit Wahl von η1=2logAη_1 = 2\log|A|, η2=2(1γ)/Tη_2 = 2(1-γ)/\sqrt{T}, erfüllt der NPG-PD-Algorithmus:

Optimalitätslücke: 1Tt=0T1(Vr(ρ)Vr(t)(ρ))7(1γ)21T\frac{1}{T}\sum_{t=0}^{T-1}(V^*_r(ρ) - V^{(t)}_r(ρ)) ≤ \frac{7}{(1-γ)^2}\frac{1}{\sqrt{T}}

Nebenbedingungsverletzung: [1Tt=0T1(bVg(t)(ρ))]+2ξ+4ξ(1γ)21T\left[\frac{1}{T}\sum_{t=0}^{T-1}(b - V^{(t)}_g(ρ))\right]_+ ≤ \frac{2}{ξ} + \frac{4ξ}{(1-γ)^2}\frac{1}{\sqrt{T}}

Funktionsapproximationsfall

Satz 16 (Logarithmisch-lineare Parametrisierung): In der Funktionsapproximationseinstellung beträgt die Konvergenzrate: E[1Tt=0T1(Vr(ρ)Vr(t)(ρ))]C3(1γ)51T+FunktionsapproximationsfehlerE\left[\frac{1}{T}\sum_{t=0}^{T-1}(V^*_r(ρ) - V^{(t)}_r(ρ))\right] ≤ \frac{C_3}{(1-γ)^5}\frac{1}{\sqrt{T}} + \text{Funktionsapproximationsfehler}

Stichprobenkomplexität

Satz 28/29 (Stichprobenkomplexität):

  • Iterationskomplexität: O(1/ε2)O(1/ε^2)
  • Stichprobenkomplexität: O(1/ε4)O(1/ε^4)

Dies stellt eine signifikante Verbesserung gegenüber früheren O(1/ε8)O(1/ε^8)-Ergebnissen dar.

Experimentelle Einrichtung

Roboter-Simulationsaufgaben

Verwendung von 6 Roboter-Laufaufgaben in der MuJoCo-Umgebung:

  • Ant-v1, Humanoid-v1, HalfCheetah-v1, Walker2d-v1, Hopper-v1, Swimmer-v1
  • Nebenbedingung: Bewegungsgeschwindigkeit darf einen gegebenen Schwellenwert nicht überschreiten (Sicherheitsnebenbedingung)

Vergleichsmethoden

  1. Klassische Primal-Dual-Methoden: TRPOLag, PPOLag
  2. Neueste Policy-Optimierungsmethoden: CUP, FOCOPS

Bewertungsmetriken

  • Durchschnittliche Belohnung: Aufgabenleistung
  • Durchschnittliche Kosten: Grad der Nebenbedingungsverletzung (durchschnittliche Geschwindigkeit)

Experimentelle Ergebnisse

Hauptergebnisse

  1. Leistungsvorteil: NPG-PD erreicht in den meisten Aufgaben höhere Belohnungen bei gleichzeitiger Aufrechterhaltung ähnlicher Nebenbedingungseinhaltung
  2. Konvergenzgeschwindigkeit: Schnellere Konvergenz als klassische Lagrange-Methoden
  3. Wettbewerbsfähige Leistung: Vergleichbar oder besser als neueste Methoden (FOCOPS, CUP)

Detaillierte Ergebnisanalyse

  • Ant-v1 und Humanoid-v1: NPG-PD übertrifft einheitlich alle vier anderen Methoden
  • HalfCheetah-v1 und Walker2d-v1: NPG-PD zeigt ähnliche Leistung wie PPOLag, beide übertreffen andere Methoden
  • Hopper-v1 und Swimmer-v1: NPG-PD konkurriert intensiv mit FOCOPS und CUP, erreicht trotz früher Oszillationen letztendlich höhere Belohnungen

Verwandte Arbeiten

Entwicklung von Constrained-MDP-Algorithmen

  1. Frühe Arbeiten: Lagrange-basierte Methoden (Altman 1999, Borkar 2005)
  2. Lokale Konvergenzmethoden: CPG, accelerated PDPO, CPO usw.
  3. Globale Konvergenzforschung: Diese Arbeit ist die erste, die endliche Zeit-Globalkonvergenzgarantien bietet

Policy-Gradient-Methoden

  1. Uneingeschränkte Konvergenztheorie: Agarwal et al. (2021) usw.
  2. Herausforderungen bei eingeschränkter Optimierung: Zusätzliche Schwierigkeiten bei der Behandlung nicht-konvexer Nebenbedingungsmengen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretischer Durchbruch: Erstmals dimensionsfreie globale Konvergenzgarantien für Policy-Gradient-Methoden in beschränkten MDPs
  2. Praktischer Algorithmus: NPG-PD-Algorithmus ist einfach und effektiv, geeignet für großskalige Probleme
  3. Funktionsapproximationstheorie: Etablierung eines vollständigen Analyserahmens für Funktionsapproximationsfehler

Einschränkungen

  1. Oszillationsverhalten: Frühe Oszillationen, die bei Primal-Dual-Methoden häufig auftreten
  2. Slater-Bedingung: Erfordert strikte Machbarkeitshypothese
  3. Softmax-Parametrisierung: Stärkste Ergebnisse gelten nur für spezifische Parametrisierung

Zukünftige Richtungen

  1. Policy-Iterations-Konvergenz: Untersuchung der Policy-Iterations-Konvergenz von Eintimeskalen-Algorithmen
  2. Regularisierungstechniken: Einführung von Regularisierung zur Beseitigung von Oszillationsverhalten
  3. Erweiterung auf kontinuierliche Räume: Erweiterung auf kontinuierliche Zustands-Aktions-Räume
  4. Robustheitsanalyse: Berücksichtigung der Auswirkungen von Modellunsicherheit

Tiefgreifende Bewertung

Stärken

  1. Theoretische Innovation: Erstmals dimensionsfreie globale Konvergenztheorie für beschränkte MDPs
  2. Technische Tiefe: Geschickte Kombination von Online-Lernen und Techniken der eingeschränkten Optimierung
  3. Vollständige Analyse: Vollständiger theoretischer Rahmen von tabellarischem Fall bis Funktionsapproximation
  4. Experimentelle Validierung: Validierung theoretischer Vorhersagen in praktischen Roboteraufgaben

Mängel

  1. Parametrisierungsbeschränkung: Stärkste theoretische Ergebnisse gelten nur für Softmax-Parametrisierung
  2. Experimenteller Umfang: Experimente konzentrieren sich hauptsächlich auf Robotersteuerung
  3. Konvergenzrate: Sublineare Konvergenzrate kann in praktischen Anwendungen langsam sein
  4. Oszillationsproblem: Unzureichende Lösung des Oszillationsproblems bei Primal-Dual-Methoden

Auswirkungen

  1. Theoretischer Beitrag: Bietet wichtige theoretische Grundlagen für eingeschränktes Reinforcement Learning
  2. Methodologischer Wert: NPG-PD-Rahmen ist auf andere eingeschränkte Optimierungsprobleme erweiterbar
  3. Praktischer Wert: Algorithmus ist einfach zu implementieren, geeignet für technische Anwendungen
  4. Nachfolgeforschung: Legt theoretische Grundlagen für nachfolgende Forschung in diesem Bereich

Anwendungsszenarien

  1. Sicherheitskritische Systeme: Autonomes Fahren, medizinische Robotik und andere Szenarien, die harte Nebenbedingungen erfordern
  2. Ressourcenbegrenzte Umgebungen: Online-Lernszenarien mit begrenzten Rechen- und Speicherressourcen
  3. Großskalige MDPs: Komplexe Entscheidungsprobleme mit riesigen Zustands-Aktions-Räumen
  4. Multi-Objektiv-Optimierung: Anwendungen, die mehrere Leistungsindikatoren ausgleichen müssen

Ergänzende technische Details

Schlüssellemmata

Lemma 11 (Nicht-monotone Verbesserung): Jede Primärvariablen-Aktualisierung verbessert den Lagrange-Term, aber die Belohnungs- und Nutzenfunktionen selbst können nicht-monoton sein.

Lemma 12 (Begrenzte durchschnittliche Leistung): Etablierung von Leistungsgrenzen durch Bedauerns-Analyse.

Beweistechniken

  1. Multiplikative Gewichtsupdate-Verbindung: Interpretation der NPG-Aktualisierung als MWU im Online-Lernen
  2. Fisher-Informationsmatrix-Inverse: Nutzung der Softmax-Struktur zur Vereinfachung der NPG-Berechnung
  3. Starke Dualität: Etablierung starker Dualitätsbeziehungen unter Slater-Bedingung
  4. Nebenbedingungsverletzungsgrenze: Begrenzung der Nebenbedingungsverletzung durch konvexe Analysetechniken

Diese Arbeit leistet wichtige Beiträge zur Theorie des eingeschränkten Reinforcement Learning und bietet eine solide theoretische Grundlage und einen praktischen Algorithmus-Rahmen für die Entwicklung dieses Bereichs.