2025-11-25T11:58:17.992104

Multi Timescale Stochastic Approximation: Stability and Convergence

Deb, Ganesh, Bhatnagar

This paper presents the first sufficient conditions that guarantee the stability and almost sure convergence of multi-timescale stochastic approximation (SA) iterates. It extends the existing results on one-timescale and two-timescale SA iterates to general $N$-timescale stochastic recursions, for any $N \geq 1$, using the ordinary differential equation (ODE) method. As an application, we study SA algorithms augmented with heavy-ball momentum in the context of Gradient Temporal Difference (GTD) learning. The added momentum introduces an auxiliary state evolving on an intermediate timescale, yielding a three-timescale recursion. We show that with appropriate momentum parameters, the scheme fits within our framework and converges almost surely to the same fixed point as baseline GTD. The stability and convergence of all iterates including the momentum state follow from our main results without ad hoc bounds. We then study off-policy actor-critic algorithms with a baseline learner, actor, and critic updated on separate timescales. In contrast to prior work, we eliminate projection steps from the actor update and instead use our framework to guarantee stability and almost sure convergence of all components. Finally, we extend the analysis to constrained policy optimization in the average reward setting, where the actor, critic, and dual variables evolve on three distinct timescales, and we verify that the resulting dynamics satisfy the conditions of our general theorem. These examples show how diverse reinforcement learning algorithms covering momentum acceleration, off-policy learning, and primal-dual methods-fit naturally into the proposed multi-timescale framework.

academic

Multi-Zeitskalen-Stochastische Approximation: Stabilität und Konvergenz

Grundlegende Informationen

Paper-ID: 2112.03515
Titel: Multi Timescale Stochastic Approximation: Stability and Convergence
Autoren: Rohan Deb (University of Illinois, Urbana-Champaign), Swetha Ganesh (Purdue University, West Lafayette), Shalabh Bhatnagar (Indian Institute of Science, Bengaluru)
Klassifizierung: eess.SY cs.SY
Veröffentlichungsdatum: 16. Oktober 2025 (arXiv-Version)
Paper-Link: https://arxiv.org/abs/2112.03515v3

Zusammenfassung

Dieses Paper präsentiert die ersten hinreichenden Bedingungen, die Stabilität und fast sichere Konvergenz von Iterationen der Multi-Zeitskalen-Stochastischen Approximation (SA) garantieren. Die Arbeit erweitert bestehende Ergebnisse für Ein- und Zwei-Zeitskalen-SA auf allgemeine N-Zeitskalen-stochastische Rekursionen für beliebige N≥1 unter Verwendung der Methode der gewöhnlichen Differentialgleichungen (ODE). Als Anwendung wird ein SA-Algorithmus mit verstärktem Schwerträgheitsmomentum im Gradient Temporal Difference (GTD)-Lernen untersucht. Das hinzugefügte Momentum führt einen Hilfszustand ein, der sich auf einer mittleren Zeitskala entwickelt, was eine Drei-Zeitskalen-Rekursion erzeugt. Es wird nachgewiesen, dass das Schema unter angemessenen Momentum-Parametern in den Rahmen passt und fast sicher gegen denselben Fixpunkt wie das Basis-GTD konvergiert.

Forschungshintergrund und Motivation

Problemdefinition

Stochastische Approximationsalgorithmen sind eine Klasse von iterativen Verfahren zur Findung von Nullstellen von Funktionen, wenn die wahre Funktion unbekannt ist, aber verrauschte Beobachtungen verfügbar sind. In vielen Optimierungs- und stochastischen Kontrollproblemen treten Algorithmen mit drei oder mehr Zeitskalen-Rekursionen auf.

Forschungsrelevanz

Praktische Anforderungen: In der Verstärkungslernforschung entstehen Multi-Zeitskalen-Algorithmen natürlicherweise in Actor-Critic-Algorithmen für eingeschränkte Markov-Entscheidungsprozesse, hierarchischem Verstärkungslernen und ähnlichen Szenarien
Theoretische Lücke: Die bestehende Literatur bietet nur Stabilitäts- und Konvergenzbedingungen für Ein- und Zwei-Zeitskalen-SA, es fehlt eine allgemeine Theorie für N>2
Begrenzte Anwendbarkeit: Unfähigkeit, komplexe Algorithmen mit drei oder mehr Zeitskalen zu behandeln

Einschränkungen bestehender Methoden

Stabilitätsannahmen: Bestehende Zwei-Zeitskalen-Analysen setzen voraus, dass Iterationen stabil (beschränkt) bleiben, was eine nicht-triviale Anforderung ist
Verifikationsschwierigkeiten: Erst kürzlich wurden Bedingungen zur Überprüfung dieser Stabilitätsanforderungen entwickelt
Eingeschränkter Anwendungsbereich: Keine Behandlung komplexer Algorithmen mit mehr als zwei Zeitskalen

Forschungsmotivation

Bereitstellung des ersten Satzes von hinreichenden Bedingungen, die Stabilität und Konvergenz allgemeiner N-Zeitskalen-stochastischer Rekursionen sicherstellen, um theoretische Lücken zu schließen und die Analyse komplexer Verstärkungslernalgorithmen zu unterstützen.

Kernbeiträge

Theoretischer Durchbruch: Präsentation der ersten hinreichenden Bedingungen, die Stabilität und fast sichere Konvergenz von N-Zeitskalen-SA-Iterationen garantieren
Methodische Erweiterung: Verallgemeinerung der Borkar-Meyn-Ergebnisse für Ein-Zeitskalen und Lakshminarayanan-Bhatnagar-Ergebnisse für Zwei-Zeitskalen auf beliebige N≥1
Anwendungsvalidierung: Validierung des Rahmens in drei wichtigen Verstärkungslernszenarien:
- Gradient Temporal Difference (GTD)-Lernen mit Momentum
- Off-Policy Actor-Critic-Algorithmen
- Eingeschränkte Politikoptimierung
Technische Innovation: Eliminierung von Projektionsschritten in Actor-Updates, wobei nur der Konvergenzrahmen Stabilität garantiert

Methodische Details

Aufgabendefinition

Betrachtung von N gekoppelten stochastischen Rekursionen:

x^(j)_{n+1} = x^(j)_n + α^(j)_n (h^(j)(x^(1)_n, x^(2)_n, ..., x^(N)_n) + M^(j)_{n+1})

wobei j = 1, 2, ..., N, mit der Anforderung:

Stabilität: sup_n ||x^(j)_n|| < ∞ f.s. ∀j
Konvergenz: x^(j)n → x^(j)* f.s. ∀j

Theoretischer Kernrahmen

Grundannahmen

(A:1) h^(j) ist Lipschitz-stetig
(A:2) {M^(j)_{n+1}} ist eine Martingaldifferenzfolge mit beschränkter bedingter Erwartung
(A:3) Schrittweiten-Sequenzen erfüllen:

α^(j)_n > 0, Σα^(j)_n = ∞
Σ(α^(j)_n)² < ∞
α^(j)_n/α^(j-1)_n → 0 (Zeitskalen-Separation)

Stabilitätsbedingung (B.N.i)

Für die skalierte Funktion h^(i)_c(x^(i), x^(i+1), ..., x^(N)) = h^(i)(cy^(1), cy^(2), ..., cy^(N))/c ist erforderlich:

h^(i)c → h^(i)∞ konvergiert gleichmäßig
Die Grenz-ODE ẋ^(i)(t) = h^(i)_∞(x^(i)(t), x^(i+1), ..., x^(N)) hat einen eindeutigen global asymptotisch stabilen Gleichgewichtspunkt
Die Gleichgewichtspunkt-Abbildung λ^(i)_∞ ist Lipschitz-stetig

Konvergenzbedingung (C.N.i)

Globale asymptotische Stabilität des ursprünglichen ODE-Systems unter hierarchischer Fixpunkt-Struktur.

Hauptsatz

Satz 1: Unter den Annahmen (A:1)-(A:3), (B.N.i) und (C.N.i) konvergiert die N-Zeitskalen-Iteration gegen den hierarchischen Fixpunkt:

x^(j)_n → x^(j)_* = λ^(j:N-1)(x^(N)_*)

Beweisstrategien

Stabilitäts-Konvergenz-Zerlegung: Zuerst Konvergenz unter Annahme von Beschränktheit beweisen, dann Stabilität nachweisen
Zeitskalen-Kaskade: Analyse beginnend mit der schnellsten Zeitskala, schrittweise Verhalten jeder Skala analysieren
Rekursives Skalierungsargument: Verwendung skalierter Iterationen zum Vergleich mit ursprünglichen Iterationen, um Beschränktheit zu beweisen

Experimentelle Einrichtung

Anwendungsszenarien

1. GTD-Lernen mit Momentum

Datensätze: 5-State Random Walk, 7-State Boyan Chain
Algorithmen: GTD2-M-3TS, TDC-M-3TS (Drei-Zeitskalen), GTD2-M-4TS, TDC-M-4TS (Vier-Zeitskalen)
Parametereinstellung:
- 5-State RW: α=0,4, β=0,4, ϱ^(1)=0,5, ϱ^(2)=0,25
- Boyan Chain: α=0,35, β=0,35, ϱ^(1)=0,45, ϱ^(2)=0,35

2. Off-Policy Actor-Critic

Einrichtung: Gibbs-Politikparametrisierung, Wichtigkeitssampling-Verhältnisse
Update-Regeln: Critic (schnellste), Actor (mittlere), Baseline (langsamste) Zeitskala

3. Eingeschränkter Actor-Critic

Problem: Durchschnittliche Belohnungsoptimierung unter Nebenbedingungen
Zeitskalen: Critic (schnellste), Actor (mittlere), duale Variable (langsamste)

Bewertungsmetriken

GTD: Root Mean Square Projected Bellman Error (RMSPBE)
Actor-Critic: Politikleistung und Konvergenz
Theoretische Validierung: Fast sichere Konvergenzbeweise

Experimentelle Ergebnisse

Hauptergebnisse

GTD-Momentum-Experimente

Leistungsverbesserung: Momentum-Versionen übertreffen Vanilla-Gegenstücke auf beiden MDPs
Konvergenzvalidierung: Alle Algorithmen konvergieren gegen den theoretisch vorhergesagten Fixpunkt θ* = -Ā^(-1)b̄
Zeitskalen-Vergleich:
- GTD2: 4-TS-Schema zeigt bessere Leistung
- TDC: 3-TS-Version zeigt bessere Leistung

Theoretische Validierung

Stabilität: Alle drei Anwendungen erfüllen die Annahmen (B.N.i) und (C.N.i)
Konvergenz: Fast sichere Konvergenz gegen erwartete hierarchische Fixpunkte nachgewiesen
Keine Projektion: Erfolgreiche Eliminierung von Projektionsoperationen in Actor-Updates

Technische Erkenntnisse

Momentum-Effekt: Schwerträgheitsmomentum verbessert signifikant die empirische Konvergenzgeschwindigkeit von GTD-Algorithmen
Rahmen-Universalität: Derselbe theoretische Rahmen behandelt erfolgreich Momentum-Beschleunigung, Off-Policy-Lernen und Primal-Dual-Methoden
Praktischer Wert: Bereitstellung praktischer Werkzeuge zur Validierung der Konvergenz komplexer Multi-Zeitskalen-Algorithmen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Erfolgreiche Etablierung des ersten vollständigen theoretischen Rahmens für N-Zeitskalen-SA
Beweis der Stabilität und Konvergenz von drei wichtigen Verstärkungslernalgorithmus-Klassen
Demonstration der theoretischen Machbarkeit von Momentum-Techniken im Temporal-Difference-Lernen

Einschränkungen

Markov-Rauschen: Aktueller Rahmen beschränkt auf Martingaldifferenz-Rauschen, behandelt nicht allgemeineres Markov-Rauschen
Schrittweiten-Anforderungen: Theoretische Analyse erfordert quadratsummierbare Schrittweiten, aber Experimente zeigen Effektivität auch bei nicht-quadratsummierbaren Schrittweiten
Endliche-Zeit-Analyse: Fehlende quantitative Analyse von Konvergenzraten

Zukünftige Richtungen

Erweiterung auf Markov-Rauschen: Verallgemeinerung von Ramaswamy-Bhatnagar-Ergebnissen für Ein-Zeitskalen
Mehrwertige Abbildungen: Behandlung von RL-Algorithmen unter partieller Beobachtung/Information
Konvergenzraten: Entwicklung schwacher Konvergenzraten-Theorie für N-Zeitskalen
Endliche-Zeit-Verhalten: Quantifizierung endlicher Leistungsgewinne von Momentum-Algorithmen

Tiefgreifende Bewertung

Stärken

Theoretischer Durchbruch: Füllt wichtige Lücke in der Multi-Zeitskalen-SA-Theorie, von Meilenstein-Bedeutung
Methodische Strenge: Sophisticated Beweistechniken, Verwendung innovativer rekursiver Skalierungsargumente
Anwendungswert: Alle drei Anwendungsszenarien haben wichtige praktische Bedeutung und demonstrieren Rahmen-Universalität
Klare Darstellung: Gut strukturiert, beginnend mit 3-Zeitskalen und Verallgemeinerung auf N-Zeitskalen für besseres Verständnis

Mängel

Annahme-Einschränkungen: i.i.d.-Sampling-Annahme ist in praktischem RL relativ restriktiv
Experimentelle Skalierung: Experimente sind relativ einfach, fehlt Validierung in großen komplexen Umgebungen
Rechenkomplexität: Keine Diskussion der Rechenkomplexität bei Verifikation theoretischer Bedingungen
Praktische Anleitung: Mangelnde konkrete Anleitung zur Wahl von Zeitskalen-Separationsparametern

Einflussfähigkeit

Theoretischer Beitrag: Bietet solide theoretische Grundlage für Multi-Zeitskalen-Algorithmus-Design
Praktischer Wert: Ermöglicht Konvergenzanalyse komplexer RL-Algorithmen
Inspirationskraft: Kann weitere Forschung zu Multi-Zeitskalen-Algorithmen anregen
Reproduzierbarkeit: Theoretische Ergebnisse sind verifizierbar, experimentelle Einrichtung ist klar

Anwendungsszenarien

Eingeschränktes Verstärkungslernen: Szenarien mit Primal-Dual-Updates
Hierarchisches Verstärkungslernen: Multi-Level-Entscheidungen erfordern unterschiedliche Zeitskalen
Momentum-Beschleunigungsmethoden: Bietet theoretische Unterstützung für Momentum-Techniken im RL
Algorithmus-Design: Konvergenzvalidierungswerkzeuge für neue Multi-Zeitskalen-Algorithmen

Literaturverzeichnis

Dieses Paper basiert hauptsächlich auf folgenden wichtigen Arbeiten:

Borkar, V.S. (2008). Stochastic Approximation: A Dynamical Systems Viewpoint
Lakshminarayanan, C. & Bhatnagar, S. (2017). A stability criterion for two-timescale stochastic approximation schemes
Sutton, R. et al. (2009). Fast gradient-descent methods for temporal-difference learning with linear function approximation

Gesamtbewertung: Dies ist ein Paper von bedeutendem theoretischem Wert, das erfolgreich das Problem der Stabilität und Konvergenz von Multi-Zeitskalen-Stochastischer Approximation löst und starke theoretische Werkzeuge für die Analyse komplexer Algorithmen in Verstärkungslernen und verwandten Bereichen bereitstellt. Obwohl es Raum für Verbesserungen bei den Annahmen für praktische Anwendungen gibt, haben seine theoretischen Beiträge und methodischen Innovationen langfristige Auswirkungen.