This paper establishes central limit theorems for Polyak-Ruppert averaged Q-learning under asynchronous updates. We prove a non-asymptotic central limit theorem, where the convergence rate in Wasserstein distance explicitly reflects the dependence on the number of iterations, state-action space size, the discount factor, and the quality of exploration. In addition, we derive a functional central limit theorem, showing that the partial-sum process converges weakly to a Brownian motion.
- Paper-ID: 2509.18964
- Titel: Central Limit Theorems for Asynchronous Averaged Q-Learning
- Autor: Xingtu Liu (Simon Fraser University)
- Klassifizierung: cs.LG math.OC stat.ML
- Veröffentlichungskonferenz: OPT2025: 17th Annual Workshop on Optimization for Machine Learning
- Paper-Link: https://arxiv.org/abs/2509.18964
In diesem Artikel werden zentrale Grenzwertsätze für das Polyak-Ruppert-gemittelte Q-Learning unter asynchronen Aktualisierungen etabliert. Der Artikel beweist einen nicht-asymptotischen zentralen Grenzwertsatz, dessen Konvergenzrate in der Wasserstein-Distanz die Abhängigkeit von der Anzahl der Iterationen, der Größe des Zustands-Aktions-Raums, dem Diskontfaktor und der Explorationsqualität explizit widerspiegelt. Darüber hinaus wird ein funktionaler zentraler Grenzwertsatz hergeleitet, der zeigt, dass der Partialsummenprozess schwach gegen eine Brownsche Bewegung konvergiert.
- Bedeutung des Q-Learning: Q-Learning ist einer der am weitesten verbreiteten Algorithmen im Reinforcement Learning und lernt direkt aus Erfahrungstrajektorien die optimale Aktionswertfunktion. Es hat enorme Erfolge in Bereichen wie Atari-Spielen, Go, Robotersteuerung und Ausrichtung großer Sprachmodelle erzielt.
- Herausforderungen der theoretischen Analyse:
- Q-Learning kann als Instanz der stochastischen Approximation (SA) interpretiert werden, aber asynchrones Q-Learning ist ein nicht-lineares SA-Problem mit Markov-Rauschen
- Im Vergleich zu linearer SA und TD-Learning ist die Analyse von Q-Learning aufgrund seiner nicht-linearen, nicht-glatten Operatoren und nicht-stationären Prozesse anspruchsvoller
- Asynchrone Aktualisierungen führen zusätzlich Markov-Rauschen ein und erhöhen die Analysekomplexität
- Einschränkungen bestehender Arbeiten:
- Bisherige Arbeiten haben funktionale CLTs für synchrones Q-Learning etabliert, aber synchrones Q-Learning berücksichtigt nur Martingal-Rauschen
- Zhang und Xie (2024) etablierten einen funktionalen CLT für asynchrones Q-Learning mit konstanter Schrittweite, aber konstante Schrittweiten erfüllen nicht die notwendigen Bedingungen zur Etablierung eines nicht-asymptotischen CLT
- Derzeit existiert kein nicht-asymptotischer CLT für Q-Learning, nicht einmal in synchronen Einstellungen
Die Etablierung von zentralen Grenzwertsätzen ist entscheidend für das Verständnis der statistischen Eigenschaften von Algorithmen. Diese asymptotische Normalität ist für die Unsicherheitsquantifizierung und statistische Inferenz im Reinforcement Learning von großer Bedeutung.
- Erster nicht-asymptotischer CLT für Q-Learning: Beweis eines nicht-asymptotischen zentralen Grenzwertsatzes für asynchrones gemitteltes Q-Learning mit Konvergenzrate O~((∣S∣∣A∣)1/2K−1/6ρ−2(1−γ)−3)
- Funktionaler zentraler Grenzwertsatz: Etablierung eines funktionalen CLT für asynchrones Q-Learning mit abnehmender Schrittweite, das zeigt, dass der Partialsummenprozess schwach gegen eine Brownsche Bewegung konvergiert
- Explizite Abhängigkeitsbeziehungen: Die Konvergenzrate spiegelt explizit die Abhängigkeit von der Anzahl der Iterationen K, der Größe des Zustands-Aktions-Raums |S||A|, dem Diskontfaktor γ und der Explorationsqualität ρ wider
- Technische Innovationen: Lösung der Analysehausforderungen, die durch Nicht-Linearität, Markov-Rauschen und nicht-glatte Operatoren entstehen
Betrachten Sie einen unendlichen Horizont-diskontierten Markov-Entscheidungsprozess (MDP) M=⟨S,A,P,r,γ⟩, wobei:
- S: Zustandsmenge
- A: Aktionsmenge
- P:S×A→ΔS: Übergangwahrscheinlichkeitsfunktion
- γ∈[0,1): Diskontfaktor
Das Ziel ist das Erlernen der optimalen Q-Funktion Q∗=maxπQπ.
Asynchrones Q-Learning verwaltet einen Q-Funktionsschätzer Qk mit der Aktualisierungsregel:
Qk+1=Qk+αk(Fk−Qk)
wobei:
- Fk=F(Qk,yk), yk=(sk,ak,sk+1)
- [F(Qk,sk,ak,sk+1)](s,a)=1{(sk,ak)=(s,a)}Γ(Qk,sk,ak,sk+1)+Qk(s,a)
- Γ(Qk,sk,ak,sk+1)=rk(sk,ak)+γmaxaQk(sk+1,a)−Qk(sk,ak)
Annahme 1: Es existiert eine optimale Strategie π∗ derart, dass für Q∈R∣S∣×∣A∣:
∥(Pπ−Pπ∗)(Q−Q∗)∥∞≤L∥Q−Q∗∥2∞
Annahme 2: {yk}k≥0 ist eine irreduzible und aperiodische endliche Zustandsmarkov-Kette.
Wählen Sie die polynomiale Schrittweite αk=α(k+b)−β, wobei α,b>0, β∈(0.5,1).
Gründe für diese Wahl:
- Erfüllung der Schlüsselbedingungen des Polyak-Juditsky-Mittelungsschemas
- Konstante Schrittweiten verletzen die Bedingungen (i) und (iii), lineare Schrittweiten verletzen Bedingung (ii)
- Polynomiale Schrittweiten erfüllen alle notwendigen Bedingungen
Theorem 4: Unter den Annahmen 1 und 2 gilt:
W1(K−1/2∑k=1KΔk,N~)≤ρ(1−γ)2K1/2(∣S∣∣A∣)1/2⋅O~((ρ(1−γ))1−ββ−2+Kβ/2ρ−1(1−γ)−1+K1−β+K21−βρ−1−β(1−γ)−β)
wobei Δk=Qk−Q∗, N~=(A−1ΣA−⊤)1/2N(0,I).
Korollar 5: Wenn β=2/3, vereinfacht sich die Konvergenzrate zu:
W1(K−1/2∑k=1KΔk,(A−1ΣA−⊤)1/2N(0,I))≤O~(K1/6ρ2(1−γ)3(∣S∣∣A∣)1/2)
Theorem 6: In der Einstellung von Theorem 4 konvergiert der Partialsummenprozess ΦK(ζ)=K−1/2∑k=1⌊ζK⌋Δk schwach auf D[0,1] gegen (A−1ΣA−⊤)1/2B(⋅), wobei B(⋅) eine standardisierte Brownsche Bewegung ist.
- Nicht-Linearität: Q-Learning ist nicht-lineare SA, komplexer als lineare SA
- Markov-Rauschen: Asynchrone Aktualisierungen führen nicht-identisch verteiltes Markov-Rauschen ein
- Nicht-glatte Operatoren: Der empirische Bellman-Operator in asynchronem Q-Learning ist nicht-glatt
- Obere und untere Schranken-Techniken: Durch Einführung von oberen Grenzsequenzen Δk↑ und unteren Grenzsequenzen Δk↓, unter Verwendung des Sandwich-Theorems
- Termzerlegung: Zerlegung von ∑k=1KΔk in sechs Terme:
- Term (1): Anfangsfehlterm
- Term (2): Nicht-linearer Fehlerterm
- Term (3): Markov-Rauschterm
- Term (4-5): Korrektionsterme höherer Ordnung
- Term (6): Martingal-Differenzsequenz
- Poisson-Gleichungs-Techniken: Umwandlung von Markov-Rauschen in Martingal-Differenzsequenzen
- Martingal-zentraler Grenzwertsatz: Anwendung des nicht-asymptotischen Martingal-CLT von Srikant (2024)
- Polyak, Juditsky (1992): Klassische Varianzreduktions-Mittelungstechniken
- Anastasiou et al. (2019): Nicht-asymptotischer CLT für Polyak-Ruppert-gemitteltes SGD
- Mou et al. (2020): Nicht-asymptotischer CLT für lineare SA
- Xie und Zhang (2022), Li et al. (2023): Funktionale CLT für synchrones Q-Learning
- Zhang und Xie (2024): Funktionale CLT für asynchrones Q-Learning mit konstanter Schrittweite
- Srikant (2024), Samsonov et al. (2024): Nicht-asymptotischer CLT für TD-Learning
- Etablierung des ersten nicht-asymptotischen CLT für Q-Learning mit explizit parameterabhängiger Konvergenzrate
- Beweis der schwachen Konvergenz des Partialsummenprozesses für asynchrones Q-Learning
- Bereitstellung einer theoretischen Grundlage für die Unsicherheitsquantifizierung im Reinforcement Learning
- Erfordert starke Lipschitz-Annahmen (Annahme 1)
- Berücksichtigt nur endliche Zustands-Aktions-Räume
- Konvergenzrate ist möglicherweise nicht optimal
- Verbesserung der Konvergenzrate
- Erweiterung über 1-Wasserstein-Distanz hinaus auf andere Metriken
- Berücksichtigung von Funktionsapproximations-Einstellungen
- Bedeutender theoretischer Beitrag: Erstmalige Etablierung eines nicht-asymptotischen CLT für Q-Learning, Schließung einer wichtigen theoretischen Lücke
- Technische Innovationen: Geschickte Kombination von Obere-Untere-Schranken-Techniken, Poisson-Gleichungen und Martingal-CLT zur Lösung technischer Probleme
- Vollständige Ergebnisse: Gleichzeitige Bereitstellung von nicht-asymptotischen und funktionalen CLTs
- Explizite Abhängigkeitsbeziehungen: Konvergenzrate spiegelt explizit die Auswirkungen aller Parameter wider
- Starke Annahmen: Lipschitz-Annahmen könnten in der Praxis schwer zu verifizieren sein
- Konvergenzrate: Die K−1/6-Konvergenzrate ist relativ langsam
- Endliche Zustände: Berücksichtigung kontinuierlicher Zustandsräume oder Funktionsapproximation fehlt
- Theoretischer Wert: Bereitstellung neuer Werkzeuge und Perspektiven für die theoretische Analyse von Q-Learning
- Praktische Bedeutung: Schaffung einer theoretischen Grundlage für die Unsicherheitsquantifizierung in Reinforcement-Learning-Algorithmen
- Methodologie: Beweisstechniken sind auf andere nicht-lineare SA-Probleme übertragbar
- Theoretische Analyse von tabellarischen Reinforcement-Learning-Problemen
- Konvergenzforschung für asynchrone Aktualisierungsalgorithmen
- Statistische Inferenz und Konfidenzintervallkonstruktion im Reinforcement Learning
- Polyak, B. T. und Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging.
- Xie, C. und Zhang, Z. (2022). A statistical online inference approach in averaged stochastic approximation.
- Zhang, Y. und Xie, Q. (2024). Constant stepsize q-learning: Distributional convergence, bias and extrapolation.