2025-11-10T02:30:58.102691

Finite-time Convergence Analysis of Actor-Critic with Evolving Reward

Hu, Chen, Huang
Many popular practical reinforcement learning (RL) algorithms employ evolving reward functions-through techniques such as reward shaping, entropy regularization, or curriculum learning-yet their theoretical foundations remain underdeveloped. This paper provides the first finite-time convergence analysis of a single-timescale actor-critic algorithm in the presence of an evolving reward function under Markovian sampling. We consider a setting where the reward parameters may change at each time step, affecting both policy optimization and value estimation. Under standard assumptions, we derive non-asymptotic bounds for both actor and critic errors. Our result shows that an $O(1/\sqrt{T})$ convergence rate is achievable, matching the best-known rate for static rewards, provided the reward parameters evolve slowly enough. This rate is preserved when the reward is updated via a gradient-based rule with bounded gradient and on the same timescale as the actor and critic, offering a theoretical foundation for many popular RL techniques. As a secondary contribution, we introduce a novel analysis of distribution mismatch under Markovian sampling, improving the best-known rate by a factor of $\log^2T$ in the static-reward case.
academic

Endlichzeitkonvergenzanalyse von Actor-Critic mit sich entwickelnder Belohnung

Grundinformationen

  • Papier-ID: 2510.12334
  • Titel: Finite-time Convergence Analysis of Actor-Critic with Evolving Reward
  • Autoren: Rui Hu, Yu Chen, Longbo Huang (Tsinghua University IIIS)
  • Klassifizierung: cs.LG (Maschinelles Lernen), cs.AI (Künstliche Intelligenz)
  • Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.12334v1

Zusammenfassung

Viele populäre Reinforcement-Learning-Algorithmen verwenden sich entwickelnde Belohnungsfunktionen – durch Belohnungsformung, Entropieregularisierung oder Curriculum Learning – doch ihre theoretische Grundlage bleibt unvollständig. Dieses Papier bietet erstmals eine Endlichzeitkonvergenzanalyse von Single-Timescale-Actor-Critic-Algorithmen mit sich entwickelnden Belohnungsfunktionen unter Markov-Sampling. Die Forschung berücksichtigt die Einstellung, dass sich Belohnungsparameter bei jedem Zeitschritt ändern können und dabei sowohl die Politikoptimierung als auch die Wertschätzung beeinflussen. Unter Standardannahmen werden nichtasymptotische Grenzen für Actor- und Critic-Fehler hergeleitet. Die Ergebnisse zeigen, dass unter der Bedingung, dass sich die Belohnungsparameter ausreichend langsam entwickeln, eine Konvergenzrate von O(1/T)O(1/\sqrt{T}) erreicht werden kann, die mit der besten bekannten Rate für statische Belohnungen übereinstimmt. Wenn sich die Belohnung durch gradientenbasierte Regeln mit beschränktem Gradienten auf der gleichen Zeitskala wie Actor und Critic aktualisiert, bleibt diese Konvergenzrate erhalten und bietet eine theoretische Grundlage für viele populäre Reinforcement-Learning-Techniken.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Lücke zwischen Theorie und Praxis: Die Reinforcement-Learning-Theorie wird typischerweise auf Markov-Entscheidungsprozessen (MDPs) mit statischen Belohnungsfunktionen aufgebaut, doch in praktischen Anwendungen werden weit verbreitete Techniken mit sich entwickelnden Belohnungen verwendet
  2. Universalität sich entwickelnder Belohnungen: Praktische RL-Algorithmen verwenden häufig Belohnungsformung, Entropieregularisierung und Curriculum Learning, um die Lerneffektivität zu verbessern
  3. Designherausforderungen: Das Entwerfen von Belohnungsfunktionen, die sowohl lernbar sind als auch mit der gewünschten Aufgabe übereinstimmen, stellt in realistischen Szenarien erhebliche Schwierigkeiten dar

Kernproblem

Mit welcher Geschwindigkeit kann sich die Belohnungsfunktion ändern und dabei die Konvergenz des RL-Algorithmus garantieren?

Einschränkungen bestehender Methoden

  1. Bestehende theoretische Analysen konzentrieren sich hauptsächlich auf statische Belohnungseinstellungen
  2. Es fehlen theoretische Garantien für die Konvergenz von Actor-Critic-Algorithmen unter sich entwickelnden Belohnungen
  3. Die Analyse von Verteilungsmismatch unter Markov-Sampling bedarf der Verbesserung

Kernbeiträge

  1. Bahnbrechende theoretische Analyse: Bietet die erste Endlichzeitkonvergenzanalyse von Single-Timescale-Actor-Critic-Algorithmen unter sich entwickelnden Belohnungen
  2. Konvergenzratengarantie: Beweist, dass unter der Bedingung einer ausreichend langsamen Entwicklung der Belohnungsparameter eine O(1/T)O(1/\sqrt{T})-Konvergenzrate erreicht werden kann, die mit dem Fall statischer Belohnungen übereinstimmt
  3. Praktische Validierung: Beweist, dass gradientenbasierte Belohnungsaktualisierungsregeln die Konvergenzbedingungen erfüllen und bietet theoretische Unterstützung für praktische RL-Techniken
  4. Technische Verbesserung: Führt neue Analyse von Verteilungsmismatch unter Markov-Sampling ein und verbessert die Konvergenzrate im Fall statischer Belohnungen um einen Faktor von log2T\log^2 T

Methodische Details

Aufgabendefinition

Untersucht unendlich-horizont-diskontierte Markov-Entscheidungsprozesse M=(S,A,P,r,γ)M = (S,A,P,r,\gamma), wobei die Belohnungsfunktion rr sich zeitlich entwickeln kann. Das Ziel ist die Analyse der Konvergenz von Actor-Critic-Algorithmen unter sich entwickelnden Belohnungseinstellungen.

Modellarchitektur

1. Rahmen sich entwickelnder Belohnungen

Führt generische Belohnungsparameter ϕ\phi ein, die alle Faktoren enthalten, die die regularisierte Belohnung r~ϕ,θ(s,a)\tilde{r}_{\phi,\theta}(s,a) bestimmen: r~ϕ,θ(s,a)=r(s,a)αlogπθ(as)\tilde{r}_{\phi,\theta}(s,a) = r(s,a) - \alpha \log \pi_\theta(a|s)

wobei α0\alpha \geq 0 der Entropieregularisierungsparameter ist.

2. Actor-Critic-Aktualisierungsregeln

Actor-Aktualisierung: θt+1θt+ηtθδ^tθlogπθ(atst)\theta_{t+1} \leftarrow \theta_t + \eta_t^\theta \hat{\delta}_t \nabla_\theta \log \pi_\theta(a_t|s_t)

Critic-Aktualisierung: ωt+1ProjCω(ωt+ηtωδ^tϕ(st))\omega_{t+1} \leftarrow \text{Proj}_{C_\omega}(\omega_t + \eta_t^\omega \hat{\delta}_t \phi(s_t))

wobei der zeitliche Differenzfehler definiert ist als: δ^t=r~ϕt,θt(st,at)+(γϕ(st)ϕ(st))ωt\hat{\delta}_t = \tilde{r}_{\phi_t,\theta_t}(s_t,a_t) + (\gamma\phi(s'_t) - \phi(s_t))^\top \omega_t

3. Markov-Sampling-Strategie

Verwendet einen Sampling-Kern P^(s,a)=γP(s,a)+(1γ)ρ()\hat{P}(\cdot|s,a) = \gamma P(\cdot|s,a) + (1-\gamma)\rho(\cdot), um Ergodizität zu gewährleisten.

Technische Innovationen

1. Lipschitz-Kontinuitätsanalyse sich entwickelnder Belohnungen

Etabliert Lipschitz-Kontinuität des Politikziels Jϕ(θ)J_\phi(\theta) und der optimalen Critic-Parameter ω(ϕ,θ)\omega^*(\phi,\theta) bezüglich des Belohnungsparameters ϕ\phi:

  • Jϕ(θ)J_\phi(\theta) ist DJD_J-Lipschitz bezüglich ϕ\phi
  • ω(ϕ,θ)\omega^*(\phi,\theta) ist DωD_\omega-Lipschitz bezüglich ϕ\phi

2. Neuartige Analyse von Verteilungsmismatch

Präsentiert Proposition 4.8, die direkt die Kontraktivität des induzierten Operators auf der Zustandsverteilung nutzt: Eν^tνρπθt1LCδLνk=0t1γt1kηkθ+γtρνρπθ01E\|\hat{\nu}_t - \nu_\rho^{\pi_{\theta_t}}\|_1 \leq LC_\delta L_\nu \sum_{k=0}^{t-1} \gamma^{t-1-k}\eta_k^\theta + \gamma^t\|\rho - \nu_\rho^{\pi_{\theta_0}}\|_1

3. Systematische Ungleichungslösung

Entkoppelt Actor- und Critic-Fehler durch die algebraische Ungleichung 2GTWT1γ2LGT+2L1γWT2\sqrt{G_T W_T} \leq \frac{1-\gamma}{2L}G_T + \frac{2L}{1-\gamma}W_T.

Experimentelle Einstellung

Theoretischer Analysrahmen

Dieses Papier führt hauptsächlich theoretische Analysen durch und verwendet die folgenden Einstellungen:

Bewertungsmetriken

  • Actor-Fehler: GT=1T/2t=T/2T1EθJϕt(θt)22G_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\nabla_\theta J_{\phi_t}(\theta_t)\|_2^2
  • Critic-Fehler: WT=1T/2t=T/2T1Eωtωt22W_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\omega_t - \omega_t^*\|_2^2
  • Belohnungsänderung: FT=1T/2t=T/2T1Eϕt+1ϕt22F_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\phi_{t+1} - \phi_t\|_2^2

Schlüsselannahmen

  1. Ausreichende Exploration (Annahme 4.1): Für alle θΩ(θ)\theta \in \Omega(\theta) ist AθA_\theta negativ definit mit Singulärwertschranke λ-\lambda
  2. Lipschitz-Kontinuität der Politik (Annahme 4.3): θlogπθ(as)2L\|\nabla_\theta \log \pi_\theta(a|s)\|_2 \leq L
  3. Lipschitz-Kontinuität der regularisierten Belohnung (Annahme 4.5): Lipschitz-Konstante bezüglich ϕ\phi ist DD

Experimentelle Ergebnisse

Haupttheoretische Ergebnisse

Theorem 4.6 (Hauptkonvergenzsatz)

Unter Schrittweiten ηtθ=cθt\eta_t^\theta = \frac{c_\theta}{\sqrt{t}} und ηtω=cωt\eta_t^\omega = \frac{c_\omega}{\sqrt{t}} mit cθcωλLSω116LLω\frac{c_\theta}{c_\omega} \leq \frac{\lambda}{LS_\omega} \wedge \frac{1}{16LL_\omega}:

GT=O(1T)+O(FTT)+O(FTT)+O(ϵ)G_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)

WT=O(1T)+O(FTT)+O(FTT)+O(ϵ)W_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)

Korollar 4.7 (Gradientenaktualisierungsregel)

Wenn Belohnungsparameter die Gradientenaktualisierungsregel ϕt+1ϕt+ηtϕhϕ(t)\phi_{t+1} \leftarrow \phi_t + \eta_t^\phi h_\phi(t) mit Ehϕ(t)22Cϕ2E\|h_\phi(t)\|_2^2 \leq C_\phi^2 und ηtϕ=cϕt\eta_t^\phi = \frac{c_\phi}{t} verwenden:

FT=O(1T)GT=O(1T)+O(ϵ),WT=O(1T)+O(ϵ)F_T = O\left(\frac{1}{T}\right) \Rightarrow G_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon), \quad W_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon)

Schlüsselfunde

1. Konvergenzbedingungen

  • Asymptotische Konvergenz: Erfordert FT=o(1/T)F_T = o(1/\sqrt{T})
  • Beibehaltung der O(1/T)O(1/\sqrt{T})-Konvergenzrate: Erfordert FT=O(1/T)F_T = O(1/T)

2. Verbesserung im Fall statischer Belohnungen

Wenn FT0F_T \equiv 0, erreicht der Algorithmus die Standard-O(1/T)O(1/\sqrt{T})-Konvergenzrate und eliminiert dabei den Faktor log2T\log^2 T aus früheren Arbeiten.

3. Praktische Validierung

Beweist, dass eine breite Palette praktischer Techniken – einschließlich neugiergetriebener Belohnungsformung, stochastischer Netzwerkdestillation und automatischer Entropienanpassung in Soft Actor-Critic – die theoretischen Garantiebedingungen erfüllen.

Verwandte Arbeiten

Endlichzeitanalyse von Politikgradienten-Methoden

  • Agarwal et al. (2021), Mei et al. (2020): Konvergenzgarantien unter exakten Gradienten-Oracle-Annahmen
  • Liu et al. (2020), Ding et al. (2022): Stichprobenkomplexität im stochastischen Fall

Endlichzeitanalyse von Actor-Critic-Methoden

  • Zwei-Schleifen-Einstellung: Yang et al. (2019), Kumar et al. (2023)
  • Zwei Zeitskalen: Wu et al. (2020), Xu et al. (2020b)
  • Eine Zeitskala: Chen et al. (2021), Olshevsky & Gharesifard (2023), Chen & Zhao (2025)

Techniken mit sich entwickelnden Belohnungen

  • Belohnungsformung: Ng et al. (1999), Pathak et al. (2017), Burda et al. (2019)
  • Entropie-/KL-Regularisierung: Haarnoja et al. (2018a,b), Jaques et al. (2019)
  • Curriculum Learning: Narvekar et al. (2020)

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Single-Timescale-Actor-Critic-Algorithmen zeigen bemerkenswerte Robustheit gegenüber Belohnungsnichtstationarität
  2. Unter kontrollierter Entwicklung der Belohnungsparameter kann die Standard-O(1/T)O(1/\sqrt{T})-Konvergenzrate beibehalten werden
  3. Gradientenbasierte Belohnungsaktualisierungen erfüllen die theoretischen Garantiebedingungen und bieten eine theoretische Grundlage für praktischen Erfolg

Einschränkungen

  1. Analyse beschränkt sich auf lineare Funktionsapproximation für den Critic
  2. Erfordert die Erfüllung von Standardannahmen wie Lipschitz-Kontinuität
  3. Die Geschwindigkeit der Belohnungsänderung muss streng kontrolliert werden

Zukünftige Richtungen

  1. Erweiterung auf nichtlineare Funktionsapproximation, insbesondere neuronale Netze
  2. Erkundung der Implikationen theoretischer Erkenntnisse für das Design effektiverer und nachweislich stabiler Belohnungsformungsalgorithmen
  3. Analyse von Reinforcement Learning unter dynamischen Zielen (sich entwickelnde Belohnungen, sich ändernde Anfangsverteilungen oder Übergangsfunktionen)

Tiefgreifende Bewertung

Stärken

  1. Bahnbrechender Beitrag: Bietet erstmals theoretische Analyse von Actor-Critic-Algorithmen unter sich entwickelnden Belohnungen
  2. Technische Strenge: Vollständiger Beweis, angemessene Annahmen, tiefgreifende Analyse
  3. Praktischer Wert: Bietet theoretische Unterstützung für weit verbreitete RL-Techniken
  4. Methodische Innovation: Die Verbesserung der Verteilungsmismatch-Analyse hat unabhängigen Wert

Mängel

  1. Anwendungsbereich: Beschränkt auf lineare Funktionsapproximation, praktische Anwendungen verwenden häufig tiefe neuronale Netze
  2. Annahmebeschränkungen: Lipschitz-Kontinuitätsannahmen können in der Praxis schwer zu verifizieren sein
  3. Experimentelle Validierung: Fehlende numerische Experimente zur Validierung theoretischer Ergebnisse

Einflussfähigkeit

  1. Theoretischer Beitrag: Füllt die Lücke in der theoretischen Analyse von RL mit sich entwickelnden Belohnungen
  2. Praktische Orientierung: Bietet theoretische Richtlinien für Algorithmusdesign
  3. Nachfolgeforschung: Legt den Grundstein für Erweiterungen auf komplexere Einstellungen

Anwendungsszenarien

  1. RL-Algorithmusdesign mit theoretischen Garantien
  2. Theoretische Analyse von Belohnungsformung und Curriculum Learning
  3. Konvergenzforschung bei adaptiver Entropieregularisierung

Referenzen

Das Papier zitiert wichtige Arbeiten im Bereich der theoretischen Analyse von Reinforcement Learning, einschließlich:

  • Sutton & Barto (1998): Grundlegende Theorie des Reinforcement Learning
  • Chen et al. (2021), Olshevsky & Gharesifard (2023): Single-Timescale-Actor-Critic-Analyse
  • Haarnoja et al. (2018): Soft Actor-Critic-Algorithmus
  • Pathak et al. (2017): Neugiergetriebene Exploration

Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Papier, das erstmals eine strenge Konvergenzanalyse von Actor-Critic-Algorithmen unter sich entwickelnden Belohnungen bietet. Obwohl es in Bezug auf den Anwendungsbereich gewisse Einschränkungen gibt, ist sein theoretischer Beitrag erheblich und bietet eine wichtige theoretische Grundlage für das Verständnis und Design praktischer RL-Algorithmen.