2025-11-10T02:30:58.102691

Finite-time Convergence Analysis of Actor-Critic with Evolving Reward

Hu, Chen, Huang

Many popular practical reinforcement learning (RL) algorithms employ evolving reward functions-through techniques such as reward shaping, entropy regularization, or curriculum learning-yet their theoretical foundations remain underdeveloped. This paper provides the first finite-time convergence analysis of a single-timescale actor-critic algorithm in the presence of an evolving reward function under Markovian sampling. We consider a setting where the reward parameters may change at each time step, affecting both policy optimization and value estimation. Under standard assumptions, we derive non-asymptotic bounds for both actor and critic errors. Our result shows that an $O(1/\sqrt{T})$ convergence rate is achievable, matching the best-known rate for static rewards, provided the reward parameters evolve slowly enough. This rate is preserved when the reward is updated via a gradient-based rule with bounded gradient and on the same timescale as the actor and critic, offering a theoretical foundation for many popular RL techniques. As a secondary contribution, we introduce a novel analysis of distribution mismatch under Markovian sampling, improving the best-known rate by a factor of $\log^2T$ in the static-reward case.

academic

Endlichzeitkonvergenzanalyse von Actor-Critic mit sich entwickelnder Belohnung

Grundinformationen

Papier-ID: 2510.12334
Titel: Finite-time Convergence Analysis of Actor-Critic with Evolving Reward
Autoren: Rui Hu, Yu Chen, Longbo Huang (Tsinghua University IIIS)
Klassifizierung: cs.LG (Maschinelles Lernen), cs.AI (Künstliche Intelligenz)
Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.12334v1

Zusammenfassung

Viele populäre Reinforcement-Learning-Algorithmen verwenden sich entwickelnde Belohnungsfunktionen – durch Belohnungsformung, Entropieregularisierung oder Curriculum Learning – doch ihre theoretische Grundlage bleibt unvollständig. Dieses Papier bietet erstmals eine Endlichzeitkonvergenzanalyse von Single-Timescale-Actor-Critic-Algorithmen mit sich entwickelnden Belohnungsfunktionen unter Markov-Sampling. Die Forschung berücksichtigt die Einstellung, dass sich Belohnungsparameter bei jedem Zeitschritt ändern können und dabei sowohl die Politikoptimierung als auch die Wertschätzung beeinflussen. Unter Standardannahmen werden nichtasymptotische Grenzen für Actor- und Critic-Fehler hergeleitet. Die Ergebnisse zeigen, dass unter der Bedingung, dass sich die Belohnungsparameter ausreichend langsam entwickeln, eine Konvergenzrate von $O(1/\sqrt{T})$ erreicht werden kann, die mit der besten bekannten Rate für statische Belohnungen übereinstimmt. Wenn sich die Belohnung durch gradientenbasierte Regeln mit beschränktem Gradienten auf der gleichen Zeitskala wie Actor und Critic aktualisiert, bleibt diese Konvergenzrate erhalten und bietet eine theoretische Grundlage für viele populäre Reinforcement-Learning-Techniken.

Forschungshintergrund und Motivation

Problemhintergrund

Lücke zwischen Theorie und Praxis: Die Reinforcement-Learning-Theorie wird typischerweise auf Markov-Entscheidungsprozessen (MDPs) mit statischen Belohnungsfunktionen aufgebaut, doch in praktischen Anwendungen werden weit verbreitete Techniken mit sich entwickelnden Belohnungen verwendet
Universalität sich entwickelnder Belohnungen: Praktische RL-Algorithmen verwenden häufig Belohnungsformung, Entropieregularisierung und Curriculum Learning, um die Lerneffektivität zu verbessern
Designherausforderungen: Das Entwerfen von Belohnungsfunktionen, die sowohl lernbar sind als auch mit der gewünschten Aufgabe übereinstimmen, stellt in realistischen Szenarien erhebliche Schwierigkeiten dar

Kernproblem

Mit welcher Geschwindigkeit kann sich die Belohnungsfunktion ändern und dabei die Konvergenz des RL-Algorithmus garantieren?

Einschränkungen bestehender Methoden

Bestehende theoretische Analysen konzentrieren sich hauptsächlich auf statische Belohnungseinstellungen
Es fehlen theoretische Garantien für die Konvergenz von Actor-Critic-Algorithmen unter sich entwickelnden Belohnungen
Die Analyse von Verteilungsmismatch unter Markov-Sampling bedarf der Verbesserung

Kernbeiträge

Bahnbrechende theoretische Analyse: Bietet die erste Endlichzeitkonvergenzanalyse von Single-Timescale-Actor-Critic-Algorithmen unter sich entwickelnden Belohnungen
Konvergenzratengarantie: Beweist, dass unter der Bedingung einer ausreichend langsamen Entwicklung der Belohnungsparameter eine $O(1/\sqrt{T})$ -Konvergenzrate erreicht werden kann, die mit dem Fall statischer Belohnungen übereinstimmt
Praktische Validierung: Beweist, dass gradientenbasierte Belohnungsaktualisierungsregeln die Konvergenzbedingungen erfüllen und bietet theoretische Unterstützung für praktische RL-Techniken
Technische Verbesserung: Führt neue Analyse von Verteilungsmismatch unter Markov-Sampling ein und verbessert die Konvergenzrate im Fall statischer Belohnungen um einen Faktor von $\log^2 T$

Methodische Details

Aufgabendefinition

Untersucht unendlich-horizont-diskontierte Markov-Entscheidungsprozesse $M = (S,A,P,r,\gamma)$ , wobei die Belohnungsfunktion $r$ sich zeitlich entwickeln kann. Das Ziel ist die Analyse der Konvergenz von Actor-Critic-Algorithmen unter sich entwickelnden Belohnungseinstellungen.

Modellarchitektur

1. Rahmen sich entwickelnder Belohnungen

Führt generische Belohnungsparameter $\phi$ ein, die alle Faktoren enthalten, die die regularisierte Belohnung $\tilde{r}_{\phi,\theta}(s,a)$ bestimmen: $\tilde{r}_{\phi,\theta}(s,a) = r(s,a) - \alpha \log \pi_\theta(a|s)$

wobei $\alpha \geq 0$ der Entropieregularisierungsparameter ist.

2. Actor-Critic-Aktualisierungsregeln

Actor-Aktualisierung: $\theta_{t+1} \leftarrow \theta_t + \eta_t^\theta \hat{\delta}_t \nabla_\theta \log \pi_\theta(a_t|s_t)$

Critic-Aktualisierung: $\omega_{t+1} \leftarrow \text{Proj}_{C_\omega}(\omega_t + \eta_t^\omega \hat{\delta}_t \phi(s_t))$

wobei der zeitliche Differenzfehler definiert ist als: $\hat{\delta}_t = \tilde{r}_{\phi_t,\theta_t}(s_t,a_t) + (\gamma\phi(s'_t) - \phi(s_t))^\top \omega_t$

3. Markov-Sampling-Strategie

Verwendet einen Sampling-Kern $\hat{P}(\cdot|s,a) = \gamma P(\cdot|s,a) + (1-\gamma)\rho(\cdot)$ , um Ergodizität zu gewährleisten.

Technische Innovationen

1. Lipschitz-Kontinuitätsanalyse sich entwickelnder Belohnungen

Etabliert Lipschitz-Kontinuität des Politikziels $J_\phi(\theta)$ und der optimalen Critic-Parameter $\omega^*(\phi,\theta)$ bezüglich des Belohnungsparameters $\phi$ :

$J_\phi(\theta)$ ist $D_J$ -Lipschitz bezüglich $\phi$
$\omega^*(\phi,\theta)$ ist $D_\omega$ -Lipschitz bezüglich $\phi$

2. Neuartige Analyse von Verteilungsmismatch

Präsentiert Proposition 4.8, die direkt die Kontraktivität des induzierten Operators auf der Zustandsverteilung nutzt: $E\|\hat{\nu}_t - \nu_\rho^{\pi_{\theta_t}}\|_1 \leq LC_\delta L_\nu \sum_{k=0}^{t-1} \gamma^{t-1-k}\eta_k^\theta + \gamma^t\|\rho - \nu_\rho^{\pi_{\theta_0}}\|_1$

3. Systematische Ungleichungslösung

Entkoppelt Actor- und Critic-Fehler durch die algebraische Ungleichung $2\sqrt{G_T W_T} \leq \frac{1-\gamma}{2L}G_T + \frac{2L}{1-\gamma}W_T$ .

Experimentelle Einstellung

Theoretischer Analysrahmen

Dieses Papier führt hauptsächlich theoretische Analysen durch und verwendet die folgenden Einstellungen:

Bewertungsmetriken

Actor-Fehler: $G_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\nabla_\theta J_{\phi_t}(\theta_t)\|_2^2$
Critic-Fehler: $W_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\omega_t - \omega_t^*\|_2^2$
Belohnungsänderung: $F_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\phi_{t+1} - \phi_t\|_2^2$

Schlüsselannahmen

Ausreichende Exploration (Annahme 4.1): Für alle $\theta \in \Omega(\theta)$ ist $A_\theta$ negativ definit mit Singulärwertschranke $-\lambda$
Lipschitz-Kontinuität der Politik (Annahme 4.3): $\|\nabla_\theta \log \pi_\theta(a|s)\|_2 \leq L$
Lipschitz-Kontinuität der regularisierten Belohnung (Annahme 4.5): Lipschitz-Konstante bezüglich $\phi$ ist $D$

Experimentelle Ergebnisse

Haupttheoretische Ergebnisse

Theorem 4.6 (Hauptkonvergenzsatz)

Unter Schrittweiten $\eta_t^\theta = \frac{c_\theta}{\sqrt{t}}$ und $\eta_t^\omega = \frac{c_\omega}{\sqrt{t}}$ mit $\frac{c_\theta}{c_\omega} \leq \frac{\lambda}{LS_\omega} \wedge \frac{1}{16LL_\omega}$ :

$G_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)$

$W_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)$

Korollar 4.7 (Gradientenaktualisierungsregel)

Wenn Belohnungsparameter die Gradientenaktualisierungsregel $\phi_{t+1} \leftarrow \phi_t + \eta_t^\phi h_\phi(t)$ mit $E\|h_\phi(t)\|_2^2 \leq C_\phi^2$ und $\eta_t^\phi = \frac{c_\phi}{t}$ verwenden:

$F_T = O\left(\frac{1}{T}\right) \Rightarrow G_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon), \quad W_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon)$

Schlüsselfunde

1. Konvergenzbedingungen

Asymptotische Konvergenz: Erfordert $F_T = o(1/\sqrt{T})$
Beibehaltung der $O(1/\sqrt{T})$ -Konvergenzrate: Erfordert $F_T = O(1/T)$

2. Verbesserung im Fall statischer Belohnungen

Wenn $F_T \equiv 0$ , erreicht der Algorithmus die Standard- $O(1/\sqrt{T})$ -Konvergenzrate und eliminiert dabei den Faktor $\log^2 T$ aus früheren Arbeiten.

3. Praktische Validierung

Beweist, dass eine breite Palette praktischer Techniken – einschließlich neugiergetriebener Belohnungsformung, stochastischer Netzwerkdestillation und automatischer Entropienanpassung in Soft Actor-Critic – die theoretischen Garantiebedingungen erfüllen.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Single-Timescale-Actor-Critic-Algorithmen zeigen bemerkenswerte Robustheit gegenüber Belohnungsnichtstationarität
Unter kontrollierter Entwicklung der Belohnungsparameter kann die Standard- $O(1/\sqrt{T})$ -Konvergenzrate beibehalten werden
Gradientenbasierte Belohnungsaktualisierungen erfüllen die theoretischen Garantiebedingungen und bieten eine theoretische Grundlage für praktischen Erfolg

Einschränkungen

Analyse beschränkt sich auf lineare Funktionsapproximation für den Critic
Erfordert die Erfüllung von Standardannahmen wie Lipschitz-Kontinuität
Die Geschwindigkeit der Belohnungsänderung muss streng kontrolliert werden

Zukünftige Richtungen

Erweiterung auf nichtlineare Funktionsapproximation, insbesondere neuronale Netze
Erkundung der Implikationen theoretischer Erkenntnisse für das Design effektiverer und nachweislich stabiler Belohnungsformungsalgorithmen
Analyse von Reinforcement Learning unter dynamischen Zielen (sich entwickelnde Belohnungen, sich ändernde Anfangsverteilungen oder Übergangsfunktionen)

Tiefgreifende Bewertung

Stärken

Bahnbrechender Beitrag: Bietet erstmals theoretische Analyse von Actor-Critic-Algorithmen unter sich entwickelnden Belohnungen
Technische Strenge: Vollständiger Beweis, angemessene Annahmen, tiefgreifende Analyse
Praktischer Wert: Bietet theoretische Unterstützung für weit verbreitete RL-Techniken
Methodische Innovation: Die Verbesserung der Verteilungsmismatch-Analyse hat unabhängigen Wert

Mängel

Anwendungsbereich: Beschränkt auf lineare Funktionsapproximation, praktische Anwendungen verwenden häufig tiefe neuronale Netze
Annahmebeschränkungen: Lipschitz-Kontinuitätsannahmen können in der Praxis schwer zu verifizieren sein
Experimentelle Validierung: Fehlende numerische Experimente zur Validierung theoretischer Ergebnisse

Einflussfähigkeit

Theoretischer Beitrag: Füllt die Lücke in der theoretischen Analyse von RL mit sich entwickelnden Belohnungen
Praktische Orientierung: Bietet theoretische Richtlinien für Algorithmusdesign
Nachfolgeforschung: Legt den Grundstein für Erweiterungen auf komplexere Einstellungen

Anwendungsszenarien

RL-Algorithmusdesign mit theoretischen Garantien
Theoretische Analyse von Belohnungsformung und Curriculum Learning
Konvergenzforschung bei adaptiver Entropieregularisierung

Referenzen

Das Papier zitiert wichtige Arbeiten im Bereich der theoretischen Analyse von Reinforcement Learning, einschließlich:

Sutton & Barto (1998): Grundlegende Theorie des Reinforcement Learning
Chen et al. (2021), Olshevsky & Gharesifard (2023): Single-Timescale-Actor-Critic-Analyse
Haarnoja et al. (2018): Soft Actor-Critic-Algorithmus
Pathak et al. (2017): Neugiergetriebene Exploration

Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Papier, das erstmals eine strenge Konvergenzanalyse von Actor-Critic-Algorithmen unter sich entwickelnden Belohnungen bietet. Obwohl es in Bezug auf den Anwendungsbereich gewisse Einschränkungen gibt, ist sein theoretischer Beitrag erheblich und bietet eine wichtige theoretische Grundlage für das Verständnis und Design praktischer RL-Algorithmen.