2025-11-21T07:37:22.920666

Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios

Sinigaglia, Turcato, Carli et al.

Deep Reinforcement Learning is gaining increasing attention thanks to its capability to learn complex policies in high-dimensional settings. Recent advancements utilize a dual-network architecture to learn optimal policies through the Q-learning algorithm. However, this approach has notable drawbacks, such as an overestimation bias that can disrupt the learning process and degrade the performance of the resulting policy. To address this, novel algorithms have been developed that mitigate overestimation bias by employing multiple Q-functions. Edge scenarios, which prioritize privacy, have recently gained prominence. In these settings, limited computational resources pose a significant challenge for complex Machine Learning approaches, making the efficiency of algorithms crucial for their performance. In this work, we introduce a novel Reinforcement Learning algorithm tailored for edge scenarios, called Edge Delayed Deep Deterministic Policy Gradient (EdgeD3). EdgeD3 enhances the Deep Deterministic Policy Gradient (DDPG) algorithm, achieving significantly improved performance with $25\%$ less Graphics Process Unit (GPU) time while maintaining the same memory usage. Additionally, EdgeD3 consistently matches or surpasses the performance of state-of-the-art methods across various benchmarks, all while using $30\%$ fewer computational resources and requiring $30\%$ less memory.

academic

Edge Delayed Deep Deterministic Policy Gradient: effiziente kontinuierliche Steuerung für Edge-Szenarien

Grundinformationen

Paper-ID: 2412.06390
Titel: Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios
Autoren: Alberto Sinigaglia, Niccolò Turcato, Carli Ruggero, Gian Antonio Susto
Klassifizierung: cs.LG cs.AI
Veröffentlichtes Journal: IEEE Transactions on Automation Science and Engineering
Paper-Link: https://arxiv.org/abs/2412.06390

Zusammenfassung

Deep Reinforcement Learning (DRL) hat aufgrund seiner Fähigkeit, komplexe Strategien in hochdimensionalen Eingaberäumen zu erlernen, große Aufmerksamkeit erhalten. Moderne DRL-Algorithmen verlassen sich typischerweise auf Dual-Netzwerk-Q-Learning-Architekturen, um optimale Strategien anzunähern und Überschätzungsverzerrungen zu überwinden. Mit dem Aufstieg von Edge-Computing-Szenarien erfordern jedoch Datenschutzbedenken und strenge Hardwarebeschränkungen effiziente Algorithmen. Dieses Paper präsentiert Edge Delayed Deep Deterministic Policy Gradient (EdgeD3), einen neuartigen Reinforcement-Learning-Algorithmus, der speziell für Edge-Computing-Umgebungen entwickelt wurde. EdgeD3 reduziert die GPU-Zeit um 25% und den Speicherverbrauch um 30%, während es gleichzeitig die Leistung modernster Algorithmen in mehreren Benchmarks und praktischen Aufgaben konsistent erreicht oder übertrifft.

Forschungshintergrund und Motivation

Problemdefinition

Überschätzungsverzerrungsproblem: Traditionelle Q-Learning-Algorithmen weisen Überschätzungsverzerrungen auf, die den Lernprozess beeinträchtigen und die Strategieleistung verschlechtern
Ressourcenbeschränkungen bei Edge-Computing: Edge-Geräte haben begrenzte Rechen- und Speicherressourcen; bestehende Multi-Q-Netzwerk-Methoden (wie TD3, SAC) verursachen zu hohe Rechenkosten
Anforderungen zum Schutz der Privatsphäre: Edge-Szenarien erfordern lokales Lernen auf Geräten, um Cloud-Übertragungen zu vermeiden und Datenschutz zu gewährleisten

Forschungsbedeutung

Edge-Computing wird in autonomem Fahren, intelligenter Fertigung, intelligenter Medizin und anderen Bereichen weit verbreitet
Bestehende Algorithmen (TD3, SAC usw.) verwenden bis zu 10 Q-Netzwerke; Speicher- und Rechenkosten sind 10-mal höher als der ursprüngliche Algorithmus
Edge-Geräte müssen effizientes Lernen unter begrenzten Ressourcen erreichen

Einschränkungen bestehender Methoden

TD3/SAC: Verwenden Dual-Q-Netzwerk-Mechanismus; Speichernutzung nimmt um 29-31% zu, Rechenzeit um über 30%
Neueste Algorithmen (TQC, REDQ usw.): Verwenden 5-10 Q-Netzwerke; Rechenkosten sind noch höher und nicht für Edge-Szenarien geeignet
CDQ-Mechanismus: Mangelnde Feinsteuerung des Verzerrungsausgleichs

Kernbeiträge

Neuartige Expectile-Verlustfunktion: Vorschlag einer auf erwarteten Quantilen basierenden Verlustfunktion, die Überschätzungsverzerrungen mit nur einem Q-Netzwerk kontrolliert
EdgeD3-Algorithmus: Effizienter Algorithmus, der Expectile-Verlust, verzögerte Aktualisierungen und Zielglättungstechniken kombiniert
Theoretische Analyse: Beweis der Monotonie und asymptotischen Konvergenz der Expectile-Verlustfunktion
Umfassende experimentelle Validierung: Algorithmuseffektivität in Mujoco-Simulationsumgebung und echten Roboter-Navigationsaufgaben verifiziert
Ressourceneffizienzverbesserung: 25% weniger GPU-Zeit im Vergleich zu DDPG, 30% weniger Rechen- und Speichernutzung im Vergleich zu SOTA-Methoden

Methodische Details

Aufgabendefinition

Untersucht kontinuierliche Steuerung des Markov-Entscheidungsprozesses (MDP), definiert als Fünftupel (S,A,P,R,γ):

S: kontinuierlicher Zustandsraum
A: kontinuierlicher Aktionsraum
P: Wahrscheinlichkeitsdichtefunktion der Zustandsübergänge
R: Belohnungsfunktion r: S×A×S → ℝ
γ: Diskontfaktor

Ziel ist das Erlernen einer Strategie μ_φ(a_t|s_t), die die erwartete kumulative Belohnung maximiert.

Kernechnische Innovationen

1. Expectile-Verlustfunktion

Asymmetrische Version der traditionellen MSE-Verlustfunktion:

L_{α,β}(f_θ(x), y) = 1/Z {
    α(y - f_θ(x))² wenn f_θ(x) < y
    β(y - f_θ(x))² andernfalls
}

wobei Z = max(α,β) die Normalisierungskonstante ist.

Schlüsseleigenschaften:

α = β: Degeneriert zu Standard-MSE
α < β: Neigt zur Unterschätzung, wirkt der Überschätzung des Q-Learning entgegen
α > β: Neigt zur Überschätzung

2. Theoretische Garantien

Theorem 1 (Expectile-Monotonie): Die Expectile-Funktion ist bezüglich τ monoton nicht abnehmend, d.h. τ₁ ≤ τ₂ ⟹ t₁ ≤ t₂

Korollar 1.1 (Asymptotische Konvergenz): Durch eine Zerfallsfunktion λ(t) kann garantiert werden, dass der Algorithmus letztendlich zu einer unverzerrten Schätzung konvergiert:

min(α_{t+1}, β_{t+1}) ← min(α_t, β_t) + |α_t - β_t| · λ(t)

3. EdgeD3-Algorithmus-Architektur

EdgeDDPG-Basisversion:

Kritiker-Aktualisierung: Expectile-Verlust ersetzt MSE
Akteur-Aktualisierung: Standard-Deterministic-Policy-Gradient

EdgeD3-Vollversion:

Verzögerte Strategie-Aktualisierung: Akteur-Netzwerk wird alle k Schritte aktualisiert
Zielglättung: Rauschen in der Zielschätzung hinzufügen
Expectile-Verlust: Schätzungsverzerrung kontrollieren

# Wichtige Aktualisierungsformel
y = E_{ε~p(x)}[r + γQ_{θ'}(s', ε + μ_{φ'}(s'))]
∇L(θ) = ∇_θ N^{-1} Σ L_{α,β}(y, Q_θ(s,a))

Optimierungslandschafts-Glättung

Zielrausch-Injektion statt Gradienten-Bestrafung:

Traditionelle Methode: L(θ) = MSE + ξ||∇_a Q(s,a)||² (rechenintensiv)
Dieser Ansatz: Rauschen in das Ziel einfügen, äquivalent zu Gradienten-Bestrafung aber recheneffizient

Experimentelle Einrichtung

Simulationsumgebung

Datensatz: Mujoco-Physik-Simulationsumgebungs-Suite
Aufgaben: Ant, Reacher, Hopper, Walker2d, Humanoid, HalfCheetah, Swimmer
Bewertung: Alle 5000 Schritte 10 Episoden bewerten, 10 zufällige Seeds

Echte Roboter-Experimente

Plattform: Selbstgebauter TurtleBot + Raspberry Pi3B + 2D-Laser-Radar
Aufgaben: Flurnavigation, Navigation in unstrukturierten Umgebungen
Zustand: 16-dimensionale Laser-Scans + Lineargeschwindigkeit + Winkelgeschwindigkeit
Aktion: 2-dimensionale kontinuierliche Steuerung (Lineargeschwindigkeit, Winkelgeschwindigkeit)

Vergleichsmethoden

DDPG: Grundlegendes Deep Deterministic Policy Gradient
TD3: Twin Delayed DDPG
SAC: Soft Actor-Critic
PPO: Proximal Policy Optimization

Bewertungsmetriken

Leistung: Kumulative Belohnung
Ressourcennutzung: GPU-Zeit, Speichernutzung
Trainingseffizienz: Leistung unter gleichem Zeitbudget

Experimentelle Ergebnisse

Ressourcennutzungs-Vergleich

Speichernutzung (relativ zu EdgeD3):

DDPG: -1,2%
TD3: +29,3%
SAC: +31,1%

GPU-Zeit-Vergleich:

EdgeD3: 214,0±7,1ms
DDPG: 285,5±7,4ms (-25,0%)
TD3: 308,2±2,7ms (-30,5%)
SAC(verzögert): 320,9±3,6ms (-33,3%)
SAC(original): 492,9±2,9ms (-56,8%)

Leistungsvergleich

Beste Leistung in Simulationsumgebung (gleiches Zeitbudget):

Umgebung	EdgeD3	DDPG	SAC	TD3
Ant-v3	4350,04	990,55	2739,81	4208,10
Hopper-v3	3388,44	2222,85	3148,89	2786,22
Walker2d-v3	3788,07	1601,16	2974,40	3580,83
HalfCheetah	10645,8	10309,0	8937,3	9677,5

EdgeD3erreicht in 5 von 7 Aufgaben die beste Leistung und belegt in den übrigen Aufgaben den zweiten Platz.

Echte Roboter-Ergebnisse

Flurnavigation: EdgeD3zeigt von Anfang an die beste Leistung
Navigation in unstrukturierten Umgebungen: EdgeD3 übertrifft andere Methoden nach 30 Minuten
Aktualisierungsfrequenz: EdgeD3(8Hz) > TD3(5,9Hz) > DDPG(5,8Hz) > SAC(3,3Hz)

Ablationsstudie

Testet die Auswirkungen verschiedener α,β-Kombinationen:

Swimmer: α>β (Neigung zur Überschätzung) funktioniert besser
Ant: α<β (Neigung zur Unterschätzung) funktioniert besser
Beweist die Flexibilität der Expectile-Verlustfunktion gegenüber dem festen CDQ-Mechanismus

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Effizienzverbesserung: EdgeD3 reduziert Rechen- und Speichernutzung um 30% im Vergleich zu SOTA-Methoden
Leistungserhaltung: Erreicht oder übertrifft modernste Methoden in den meisten Aufgaben
Praktikabilität: Validiert die Machbarkeit der Edge-Bereitstellung auf echten Robotern
Theoretische Grundlage: Bietet vollständige theoretische Analyse und Konvergenzgarantien

Einschränkungen

Komplexe Aufgaben: Noch Verbesserungspotenzial bei überaus komplexen Aufgaben wie Humanoid
Hyperparameter: Obwohl α=1,β=2 gute Startwerte sind, ist aufgabenabhängige Feinabstimmung erforderlich
Umgebungsabhängigkeit: Verschiedene Umgebungen erfordern möglicherweise unterschiedliche α,β-Einstellungen

Zukünftige Richtungen

Adaptive Hyperparameter: Online-Anpassung von α,β-Parametern
Andere Verlustfunktionen: Erkundung von Quantil-Verlust, unausgewogener Huber-Verlust usw.
Modellkompression-Integration: Kombination mit Quantisierung, Pruning und anderen Techniken

Tiefgreifende Bewertung

Stärken

Starke Innovation: Erstmalige Einführung von Expectile-Regression in RL, löst Überschätzungsverzerrung
Hoher praktischer Wert: Löst direkt Ressourcenbeschränkungsprobleme des Edge-Computing
Theoretisch vollständig: Bietet theoretische Garantien für Monotonie, Konvergenz usw.
Umfassende Experimente: Doppelte Validierung durch Simulation + echte Roboter
Klare Darstellung: Detaillierte Algorithmusbeschreibung, starke Reproduzierbarkeit

Mängel

Anwendungsbereich: Hauptsächlich auf kontinuierliche Steuerung ausgerichtet; Anwendbarkeit auf diskrete Aktionsräume unklar
Hyperparameter-Empfindlichkeit: Verschiedene Aufgaben erfordern α,β-Anpassung; keine automatisierte Methode
Unvollständige Vergleiche: Fehlende Vergleiche mit neuesten Ensemble-Methoden (z.B. neueste Energy-Model-Methoden)

Einflussfähigkeit

Akademischer Beitrag: Eröffnet neue Richtung für Edge-RL; vereint Theorie und Praxis
Industrielle Anwendung: Direkt anwendbar auf ressourcenbegrenzte praktische Bereitstellungen
Reproduzierbarkeit: Bietet vollständige Algorithmen und Hyperparameter-Einstellungen

Anwendungsszenarien

Edge-Geräte: Mobile Roboter, Drohnen, IoT-Geräte
Echtzeitsteuerung: Steuerungsaufgaben, die niedrige Latenz erfordern
Datenschutz: Szenarien, in denen Daten nicht in die Cloud übertragen werden können
Ressourcenbegrenzte Umgebungen: Umgebungen mit strikten CPU-, Speicher- und Energiebeschränkungen

Literaturverzeichnis

Das Paper zitiert 56 wichtige Arbeiten aus den Bereichen Reinforcement Learning, kontinuierliche Steuerung und Edge-Computing und bietet damit eine solide theoretische Grundlage, die den gesamten technologischen Stack von theoretischen Grundlagen bis zur praktischen Anwendung abdeckt.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier mit herausragenden Beiträgen in theoretischer Innovation, experimenteller Validierung und praktischem Wert. Der EdgeD3-Algorithmus löst elegant das RL-Effizienzproblem in Edge-Computing-Szenarien und hat bedeutende akademische Werte und Anwendungsperspektiven.