Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios
Sinigaglia, Turcato, Carli et al.
Deep Reinforcement Learning is gaining increasing attention thanks to its capability to learn complex policies in high-dimensional settings. Recent advancements utilize a dual-network architecture to learn optimal policies through the Q-learning algorithm. However, this approach has notable drawbacks, such as an overestimation bias that can disrupt the learning process and degrade the performance of the resulting policy. To address this, novel algorithms have been developed that mitigate overestimation bias by employing multiple Q-functions. Edge scenarios, which prioritize privacy, have recently gained prominence. In these settings, limited computational resources pose a significant challenge for complex Machine Learning approaches, making the efficiency of algorithms crucial for their performance. In this work, we introduce a novel Reinforcement Learning algorithm tailored for edge scenarios, called Edge Delayed Deep Deterministic Policy Gradient (EdgeD3). EdgeD3 enhances the Deep Deterministic Policy Gradient (DDPG) algorithm, achieving significantly improved performance with $25\%$ less Graphics Process Unit (GPU) time while maintaining the same memory usage. Additionally, EdgeD3 consistently matches or surpasses the performance of state-of-the-art methods across various benchmarks, all while using $30\%$ fewer computational resources and requiring $30\%$ less memory.
academic
Edge Delayed Deep Deterministic Policy Gradient : contrôle continu efficace pour les scénarios edge
L'apprentissage par renforcement profond (DRL) a suscité un intérêt considérable en raison de sa capacité à apprendre des stratégies complexes dans des espaces d'entrée de haute dimension. Les algorithmes DRL modernes s'appuient généralement sur une architecture d'apprentissage Q à double réseau pour approximer la politique optimale et surmonter le biais de surestimation. Cependant, avec l'émergence des scénarios d'informatique edge, les préoccupations en matière de confidentialité et les contraintes matérielles strictes exigent des algorithmes efficaces. Cet article propose Edge Delayed Deep Deterministic Policy Gradient (EdgeD3), un nouvel algorithme d'apprentissage par renforcement spécialement conçu pour les environnements d'informatique edge. EdgeD3 réduit considérablement le temps GPU (25%) et l'utilisation de la mémoire de calcul (30%), tout en atteignant ou surpassant systématiquement les performances des algorithmes de pointe sur plusieurs benchmarks et tâches pratiques.
Problème du biais de surestimation: Les algorithmes d'apprentissage Q traditionnels présentent un biais de surestimation qui compromet le processus d'apprentissage et réduit les performances de la politique
Limitations des ressources d'informatique edge: Les appareils edge disposent de ressources de calcul et de mémoire limitées, les méthodes multi-Q existantes (comme TD3, SAC) entraînent des surcharges de calcul excessives
Besoins de protection de la vie privée: Les scénarios edge exigent un apprentissage sur l'appareil, évitant la transmission vers le cloud et protégeant la confidentialité des données
L'informatique edge est largement appliquée dans les domaines de la conduite autonome, de la fabrication intelligente, de la santé intelligente, etc.
Les algorithmes existants (TD3, SAC, etc.) utilisent jusqu'à 10 réseaux Q, avec une surcharge mémoire et de calcul 10 fois supérieure à l'algorithme original
Les appareils edge doivent réaliser un apprentissage efficace avec des ressources limitées
Nouvelle fonction de perte Expectile: Propose une fonction de perte basée sur les quantiles d'espérance, contrôlant le biais de surestimation avec un seul réseau Q
Algorithme EdgeD3: Algorithme efficace combinant la perte Expectile, la mise à jour retardée et les techniques de lissage cible
Analyse théorique: Démontre la monotonie et la convergence asymptotique de la perte Expectile
Vérification expérimentale complète: Valide l'efficacité de l'algorithme dans les environnements de simulation Mujoco et les tâches réelles de navigation robotique
Amélioration de l'efficacité des ressources: Réduit le temps GPU de 25% par rapport à DDPG, réduit l'utilisation de calcul et de mémoire de 30% par rapport aux méthodes SOTA
Théorème 1 (Monotonie Expectile): La fonction Expectile est monotone non décroissante par rapport à τ, c'est-à-dire τ₁ ≤ τ₂ ⟹ t₁ ≤ t₂
Corollaire 1.1 (Convergence asymptotique): Par une fonction d'amortissement λ(t), on peut garantir que l'algorithme converge finalement vers une estimation sans biais:
L'article cite 56 références importantes dans les domaines de l'apprentissage par renforcement, du contrôle continu et de l'informatique edge, couvrant une pile technologique complète des fondations théoriques aux applications pratiques, fournissant une base théorique solide pour la recherche.
Évaluation globale: Cet article est un travail de recherche de haute qualité avec des contributions remarquables en innovation théorique, vérification expérimentale et valeur pratique. L'algorithme EdgeD3 résout élégamment le problème d'efficacité du RL dans les scénarios d'informatique edge, possédant une valeur académique importante et des perspectives d'application prometteuses.