2025-11-21T07:37:22.920666

Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios

Sinigaglia, Turcato, Carli et al.
Deep Reinforcement Learning is gaining increasing attention thanks to its capability to learn complex policies in high-dimensional settings. Recent advancements utilize a dual-network architecture to learn optimal policies through the Q-learning algorithm. However, this approach has notable drawbacks, such as an overestimation bias that can disrupt the learning process and degrade the performance of the resulting policy. To address this, novel algorithms have been developed that mitigate overestimation bias by employing multiple Q-functions. Edge scenarios, which prioritize privacy, have recently gained prominence. In these settings, limited computational resources pose a significant challenge for complex Machine Learning approaches, making the efficiency of algorithms crucial for their performance. In this work, we introduce a novel Reinforcement Learning algorithm tailored for edge scenarios, called Edge Delayed Deep Deterministic Policy Gradient (EdgeD3). EdgeD3 enhances the Deep Deterministic Policy Gradient (DDPG) algorithm, achieving significantly improved performance with $25\%$ less Graphics Process Unit (GPU) time while maintaining the same memory usage. Additionally, EdgeD3 consistently matches or surpasses the performance of state-of-the-art methods across various benchmarks, all while using $30\%$ fewer computational resources and requiring $30\%$ less memory.
academic

Edge Delayed Deep Deterministic Policy Gradient : contrôle continu efficace pour les scénarios edge

Informations de base

  • ID de l'article: 2412.06390
  • Titre: Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios
  • Auteurs: Alberto Sinigaglia, Niccolò Turcato, Carli Ruggero, Gian Antonio Susto
  • Classification: cs.LG cs.AI
  • Journal de publication: IEEE Transactions on Automation Science and Engineering
  • Lien de l'article: https://arxiv.org/abs/2412.06390

Résumé

L'apprentissage par renforcement profond (DRL) a suscité un intérêt considérable en raison de sa capacité à apprendre des stratégies complexes dans des espaces d'entrée de haute dimension. Les algorithmes DRL modernes s'appuient généralement sur une architecture d'apprentissage Q à double réseau pour approximer la politique optimale et surmonter le biais de surestimation. Cependant, avec l'émergence des scénarios d'informatique edge, les préoccupations en matière de confidentialité et les contraintes matérielles strictes exigent des algorithmes efficaces. Cet article propose Edge Delayed Deep Deterministic Policy Gradient (EdgeD3), un nouvel algorithme d'apprentissage par renforcement spécialement conçu pour les environnements d'informatique edge. EdgeD3 réduit considérablement le temps GPU (25%) et l'utilisation de la mémoire de calcul (30%), tout en atteignant ou surpassant systématiquement les performances des algorithmes de pointe sur plusieurs benchmarks et tâches pratiques.

Contexte et motivation de la recherche

Définition du problème

  1. Problème du biais de surestimation: Les algorithmes d'apprentissage Q traditionnels présentent un biais de surestimation qui compromet le processus d'apprentissage et réduit les performances de la politique
  2. Limitations des ressources d'informatique edge: Les appareils edge disposent de ressources de calcul et de mémoire limitées, les méthodes multi-Q existantes (comme TD3, SAC) entraînent des surcharges de calcul excessives
  3. Besoins de protection de la vie privée: Les scénarios edge exigent un apprentissage sur l'appareil, évitant la transmission vers le cloud et protégeant la confidentialité des données

Importance de la recherche

  • L'informatique edge est largement appliquée dans les domaines de la conduite autonome, de la fabrication intelligente, de la santé intelligente, etc.
  • Les algorithmes existants (TD3, SAC, etc.) utilisent jusqu'à 10 réseaux Q, avec une surcharge mémoire et de calcul 10 fois supérieure à l'algorithme original
  • Les appareils edge doivent réaliser un apprentissage efficace avec des ressources limitées

Limitations des méthodes existantes

  • TD3/SAC: Utilisant un mécanisme de double réseau Q, l'utilisation mémoire augmente de 29-31%, le temps de calcul augmente de plus de 30%
  • Algorithmes récents (TQC, REDQ, etc.): Utilisant 5-10 réseaux Q, avec des surcharges de calcul plus importantes, inadaptés aux scénarios edge
  • Mécanisme CDQ: Manque de contrôle fin du compromis de biais

Contributions principales

  1. Nouvelle fonction de perte Expectile: Propose une fonction de perte basée sur les quantiles d'espérance, contrôlant le biais de surestimation avec un seul réseau Q
  2. Algorithme EdgeD3: Algorithme efficace combinant la perte Expectile, la mise à jour retardée et les techniques de lissage cible
  3. Analyse théorique: Démontre la monotonie et la convergence asymptotique de la perte Expectile
  4. Vérification expérimentale complète: Valide l'efficacité de l'algorithme dans les environnements de simulation Mujoco et les tâches réelles de navigation robotique
  5. Amélioration de l'efficacité des ressources: Réduit le temps GPU de 25% par rapport à DDPG, réduit l'utilisation de calcul et de mémoire de 30% par rapport aux méthodes SOTA

Détails de la méthode

Définition de la tâche

Étudie le processus de décision de Markov (MDP) pour le contrôle continu, défini comme un quintuplet (S,A,P,R,γ):

  • S: Espace d'état continu
  • A: Espace d'action continu
  • P: Fonction de densité de probabilité de transition d'état
  • R: Fonction de récompense r: S×A×S → ℝ
  • γ: Facteur d'actualisation

L'objectif est d'apprendre la politique μ_φ(a_t|s_t) pour maximiser la récompense cumulative attendue.

Innovations technologiques principales

1. Fonction de perte Expectile

Version asymétrique de la perte MSE traditionnelle:

L_{α,β}(f_θ(x), y) = 1/Z {
    α(y - f_θ(x))² si f_θ(x) < y
    β(y - f_θ(x))² sinon
}

où Z = max(α,β) est la constante de normalisation.

Propriétés clés:

  • α = β: Dégénère en MSE standard
  • α < β: Tend vers la sous-estimation, s'oppose à la surestimation de l'apprentissage Q
  • α > β: Tend vers la surestimation

2. Garanties théoriques

Théorème 1 (Monotonie Expectile): La fonction Expectile est monotone non décroissante par rapport à τ, c'est-à-dire τ₁ ≤ τ₂ ⟹ t₁ ≤ t₂

Corollaire 1.1 (Convergence asymptotique): Par une fonction d'amortissement λ(t), on peut garantir que l'algorithme converge finalement vers une estimation sans biais:

min(α_{t+1}, β_{t+1}) ← min(α_t, β_t) + |α_t - β_t| · λ(t)

3. Architecture de l'algorithme EdgeD3

Version de base EdgeDDPG:

  • Mise à jour du critique: Remplace MSE par la perte Expectile
  • Mise à jour de l'acteur: Gradient de politique déterministe standard

Version complète EdgeD3:

  • Mise à jour de politique retardée: Met à jour le réseau d'acteur tous les k pas
  • Lissage cible: Ajoute du bruit dans l'estimation cible
  • Perte Expectile: Contrôle le biais d'estimation
# Formule de mise à jour clé
y = E_{ε~p(x)}[r + γQ_{θ'}(s', ε + μ_{φ'}(s'))]
∇L(θ) = ∇_θ N^{-1} Σ L_{α,β}(y, Q_θ(s,a))

Lissage du paysage d'optimisation

Adopte l'injection de bruit cible au lieu de la pénalité de gradient:

  • Méthode traditionnelle: L(θ) = MSE + ξ||∇_a Q(s,a)||² (coûteux en calcul)
  • Méthode proposée: Ajoute du bruit dans la cible, équivalent à la pénalité de gradient mais efficace en calcul

Configuration expérimentale

Environnement de simulation

  • Ensemble de données: Suite d'environnement de simulation physique Mujoco
  • Tâches: Ant, Reacher, Hopper, Walker2d, Humanoid, HalfCheetah, Swimmer
  • Évaluation: Évalue 10 épisodes tous les 5000 pas, 10 graines aléatoires

Expériences sur robot réel

  • Plateforme: TurtleBot personnalisé + Raspberry Pi3B + Lidar 2D
  • Tâches: Navigation en couloir, navigation en environnement non structuré
  • État: Balayage laser 16D + vitesse linéaire + vitesse angulaire
  • Action: Contrôle continu 2D (vitesse linéaire, vitesse angulaire)

Méthodes de comparaison

  • DDPG: Gradient de politique déterministe profond de base
  • TD3: Twin Delayed DDPG
  • SAC: Soft Actor-Critic
  • PPO: Proximal Policy Optimization

Indicateurs d'évaluation

  • Performance: Récompense cumulative
  • Utilisation des ressources: Temps GPU, occupation mémoire
  • Efficacité d'entraînement: Performance sous budget de temps identique

Résultats expérimentaux

Comparaison de l'utilisation des ressources

Utilisation mémoire (relative à EdgeD3):

  • DDPG: -1.2%
  • TD3: +29.3%
  • SAC: +31.1%

Comparaison du temps GPU:

  • EdgeD3: 214.0±7.1ms
  • DDPG: 285.5±7.4ms (-25.0%)
  • TD3: 308.2±2.7ms (-30.5%)
  • SAC(retardé): 320.9±3.6ms (-33.3%)
  • SAC(original): 492.9±2.9ms (-56.8%)

Comparaison des performances

Meilleures performances en simulation (budget de temps identique):

EnvironnementEdgeD3DDPGSACTD3
Ant-v34350.04990.552739.814208.10
Hopper-v33388.442222.853148.892786.22
Walker2d-v33788.071601.162974.403580.83
HalfCheetah10645.810309.08937.39677.5

EdgeD3 atteint les meilleures performances sur 5 des 7 tâches, se classant dans les deux premiers sur les tâches restantes.

Résultats sur robot réel

  • Navigation en couloir: EdgeD3 affiche les meilleures performances dès le début de l'entraînement
  • Navigation non structurée: EdgeD3 surpasse les autres méthodes après 30 minutes
  • Fréquence de mise à jour: EdgeD3(8Hz) > TD3(5.9Hz) > DDPG(5.8Hz) > SAC(3.3Hz)

Étude d'ablation

Teste l'impact de différentes combinaisons α,β:

  • Swimmer: α>β (tendance à la surestimation) donne de meilleurs résultats
  • Ant: α<β (tendance à la sous-estimation) donne de meilleurs résultats
  • Démontre la flexibilité supérieure de la perte Expectile par rapport au mécanisme CDQ fixe

Travaux connexes

Atténuation du biais d'estimation

  • Double Q-learning: Utilise deux estimateurs indépendants
  • Méthodes d'ensemble: TQC(5 réseaux), REDQ(10 réseaux), RAC(10 réseaux)
  • Contribution de cet article: Solution à réseau unique, efficace en calcul

RL d'informatique edge

  • Compression de modèle: Quantification, élagage, etc.
  • Optimisation algorithmique: Cet article résout pour la première fois le problème d'efficacité du RL edge au niveau algorithmique

Contrôle continu

  • Méthodes Actor-Critic: DDPG, TD3, SAC, etc.
  • Gradient de politique: Optimise directement les paramètres de politique

Conclusion et discussion

Conclusions principales

  1. Amélioration de l'efficacité: EdgeD3 réduit le calcul et l'utilisation mémoire de 30% par rapport aux méthodes SOTA
  2. Maintien des performances: Atteint ou surpasse les méthodes de pointe sur la plupart des tâches
  3. Praticité: Valide la faisabilité du déploiement edge sur robot réel
  4. Fondation théorique: Fournit une analyse théorique complète et des garanties de convergence

Limitations

  1. Tâches complexes: Il y a encore de la place pour l'amélioration sur les tâches ultra-complexes comme Humanoid
  2. Hyperparamètres: Bien que α=1,β=2 soit une bonne valeur initiale, un ajustement dépendant de la tâche est toujours nécessaire
  3. Dépendance à l'environnement: Différents environnements peuvent nécessiter différents paramètres α,β

Directions futures

  1. Hyperparamètres adaptatifs: Ajuste en ligne les paramètres α,β
  2. Autres fonctions de perte: Explore les pertes quantiles, les pertes Huber déséquilibrées, etc.
  3. Combinaison avec compression de modèle: Combine avec la quantification, l'élagage, etc.

Évaluation approfondie

Avantages

  1. Innovation forte: Première introduction de la régression Expectile en RL, résout le biais de surestimation
  2. Valeur pratique élevée: Résout directement les limitations de ressources de l'informatique edge
  3. Théorie complète: Fournit des garanties de monotonie, convergence, etc.
  4. Expériences suffisantes: Double vérification simulation + robot réel
  5. Rédaction claire: Description d'algorithme détaillée, forte reproductibilité

Insuffisances

  1. Portée d'application: Principalement pour le contrôle continu, applicabilité à l'espace d'action discret inconnue
  2. Sensibilité aux hyperparamètres: Nécessite d'ajuster α,β pour différentes tâches, manque de méthode automatisée
  3. Comparaison incomplète: Manque de comparaison avec les méthodes d'ensemble les plus récentes (comme les méthodes de modèle énergétique récentes)

Impact

  1. Contribution académique: Ouvre une nouvelle direction pour le RL edge, équilibre théorie et pratique
  2. Application industrielle: Directement applicable au déploiement pratique avec ressources limitées
  3. Reproductibilité: Fournit l'algorithme complet et les paramètres

Scénarios d'application

  1. Appareils edge: Robots mobiles, drones, appareils IoT
  2. Contrôle en temps réel: Tâches de contrôle nécessitant une réponse à faible latence
  3. Protection de la vie privée: Scénarios où les données ne peuvent pas être transmises au cloud
  4. Ressources limitées: Environnements avec contraintes strictes sur CPU, mémoire, consommation d'énergie

Références

L'article cite 56 références importantes dans les domaines de l'apprentissage par renforcement, du contrôle continu et de l'informatique edge, couvrant une pile technologique complète des fondations théoriques aux applications pratiques, fournissant une base théorique solide pour la recherche.


Évaluation globale: Cet article est un travail de recherche de haute qualité avec des contributions remarquables en innovation théorique, vérification expérimentale et valeur pratique. L'algorithme EdgeD3 résout élégamment le problème d'efficacité du RL dans les scénarios d'informatique edge, possédant une valeur académique importante et des perspectives d'application prometteuses.