2025-11-21T07:37:22.920666

Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios

Sinigaglia, Turcato, Carli et al.

Deep Reinforcement Learning is gaining increasing attention thanks to its capability to learn complex policies in high-dimensional settings. Recent advancements utilize a dual-network architecture to learn optimal policies through the Q-learning algorithm. However, this approach has notable drawbacks, such as an overestimation bias that can disrupt the learning process and degrade the performance of the resulting policy. To address this, novel algorithms have been developed that mitigate overestimation bias by employing multiple Q-functions. Edge scenarios, which prioritize privacy, have recently gained prominence. In these settings, limited computational resources pose a significant challenge for complex Machine Learning approaches, making the efficiency of algorithms crucial for their performance. In this work, we introduce a novel Reinforcement Learning algorithm tailored for edge scenarios, called Edge Delayed Deep Deterministic Policy Gradient (EdgeD3). EdgeD3 enhances the Deep Deterministic Policy Gradient (DDPG) algorithm, achieving significantly improved performance with $25\%$ less Graphics Process Unit (GPU) time while maintaining the same memory usage. Additionally, EdgeD3 consistently matches or surpasses the performance of state-of-the-art methods across various benchmarks, all while using $30\%$ fewer computational resources and requiring $30\%$ less memory.

academic

Edge Delayed Deep Deterministic Policy Gradient : contrôle continu efficace pour les scénarios edge

Informations de base

ID de l'article: 2412.06390
Titre: Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios
Auteurs: Alberto Sinigaglia, Niccolò Turcato, Carli Ruggero, Gian Antonio Susto
Classification: cs.LG cs.AI
Journal de publication: IEEE Transactions on Automation Science and Engineering
Lien de l'article: https://arxiv.org/abs/2412.06390

Résumé

L'apprentissage par renforcement profond (DRL) a suscité un intérêt considérable en raison de sa capacité à apprendre des stratégies complexes dans des espaces d'entrée de haute dimension. Les algorithmes DRL modernes s'appuient généralement sur une architecture d'apprentissage Q à double réseau pour approximer la politique optimale et surmonter le biais de surestimation. Cependant, avec l'émergence des scénarios d'informatique edge, les préoccupations en matière de confidentialité et les contraintes matérielles strictes exigent des algorithmes efficaces. Cet article propose Edge Delayed Deep Deterministic Policy Gradient (EdgeD3), un nouvel algorithme d'apprentissage par renforcement spécialement conçu pour les environnements d'informatique edge. EdgeD3 réduit considérablement le temps GPU (25%) et l'utilisation de la mémoire de calcul (30%), tout en atteignant ou surpassant systématiquement les performances des algorithmes de pointe sur plusieurs benchmarks et tâches pratiques.

Contexte et motivation de la recherche

Définition du problème

Problème du biais de surestimation: Les algorithmes d'apprentissage Q traditionnels présentent un biais de surestimation qui compromet le processus d'apprentissage et réduit les performances de la politique
Limitations des ressources d'informatique edge: Les appareils edge disposent de ressources de calcul et de mémoire limitées, les méthodes multi-Q existantes (comme TD3, SAC) entraînent des surcharges de calcul excessives
Besoins de protection de la vie privée: Les scénarios edge exigent un apprentissage sur l'appareil, évitant la transmission vers le cloud et protégeant la confidentialité des données

Importance de la recherche

L'informatique edge est largement appliquée dans les domaines de la conduite autonome, de la fabrication intelligente, de la santé intelligente, etc.
Les algorithmes existants (TD3, SAC, etc.) utilisent jusqu'à 10 réseaux Q, avec une surcharge mémoire et de calcul 10 fois supérieure à l'algorithme original
Les appareils edge doivent réaliser un apprentissage efficace avec des ressources limitées

Limitations des méthodes existantes

TD3/SAC: Utilisant un mécanisme de double réseau Q, l'utilisation mémoire augmente de 29-31%, le temps de calcul augmente de plus de 30%
Algorithmes récents (TQC, REDQ, etc.): Utilisant 5-10 réseaux Q, avec des surcharges de calcul plus importantes, inadaptés aux scénarios edge
Mécanisme CDQ: Manque de contrôle fin du compromis de biais

Contributions principales

Nouvelle fonction de perte Expectile: Propose une fonction de perte basée sur les quantiles d'espérance, contrôlant le biais de surestimation avec un seul réseau Q
Algorithme EdgeD3: Algorithme efficace combinant la perte Expectile, la mise à jour retardée et les techniques de lissage cible
Analyse théorique: Démontre la monotonie et la convergence asymptotique de la perte Expectile
Vérification expérimentale complète: Valide l'efficacité de l'algorithme dans les environnements de simulation Mujoco et les tâches réelles de navigation robotique
Amélioration de l'efficacité des ressources: Réduit le temps GPU de 25% par rapport à DDPG, réduit l'utilisation de calcul et de mémoire de 30% par rapport aux méthodes SOTA

Détails de la méthode

Définition de la tâche

Étudie le processus de décision de Markov (MDP) pour le contrôle continu, défini comme un quintuplet (S,A,P,R,γ):

S: Espace d'état continu
A: Espace d'action continu
P: Fonction de densité de probabilité de transition d'état
R: Fonction de récompense r: S×A×S → ℝ
γ: Facteur d'actualisation

L'objectif est d'apprendre la politique μ_φ(a_t|s_t) pour maximiser la récompense cumulative attendue.

Innovations technologiques principales

1. Fonction de perte Expectile

Version asymétrique de la perte MSE traditionnelle:

L_{α,β}(f_θ(x), y) = 1/Z {
    α(y - f_θ(x))² si f_θ(x) < y
    β(y - f_θ(x))² sinon
}

où Z = max(α,β) est la constante de normalisation.

Propriétés clés:

α = β: Dégénère en MSE standard
α < β: Tend vers la sous-estimation, s'oppose à la surestimation de l'apprentissage Q
α > β: Tend vers la surestimation

2. Garanties théoriques

Théorème 1 (Monotonie Expectile): La fonction Expectile est monotone non décroissante par rapport à τ, c'est-à-dire τ₁ ≤ τ₂ ⟹ t₁ ≤ t₂

Corollaire 1.1 (Convergence asymptotique): Par une fonction d'amortissement λ(t), on peut garantir que l'algorithme converge finalement vers une estimation sans biais:

min(α_{t+1}, β_{t+1}) ← min(α_t, β_t) + |α_t - β_t| · λ(t)

3. Architecture de l'algorithme EdgeD3

Version de base EdgeDDPG:

Mise à jour du critique: Remplace MSE par la perte Expectile
Mise à jour de l'acteur: Gradient de politique déterministe standard

Version complète EdgeD3:

Mise à jour de politique retardée: Met à jour le réseau d'acteur tous les k pas
Lissage cible: Ajoute du bruit dans l'estimation cible
Perte Expectile: Contrôle le biais d'estimation

# Formule de mise à jour clé
y = E_{ε~p(x)}[r + γQ_{θ'}(s', ε + μ_{φ'}(s'))]
∇L(θ) = ∇_θ N^{-1} Σ L_{α,β}(y, Q_θ(s,a))

Lissage du paysage d'optimisation

Adopte l'injection de bruit cible au lieu de la pénalité de gradient:

Méthode traditionnelle: L(θ) = MSE + ξ||∇_a Q(s,a)||² (coûteux en calcul)
Méthode proposée: Ajoute du bruit dans la cible, équivalent à la pénalité de gradient mais efficace en calcul

Configuration expérimentale

Environnement de simulation

Ensemble de données: Suite d'environnement de simulation physique Mujoco
Tâches: Ant, Reacher, Hopper, Walker2d, Humanoid, HalfCheetah, Swimmer
Évaluation: Évalue 10 épisodes tous les 5000 pas, 10 graines aléatoires

Expériences sur robot réel

Plateforme: TurtleBot personnalisé + Raspberry Pi3B + Lidar 2D
Tâches: Navigation en couloir, navigation en environnement non structuré
État: Balayage laser 16D + vitesse linéaire + vitesse angulaire
Action: Contrôle continu 2D (vitesse linéaire, vitesse angulaire)

Méthodes de comparaison

DDPG: Gradient de politique déterministe profond de base
TD3: Twin Delayed DDPG
SAC: Soft Actor-Critic
PPO: Proximal Policy Optimization

Indicateurs d'évaluation

Performance: Récompense cumulative
Utilisation des ressources: Temps GPU, occupation mémoire
Efficacité d'entraînement: Performance sous budget de temps identique

Résultats expérimentaux

Comparaison de l'utilisation des ressources

Utilisation mémoire (relative à EdgeD3):

DDPG: -1.2%
TD3: +29.3%
SAC: +31.1%

Comparaison du temps GPU:

EdgeD3: 214.0±7.1ms
DDPG: 285.5±7.4ms (-25.0%)
TD3: 308.2±2.7ms (-30.5%)
SAC(retardé): 320.9±3.6ms (-33.3%)
SAC(original): 492.9±2.9ms (-56.8%)

Comparaison des performances

Meilleures performances en simulation (budget de temps identique):

Environnement	EdgeD3	DDPG	SAC	TD3
Ant-v3	4350.04	990.55	2739.81	4208.10
Hopper-v3	3388.44	2222.85	3148.89	2786.22
Walker2d-v3	3788.07	1601.16	2974.40	3580.83
HalfCheetah	10645.8	10309.0	8937.3	9677.5

EdgeD3 atteint les meilleures performances sur 5 des 7 tâches, se classant dans les deux premiers sur les tâches restantes.

Résultats sur robot réel

Navigation en couloir: EdgeD3 affiche les meilleures performances dès le début de l'entraînement
Navigation non structurée: EdgeD3 surpasse les autres méthodes après 30 minutes
Fréquence de mise à jour: EdgeD3(8Hz) > TD3(5.9Hz) > DDPG(5.8Hz) > SAC(3.3Hz)

Étude d'ablation

Teste l'impact de différentes combinaisons α,β:

Swimmer: α>β (tendance à la surestimation) donne de meilleurs résultats
Ant: α<β (tendance à la sous-estimation) donne de meilleurs résultats
Démontre la flexibilité supérieure de la perte Expectile par rapport au mécanisme CDQ fixe

Travaux connexes

Atténuation du biais d'estimation

Double Q-learning: Utilise deux estimateurs indépendants
Méthodes d'ensemble: TQC(5 réseaux), REDQ(10 réseaux), RAC(10 réseaux)
Contribution de cet article: Solution à réseau unique, efficace en calcul

RL d'informatique edge

Compression de modèle: Quantification, élagage, etc.
Optimisation algorithmique: Cet article résout pour la première fois le problème d'efficacité du RL edge au niveau algorithmique

Contrôle continu

Méthodes Actor-Critic: DDPG, TD3, SAC, etc.
Gradient de politique: Optimise directement les paramètres de politique

Conclusion et discussion

Conclusions principales

Amélioration de l'efficacité: EdgeD3 réduit le calcul et l'utilisation mémoire de 30% par rapport aux méthodes SOTA
Maintien des performances: Atteint ou surpasse les méthodes de pointe sur la plupart des tâches
Praticité: Valide la faisabilité du déploiement edge sur robot réel
Fondation théorique: Fournit une analyse théorique complète et des garanties de convergence

Limitations

Tâches complexes: Il y a encore de la place pour l'amélioration sur les tâches ultra-complexes comme Humanoid
Hyperparamètres: Bien que α=1,β=2 soit une bonne valeur initiale, un ajustement dépendant de la tâche est toujours nécessaire
Dépendance à l'environnement: Différents environnements peuvent nécessiter différents paramètres α,β

Directions futures

Hyperparamètres adaptatifs: Ajuste en ligne les paramètres α,β
Autres fonctions de perte: Explore les pertes quantiles, les pertes Huber déséquilibrées, etc.
Combinaison avec compression de modèle: Combine avec la quantification, l'élagage, etc.

Évaluation approfondie

Avantages

Innovation forte: Première introduction de la régression Expectile en RL, résout le biais de surestimation
Valeur pratique élevée: Résout directement les limitations de ressources de l'informatique edge
Théorie complète: Fournit des garanties de monotonie, convergence, etc.
Expériences suffisantes: Double vérification simulation + robot réel
Rédaction claire: Description d'algorithme détaillée, forte reproductibilité

Insuffisances

Portée d'application: Principalement pour le contrôle continu, applicabilité à l'espace d'action discret inconnue
Sensibilité aux hyperparamètres: Nécessite d'ajuster α,β pour différentes tâches, manque de méthode automatisée
Comparaison incomplète: Manque de comparaison avec les méthodes d'ensemble les plus récentes (comme les méthodes de modèle énergétique récentes)

Impact

Contribution académique: Ouvre une nouvelle direction pour le RL edge, équilibre théorie et pratique
Application industrielle: Directement applicable au déploiement pratique avec ressources limitées
Reproductibilité: Fournit l'algorithme complet et les paramètres

Scénarios d'application

Appareils edge: Robots mobiles, drones, appareils IoT
Contrôle en temps réel: Tâches de contrôle nécessitant une réponse à faible latence
Protection de la vie privée: Scénarios où les données ne peuvent pas être transmises au cloud
Ressources limitées: Environnements avec contraintes strictes sur CPU, mémoire, consommation d'énergie

Références

L'article cite 56 références importantes dans les domaines de l'apprentissage par renforcement, du contrôle continu et de l'informatique edge, couvrant une pile technologique complète des fondations théoriques aux applications pratiques, fournissant une base théorique solide pour la recherche.

Évaluation globale: Cet article est un travail de recherche de haute qualité avec des contributions remarquables en innovation théorique, vérification expérimentale et valeur pratique. L'algorithme EdgeD3 résout élégamment le problème d'efficacité du RL dans les scénarios d'informatique edge, possédant une valeur académique importante et des perspectives d'application prometteuses.