Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios
Sinigaglia, Turcato, Carli et al.
Deep Reinforcement Learning is gaining increasing attention thanks to its capability to learn complex policies in high-dimensional settings. Recent advancements utilize a dual-network architecture to learn optimal policies through the Q-learning algorithm. However, this approach has notable drawbacks, such as an overestimation bias that can disrupt the learning process and degrade the performance of the resulting policy. To address this, novel algorithms have been developed that mitigate overestimation bias by employing multiple Q-functions. Edge scenarios, which prioritize privacy, have recently gained prominence. In these settings, limited computational resources pose a significant challenge for complex Machine Learning approaches, making the efficiency of algorithms crucial for their performance. In this work, we introduce a novel Reinforcement Learning algorithm tailored for edge scenarios, called Edge Delayed Deep Deterministic Policy Gradient (EdgeD3). EdgeD3 enhances the Deep Deterministic Policy Gradient (DDPG) algorithm, achieving significantly improved performance with $25\%$ less Graphics Process Unit (GPU) time while maintaining the same memory usage. Additionally, EdgeD3 consistently matches or surpasses the performance of state-of-the-art methods across various benchmarks, all while using $30\%$ fewer computational resources and requiring $30\%$ less memory.
academic
Gradiente de Política Determinista Profunda Retrasada en Edge: control continuo eficiente para escenarios edge
El aprendizaje profundo por refuerzo (DRL) ha atraído considerable atención por su capacidad para aprender políticas complejas en espacios de entrada de alta dimensionalidad. Los algoritmos DRL modernos típicamente dependen de arquitecturas de aprendizaje Q de red dual para aproximar políticas óptimas y superar el sesgo de sobreestimación. Sin embargo, con el auge de los escenarios de computación edge, las preocupaciones de privacidad y las restricciones de hardware estrictas requieren algoritmos eficientes. Este artículo propone Edge Delayed Deep Deterministic Policy Gradient (EdgeD3), un novedoso algoritmo de aprendizaje por refuerzo diseñado específicamente para entornos de computación edge. EdgeD3 reduce significativamente el tiempo de GPU (25%) y el uso de memoria computacional (30%), mientras que logra consistentemente un rendimiento igual o superior a los algoritmos de última generación en múltiples benchmarks y tareas prácticas.
Problema del sesgo de sobreestimación: Los algoritmos tradicionales de aprendizaje Q presentan sesgo de sobreestimación que deteriora el proceso de aprendizaje y reduce el rendimiento de la política
Limitaciones de recursos en computación edge: Los dispositivos edge tienen recursos computacionales y de memoria limitados, y los métodos existentes de múltiples redes Q (como TD3, SAC) tienen un costo computacional excesivo
Requisitos de protección de privacidad: Los escenarios edge requieren aprendizaje en dispositivo, evitando transmisión a la nube y protegiendo la privacidad de datos
Nueva función de pérdida Expectile: Propone una función de pérdida basada en cuantiles esperados que controla el sesgo de sobreestimación utilizando solo una única red Q
Algoritmo EdgeD3: Algoritmo eficiente que combina pérdida Expectile, actualización retrasada y técnicas de suavizado de objetivos
Análisis teórico: Demuestra la monotonía y convergencia asintótica de la pérdida Expectile
Verificación experimental exhaustiva: Valida el rendimiento del algoritmo en entornos de simulación Mujoco y tareas reales de navegación robótica
Mejora en eficiencia de recursos: Reduce el tiempo de GPU en 25% comparado con DDPG, y reduce el uso de computación y memoria en 30% comparado con métodos SOTA
Teorema 1 (Monotonía de Expectile): La función Expectile es monótonamente no decreciente respecto a τ, es decir, τ₁ ≤ τ₂ ⟹ t₁ ≤ t₂
Corolario 1.1 (Convergencia Asintótica): Mediante una función de decaimiento λ(t), se puede garantizar que el algoritmo converge finalmente a una estimación insesgada:
El artículo cita 56 referencias importantes en los campos de aprendizaje por refuerzo, control continuo y computación edge, cubriendo un stack tecnológico completo desde fundamentos teóricos hasta aplicaciones prácticas, proporcionando una base teórica sólida para la investigación.
Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones destacadas en innovación teórica, verificación experimental y valor práctico. El algoritmo EdgeD3 resuelve ingeniosamente el problema de eficiencia del RL en escenarios de computación edge, con importante valor académico y perspectivas de aplicación.