2025-11-21T07:37:22.920666

Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios

Sinigaglia, Turcato, Carli et al.
Deep Reinforcement Learning is gaining increasing attention thanks to its capability to learn complex policies in high-dimensional settings. Recent advancements utilize a dual-network architecture to learn optimal policies through the Q-learning algorithm. However, this approach has notable drawbacks, such as an overestimation bias that can disrupt the learning process and degrade the performance of the resulting policy. To address this, novel algorithms have been developed that mitigate overestimation bias by employing multiple Q-functions. Edge scenarios, which prioritize privacy, have recently gained prominence. In these settings, limited computational resources pose a significant challenge for complex Machine Learning approaches, making the efficiency of algorithms crucial for their performance. In this work, we introduce a novel Reinforcement Learning algorithm tailored for edge scenarios, called Edge Delayed Deep Deterministic Policy Gradient (EdgeD3). EdgeD3 enhances the Deep Deterministic Policy Gradient (DDPG) algorithm, achieving significantly improved performance with $25\%$ less Graphics Process Unit (GPU) time while maintaining the same memory usage. Additionally, EdgeD3 consistently matches or surpasses the performance of state-of-the-art methods across various benchmarks, all while using $30\%$ fewer computational resources and requiring $30\%$ less memory.
academic

Gradiente de Política Determinista Profunda Retrasada en Edge: control continuo eficiente para escenarios edge

Información Básica

  • ID del Artículo: 2412.06390
  • Título: Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios
  • Autores: Alberto Sinigaglia, Niccolò Turcato, Carli Ruggero, Gian Antonio Susto
  • Clasificación: cs.LG cs.AI
  • Revista de Publicación: IEEE Transactions on Automation Science and Engineering
  • Enlace del Artículo: https://arxiv.org/abs/2412.06390

Resumen

El aprendizaje profundo por refuerzo (DRL) ha atraído considerable atención por su capacidad para aprender políticas complejas en espacios de entrada de alta dimensionalidad. Los algoritmos DRL modernos típicamente dependen de arquitecturas de aprendizaje Q de red dual para aproximar políticas óptimas y superar el sesgo de sobreestimación. Sin embargo, con el auge de los escenarios de computación edge, las preocupaciones de privacidad y las restricciones de hardware estrictas requieren algoritmos eficientes. Este artículo propone Edge Delayed Deep Deterministic Policy Gradient (EdgeD3), un novedoso algoritmo de aprendizaje por refuerzo diseñado específicamente para entornos de computación edge. EdgeD3 reduce significativamente el tiempo de GPU (25%) y el uso de memoria computacional (30%), mientras que logra consistentemente un rendimiento igual o superior a los algoritmos de última generación en múltiples benchmarks y tareas prácticas.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema del sesgo de sobreestimación: Los algoritmos tradicionales de aprendizaje Q presentan sesgo de sobreestimación que deteriora el proceso de aprendizaje y reduce el rendimiento de la política
  2. Limitaciones de recursos en computación edge: Los dispositivos edge tienen recursos computacionales y de memoria limitados, y los métodos existentes de múltiples redes Q (como TD3, SAC) tienen un costo computacional excesivo
  3. Requisitos de protección de privacidad: Los escenarios edge requieren aprendizaje en dispositivo, evitando transmisión a la nube y protegiendo la privacidad de datos

Importancia de la Investigación

  • La computación edge tiene aplicaciones generalizadas en conducción autónoma, manufactura inteligente, medicina inteligente y otros campos
  • Los algoritmos existentes (TD3, SAC, etc.) utilizan hasta 10 redes Q, con sobrecarga de memoria y computación 10 veces mayor que el algoritmo original
  • Los dispositivos edge necesitan lograr aprendizaje eficiente bajo recursos limitados

Limitaciones de Métodos Existentes

  • TD3/SAC: Utilizan mecanismo de red Q dual, aumentando el uso de memoria en 29-31% y el tiempo de computación en más del 30%
  • Algoritmos recientes (TQC, REDQ, etc.): Utilizan 5-10 redes Q, con sobrecarga computacional aún mayor, no adecuados para escenarios edge
  • Mecanismo CDQ: Carece de control fino sobre el equilibrio de sesgo

Contribuciones Principales

  1. Nueva función de pérdida Expectile: Propone una función de pérdida basada en cuantiles esperados que controla el sesgo de sobreestimación utilizando solo una única red Q
  2. Algoritmo EdgeD3: Algoritmo eficiente que combina pérdida Expectile, actualización retrasada y técnicas de suavizado de objetivos
  3. Análisis teórico: Demuestra la monotonía y convergencia asintótica de la pérdida Expectile
  4. Verificación experimental exhaustiva: Valida el rendimiento del algoritmo en entornos de simulación Mujoco y tareas reales de navegación robótica
  5. Mejora en eficiencia de recursos: Reduce el tiempo de GPU en 25% comparado con DDPG, y reduce el uso de computación y memoria en 30% comparado con métodos SOTA

Explicación Detallada del Método

Definición de Tarea

Se estudia el proceso de decisión de Markov (MDP) para control continuo, definido como una tupla de cinco elementos (S,A,P,R,γ):

  • S: Espacio de estado continuo
  • A: Espacio de acción continuo
  • P: Función de densidad de probabilidad de transición de estado
  • R: Función de recompensa r: S×A×S → ℝ
  • γ: Factor de descuento

El objetivo es aprender la política μ_φ(a_t|s_t) que maximiza la recompensa acumulada esperada.

Innovaciones Técnicas Principales

1. Función de Pérdida Expectile

Versión asimétrica de la pérdida MSE tradicional:

L_{α,β}(f_θ(x), y) = 1/Z {
    α(y - f_θ(x))² si f_θ(x) < y
    β(y - f_θ(x))² en otro caso
}

donde Z = max(α,β) es la constante de normalización.

Propiedades clave:

  • α = β: Se degrada a MSE estándar
  • α < β: Tiende a subestimar, contrarrestando la sobreestimación del aprendizaje Q
  • α > β: Tiende a sobreestimar

2. Garantías Teóricas

Teorema 1 (Monotonía de Expectile): La función Expectile es monótonamente no decreciente respecto a τ, es decir, τ₁ ≤ τ₂ ⟹ t₁ ≤ t₂

Corolario 1.1 (Convergencia Asintótica): Mediante una función de decaimiento λ(t), se puede garantizar que el algoritmo converge finalmente a una estimación insesgada:

min(α_{t+1}, β_{t+1}) ← min(α_t, β_t) + |α_t - β_t| · λ(t)

3. Arquitectura del Algoritmo EdgeD3

Versión base EdgeDDPG:

  • Actualización del crítico: Reemplaza MSE con pérdida Expectile
  • Actualización del actor: Gradiente de política determinista estándar

Versión completa EdgeD3:

  • Actualización de política retrasada: Actualiza la red del actor cada k pasos
  • Suavizado de objetivo: Añade ruido en la estimación del objetivo
  • Pérdida Expectile: Controla el sesgo de estimación
# Fórmula de actualización clave
y = E_{ε~p(x)}[r + γQ_{θ'}(s', ε + μ_{φ'}(s'))]
∇L(θ) = ∇_θ N^{-1} Σ L_{α,β}(y, Q_θ(s,a))

Suavizado del Paisaje de Optimización

Adopta inyección de ruido en el objetivo en lugar de penalización de gradiente:

  • Método tradicional: L(θ) = MSE + ξ||∇_a Q(s,a)||² (computacionalmente costoso)
  • Método de este artículo: Añade ruido en el objetivo, equivalente a penalización de gradiente pero computacionalmente eficiente

Configuración Experimental

Entorno de Simulación

  • Conjunto de datos: Suite de simulación física Mujoco
  • Tareas: Ant, Reacher, Hopper, Walker2d, Humanoid, HalfCheetah, Swimmer
  • Evaluación: Evaluación cada 5000 pasos en 10 episodios, 10 semillas aleatorias

Experimentos con Robot Real

  • Plataforma: TurtleBot personalizado + Raspberry Pi3B + Lidar 2D
  • Tareas: Navegación en pasillo, navegación en entorno no estructurado
  • Estado: Escaneo láser de 16 dimensiones + velocidad lineal + velocidad angular
  • Acción: Control continuo bidimensional (velocidad lineal, velocidad angular)

Métodos de Comparación

  • DDPG: Gradiente de política determinista profunda base
  • TD3: Twin Delayed DDPG
  • SAC: Soft Actor-Critic
  • PPO: Proximal Policy Optimization

Métricas de Evaluación

  • Rendimiento: Recompensa acumulada
  • Uso de recursos: Tiempo de GPU, ocupación de memoria
  • Eficiencia de entrenamiento: Rendimiento bajo presupuesto de tiempo idéntico

Resultados Experimentales

Comparación de Uso de Recursos

Uso de memoria (relativo a EdgeD3):

  • DDPG: -1.2%
  • TD3: +29.3%
  • SAC: +31.1%

Comparación de tiempo de GPU:

  • EdgeD3: 214.0±7.1ms
  • DDPG: 285.5±7.4ms (-25.0%)
  • TD3: 308.2±2.7ms (-30.5%)
  • SAC(retrasado): 320.9±3.6ms (-33.3%)
  • SAC(original): 492.9±2.9ms (-56.8%)

Comparación de Rendimiento

Mejor rendimiento en entorno de simulación (presupuesto de tiempo idéntico):

EntornoEdgeD3DDPGSACTD3
Ant-v34350.04990.552739.814208.10
Hopper-v33388.442222.853148.892786.22
Walker2d-v33788.071601.162974.403580.83
HalfCheetah10645.810309.08937.39677.5

EdgeD3 logra el mejor rendimiento en 5 de 7 tareas, y se clasifica entre los dos primeros en las tareas restantes.

Resultados con Robot Real

  • Navegación en pasillo: EdgeD3 muestra el mejor rendimiento desde el inicio del entrenamiento
  • Navegación no estructurada: EdgeD3 supera otros métodos después de 30 minutos
  • Frecuencia de actualización: EdgeD3(8Hz) > TD3(5.9Hz) > DDPG(5.8Hz) > SAC(3.3Hz)

Experimentos de Ablación

Prueba el impacto de diferentes combinaciones de α,β:

  • Swimmer: α>β (tendencia a sobreestimar) funciona mejor
  • Ant: α<β (tendencia a subestimar) funciona mejor
  • Demuestra la flexibilidad superior de la pérdida Expectile sobre el mecanismo CDQ fijo

Trabajo Relacionado

Mitigación del Sesgo de Estimación

  • Double Q-learning: Utiliza dos estimadores independientes
  • Métodos de conjunto: TQC (5 redes), REDQ (10 redes), RAC (10 redes)
  • Contribución de este artículo: Solución de red única, computacionalmente eficiente

Aprendizaje por Refuerzo en Edge

  • Compresión de modelos: Cuantización, poda y otras técnicas
  • Optimización de algoritmos: Este artículo es el primero en resolver el problema de eficiencia del RL en edge desde la perspectiva algorítmica

Control Continuo

  • Métodos Actor-Critic: DDPG, TD3, SAC, etc.
  • Gradiente de política: Optimización directa de parámetros de política

Conclusiones y Discusión

Conclusiones Principales

  1. Mejora de eficiencia: EdgeD3 reduce el 30% de computación y memoria comparado con métodos SOTA
  2. Mantenimiento de rendimiento: Logra o supera métodos de última generación en la mayoría de tareas
  3. Practicidad: Valida la viabilidad del despliegue en edge con robots reales
  4. Fundamento teórico: Proporciona análisis teórico completo y garantías de convergencia

Limitaciones

  1. Tareas complejas: Aún hay espacio para mejora en tareas ultra-complejas como Humanoid
  2. Hiperparámetros: Aunque α=1,β=2 son buenos valores iniciales, aún requieren ajuste específico de tarea
  3. Dependencia del entorno: Diferentes entornos pueden requerir diferentes configuraciones de α,β

Direcciones Futuras

  1. Hiperparámetros adaptativos: Ajuste en línea de parámetros α,β
  2. Otras funciones de pérdida: Exploración de pérdida de cuantiles, pérdida Huber desequilibrada, etc.
  3. Combinación con compresión de modelos: Integración con técnicas de cuantización y poda

Evaluación Profunda

Fortalezas

  1. Innovación fuerte: Primera introducción de regresión Expectile en RL, resolviendo el sesgo de sobreestimación
  2. Alto valor práctico: Resuelve directamente el problema de limitaciones de recursos en computación edge
  3. Teoría completa: Proporciona garantías teóricas de monotonía y convergencia
  4. Experimentación exhaustiva: Validación dual con simulación y robot real
  5. Escritura clara: Descripción detallada del algoritmo, alta reproducibilidad

Insuficiencias

  1. Rango de aplicabilidad: Principalmente enfocado en control continuo, aplicabilidad en espacios de acción discretos desconocida
  2. Sensibilidad de hiperparámetros: Requiere ajuste de α,β para diferentes tareas, falta método automatizado
  3. Comparación incompleta: Carece de comparación exhaustiva con métodos ensemble recientes (como métodos de modelo de energía más recientes)

Impacto

  1. Contribución académica: Abre nueva dirección para RL en edge, combinando teoría y práctica
  2. Aplicación industrial: Directamente aplicable a despliegue práctico en recursos limitados
  3. Reproducibilidad: Proporciona algoritmo completo y configuración de hiperparámetros

Escenarios Aplicables

  1. Dispositivos edge: Robots móviles, drones, dispositivos IoT
  2. Control en tiempo real: Tareas de control que requieren respuesta de baja latencia
  3. Protección de privacidad: Escenarios donde datos no pueden transmitirse a la nube
  4. Recursos limitados: Entornos con restricciones estrictas en CPU, memoria y consumo de energía

Referencias

El artículo cita 56 referencias importantes en los campos de aprendizaje por refuerzo, control continuo y computación edge, cubriendo un stack tecnológico completo desde fundamentos teóricos hasta aplicaciones prácticas, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones destacadas en innovación teórica, verificación experimental y valor práctico. El algoritmo EdgeD3 resuelve ingeniosamente el problema de eficiencia del RL en escenarios de computación edge, con importante valor académico y perspectivas de aplicación.