2025-11-21T07:37:22.920666

Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios

Sinigaglia, Turcato, Carli et al.

Deep Reinforcement Learning is gaining increasing attention thanks to its capability to learn complex policies in high-dimensional settings. Recent advancements utilize a dual-network architecture to learn optimal policies through the Q-learning algorithm. However, this approach has notable drawbacks, such as an overestimation bias that can disrupt the learning process and degrade the performance of the resulting policy. To address this, novel algorithms have been developed that mitigate overestimation bias by employing multiple Q-functions. Edge scenarios, which prioritize privacy, have recently gained prominence. In these settings, limited computational resources pose a significant challenge for complex Machine Learning approaches, making the efficiency of algorithms crucial for their performance. In this work, we introduce a novel Reinforcement Learning algorithm tailored for edge scenarios, called Edge Delayed Deep Deterministic Policy Gradient (EdgeD3). EdgeD3 enhances the Deep Deterministic Policy Gradient (DDPG) algorithm, achieving significantly improved performance with $25\%$ less Graphics Process Unit (GPU) time while maintaining the same memory usage. Additionally, EdgeD3 consistently matches or surpasses the performance of state-of-the-art methods across various benchmarks, all while using $30\%$ fewer computational resources and requiring $30\%$ less memory.

academic

Gradiente de Política Determinista Profunda Retrasada en Edge: control continuo eficiente para escenarios edge

Información Básica

ID del Artículo: 2412.06390
Título: Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios
Autores: Alberto Sinigaglia, Niccolò Turcato, Carli Ruggero, Gian Antonio Susto
Clasificación: cs.LG cs.AI
Revista de Publicación: IEEE Transactions on Automation Science and Engineering
Enlace del Artículo: https://arxiv.org/abs/2412.06390

Resumen

El aprendizaje profundo por refuerzo (DRL) ha atraído considerable atención por su capacidad para aprender políticas complejas en espacios de entrada de alta dimensionalidad. Los algoritmos DRL modernos típicamente dependen de arquitecturas de aprendizaje Q de red dual para aproximar políticas óptimas y superar el sesgo de sobreestimación. Sin embargo, con el auge de los escenarios de computación edge, las preocupaciones de privacidad y las restricciones de hardware estrictas requieren algoritmos eficientes. Este artículo propone Edge Delayed Deep Deterministic Policy Gradient (EdgeD3), un novedoso algoritmo de aprendizaje por refuerzo diseñado específicamente para entornos de computación edge. EdgeD3 reduce significativamente el tiempo de GPU (25%) y el uso de memoria computacional (30%), mientras que logra consistentemente un rendimiento igual o superior a los algoritmos de última generación en múltiples benchmarks y tareas prácticas.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema del sesgo de sobreestimación: Los algoritmos tradicionales de aprendizaje Q presentan sesgo de sobreestimación que deteriora el proceso de aprendizaje y reduce el rendimiento de la política
Limitaciones de recursos en computación edge: Los dispositivos edge tienen recursos computacionales y de memoria limitados, y los métodos existentes de múltiples redes Q (como TD3, SAC) tienen un costo computacional excesivo
Requisitos de protección de privacidad: Los escenarios edge requieren aprendizaje en dispositivo, evitando transmisión a la nube y protegiendo la privacidad de datos

Importancia de la Investigación

La computación edge tiene aplicaciones generalizadas en conducción autónoma, manufactura inteligente, medicina inteligente y otros campos
Los algoritmos existentes (TD3, SAC, etc.) utilizan hasta 10 redes Q, con sobrecarga de memoria y computación 10 veces mayor que el algoritmo original
Los dispositivos edge necesitan lograr aprendizaje eficiente bajo recursos limitados

Limitaciones de Métodos Existentes

TD3/SAC: Utilizan mecanismo de red Q dual, aumentando el uso de memoria en 29-31% y el tiempo de computación en más del 30%
Algoritmos recientes (TQC, REDQ, etc.): Utilizan 5-10 redes Q, con sobrecarga computacional aún mayor, no adecuados para escenarios edge
Mecanismo CDQ: Carece de control fino sobre el equilibrio de sesgo

Contribuciones Principales

Nueva función de pérdida Expectile: Propone una función de pérdida basada en cuantiles esperados que controla el sesgo de sobreestimación utilizando solo una única red Q
Algoritmo EdgeD3: Algoritmo eficiente que combina pérdida Expectile, actualización retrasada y técnicas de suavizado de objetivos
Análisis teórico: Demuestra la monotonía y convergencia asintótica de la pérdida Expectile
Verificación experimental exhaustiva: Valida el rendimiento del algoritmo en entornos de simulación Mujoco y tareas reales de navegación robótica
Mejora en eficiencia de recursos: Reduce el tiempo de GPU en 25% comparado con DDPG, y reduce el uso de computación y memoria en 30% comparado con métodos SOTA

Explicación Detallada del Método

Definición de Tarea

Se estudia el proceso de decisión de Markov (MDP) para control continuo, definido como una tupla de cinco elementos (S,A,P,R,γ):

S: Espacio de estado continuo
A: Espacio de acción continuo
P: Función de densidad de probabilidad de transición de estado
R: Función de recompensa r: S×A×S → ℝ
γ: Factor de descuento

El objetivo es aprender la política μ_φ(a_t|s_t) que maximiza la recompensa acumulada esperada.

Innovaciones Técnicas Principales

1. Función de Pérdida Expectile

Versión asimétrica de la pérdida MSE tradicional:

L_{α,β}(f_θ(x), y) = 1/Z {
    α(y - f_θ(x))² si f_θ(x) < y
    β(y - f_θ(x))² en otro caso
}

donde Z = max(α,β) es la constante de normalización.

Propiedades clave:

α = β: Se degrada a MSE estándar
α < β: Tiende a subestimar, contrarrestando la sobreestimación del aprendizaje Q
α > β: Tiende a sobreestimar

2. Garantías Teóricas

Teorema 1 (Monotonía de Expectile): La función Expectile es monótonamente no decreciente respecto a τ, es decir, τ₁ ≤ τ₂ ⟹ t₁ ≤ t₂

Corolario 1.1 (Convergencia Asintótica): Mediante una función de decaimiento λ(t), se puede garantizar que el algoritmo converge finalmente a una estimación insesgada:

min(α_{t+1}, β_{t+1}) ← min(α_t, β_t) + |α_t - β_t| · λ(t)

3. Arquitectura del Algoritmo EdgeD3

Versión base EdgeDDPG:

Actualización del crítico: Reemplaza MSE con pérdida Expectile
Actualización del actor: Gradiente de política determinista estándar

Versión completa EdgeD3:

Actualización de política retrasada: Actualiza la red del actor cada k pasos
Suavizado de objetivo: Añade ruido en la estimación del objetivo
Pérdida Expectile: Controla el sesgo de estimación

# Fórmula de actualización clave
y = E_{ε~p(x)}[r + γQ_{θ'}(s', ε + μ_{φ'}(s'))]
∇L(θ) = ∇_θ N^{-1} Σ L_{α,β}(y, Q_θ(s,a))

Suavizado del Paisaje de Optimización

Adopta inyección de ruido en el objetivo en lugar de penalización de gradiente:

Método tradicional: L(θ) = MSE + ξ||∇_a Q(s,a)||² (computacionalmente costoso)
Método de este artículo: Añade ruido en el objetivo, equivalente a penalización de gradiente pero computacionalmente eficiente

Configuración Experimental

Entorno de Simulación

Conjunto de datos: Suite de simulación física Mujoco
Tareas: Ant, Reacher, Hopper, Walker2d, Humanoid, HalfCheetah, Swimmer
Evaluación: Evaluación cada 5000 pasos en 10 episodios, 10 semillas aleatorias

Experimentos con Robot Real

Plataforma: TurtleBot personalizado + Raspberry Pi3B + Lidar 2D
Tareas: Navegación en pasillo, navegación en entorno no estructurado
Estado: Escaneo láser de 16 dimensiones + velocidad lineal + velocidad angular
Acción: Control continuo bidimensional (velocidad lineal, velocidad angular)

Métodos de Comparación

DDPG: Gradiente de política determinista profunda base
TD3: Twin Delayed DDPG
SAC: Soft Actor-Critic
PPO: Proximal Policy Optimization

Métricas de Evaluación

Rendimiento: Recompensa acumulada
Uso de recursos: Tiempo de GPU, ocupación de memoria
Eficiencia de entrenamiento: Rendimiento bajo presupuesto de tiempo idéntico

Resultados Experimentales

Comparación de Uso de Recursos

Uso de memoria (relativo a EdgeD3):

DDPG: -1.2%
TD3: +29.3%
SAC: +31.1%

Comparación de tiempo de GPU:

EdgeD3: 214.0±7.1ms
DDPG: 285.5±7.4ms (-25.0%)
TD3: 308.2±2.7ms (-30.5%)
SAC(retrasado): 320.9±3.6ms (-33.3%)
SAC(original): 492.9±2.9ms (-56.8%)

Comparación de Rendimiento

Mejor rendimiento en entorno de simulación (presupuesto de tiempo idéntico):

Entorno	EdgeD3	DDPG	SAC	TD3
Ant-v3	4350.04	990.55	2739.81	4208.10
Hopper-v3	3388.44	2222.85	3148.89	2786.22
Walker2d-v3	3788.07	1601.16	2974.40	3580.83
HalfCheetah	10645.8	10309.0	8937.3	9677.5

EdgeD3 logra el mejor rendimiento en 5 de 7 tareas, y se clasifica entre los dos primeros en las tareas restantes.

Resultados con Robot Real

Navegación en pasillo: EdgeD3 muestra el mejor rendimiento desde el inicio del entrenamiento
Navegación no estructurada: EdgeD3 supera otros métodos después de 30 minutos
Frecuencia de actualización: EdgeD3(8Hz) > TD3(5.9Hz) > DDPG(5.8Hz) > SAC(3.3Hz)

Experimentos de Ablación

Prueba el impacto de diferentes combinaciones de α,β:

Swimmer: α>β (tendencia a sobreestimar) funciona mejor
Ant: α<β (tendencia a subestimar) funciona mejor
Demuestra la flexibilidad superior de la pérdida Expectile sobre el mecanismo CDQ fijo

Trabajo Relacionado

Mitigación del Sesgo de Estimación

Double Q-learning: Utiliza dos estimadores independientes
Métodos de conjunto: TQC (5 redes), REDQ (10 redes), RAC (10 redes)
Contribución de este artículo: Solución de red única, computacionalmente eficiente

Aprendizaje por Refuerzo en Edge

Compresión de modelos: Cuantización, poda y otras técnicas
Optimización de algoritmos: Este artículo es el primero en resolver el problema de eficiencia del RL en edge desde la perspectiva algorítmica

Control Continuo

Métodos Actor-Critic: DDPG, TD3, SAC, etc.
Gradiente de política: Optimización directa de parámetros de política

Conclusiones y Discusión

Conclusiones Principales

Mejora de eficiencia: EdgeD3 reduce el 30% de computación y memoria comparado con métodos SOTA
Mantenimiento de rendimiento: Logra o supera métodos de última generación en la mayoría de tareas
Practicidad: Valida la viabilidad del despliegue en edge con robots reales
Fundamento teórico: Proporciona análisis teórico completo y garantías de convergencia

Limitaciones

Tareas complejas: Aún hay espacio para mejora en tareas ultra-complejas como Humanoid
Hiperparámetros: Aunque α=1,β=2 son buenos valores iniciales, aún requieren ajuste específico de tarea
Dependencia del entorno: Diferentes entornos pueden requerir diferentes configuraciones de α,β

Direcciones Futuras

Hiperparámetros adaptativos: Ajuste en línea de parámetros α,β
Otras funciones de pérdida: Exploración de pérdida de cuantiles, pérdida Huber desequilibrada, etc.
Combinación con compresión de modelos: Integración con técnicas de cuantización y poda

Evaluación Profunda

Fortalezas

Innovación fuerte: Primera introducción de regresión Expectile en RL, resolviendo el sesgo de sobreestimación
Alto valor práctico: Resuelve directamente el problema de limitaciones de recursos en computación edge
Teoría completa: Proporciona garantías teóricas de monotonía y convergencia
Experimentación exhaustiva: Validación dual con simulación y robot real
Escritura clara: Descripción detallada del algoritmo, alta reproducibilidad

Insuficiencias

Rango de aplicabilidad: Principalmente enfocado en control continuo, aplicabilidad en espacios de acción discretos desconocida
Sensibilidad de hiperparámetros: Requiere ajuste de α,β para diferentes tareas, falta método automatizado
Comparación incompleta: Carece de comparación exhaustiva con métodos ensemble recientes (como métodos de modelo de energía más recientes)

Impacto

Contribución académica: Abre nueva dirección para RL en edge, combinando teoría y práctica
Aplicación industrial: Directamente aplicable a despliegue práctico en recursos limitados
Reproducibilidad: Proporciona algoritmo completo y configuración de hiperparámetros

Escenarios Aplicables

Dispositivos edge: Robots móviles, drones, dispositivos IoT
Control en tiempo real: Tareas de control que requieren respuesta de baja latencia
Protección de privacidad: Escenarios donde datos no pueden transmitirse a la nube
Recursos limitados: Entornos con restricciones estrictas en CPU, memoria y consumo de energía

Referencias

El artículo cita 56 referencias importantes en los campos de aprendizaje por refuerzo, control continuo y computación edge, cubriendo un stack tecnológico completo desde fundamentos teóricos hasta aplicaciones prácticas, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones destacadas en innovación teórica, verificación experimental y valor práctico. El algoritmo EdgeD3 resuelve ingeniosamente el problema de eficiencia del RL en escenarios de computación edge, con importante valor académico y perspectivas de aplicación.