2025-11-21T07:37:22.920666

Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios

Sinigaglia, Turcato, Carli et al.

Deep Reinforcement Learning is gaining increasing attention thanks to its capability to learn complex policies in high-dimensional settings. Recent advancements utilize a dual-network architecture to learn optimal policies through the Q-learning algorithm. However, this approach has notable drawbacks, such as an overestimation bias that can disrupt the learning process and degrade the performance of the resulting policy. To address this, novel algorithms have been developed that mitigate overestimation bias by employing multiple Q-functions. Edge scenarios, which prioritize privacy, have recently gained prominence. In these settings, limited computational resources pose a significant challenge for complex Machine Learning approaches, making the efficiency of algorithms crucial for their performance. In this work, we introduce a novel Reinforcement Learning algorithm tailored for edge scenarios, called Edge Delayed Deep Deterministic Policy Gradient (EdgeD3). EdgeD3 enhances the Deep Deterministic Policy Gradient (DDPG) algorithm, achieving significantly improved performance with $25\%$ less Graphics Process Unit (GPU) time while maintaining the same memory usage. Additionally, EdgeD3 consistently matches or surpasses the performance of state-of-the-art methods across various benchmarks, all while using $30\%$ fewer computational resources and requiring $30\%$ less memory.

academic

Edge Delayed Deep Deterministic Policy Gradient: controllo continuo efficiente per scenari edge

Informazioni Fondamentali

ID Articolo: 2412.06390
Titolo: Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios
Autori: Alberto Sinigaglia, Niccolò Turcato, Carli Ruggero, Gian Antonio Susto
Classificazione: cs.LG cs.AI
Rivista di Pubblicazione: IEEE Transactions on Automation Science and Engineering
Link Articolo: https://arxiv.org/abs/2412.06390

Riassunto

L'apprendimento per rinforzo profondo (DRL) ha attirato considerevole attenzione grazie alla sua capacità di apprendere strategie complesse in spazi di input ad alta dimensionalità. Gli algoritmi DRL moderni si affidano tipicamente a un'architettura di Q-learning a doppia rete per approssimare la politica ottimale al fine di superare il bias di sovrastima. Tuttavia, con l'emergere di scenari di edge computing, le preoccupazioni relative alla privacy e i severi vincoli hardware richiedono algoritmi efficienti. Questo articolo propone Edge Delayed Deep Deterministic Policy Gradient (EdgeD3), un nuovo algoritmo di apprendimento per rinforzo progettato specificamente per ambienti di edge computing. EdgeD3 riduce significativamente il tempo GPU (25%) e l'utilizzo della memoria di calcolo (30%), mantenendo o superando costantemente le prestazioni degli algoritmi all'avanguardia in molteplici benchmark e compiti pratici.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema del bias di sovrastima: Gli algoritmi tradizionali di Q-learning presentano un bias di sovrastima che compromette il processo di apprendimento e riduce le prestazioni della politica
Limitazioni delle risorse di edge computing: I dispositivi edge hanno risorse computazionali e di memoria limitate, mentre i metodi multi-Q network esistenti (come TD3, SAC) hanno costi computazionali eccessivi
Requisiti di protezione della privacy: Gli scenari edge richiedono l'apprendimento sul dispositivo, evitando la trasmissione al cloud per proteggere la privacy dei dati

Importanza della Ricerca

L'edge computing ha applicazioni diffuse nella guida autonoma, nella produzione intelligente, nella sanità intelligente e in altri settori
Gli algoritmi esistenti (TD3, SAC, ecc.) utilizzano fino a 10 Q-network, con overhead di memoria e calcolo 10 volte superiore all'algoritmo originale
I dispositivi edge necessitano di apprendimento efficiente con risorse limitate

Limitazioni dei Metodi Esistenti

TD3/SAC: Utilizzano meccanismi di doppio Q-network, aumentando l'utilizzo della memoria del 29-31% e il tempo di calcolo di oltre il 30%
Algoritmi più recenti (TQC, REDQ, ecc.): Utilizzano 5-10 Q-network con overhead computazionale ancora maggiore, inadatti agli scenari edge
Meccanismo CDQ: Manca il controllo fine del compromesso di bias

Contributi Fondamentali

Nuova Funzione di Perdita Expectile: Propone una funzione di perdita basata su quantili attesi che controlla il bias di sovrastima utilizzando un singolo Q-network
Algoritmo EdgeD3: Algoritmo efficiente che combina perdita Expectile, aggiornamento ritardato e tecniche di smoothing del target
Analisi Teorica: Dimostra la monotonicità e la convergenza asintotica della perdita Expectile
Verifica Sperimentale Completa: Valida l'algoritmo in ambienti di simulazione Mujoco e in compiti reali di navigazione robotica
Miglioramento dell'Efficienza delle Risorse: Riduce il tempo GPU del 25% rispetto a DDPG e il 30% di calcolo e memoria rispetto ai metodi SOTA

Dettagli del Metodo

Definizione del Compito

Studia processi decisionali di Markov (MDP) per il controllo continuo, definiti come una quintupla (S,A,P,R,γ):

S: spazio di stato continuo
A: spazio di azione continuo
P: funzione di densità di probabilità di transizione di stato
R: funzione di ricompensa r: S×A×S → ℝ
γ: fattore di sconto

L'obiettivo è apprendere una politica μ_φ(a_t|s_t) che massimizzi la ricompensa cumulativa attesa.

Innovazioni Tecniche Fondamentali

1. Funzione di Perdita Expectile

Versione asimmetrica della perdita MSE tradizionale:

L_{α,β}(f_θ(x), y) = 1/Z {
    α(y - f_θ(x))² se f_θ(x) < y
    β(y - f_θ(x))² altrimenti
}

dove Z = max(α,β) è la costante di normalizzazione.

Proprietà Chiave:

α = β: degenera in MSE standard
α < β: tende a sottostimare, contrastando la sovrastima del Q-learning
α > β: tende a sovrastimare

2. Garanzie Teoriche

Teorema 1 (Monotonicità Expectile): La funzione Expectile è monotona non decrescente rispetto a τ, cioè τ₁ ≤ τ₂ ⟹ t₁ ≤ t₂

Corollario 1.1 (Convergenza Asintotica): Attraverso una funzione di decadimento λ(t), è possibile garantire che l'algoritmo converga infine a una stima imparziale:

min(α_{t+1}, β_{t+1}) ← min(α_t, β_t) + |α_t - β_t| · λ(t)

3. Architettura dell'Algoritmo EdgeD3

Versione Base EdgeDDPG:

Aggiornamento del critico: sostituisce MSE con perdita Expectile
Aggiornamento dell'attore: gradiente di politica deterministica standard

Versione Completa EdgeD3:

Aggiornamento della politica ritardato: aggiorna la rete dell'attore ogni k step
Smoothing del target: aggiunge rumore nella stima del target
Perdita Expectile: controlla il bias di stima

# Formula di aggiornamento chiave
y = E_{ε~p(x)}[r + γQ_{θ'}(s', ε + μ_{φ'}(s'))]
∇L(θ) = ∇_θ N^{-1} Σ L_{α,β}(y, Q_θ(s,a))

Smoothing del Paesaggio di Ottimizzazione

Adotta iniezione di rumore nel target al posto della penalità del gradiente:

Metodo tradizionale: L(θ) = MSE + ξ||∇_a Q(s,a)||² (computazionalmente costoso)
Metodo di questo articolo: aggiunge rumore nel target, equivalente alla penalità del gradiente ma computazionalmente efficiente

Configurazione Sperimentale

Ambienti di Simulazione

Dataset: Suite di simulazione fisica Mujoco
Compiti: Ant, Reacher, Hopper, Walker2d, Humanoid, HalfCheetah, Swimmer
Valutazione: Valuta 10 episodi ogni 5000 step, 10 semi casuali

Esperimenti con Robot Reali

Piattaforma: TurtleBot personalizzato + Raspberry Pi3B + LIDAR 2D
Compiti: Navigazione in corridoio, navigazione in ambiente non strutturato
Stato: Scansione laser 16-dimensionale + velocità lineare + velocità angolare
Azione: Controllo continuo 2-dimensionale (velocità lineare, velocità angolare)

Metodi di Confronto

DDPG: Gradiente di Politica Deterministica Profonda di base
TD3: Twin Delayed DDPG
SAC: Soft Actor-Critic
PPO: Proximal Policy Optimization

Metriche di Valutazione

Prestazioni: Ricompensa cumulativa
Utilizzo delle Risorse: Tempo GPU, occupazione di memoria
Efficienza di Addestramento: Prestazioni con lo stesso budget di tempo

Risultati Sperimentali

Confronto dell'Utilizzo delle Risorse

Utilizzo della Memoria (relativo a EdgeD3):

DDPG: -1.2%
TD3: +29.3%
SAC: +31.1%

Confronto del Tempo GPU:

EdgeD3: 214.0±7.1ms
DDPG: 285.5±7.4ms (-25.0%)
TD3: 308.2±2.7ms (-30.5%)
SAC(ritardato): 320.9±3.6ms (-33.3%)
SAC(originale): 492.9±2.9ms (-56.8%)

Confronto delle Prestazioni

Migliore Prestazione in Ambienti di Simulazione (stesso budget di tempo):

Ambiente	EdgeD3	DDPG	SAC	TD3
Ant-v3	4350.04	990.55	2739.81	4208.10
Hopper-v3	3388.44	2222.85	3148.89	2786.22
Walker2d-v3	3788.07	1601.16	2974.40	3580.83
HalfCheetah	10645.8	10309.0	8937.3	9677.5

EdgeD3 raggiunge le migliori prestazioni in 5 dei 7 compiti, posizionandosi tra i primi due nei compiti rimanenti.

Risultati con Robot Reali

Navigazione in corridoio: EdgeD3 mostra le migliori prestazioni fin dall'inizio dell'addestramento
Navigazione non strutturata: EdgeD3 supera gli altri metodi dopo 30 minuti
Frequenza di Aggiornamento: EdgeD3(8Hz) > TD3(5.9Hz) > DDPG(5.8Hz) > SAC(3.3Hz)

Esperimenti di Ablazione

Testa l'impatto di diverse combinazioni di α,β:

Swimmer: α>β (tendenza alla sovrastima) funziona meglio
Ant: α<β (tendenza alla sottostima) funziona meglio
Dimostra la flessibilità della perdita Expectile rispetto al meccanismo CDQ fisso

Lavori Correlati

Mitigazione del Bias di Stima

Double Q-learning: Utilizza due stimatori indipendenti
Metodi Ensemble: TQC(5 network), REDQ(10 network), RAC(10 network)
Contributo di questo articolo: Soluzione a singola rete, computazionalmente efficiente

Apprendimento per Rinforzo su Edge Computing

Compressione del Modello: Quantizzazione, potatura e altre tecniche
Ottimizzazione dell'Algoritmo: Questo articolo affronta per la prima volta l'efficienza dell'RL su edge a livello algoritmico

Controllo Continuo

Metodi Actor-Critic: DDPG, TD3, SAC, ecc.
Gradiente di Politica: Ottimizzazione diretta dei parametri della politica

Conclusioni e Discussione

Conclusioni Principali

Miglioramento dell'Efficienza: EdgeD3 riduce il 30% di calcolo e memoria rispetto ai metodi SOTA
Mantenimento delle Prestazioni: Raggiunge o supera i metodi all'avanguardia nella maggior parte dei compiti
Praticità: Verifica la fattibilità del deployment su edge con robot reali
Base Teorica: Fornisce analisi teorica completa e garanzie di convergenza

Limitazioni

Compiti Complessi: C'è ancora spazio per miglioramenti in compiti ultra-complessi come Humanoid
Iperparametri: Sebbene α=1,β=2 siano buoni valori iniziali, è ancora necessaria la sintonizzazione dipendente dal compito
Dipendenza dall'Ambiente: Diversi ambienti potrebbero richiedere diverse impostazioni di α,β

Direzioni Future

Iperparametri Adattivi: Regolazione online dei parametri α,β
Altre Funzioni di Perdita: Esplorazione di perdite quantili, perdite Huber sbilanciate, ecc.
Combinazione con Compressione del Modello: Integrazione con tecniche di quantizzazione e potatura

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Primo a introdurre la regressione Expectile nell'RL, risolvendo il bias di sovrastima
Alto Valore Pratico: Risolve direttamente i problemi di limitazione delle risorse nell'edge computing
Completezza Teorica: Fornisce garanzie teoriche di monotonicità e convergenza
Verifica Sperimentale Completa: Doppia validazione con simulazione e robot reali
Chiarezza della Scrittura: Descrizione algoritmica dettagliata, forte riproducibilità

Insufficienze

Ambito di Applicabilità: Principalmente per il controllo continuo, applicabilità a spazi di azione discreta sconosciuta
Sensibilità agli Iperparametri: Diversi compiti richiedono l'aggiustamento di α,β, mancanza di metodi automatizzati
Confronti Incompleti: Mancano confronti con i metodi ensemble più recenti (come i metodi di modelli energetici più recenti)

Impatto

Contributo Accademico: Apre nuove direzioni per l'RL su edge, combinando teoria e pratica
Applicazione Industriale: Direttamente applicabile al deployment pratico con risorse limitate
Riproducibilità: Fornisce algoritmo completo e impostazioni di iperparametri

Scenari Applicabili

Dispositivi Edge: Robot mobili, droni, dispositivi IoT
Controllo in Tempo Reale: Compiti di controllo che richiedono risposte a bassa latenza
Protezione della Privacy: Scenari dove i dati non possono essere trasmessi al cloud
Ambiente Limitato in Risorse: Ambienti con severi vincoli su CPU, memoria e consumo energetico

Riferimenti Bibliografici

L'articolo cita 56 importanti riferimenti nei campi dell'apprendimento per rinforzo, controllo continuo e edge computing, coprendo uno stack tecnologico completo dalle fondamenta teoriche alle applicazioni pratiche, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità con contributi eccezionali in innovazione teorica, verifica sperimentale e valore pratico. L'algoritmo EdgeD3 risolve elegantemente il problema dell'efficienza dell'RL negli scenari di edge computing, con significativo valore accademico e prospettive di applicazione.