2025-11-21T07:37:22.920666

Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios

Sinigaglia, Turcato, Carli et al.

Deep Reinforcement Learning is gaining increasing attention thanks to its capability to learn complex policies in high-dimensional settings. Recent advancements utilize a dual-network architecture to learn optimal policies through the Q-learning algorithm. However, this approach has notable drawbacks, such as an overestimation bias that can disrupt the learning process and degrade the performance of the resulting policy. To address this, novel algorithms have been developed that mitigate overestimation bias by employing multiple Q-functions. Edge scenarios, which prioritize privacy, have recently gained prominence. In these settings, limited computational resources pose a significant challenge for complex Machine Learning approaches, making the efficiency of algorithms crucial for their performance. In this work, we introduce a novel Reinforcement Learning algorithm tailored for edge scenarios, called Edge Delayed Deep Deterministic Policy Gradient (EdgeD3). EdgeD3 enhances the Deep Deterministic Policy Gradient (DDPG) algorithm, achieving significantly improved performance with $25\%$ less Graphics Process Unit (GPU) time while maintaining the same memory usage. Additionally, EdgeD3 consistently matches or surpasses the performance of state-of-the-art methods across various benchmarks, all while using $30\%$ fewer computational resources and requiring $30\%$ less memory.

academic

Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios

基本信息

论文ID: 2412.06390
标题: Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios
作者: Alberto Sinigaglia, Niccolò Turcato, Carli Ruggero, Gian Antonio Susto
分类: cs.LG cs.AI
发表期刊: IEEE Transactions on Automation Science and Engineering
论文链接: https://arxiv.org/abs/2412.06390

摘要

深度强化学习(DRL)因其在高维输入空间中学习复杂策略的能力而备受关注。现代DRL算法通常依赖双网络Q学习架构来近似最优策略以克服过估计偏差。然而，随着边缘计算场景的兴起，隐私关注和严格的硬件约束要求高效的算法。本文提出了Edge Delayed Deep Deterministic Policy Gradient (EdgeD3)，这是一种专门为边缘计算环境设计的新型强化学习算法。EdgeD3显著减少了GPU时间(25%)和计算内存使用(30%)，同时在多个基准测试和实际任务中始终达到或超越最先进算法的性能。

研究背景与动机

问题定义

过估计偏差问题: 传统的Q学习算法存在过估计偏差，会破坏学习过程并降低策略性能
边缘计算资源限制: 边缘设备的计算和内存资源有限，现有的多Q网络方法(如TD3、SAC)计算开销过大
隐私保护需求: 边缘场景要求在设备上进行学习，避免云端传输，保护数据隐私

研究重要性

边缘计算在自动驾驶、智能制造、智能医疗等领域应用广泛
现有算法(TD3、SAC等)使用多达10个Q网络，内存和计算开销是原算法的10倍
边缘设备需要在有限资源下实现高效学习

现有方法局限性

TD3/SAC: 使用双Q网络机制，内存使用增加29-31%，计算时间增加30%以上
最新算法(TQC、REDQ等): 使用5-10个Q网络，计算开销更大，不适用于边缘场景
CDQ机制: 缺乏对偏差权衡的精细控制

核心贡献

新型Expectile损失函数: 提出基于期望分位数的损失函数，仅用单个Q网络即可控制过估计偏差
EdgeD3算法: 结合Expectile损失、延迟更新和目标平滑技术的高效算法
理论分析: 证明了Expectile损失的单调性和渐近收敛性
全面实验验证: 在Mujoco仿真环境和真实机器人导航任务上验证算法效果
资源效率提升: 相比DDPG减少25% GPU时间，相比SOTA方法减少30%计算和内存使用

方法详解

任务定义

研究连续控制的马尔可夫决策过程(MDP)，定义为五元组(S,A,P,R,γ)：

S: 连续状态空间
A: 连续动作空间
P: 状态转移概率密度函数
R: 奖励函数 r: S×A×S → ℝ
γ: 折扣因子

目标是学习策略μ_φ(a_t|s_t)最大化期望累积奖励。

核心技术创新

1. Expectile损失函数

传统MSE损失的不对称版本：

L_{α,β}(f_θ(x), y) = 1/Z {
    α(y - f_θ(x))² if f_θ(x) < y
    β(y - f_θ(x))² otherwise
}

其中Z = max(α,β)为归一化常数。

关键性质：

α = β: 退化为标准MSE
α < β: 倾向于低估，对抗Q学习的过估计
α > β: 倾向于过估计

2. 理论保证

定理1(Expectile单调性): Expectile函数关于τ单调非递减，即τ₁ ≤ τ₂ ⟹ t₁ ≤ t₂

推论1.1(渐近收敛): 通过衰减函数λ(t)，可以保证算法最终收敛到无偏估计：

min(α_{t+1}, β_{t+1}) ← min(α_t, β_t) + |α_t - β_t| · λ(t)

3. EdgeD3算法架构

EdgeDDPG基础版本：

评论员更新：使用Expectile损失替代MSE
演员更新：标准确定性策略梯度

EdgeD3完整版本：

延迟策略更新：每k步更新一次演员网络
目标平滑：在目标估计中加入噪声
Expectile损失：控制估计偏差

# 关键更新公式
y = E_{ε~p(x)}[r + γQ_{θ'}(s', ε + μ_{φ'}(s'))]
∇L(θ) = ∇_θ N^{-1} Σ L_{α,β}(y, Q_θ(s,a))

优化景观平滑

采用目标噪声注入替代梯度惩罚：

传统方法: L(θ) = MSE + ξ||∇_a Q(s,a)||²（计算昂贵）
本文方法: 在目标中加入噪声，等价于梯度惩罚但计算高效

实验设置

仿真环境

数据集: Mujoco物理仿真环境套件
任务: Ant, Reacher, Hopper, Walker2d, Humanoid, HalfCheetah, Swimmer
评估: 每5000步评估10个episode，10个随机种子

真实机器人实验

平台: 自制TurtleBot + Raspberry Pi3B + 2D激光雷达
任务: 走廊导航、非结构化环境导航
状态: 16维激光扫描 + 线速度 + 角速度
动作: 2维连续控制(线速度、角速度)

对比方法

DDPG: 基础深度确定性策略梯度
TD3: Twin Delayed DDPG
SAC: Soft Actor-Critic
PPO: Proximal Policy Optimization

评价指标

性能: 累积奖励
资源使用: GPU时间、内存占用
训练效率: 相同时间预算下的性能

实验结果

资源使用对比

内存使用（相对EdgeD3）：

DDPG: -1.2%
TD3: +29.3%
SAC: +31.1%

GPU时间对比：

EdgeD3: 214.0±7.1ms
DDPG: 285.5±7.4ms (-25.0%)
TD3: 308.2±2.7ms (-30.5%)
SAC(延迟): 320.9±3.6ms (-33.3%)
SAC(原始): 492.9±2.9ms (-56.8%)

性能对比

仿真环境最佳性能（相同时间预算）：

环境	EdgeD3	DDPG	SAC	TD3
Ant-v3	4350.04	990.55	2739.81	4208.10
Hopper-v3	3388.44	2222.85	3148.89	2786.22
Walker2d-v3	3788.07	1601.16	2974.40	3580.83
HalfCheetah	10645.8	10309.0	8937.3	9677.5