2025-11-21T07:37:22.920666

Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios

Sinigaglia, Turcato, Carli et al.
Deep Reinforcement Learning is gaining increasing attention thanks to its capability to learn complex policies in high-dimensional settings. Recent advancements utilize a dual-network architecture to learn optimal policies through the Q-learning algorithm. However, this approach has notable drawbacks, such as an overestimation bias that can disrupt the learning process and degrade the performance of the resulting policy. To address this, novel algorithms have been developed that mitigate overestimation bias by employing multiple Q-functions. Edge scenarios, which prioritize privacy, have recently gained prominence. In these settings, limited computational resources pose a significant challenge for complex Machine Learning approaches, making the efficiency of algorithms crucial for their performance. In this work, we introduce a novel Reinforcement Learning algorithm tailored for edge scenarios, called Edge Delayed Deep Deterministic Policy Gradient (EdgeD3). EdgeD3 enhances the Deep Deterministic Policy Gradient (DDPG) algorithm, achieving significantly improved performance with $25\%$ less Graphics Process Unit (GPU) time while maintaining the same memory usage. Additionally, EdgeD3 consistently matches or surpasses the performance of state-of-the-art methods across various benchmarks, all while using $30\%$ fewer computational resources and requiring $30\%$ less memory.
academic

Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios

基本信息

  • 论文ID: 2412.06390
  • 标题: Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios
  • 作者: Alberto Sinigaglia, Niccolò Turcato, Carli Ruggero, Gian Antonio Susto
  • 分类: cs.LG cs.AI
  • 发表期刊: IEEE Transactions on Automation Science and Engineering
  • 论文链接: https://arxiv.org/abs/2412.06390

摘要

深度强化学习(DRL)因其在高维输入空间中学习复杂策略的能力而备受关注。现代DRL算法通常依赖双网络Q学习架构来近似最优策略以克服过估计偏差。然而,随着边缘计算场景的兴起,隐私关注和严格的硬件约束要求高效的算法。本文提出了Edge Delayed Deep Deterministic Policy Gradient (EdgeD3),这是一种专门为边缘计算环境设计的新型强化学习算法。EdgeD3显著减少了GPU时间(25%)和计算内存使用(30%),同时在多个基准测试和实际任务中始终达到或超越最先进算法的性能。

研究背景与动机

问题定义

  1. 过估计偏差问题: 传统的Q学习算法存在过估计偏差,会破坏学习过程并降低策略性能
  2. 边缘计算资源限制: 边缘设备的计算和内存资源有限,现有的多Q网络方法(如TD3、SAC)计算开销过大
  3. 隐私保护需求: 边缘场景要求在设备上进行学习,避免云端传输,保护数据隐私

研究重要性

  • 边缘计算在自动驾驶、智能制造、智能医疗等领域应用广泛
  • 现有算法(TD3、SAC等)使用多达10个Q网络,内存和计算开销是原算法的10倍
  • 边缘设备需要在有限资源下实现高效学习

现有方法局限性

  • TD3/SAC: 使用双Q网络机制,内存使用增加29-31%,计算时间增加30%以上
  • 最新算法(TQC、REDQ等): 使用5-10个Q网络,计算开销更大,不适用于边缘场景
  • CDQ机制: 缺乏对偏差权衡的精细控制

核心贡献

  1. 新型Expectile损失函数: 提出基于期望分位数的损失函数,仅用单个Q网络即可控制过估计偏差
  2. EdgeD3算法: 结合Expectile损失、延迟更新和目标平滑技术的高效算法
  3. 理论分析: 证明了Expectile损失的单调性和渐近收敛性
  4. 全面实验验证: 在Mujoco仿真环境和真实机器人导航任务上验证算法效果
  5. 资源效率提升: 相比DDPG减少25% GPU时间,相比SOTA方法减少30%计算和内存使用

方法详解

任务定义

研究连续控制的马尔可夫决策过程(MDP),定义为五元组(S,A,P,R,γ):

  • S: 连续状态空间
  • A: 连续动作空间
  • P: 状态转移概率密度函数
  • R: 奖励函数 r: S×A×S → ℝ
  • γ: 折扣因子

目标是学习策略μ_φ(a_t|s_t)最大化期望累积奖励。

核心技术创新

1. Expectile损失函数

传统MSE损失的不对称版本:

L_{α,β}(f_θ(x), y) = 1/Z {
    α(y - f_θ(x))² if f_θ(x) < y
    β(y - f_θ(x))² otherwise
}

其中Z = max(α,β)为归一化常数。

关键性质

  • α = β: 退化为标准MSE
  • α < β: 倾向于低估,对抗Q学习的过估计
  • α > β: 倾向于过估计

2. 理论保证

定理1(Expectile单调性): Expectile函数关于τ单调非递减,即τ₁ ≤ τ₂ ⟹ t₁ ≤ t₂

推论1.1(渐近收敛): 通过衰减函数λ(t),可以保证算法最终收敛到无偏估计:

min(α_{t+1}, β_{t+1}) ← min(α_t, β_t) + |α_t - β_t| · λ(t)

3. EdgeD3算法架构

EdgeDDPG基础版本

  • 评论员更新:使用Expectile损失替代MSE
  • 演员更新:标准确定性策略梯度

EdgeD3完整版本

  • 延迟策略更新:每k步更新一次演员网络
  • 目标平滑:在目标估计中加入噪声
  • Expectile损失:控制估计偏差
# 关键更新公式
y = E_{ε~p(x)}[r + γQ_{θ'}(s', ε + μ_{φ'}(s'))]
∇L(θ) = ∇_θ N^{-1} Σ L_{α,β}(y, Q_θ(s,a))

优化景观平滑

采用目标噪声注入替代梯度惩罚:

  • 传统方法: L(θ) = MSE + ξ||∇_a Q(s,a)||²(计算昂贵)
  • 本文方法: 在目标中加入噪声,等价于梯度惩罚但计算高效

实验设置

仿真环境

  • 数据集: Mujoco物理仿真环境套件
  • 任务: Ant, Reacher, Hopper, Walker2d, Humanoid, HalfCheetah, Swimmer
  • 评估: 每5000步评估10个episode,10个随机种子

真实机器人实验

  • 平台: 自制TurtleBot + Raspberry Pi3B + 2D激光雷达
  • 任务: 走廊导航、非结构化环境导航
  • 状态: 16维激光扫描 + 线速度 + 角速度
  • 动作: 2维连续控制(线速度、角速度)

对比方法

  • DDPG: 基础深度确定性策略梯度
  • TD3: Twin Delayed DDPG
  • SAC: Soft Actor-Critic
  • PPO: Proximal Policy Optimization

评价指标

  • 性能: 累积奖励
  • 资源使用: GPU时间、内存占用
  • 训练效率: 相同时间预算下的性能

实验结果

资源使用对比

内存使用(相对EdgeD3):

  • DDPG: -1.2%
  • TD3: +29.3%
  • SAC: +31.1%

GPU时间对比

  • EdgeD3: 214.0±7.1ms
  • DDPG: 285.5±7.4ms (-25.0%)
  • TD3: 308.2±2.7ms (-30.5%)
  • SAC(延迟): 320.9±3.6ms (-33.3%)
  • SAC(原始): 492.9±2.9ms (-56.8%)

性能对比

仿真环境最佳性能(相同时间预算):

环境EdgeD3DDPGSACTD3
Ant-v34350.04990.552739.814208.10
Hopper-v33388.442222.853148.892786.22
Walker2d-v33788.071601.162974.403580.83
HalfCheetah10645.810309.08937.39677.5

EdgeD3在7个任务中的5个取得最佳性能,在其余任务中位列前二。

真实机器人结果

  • 走廊导航: EdgeD3从训练开始就表现最佳
  • 非结构化导航: EdgeD3在30分钟后超越其他方法
  • 更新频率: EdgeD3(8Hz) > TD3(5.9Hz) > DDPG(5.8Hz) > SAC(3.3Hz)

消融实验

测试不同α,β组合的影响:

  • Swimmer: α>β(倾向过估计)效果更好
  • Ant: α<β(倾向低估)效果更好
  • 证明了Expectile损失的灵活性优于固定的CDQ机制

相关工作

估计偏差缓解

  • Double Q-learning: 使用两个独立估计器
  • Ensemble方法: TQC(5网络)、REDQ(10网络)、RAC(10网络)
  • 本文贡献: 单网络解决方案,计算高效

边缘计算RL

  • 模型压缩: 量化、剪枝等技术
  • 算法优化: 本文首次从算法层面解决边缘RL效率问题

连续控制

  • Actor-Critic方法: DDPG、TD3、SAC等
  • 策略梯度: 直接优化策略参数

结论与讨论

主要结论

  1. 效率提升: EdgeD3相比SOTA方法减少30%计算和内存使用
  2. 性能保持: 在大多数任务上达到或超越最先进方法
  3. 实用性: 在真实机器人上验证了边缘部署的可行性
  4. 理论基础: 提供了完整的理论分析和收敛保证

局限性

  1. 复杂任务: 在Humanoid等超复杂任务上仍有提升空间
  2. 超参数: 虽然α=1,β=2是好的初始值,但仍需任务相关调优
  3. 环境依赖: 不同环境可能需要不同的α,β设置

未来方向

  1. 自适应超参数: 在线调整α,β参数
  2. 其他损失函数: 探索分位数损失、不平衡Huber损失等
  3. 模型压缩结合: 与量化、剪枝等技术结合

深度评价

优点

  1. 创新性强: 首次将Expectile回归引入RL,解决过估计偏差
  2. 实用价值高: 直接解决边缘计算的资源限制问题
  3. 理论完备: 提供单调性、收敛性等理论保证
  4. 实验充分: 仿真+真实机器人双重验证
  5. 写作清晰: 算法描述详细,可复现性强

不足

  1. 适用范围: 主要针对连续控制,离散动作空间适用性未知
  2. 超参数敏感性: 不同任务需要调整α,β,缺乏自动化方法
  3. 对比不够全面: 缺少与最新ensemble方法(如最新的能量模型方法)的对比

影响力

  1. 学术贡献: 为边缘RL开辟新方向,理论与实践并重
  2. 工业应用: 直接适用于资源受限的实际部署
  3. 可复现性: 提供完整算法和超参数设置

适用场景

  1. 边缘设备: 移动机器人、无人机、IoT设备
  2. 实时控制: 需要低延迟响应的控制任务
  3. 隐私保护: 不能将数据传输到云端的场景
  4. 资源受限: CPU、内存、能耗有严格限制的环境

参考文献

论文引用了强化学习、连续控制、边缘计算等领域的56篇重要文献,涵盖了从理论基础到实际应用的完整技术栈,为研究提供了坚实的理论基础。


总体评价: 这是一篇高质量的研究论文,在理论创新、实验验证和实用价值方面都有突出贡献。EdgeD3算法巧妙地解决了边缘计算场景下的RL效率问题,具有重要的学术价值和应用前景。