2025-11-16T22:04:13.069952

An Introduction to Zero-Order Optimization Techniques for Robotics

Jordana, Zhang, Amigo et al.
Zero-order optimization techniques are becoming increasingly popular in robotics due to their ability to handle non-differentiable functions and escape local minima. These advantages make them particularly useful for trajectory optimization and policy optimization. In this work, we propose a mathematical tutorial on random search. It offers a simple and unifying perspective for understanding a wide range of algorithms commonly used in robotics. Leveraging this viewpoint, we classify many trajectory optimization methods under a common framework and derive novel competitive RL algorithms.
academic

An Introduction to Zero-Order Optimization Techniques for Robotics

基本信息

  • 论文ID: 2506.22087
  • 标题: An Introduction to Zero-Order Optimization Techniques for Robotics
  • 作者: Armand Jordana, Jianghan Zhang, Joseph Amigo, Ludovic Righetti (New York University)
  • 分类: cs.RO (Robotics)
  • 发表时间: arXiv预印本,2025年10月10日最新版本
  • 论文链接: https://arxiv.org/abs/2506.22087

摘要

零阶优化技术在机器人学中越来越受欢迎,因为它们能够处理不可微函数并逃离局部极小值。这些优势使它们在轨迹优化和策略优化中特别有用。本文提出了一个关于随机搜索的数学教程,为理解机器人学中广泛使用的算法提供了一个简单统一的视角。利用这一观点,作者将许多轨迹优化方法归类在一个通用框架下,并推导出新颖且具有竞争力的强化学习算法。

研究背景与动机

核心问题

本文要解决的核心问题是如何统一理解机器人学中广泛使用的零阶优化算法,包括轨迹优化(TO)和强化学习(RL)中的各种方法。

问题重要性

  1. 实际需求驱动:机器人系统中经常遇到不可微的目标函数,特别是涉及接触的问题(如步行、操作)
  2. 计算能力提升:并行计算和GPU硬件的发展使得采样密集的零阶方法在复杂机器人系统上成为可能
  3. 理论缺乏统一:现有算法虽有强理论基础,但在机器人社区中缺乏统一理解

现有方法局限性

  1. 算法孤立:MPPI、CMA-ES、REINFORCE等算法看似无关,缺乏统一框架
  2. 理论分散:这些算法分布在优化、统计、机器学习、控制等多个领域
  3. 应用局限:缺乏从统一视角设计新算法的指导

研究动机

通过随机搜索和高斯平滑的统一视角,将轨迹优化和策略优化中的零阶方法联系起来,既能加深理论理解,又能指导新算法设计。

核心贡献

  1. 统一理论框架:基于随机搜索提供了理解TO和RL中零阶算法的统一视角
  2. 算法重新解释:将MPPI、CMA、REINFORCE等经典算法统一在高斯平滑框架下
  3. 新算法推导:基于统一框架推导出新的竞争性RL算法(如RS-DDPG、LSE-DDPG)
  4. 理论洞察:解释了随机算法逃离局部极小值的理论机制
  5. 实验验证:在多个机器人任务上验证了框架的有效性和新算法的竞争力

方法详解

任务定义

本文关注求解以下通用优化问题: minxRnf(x)\min_{x \in \mathbb{R}^n} f(x)

这一形式涵盖了机器人学中的广泛问题:

  • 轨迹优化:在轨迹空间中优化(有限维)
  • 策略优化:在策略参数空间中优化(无限维函数)

核心理论框架

1. 随机搜索基础

纯随机搜索(算法1)

输入: x₀ ∈ Rⁿ
while 未满足停止条件:
    在Rⁿ中随机采样 x̃
    if f(x̃) < f(x):
        x ← x̃
输出: x

贪婪局部搜索(算法2)

输入: x₀ ∈ Rⁿ, Σ
while 未满足停止条件:
    采样 d ~ N(0,Σ)
    if f(x+d) < f(x):
        x ← x+d

2. 高斯平滑梯度近似

核心思想:不直接近似原函数f的梯度,而是研究平滑代理函数: fμ(x)=E[f(x+μϵ)]f_μ(x) = \mathbb{E}[f(x + μϵ)] 其中 ϵN(0,Σ)ϵ \sim \mathcal{N}(0,Σ)

关键推导:代理函数的梯度可通过函数评估估计: fμ(x)=E[f(x+μϵ)f(x)μΣ1ϵ]\nabla f_μ(x) = \mathbb{E}\left[\frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ\right]

这提供了梯度估计: g=f(x+μϵ)f(x)μΣ1ϵg = \frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ

3. Log-Sum-Exp变换

MPPI的理论基础:考虑连续log-sum-exp变换函数: fμ,λ(x)=λlog(E[exp(1λf(x+μϵ))])f_{μ,λ}(x) = -λ \log\left(\mathbb{E}\left[\exp\left(-\frac{1}{λ}f(x+μϵ)\right)\right]\right)

其梯度为: fμ,λ(x)=λE[exp(1λf(x+μϵ))Σ1ϵ]μE[exp(1λf(x+μϵ))]\nabla f_{μ,λ}(x) = \frac{-λ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))Σ^{-1}ϵ]}{μ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))]}

这直接对应MPPI的更新规则: xk=1Kwkxkx \leftarrow \sum_{k=1}^K w_k x_k 其中权重为: wk=exp(1λ(f(xk)ρ))jexp(1λ(f(xj)ρ))w_k = \frac{\exp(-\frac{1}{λ}(f(x_k) - ρ))}{\sum_j \exp(-\frac{1}{λ}(f(x_j) - ρ))}

技术创新点

1. 统一视角的建立

  • 将看似不同的算法(MPPI、CMA、REINFORCE)统一在高斯平滑框架下
  • 揭示了log-sum-exp变换作为高斯平滑的推广

2. 自然梯度解释

证明MPPI执行自然梯度步骤: xxαF1gx \leftarrow x - αF^{-1}g 其中F是Fisher信息矩阵,对高斯分布等于协方差矩阵的逆

3. CMA的推导

从优化高斯分布参数的角度重新推导CMA: minθ=(x,Σ)EzN(x,Σ)[f(z)]\min_{θ=(x,Σ)} \mathbb{E}_{z\sim\mathcal{N}(x,Σ)}[f(z)]

使用自然梯度得到更新规则:

Σ ← (1-α∑wₖ)Σ + α∑wₖ(xₖ-x)(xₖ-x)ᵀ
x ← (1-α∑wₖ)x + α∑wₖxₖ

4. 全局收敛的理论解释

通过Langevin动力学解释随机性如何帮助逃离局部极小值: xk+1=xkαkgk+γkϵkx_{k+1} = x_k - α_k g_k + γ_k ϵ_k

实验设置

轨迹优化实验

数据集:基于Hydrax的四个基准问题

  • Cartpole:经典倒立摆控制
  • DoubleCartPole:双倒立摆系统
  • PushT:推动任务
  • Humanoid:人形机器人控制

对比算法

  • Predictive Sampling
  • Randomized Smoothing
  • MPPI
  • MPPI-CMA(本文提出)

实验设置

  • 每次迭代使用2048个样本
  • MPPI温度参数λ = 0.1
  • 6个随机种子平均
  • 通过成本函数中的惩罚项强制控制边界

强化学习实验

环境:7个MuJoCo连续控制环境

对比算法

  • DDPG vs RS-DDPG vs LSE-DDPG
  • TD3 vs RS-TD3 vs LSE-TD3

实验设置

  • 基于CleanRL实现
  • 每次更新使用10个样本
  • 采样噪声标准差0.1
  • 5次运行平均

评价指标

  • TO:优化过程中的成本下降曲线
  • RL:标准化分数和回合奖励

实验结果

轨迹优化结果

  1. MPPI-CMA表现最佳:在所有测试问题上consistently优于MPPI
  2. Predictive Sampling意外有效:尽管简单,但表现良好
  3. Randomized Smoothing敏感:对步长选择高度敏感,性能变化大
  4. 协方差适应的价值:证明了自适应协方差矩阵的重要性

强化学习结果

  1. DDPG改进显著:RS-DDPG和LSE-DDPG显著优于原始DDPG
  2. TD3改进有限:TD3已经是强算法,改进空间有限
  3. 平滑的普遍效益:证明了Q函数梯度平滑的普遍价值

关键发现

  1. Log-sum-exp优势:相比标准高斯平滑,更好地处理多峰函数
  2. 温度参数重要性:适当的温度参数λ对性能至关重要
  3. 并行化友好:所有方法都能很好地并行化实现

相关工作

轨迹优化领域

  • 经典方法:梯度下降、牛顿法等确定性方法易陷入局部极小值
  • 采样方法:Predictive Sampling、MPPI等零阶方法
  • 理论连接13首次展示MPPI与CMA-ES的相似性,14理解MPPI为近似梯度方法

强化学习领域

  • 参数空间搜索16,17探索在策略参数空间的随机搜索
  • 策略梯度连接18,19建立策略梯度与随机搜索的联系
  • 进化策略20,21提供RL与ES技术连接的综合调研

本文贡献定位

本文首次提供了连接TO和RL中梯度无关方法的广泛视角,填补了统一理论框架的空白。

结论与讨论

主要结论

  1. 统一框架有效:随机搜索视角成功统一了TO和RL中的多种零阶算法
  2. 理论指导实践:统一理解促成了新的竞争性算法设计
  3. 随机性的价值:理论上解释了随机算法逃离局部极小值的机制
  4. 实用性验证:在多个机器人任务上验证了框架和新算法的有效性

局限性

  1. 渐近收敛:全局收敛保证仅是渐近的,实践意义有限
  2. 高维诅咒:采样方法仍受维度诅咒影响
  3. 超参数敏感:温度参数、步长等需要仔细调节
  4. 约束处理:当前框架主要处理无约束优化问题

未来方向

  1. 约束优化:扩展到约束零阶优化
  2. 全局解搜索:开发更有效的全局解搜索方法
  3. 自适应参数:自动调节温度、步长等超参数
  4. 理论完善:为随机平滑提供更强的理论保证

深度评价

优点

  1. 理论贡献突出:提供了机器人学中零阶优化的首个统一理论框架
  2. 数学严谨性:推导过程严密,理论分析深入
  3. 实践指导价值:理论洞察直接指导新算法设计
  4. 实验充分性:涵盖TO和RL两大领域的多个基准测试
  5. 写作清晰度:复杂理论表述清晰,易于理解

不足

  1. 新颖性有限:主要是重新解释现有算法,原创算法贡献相对有限
  2. 实验规模:RL实验仅在MuJoCo环境测试,缺乏更复杂机器人任务
  3. 理论gap:随机平滑的全局收敛理论不如SPSA完善
  4. 实用性限制:某些理论结果(如渐近收敛)实践价值有限

影响力

  1. 学术价值:为机器人优化领域提供重要理论统一
  2. 教育意义:作为tutorial论文,对学生和研究者有很好的教育价值
  3. 方法启发:统一框架可能启发更多新算法设计
  4. 跨领域连接:促进TO和RL社区的交流合作

适用场景

  1. 非光滑优化:涉及接触、碰撞的机器人控制问题
  2. 高维优化:神经网络策略参数优化
  3. 并行计算:有大量并行计算资源的场景
  4. 探索性研究:需要逃离局部极小值的复杂优化问题

参考文献

论文引用了51篇相关文献,主要包括:

  • 优化理论1 Conn等的无导数优化,12 Nesterov的随机平滑
  • 机器人应用2,3 最新的采样MPC应用,4,5 RL在机器人中的成功
  • 经典算法8 CMA-ES,10 MPPI,11 REINFORCE
  • 理论基础22 Spall的SPSA,27 MCMC方法

这篇论文通过随机搜索的统一视角,成功地连接了机器人学中看似不同的优化方法,不仅提供了重要的理论洞察,还指导了新算法的设计。虽然在算法原创性方面有所不足,但其理论统一价值和教育意义使其成为该领域的重要贡献。