Zero-order optimization techniques are becoming increasingly popular in robotics due to their ability to handle non-differentiable functions and escape local minima. These advantages make them particularly useful for trajectory optimization and policy optimization. In this work, we propose a mathematical tutorial on random search. It offers a simple and unifying perspective for understanding a wide range of algorithms commonly used in robotics. Leveraging this viewpoint, we classify many trajectory optimization methods under a common framework and derive novel competitive RL algorithms.
论文ID : 2506.22087标题 : An Introduction to Zero-Order Optimization Techniques for Robotics作者 : Armand Jordana, Jianghan Zhang, Joseph Amigo, Ludovic Righetti (New York University)分类 : cs.RO (Robotics)发表时间 : arXiv预印本,2025年10月10日最新版本论文链接 : https://arxiv.org/abs/2506.22087 零阶优化技术在机器人学中越来越受欢迎,因为它们能够处理不可微函数并逃离局部极小值。这些优势使它们在轨迹优化和策略优化中特别有用。本文提出了一个关于随机搜索的数学教程,为理解机器人学中广泛使用的算法提供了一个简单统一的视角。利用这一观点,作者将许多轨迹优化方法归类在一个通用框架下,并推导出新颖且具有竞争力的强化学习算法。
本文要解决的核心问题是如何统一理解机器人学中广泛使用的零阶优化算法,包括轨迹优化(TO)和强化学习(RL)中的各种方法。
实际需求驱动 :机器人系统中经常遇到不可微的目标函数,特别是涉及接触的问题(如步行、操作)计算能力提升 :并行计算和GPU硬件的发展使得采样密集的零阶方法在复杂机器人系统上成为可能理论缺乏统一 :现有算法虽有强理论基础,但在机器人社区中缺乏统一理解算法孤立 :MPPI、CMA-ES、REINFORCE等算法看似无关,缺乏统一框架理论分散 :这些算法分布在优化、统计、机器学习、控制等多个领域应用局限 :缺乏从统一视角设计新算法的指导通过随机搜索和高斯平滑的统一视角,将轨迹优化和策略优化中的零阶方法联系起来,既能加深理论理解,又能指导新算法设计。
统一理论框架 :基于随机搜索提供了理解TO和RL中零阶算法的统一视角算法重新解释 :将MPPI、CMA、REINFORCE等经典算法统一在高斯平滑框架下新算法推导 :基于统一框架推导出新的竞争性RL算法(如RS-DDPG、LSE-DDPG)理论洞察 :解释了随机算法逃离局部极小值的理论机制实验验证 :在多个机器人任务上验证了框架的有效性和新算法的竞争力本文关注求解以下通用优化问题:
min x ∈ R n f ( x ) \min_{x \in \mathbb{R}^n} f(x) min x ∈ R n f ( x )
这一形式涵盖了机器人学中的广泛问题:
轨迹优化 :在轨迹空间中优化(有限维)策略优化 :在策略参数空间中优化(无限维函数)纯随机搜索(算法1) :
输入: x₀ ∈ Rⁿ
while 未满足停止条件:
在Rⁿ中随机采样 x̃
if f(x̃) < f(x):
x ← x̃
输出: x
贪婪局部搜索(算法2) :
输入: x₀ ∈ Rⁿ, Σ
while 未满足停止条件:
采样 d ~ N(0,Σ)
if f(x+d) < f(x):
x ← x+d
核心思想 :不直接近似原函数f的梯度,而是研究平滑代理函数:
f μ ( x ) = E [ f ( x + μ ϵ ) ] f_μ(x) = \mathbb{E}[f(x + μϵ)] f μ ( x ) = E [ f ( x + μ ϵ )]
其中 ϵ ∼ N ( 0 , Σ ) ϵ \sim \mathcal{N}(0,Σ) ϵ ∼ N ( 0 , Σ )
关键推导 :代理函数的梯度可通过函数评估估计:
∇ f μ ( x ) = E [ f ( x + μ ϵ ) − f ( x ) μ Σ − 1 ϵ ] \nabla f_μ(x) = \mathbb{E}\left[\frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ\right] ∇ f μ ( x ) = E [ μ f ( x + μ ϵ ) − f ( x ) Σ − 1 ϵ ]
这提供了梯度估计:
g = f ( x + μ ϵ ) − f ( x ) μ Σ − 1 ϵ g = \frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ g = μ f ( x + μ ϵ ) − f ( x ) Σ − 1 ϵ
MPPI的理论基础 :考虑连续log-sum-exp变换函数:
f μ , λ ( x ) = − λ log ( E [ exp ( − 1 λ f ( x + μ ϵ ) ) ] ) f_{μ,λ}(x) = -λ \log\left(\mathbb{E}\left[\exp\left(-\frac{1}{λ}f(x+μϵ)\right)\right]\right) f μ , λ ( x ) = − λ log ( E [ exp ( − λ 1 f ( x + μ ϵ ) ) ] )
其梯度为:
∇ f μ , λ ( x ) = − λ E [ exp ( − 1 λ f ( x + μ ϵ ) ) Σ − 1 ϵ ] μ E [ exp ( − 1 λ f ( x + μ ϵ ) ) ] \nabla f_{μ,λ}(x) = \frac{-λ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))Σ^{-1}ϵ]}{μ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))]} ∇ f μ , λ ( x ) = μ E [ e x p ( − λ 1 f ( x + μ ϵ ))] − λ E [ e x p ( − λ 1 f ( x + μ ϵ )) Σ − 1 ϵ ]
这直接对应MPPI的更新规则:
x ← ∑ k = 1 K w k x k x \leftarrow \sum_{k=1}^K w_k x_k x ← ∑ k = 1 K w k x k
其中权重为:
w k = exp ( − 1 λ ( f ( x k ) − ρ ) ) ∑ j exp ( − 1 λ ( f ( x j ) − ρ ) ) w_k = \frac{\exp(-\frac{1}{λ}(f(x_k) - ρ))}{\sum_j \exp(-\frac{1}{λ}(f(x_j) - ρ))} w k = ∑ j e x p ( − λ 1 ( f ( x j ) − ρ )) e x p ( − λ 1 ( f ( x k ) − ρ ))
将看似不同的算法(MPPI、CMA、REINFORCE)统一在高斯平滑框架下 揭示了log-sum-exp变换作为高斯平滑的推广 证明MPPI执行自然梯度步骤:
x ← x − α F − 1 g x \leftarrow x - αF^{-1}g x ← x − α F − 1 g
其中F是Fisher信息矩阵,对高斯分布等于协方差矩阵的逆
从优化高斯分布参数的角度重新推导CMA:
min θ = ( x , Σ ) E z ∼ N ( x , Σ ) [ f ( z ) ] \min_{θ=(x,Σ)} \mathbb{E}_{z\sim\mathcal{N}(x,Σ)}[f(z)] min θ = ( x , Σ ) E z ∼ N ( x , Σ ) [ f ( z )]
使用自然梯度得到更新规则:
Σ ← (1-α∑wₖ)Σ + α∑wₖ(xₖ-x)(xₖ-x)ᵀ
x ← (1-α∑wₖ)x + α∑wₖxₖ
通过Langevin动力学解释随机性如何帮助逃离局部极小值:
x k + 1 = x k − α k g k + γ k ϵ k x_{k+1} = x_k - α_k g_k + γ_k ϵ_k x k + 1 = x k − α k g k + γ k ϵ k
数据集 :基于Hydrax的四个基准问题
Cartpole:经典倒立摆控制 DoubleCartPole:双倒立摆系统 PushT:推动任务 Humanoid:人形机器人控制 对比算法 :
Predictive Sampling Randomized Smoothing MPPI MPPI-CMA(本文提出) 实验设置 :
每次迭代使用2048个样本 MPPI温度参数λ = 0.1 6个随机种子平均 通过成本函数中的惩罚项强制控制边界 环境 :7个MuJoCo连续控制环境
对比算法 :
DDPG vs RS-DDPG vs LSE-DDPG TD3 vs RS-TD3 vs LSE-TD3 实验设置 :
基于CleanRL实现 每次更新使用10个样本 采样噪声标准差0.1 5次运行平均 TO :优化过程中的成本下降曲线RL :标准化分数和回合奖励MPPI-CMA表现最佳 :在所有测试问题上consistently优于MPPIPredictive Sampling意外有效 :尽管简单,但表现良好Randomized Smoothing敏感 :对步长选择高度敏感,性能变化大协方差适应的价值 :证明了自适应协方差矩阵的重要性DDPG改进显著 :RS-DDPG和LSE-DDPG显著优于原始DDPGTD3改进有限 :TD3已经是强算法,改进空间有限平滑的普遍效益 :证明了Q函数梯度平滑的普遍价值Log-sum-exp优势 :相比标准高斯平滑,更好地处理多峰函数温度参数重要性 :适当的温度参数λ对性能至关重要并行化友好 :所有方法都能很好地并行化实现经典方法 :梯度下降、牛顿法等确定性方法易陷入局部极小值采样方法 :Predictive Sampling、MPPI等零阶方法理论连接 :13 首次展示MPPI与CMA-ES的相似性,14 理解MPPI为近似梯度方法参数空间搜索 :16,17 探索在策略参数空间的随机搜索策略梯度连接 :18,19 建立策略梯度与随机搜索的联系进化策略 :20,21 提供RL与ES技术连接的综合调研本文首次提供了连接TO和RL中梯度无关方法的广泛视角,填补了统一理论框架的空白。
统一框架有效 :随机搜索视角成功统一了TO和RL中的多种零阶算法理论指导实践 :统一理解促成了新的竞争性算法设计随机性的价值 :理论上解释了随机算法逃离局部极小值的机制实用性验证 :在多个机器人任务上验证了框架和新算法的有效性渐近收敛 :全局收敛保证仅是渐近的,实践意义有限高维诅咒 :采样方法仍受维度诅咒影响超参数敏感 :温度参数、步长等需要仔细调节约束处理 :当前框架主要处理无约束优化问题约束优化 :扩展到约束零阶优化全局解搜索 :开发更有效的全局解搜索方法自适应参数 :自动调节温度、步长等超参数理论完善 :为随机平滑提供更强的理论保证理论贡献突出 :提供了机器人学中零阶优化的首个统一理论框架数学严谨性 :推导过程严密,理论分析深入实践指导价值 :理论洞察直接指导新算法设计实验充分性 :涵盖TO和RL两大领域的多个基准测试写作清晰度 :复杂理论表述清晰,易于理解新颖性有限 :主要是重新解释现有算法,原创算法贡献相对有限实验规模 :RL实验仅在MuJoCo环境测试,缺乏更复杂机器人任务理论gap :随机平滑的全局收敛理论不如SPSA完善实用性限制 :某些理论结果(如渐近收敛)实践价值有限学术价值 :为机器人优化领域提供重要理论统一教育意义 :作为tutorial论文,对学生和研究者有很好的教育价值方法启发 :统一框架可能启发更多新算法设计跨领域连接 :促进TO和RL社区的交流合作非光滑优化 :涉及接触、碰撞的机器人控制问题高维优化 :神经网络策略参数优化并行计算 :有大量并行计算资源的场景探索性研究 :需要逃离局部极小值的复杂优化问题论文引用了51篇相关文献,主要包括:
优化理论 :1 Conn等的无导数优化,12 Nesterov的随机平滑机器人应用 :2,3 最新的采样MPC应用,4,5 RL在机器人中的成功经典算法 :8 CMA-ES,10 MPPI,11 REINFORCE理论基础 :22 Spall的SPSA,27 MCMC方法这篇论文通过随机搜索的统一视角,成功地连接了机器人学中看似不同的优化方法,不仅提供了重要的理论洞察,还指导了新算法的设计。虽然在算法原创性方面有所不足,但其理论统一价值和教育意义使其成为该领域的重要贡献。