2025-11-16T22:04:13.069952

An Introduction to Zero-Order Optimization Techniques for Robotics

Jordana, Zhang, Amigo et al.

Zero-order optimization techniques are becoming increasingly popular in robotics due to their ability to handle non-differentiable functions and escape local minima. These advantages make them particularly useful for trajectory optimization and policy optimization. In this work, we propose a mathematical tutorial on random search. It offers a simple and unifying perspective for understanding a wide range of algorithms commonly used in robotics. Leveraging this viewpoint, we classify many trajectory optimization methods under a common framework and derive novel competitive RL algorithms.

academic

Введение в методы оптимизации нулевого порядка для робототехники

Основная информация

ID статьи: 2506.22087
Название: An Introduction to Zero-Order Optimization Techniques for Robotics
Авторы: Armand Jordana, Jianghan Zhang, Joseph Amigo, Ludovic Righetti (Нью-Йоркский университет)
Категория: cs.RO (Робототехника)
Дата публикации: препринт arXiv, последняя версия от 10 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2506.22087

Аннотация

Методы оптимизации нулевого порядка становятся всё более популярными в робототехнике благодаря их способности работать с недифференцируемыми функциями и избегать локальных минимумов. Эти преимущества делают их особенно полезными при оптимизации траекторий и оптимизации политик. В данной статье представлен математический учебник по случайному поиску, обеспечивающий простую унифицированную перспективу для понимания широко используемых в робототехнике алгоритмов. Используя этот подход, авторы классифицируют множество методов оптимизации траекторий в единую общую схему и выводят новые конкурентоспособные алгоритмы обучения с подкреплением.

Предпосылки и мотивация исследования

Основная проблема

Основная проблема, которую решает данная статья, заключается в том, как обеспечить унифицированное понимание широко используемых в робототехнике алгоритмов оптимизации нулевого порядка, включая различные методы в оптимизации траекторий (TO) и обучении с подкреплением (RL).

Важность проблемы

Практические требования: В робототехнических системах часто встречаются недифференцируемые целевые функции, особенно при решении задач, связанных с контактом (ходьба, манипуляция)
Развитие вычислительных возможностей: Развитие параллельных вычислений и аппаратного обеспечения GPU сделало возможным применение методов, требующих интенсивной выборки, на сложных робототехнических системах
Отсутствие единой теории: Хотя существующие алгоритмы имеют прочную теоретическую основу, в робототехническом сообществе отсутствует единое понимание

Ограничения существующих методов

Изолированность алгоритмов: Алгоритмы MPPI, CMA-ES, REINFORCE и другие кажутся несвязанными, отсутствует единая схема
Разрозненность теории: Эти алгоритмы распределены по различным областям: оптимизация, статистика, машинное обучение, управление
Ограничения применения: Отсутствует руководство по проектированию новых алгоритмов с единой точки зрения

Исследовательская мотивация

Посредством унифицированной перспективы случайного поиска и гауссовского сглаживания связать методы нулевого порядка в оптимизации траекторий и оптимизации политик, что позволит углубить теоретическое понимание и направить разработку новых алгоритмов.

Основные вклады

Унифицированная теоретическая схема: На основе случайного поиска предоставляет унифицированную перспективу для понимания алгоритмов нулевого порядка в TO и RL
Переинтерпретация алгоритмов: Объединяет классические алгоритмы MPPI, CMA, REINFORCE в единую схему гауссовского сглаживания
Вывод новых алгоритмов: На основе унифицированной схемы выводит новые конкурентоспособные алгоритмы RL (например, RS-DDPG, LSE-DDPG)
Теоретические выводы: Объясняет теоретический механизм, благодаря которому случайные алгоритмы избегают локальных минимумов
Экспериментальная верификация: Проверяет эффективность схемы и конкурентоспособность новых алгоритмов на множестве робототехнических задач

Подробное описание методов

Определение задачи

Статья сосредоточена на решении следующей общей задачи оптимизации: $\min_{x \in \mathbb{R}^n} f(x)$

Эта формулировка охватывает широкий спектр задач в робототехнике:

Оптимизация траекторий: оптимизация в пространстве траекторий (конечномерная)
Оптимизация политик: оптимизация в пространстве параметров политики (бесконечномерная функция)

Основная теоретическая схема

1. Основы случайного поиска

Чистый случайный поиск (Алгоритм 1):

Вход: x₀ ∈ Rⁿ
пока не выполнено условие остановки:
    случайная выборка x̃ из Rⁿ
    если f(x̃) < f(x):
        x ← x̃
Выход: x

Жадный локальный поиск (Алгоритм 2):

Вход: x₀ ∈ Rⁿ, Σ
пока не выполнено условие остановки:
    выборка d ~ N(0,Σ)
    если f(x+d) < f(x):
        x ← x+d

2. Приближение градиента гауссовского сглаживания

Основная идея: Вместо прямого приближения градиента исходной функции f исследуется сглаженная функция-заместитель: $f_μ(x) = \mathbb{E}[f(x + μϵ)]$ где $ϵ \sim \mathcal{N}(0,Σ)$

Ключевой вывод: Градиент функции-заместителя можно оценить через вычисления функции: $\nabla f_μ(x) = \mathbb{E}\left[\frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ\right]$

Это обеспечивает оценку градиента: $g = \frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ$

3. Преобразование Log-Sum-Exp

Теоретическая основа MPPI: Рассмотрим непрерывное преобразование log-sum-exp: $f_{μ,λ}(x) = -λ \log\left(\mathbb{E}\left[\exp\left(-\frac{1}{λ}f(x+μϵ)\right)\right]\right)$

Его градиент равен: $\nabla f_{μ,λ}(x) = \frac{-λ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))Σ^{-1}ϵ]}{μ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))]}$

Это напрямую соответствует правилу обновления MPPI: $x \leftarrow \sum_{k=1}^K w_k x_k$ где веса определяются как: $w_k = \frac{\exp(-\frac{1}{λ}(f(x_k) - ρ))}{\sum_j \exp(-\frac{1}{λ}(f(x_j) - ρ))}$

Технические инновации

1. Установление унифицированной перспективы

Объединяет кажущиеся различными алгоритмы (MPPI, CMA, REINFORCE) в единую схему гауссовского сглаживания
Раскрывает преобразование log-sum-exp как обобщение гауссовского сглаживания

2. Интерпретация естественного градиента

Доказывает, что MPPI выполняет шаг естественного градиента: $x \leftarrow x - αF^{-1}g$ где F — матрица информации Фишера, для гауссовского распределения равная обратной матрице ковариации

3. Вывод CMA

Переосмысливает CMA с точки зрения оптимизации параметров гауссовского распределения: $\min_{θ=(x,Σ)} \mathbb{E}_{z\sim\mathcal{N}(x,Σ)}[f(z)]$

Используя естественный градиент, получаем правила обновления:

Σ ← (1-α∑wₖ)Σ + α∑wₖ(xₖ-x)(xₖ-x)ᵀ
x ← (1-α∑wₖ)x + α∑wₖxₖ

4. Теоретическое объяснение глобальной сходимости

Посредством динамики Ланжевена объясняет, как случайность помогает избежать локальных минимумов: $x_{k+1} = x_k - α_k g_k + γ_k ϵ_k$

Экспериментальная установка

Эксперименты по оптимизации траекторий

Набор данных: Четыре эталонные задачи на основе Hydrax

Cartpole: классическое управление перевёрнутым маятником
DoubleCartpole: система двойного перевёрнутого маятника
PushT: задача толкания
Humanoid: управление гуманоидным роботом

Сравниваемые алгоритмы:

Predictive Sampling
Randomized Smoothing
MPPI
MPPI-CMA (предложено в статье)

Параметры эксперимента:

2048 образцов на итерацию
Параметр температуры MPPI λ = 0,1
Усреднение по 6 случайным начальным значениям
Принудительное соблюдение границ управления через штрафные члены в функции стоимости

Эксперименты по обучению с подкреплением

Окружение: 7 окружений непрерывного управления MuJoCo

Сравниваемые алгоритмы:

DDPG vs RS-DDPG vs LSE-DDPG
TD3 vs RS-TD3 vs LSE-TD3

Параметры эксперимента:

Реализация на основе CleanRL
10 образцов на обновление
Стандартное отклонение шума выборки 0,1
Усреднение по 5 прогонам

Метрики оценки

TO: Кривые снижения стоимости в процессе оптимизации
RL: Нормализованные оценки и награды за эпизод

Результаты экспериментов

Результаты оптимизации траекторий

MPPI-CMA показывает лучший результат: Последовательно превосходит MPPI на всех тестовых задачах
Predictive Sampling неожиданно эффективен: Несмотря на простоту, показывает хорошие результаты
Randomized Smoothing чувствителен: Высокая чувствительность к выбору размера шага, большие колебания производительности
Ценность адаптации ковариации: Демонстрирует важность адаптивной матрицы ковариации

Результаты обучения с подкреплением

Значительное улучшение DDPG: RS-DDPG и LSE-DDPG значительно превосходят исходный DDPG
Ограниченное улучшение TD3: TD3 уже является сильным алгоритмом, пространство для улучшения ограничено
Универсальная выгода сглаживания: Демонстрирует универсальную ценность сглаживания градиента Q-функции

Ключевые выводы

Преимущество Log-sum-exp: Лучше обрабатывает многомодальные функции по сравнению со стандартным гауссовским сглаживанием
Важность параметра температуры: Надлежащий выбор параметра температуры λ критичен для производительности
Дружественность к параллелизации: Все методы хорошо поддаются параллельной реализации

Связанные работы

Область оптимизации траекторий

Классические методы: Градиентный спуск, метод Ньютона и другие детерминированные методы легко застревают в локальных минимумах
Методы выборки: Predictive Sampling, MPPI и другие методы нулевого порядка
Теоретические связи: 13 впервые демонстрирует сходство между MPPI и CMA-ES, 14 интерпретирует MPPI как приближённый метод градиента

Область обучения с подкреплением

Поиск в пространстве параметров: 16,17 исследуют случайный поиск в пространстве параметров политики
Связь с градиентом политики: 18,19 устанавливают связь между градиентом политики и случайным поиском
Эволюционные стратегии: 20,21 предоставляют комплексный обзор связей между RL и методами ES

Позиционирование вклада статьи

Статья впервые предоставляет широкую перспективу, связывающую методы, независимые от градиента, в TO и RL, заполняя пробел в унифицированной теоретической схеме.

Заключение и обсуждение

Основные выводы

Эффективность унифицированной схемы: Перспектива случайного поиска успешно объединяет множество алгоритмов нулевого порядка в TO и RL
Теория направляет практику: Унифицированное понимание привело к разработке новых конкурентоспособных алгоритмов
Ценность случайности: Теоретически объясняет механизм, благодаря которому случайные алгоритмы избегают локальных минимумов
Практическая верификация: Проверяет эффективность схемы и новых алгоритмов на множестве робототехнических задач

Ограничения

Асимптотическая сходимость: Гарантии глобальной сходимости являются только асимптотическими, практическое значение ограничено
Проклятие размерности: Методы выборки по-прежнему подвержены проклятию размерности
Чувствительность к гиперпараметрам: Параметр температуры, размер шага и другие требуют тщательной настройки
Обработка ограничений: Текущая схема в основном работает с задачами без ограничений

Направления будущих исследований

Условная оптимизация: Расширение на условную оптимизацию нулевого порядка
Поиск глобальных решений: Разработка более эффективных методов поиска глобальных решений
Адаптивные параметры: Автоматическая настройка параметра температуры, размера шага и других гиперпараметров
Совершенствование теории: Предоставление более сильных теоретических гарантий для случайного сглаживания

Глубокая оценка

Преимущества

Выдающийся теоретический вклад: Предоставляет первую унифицированную теоретическую схему оптимизации нулевого порядка в робототехнике
Математическая строгость: Выводы точны, теоретический анализ глубок
Практическая ценность: Теоретические выводы непосредственно направляют разработку новых алгоритмов
Достаточность экспериментов: Охватывает множество эталонных тестов в обеих областях TO и RL
Ясность изложения: Сложная теория изложена ясно и доступно

Недостатки

Ограниченная новизна: В основном переинтерпретирует существующие алгоритмы, оригинальный вклад алгоритмов относительно ограничен
Масштаб экспериментов: Эксперименты RL проводились только в окружении MuJoCo, отсутствуют более сложные робототехнические задачи
Теоретический разрыв: Теория глобальной сходимости случайного сглаживания не столь совершенна, как SPSA
Практические ограничения: Некоторые теоретические результаты (например, асимптотическая сходимость) имеют ограниченное практическое значение

Влияние

Академическая ценность: Предоставляет важное теоретическое объединение для области оптимизации в робототехнике
Образовательное значение: Как учебная статья, имеет большую образовательную ценность для студентов и исследователей
Вдохновение методов: Унифицированная схема может вдохновить разработку большего количества новых алгоритмов
Междисциплинарные связи: Способствует общению и сотрудничеству между сообществами TO и RL

Применимые сценарии

Негладкая оптимизация: Задачи управления роботом, связанные с контактом и столкновениями
Высокомерная оптимизация: Оптимизация параметров политики нейронной сети
Параллельные вычисления: Сценарии с большим количеством доступных параллельных вычислительных ресурсов
Исследовательские задачи: Сложные задачи оптимизации, требующие избежания локальных минимумов

Список литературы

Статья цитирует 51 связанную работу, включая:

Теория оптимизации: 1 Conn и др. по оптимизации без производных, 12 Nesterov по случайному сглаживанию
Робототехнические приложения: 2,3 последние приложения выборочного MPC, 4,5 успехи RL в робототехнике
Классические алгоритмы: 8 CMA-ES, 10 MPPI, 11 REINFORCE
Теоретические основы: 22 SPSA Spall, 27 методы MCMC

Эта статья посредством унифицированной перспективы случайного поиска успешно связывает кажущиеся различными методы оптимизации в робототехнике, предоставляя не только важные теоретические выводы, но и направляя разработку новых алгоритмов. Хотя в отношении оригинальности алгоритмов имеются некоторые недостатки, её теоретическая ценность объединения и образовательное значение делают её важным вкладом в данную область.