2025-11-16T22:04:13.069952

An Introduction to Zero-Order Optimization Techniques for Robotics

Jordana, Zhang, Amigo et al.
Zero-order optimization techniques are becoming increasingly popular in robotics due to their ability to handle non-differentiable functions and escape local minima. These advantages make them particularly useful for trajectory optimization and policy optimization. In this work, we propose a mathematical tutorial on random search. It offers a simple and unifying perspective for understanding a wide range of algorithms commonly used in robotics. Leveraging this viewpoint, we classify many trajectory optimization methods under a common framework and derive novel competitive RL algorithms.
academic

Введение в методы оптимизации нулевого порядка для робототехники

Основная информация

  • ID статьи: 2506.22087
  • Название: An Introduction to Zero-Order Optimization Techniques for Robotics
  • Авторы: Armand Jordana, Jianghan Zhang, Joseph Amigo, Ludovic Righetti (Нью-Йоркский университет)
  • Категория: cs.RO (Робототехника)
  • Дата публикации: препринт arXiv, последняя версия от 10 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2506.22087

Аннотация

Методы оптимизации нулевого порядка становятся всё более популярными в робототехнике благодаря их способности работать с недифференцируемыми функциями и избегать локальных минимумов. Эти преимущества делают их особенно полезными при оптимизации траекторий и оптимизации политик. В данной статье представлен математический учебник по случайному поиску, обеспечивающий простую унифицированную перспективу для понимания широко используемых в робототехнике алгоритмов. Используя этот подход, авторы классифицируют множество методов оптимизации траекторий в единую общую схему и выводят новые конкурентоспособные алгоритмы обучения с подкреплением.

Предпосылки и мотивация исследования

Основная проблема

Основная проблема, которую решает данная статья, заключается в том, как обеспечить унифицированное понимание широко используемых в робототехнике алгоритмов оптимизации нулевого порядка, включая различные методы в оптимизации траекторий (TO) и обучении с подкреплением (RL).

Важность проблемы

  1. Практические требования: В робототехнических системах часто встречаются недифференцируемые целевые функции, особенно при решении задач, связанных с контактом (ходьба, манипуляция)
  2. Развитие вычислительных возможностей: Развитие параллельных вычислений и аппаратного обеспечения GPU сделало возможным применение методов, требующих интенсивной выборки, на сложных робототехнических системах
  3. Отсутствие единой теории: Хотя существующие алгоритмы имеют прочную теоретическую основу, в робототехническом сообществе отсутствует единое понимание

Ограничения существующих методов

  1. Изолированность алгоритмов: Алгоритмы MPPI, CMA-ES, REINFORCE и другие кажутся несвязанными, отсутствует единая схема
  2. Разрозненность теории: Эти алгоритмы распределены по различным областям: оптимизация, статистика, машинное обучение, управление
  3. Ограничения применения: Отсутствует руководство по проектированию новых алгоритмов с единой точки зрения

Исследовательская мотивация

Посредством унифицированной перспективы случайного поиска и гауссовского сглаживания связать методы нулевого порядка в оптимизации траекторий и оптимизации политик, что позволит углубить теоретическое понимание и направить разработку новых алгоритмов.

Основные вклады

  1. Унифицированная теоретическая схема: На основе случайного поиска предоставляет унифицированную перспективу для понимания алгоритмов нулевого порядка в TO и RL
  2. Переинтерпретация алгоритмов: Объединяет классические алгоритмы MPPI, CMA, REINFORCE в единую схему гауссовского сглаживания
  3. Вывод новых алгоритмов: На основе унифицированной схемы выводит новые конкурентоспособные алгоритмы RL (например, RS-DDPG, LSE-DDPG)
  4. Теоретические выводы: Объясняет теоретический механизм, благодаря которому случайные алгоритмы избегают локальных минимумов
  5. Экспериментальная верификация: Проверяет эффективность схемы и конкурентоспособность новых алгоритмов на множестве робототехнических задач

Подробное описание методов

Определение задачи

Статья сосредоточена на решении следующей общей задачи оптимизации: minxRnf(x)\min_{x \in \mathbb{R}^n} f(x)

Эта формулировка охватывает широкий спектр задач в робототехнике:

  • Оптимизация траекторий: оптимизация в пространстве траекторий (конечномерная)
  • Оптимизация политик: оптимизация в пространстве параметров политики (бесконечномерная функция)

Основная теоретическая схема

1. Основы случайного поиска

Чистый случайный поиск (Алгоритм 1):

Вход: x₀ ∈ Rⁿ
пока не выполнено условие остановки:
    случайная выборка x̃ из Rⁿ
    если f(x̃) < f(x):
        x ← x̃
Выход: x

Жадный локальный поиск (Алгоритм 2):

Вход: x₀ ∈ Rⁿ, Σ
пока не выполнено условие остановки:
    выборка d ~ N(0,Σ)
    если f(x+d) < f(x):
        x ← x+d

2. Приближение градиента гауссовского сглаживания

Основная идея: Вместо прямого приближения градиента исходной функции f исследуется сглаженная функция-заместитель: fμ(x)=E[f(x+μϵ)]f_μ(x) = \mathbb{E}[f(x + μϵ)] где ϵN(0,Σ)ϵ \sim \mathcal{N}(0,Σ)

Ключевой вывод: Градиент функции-заместителя можно оценить через вычисления функции: fμ(x)=E[f(x+μϵ)f(x)μΣ1ϵ]\nabla f_μ(x) = \mathbb{E}\left[\frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ\right]

Это обеспечивает оценку градиента: g=f(x+μϵ)f(x)μΣ1ϵg = \frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ

3. Преобразование Log-Sum-Exp

Теоретическая основа MPPI: Рассмотрим непрерывное преобразование log-sum-exp: fμ,λ(x)=λlog(E[exp(1λf(x+μϵ))])f_{μ,λ}(x) = -λ \log\left(\mathbb{E}\left[\exp\left(-\frac{1}{λ}f(x+μϵ)\right)\right]\right)

Его градиент равен: fμ,λ(x)=λE[exp(1λf(x+μϵ))Σ1ϵ]μE[exp(1λf(x+μϵ))]\nabla f_{μ,λ}(x) = \frac{-λ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))Σ^{-1}ϵ]}{μ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))]}

Это напрямую соответствует правилу обновления MPPI: xk=1Kwkxkx \leftarrow \sum_{k=1}^K w_k x_k где веса определяются как: wk=exp(1λ(f(xk)ρ))jexp(1λ(f(xj)ρ))w_k = \frac{\exp(-\frac{1}{λ}(f(x_k) - ρ))}{\sum_j \exp(-\frac{1}{λ}(f(x_j) - ρ))}

Технические инновации

1. Установление унифицированной перспективы

  • Объединяет кажущиеся различными алгоритмы (MPPI, CMA, REINFORCE) в единую схему гауссовского сглаживания
  • Раскрывает преобразование log-sum-exp как обобщение гауссовского сглаживания

2. Интерпретация естественного градиента

Доказывает, что MPPI выполняет шаг естественного градиента: xxαF1gx \leftarrow x - αF^{-1}g где F — матрица информации Фишера, для гауссовского распределения равная обратной матрице ковариации

3. Вывод CMA

Переосмысливает CMA с точки зрения оптимизации параметров гауссовского распределения: minθ=(x,Σ)EzN(x,Σ)[f(z)]\min_{θ=(x,Σ)} \mathbb{E}_{z\sim\mathcal{N}(x,Σ)}[f(z)]

Используя естественный градиент, получаем правила обновления:

Σ ← (1-α∑wₖ)Σ + α∑wₖ(xₖ-x)(xₖ-x)ᵀ
x ← (1-α∑wₖ)x + α∑wₖxₖ

4. Теоретическое объяснение глобальной сходимости

Посредством динамики Ланжевена объясняет, как случайность помогает избежать локальных минимумов: xk+1=xkαkgk+γkϵkx_{k+1} = x_k - α_k g_k + γ_k ϵ_k

Экспериментальная установка

Эксперименты по оптимизации траекторий

Набор данных: Четыре эталонные задачи на основе Hydrax

  • Cartpole: классическое управление перевёрнутым маятником
  • DoubleCartpole: система двойного перевёрнутого маятника
  • PushT: задача толкания
  • Humanoid: управление гуманоидным роботом

Сравниваемые алгоритмы:

  • Predictive Sampling
  • Randomized Smoothing
  • MPPI
  • MPPI-CMA (предложено в статье)

Параметры эксперимента:

  • 2048 образцов на итерацию
  • Параметр температуры MPPI λ = 0,1
  • Усреднение по 6 случайным начальным значениям
  • Принудительное соблюдение границ управления через штрафные члены в функции стоимости

Эксперименты по обучению с подкреплением

Окружение: 7 окружений непрерывного управления MuJoCo

Сравниваемые алгоритмы:

  • DDPG vs RS-DDPG vs LSE-DDPG
  • TD3 vs RS-TD3 vs LSE-TD3

Параметры эксперимента:

  • Реализация на основе CleanRL
  • 10 образцов на обновление
  • Стандартное отклонение шума выборки 0,1
  • Усреднение по 5 прогонам

Метрики оценки

  • TO: Кривые снижения стоимости в процессе оптимизации
  • RL: Нормализованные оценки и награды за эпизод

Результаты экспериментов

Результаты оптимизации траекторий

  1. MPPI-CMA показывает лучший результат: Последовательно превосходит MPPI на всех тестовых задачах
  2. Predictive Sampling неожиданно эффективен: Несмотря на простоту, показывает хорошие результаты
  3. Randomized Smoothing чувствителен: Высокая чувствительность к выбору размера шага, большие колебания производительности
  4. Ценность адаптации ковариации: Демонстрирует важность адаптивной матрицы ковариации

Результаты обучения с подкреплением

  1. Значительное улучшение DDPG: RS-DDPG и LSE-DDPG значительно превосходят исходный DDPG
  2. Ограниченное улучшение TD3: TD3 уже является сильным алгоритмом, пространство для улучшения ограничено
  3. Универсальная выгода сглаживания: Демонстрирует универсальную ценность сглаживания градиента Q-функции

Ключевые выводы

  1. Преимущество Log-sum-exp: Лучше обрабатывает многомодальные функции по сравнению со стандартным гауссовским сглаживанием
  2. Важность параметра температуры: Надлежащий выбор параметра температуры λ критичен для производительности
  3. Дружественность к параллелизации: Все методы хорошо поддаются параллельной реализации

Связанные работы

Область оптимизации траекторий

  • Классические методы: Градиентный спуск, метод Ньютона и другие детерминированные методы легко застревают в локальных минимумах
  • Методы выборки: Predictive Sampling, MPPI и другие методы нулевого порядка
  • Теоретические связи: 13 впервые демонстрирует сходство между MPPI и CMA-ES, 14 интерпретирует MPPI как приближённый метод градиента

Область обучения с подкреплением

  • Поиск в пространстве параметров: 16,17 исследуют случайный поиск в пространстве параметров политики
  • Связь с градиентом политики: 18,19 устанавливают связь между градиентом политики и случайным поиском
  • Эволюционные стратегии: 20,21 предоставляют комплексный обзор связей между RL и методами ES

Позиционирование вклада статьи

Статья впервые предоставляет широкую перспективу, связывающую методы, независимые от градиента, в TO и RL, заполняя пробел в унифицированной теоретической схеме.

Заключение и обсуждение

Основные выводы

  1. Эффективность унифицированной схемы: Перспектива случайного поиска успешно объединяет множество алгоритмов нулевого порядка в TO и RL
  2. Теория направляет практику: Унифицированное понимание привело к разработке новых конкурентоспособных алгоритмов
  3. Ценность случайности: Теоретически объясняет механизм, благодаря которому случайные алгоритмы избегают локальных минимумов
  4. Практическая верификация: Проверяет эффективность схемы и новых алгоритмов на множестве робототехнических задач

Ограничения

  1. Асимптотическая сходимость: Гарантии глобальной сходимости являются только асимптотическими, практическое значение ограничено
  2. Проклятие размерности: Методы выборки по-прежнему подвержены проклятию размерности
  3. Чувствительность к гиперпараметрам: Параметр температуры, размер шага и другие требуют тщательной настройки
  4. Обработка ограничений: Текущая схема в основном работает с задачами без ограничений

Направления будущих исследований

  1. Условная оптимизация: Расширение на условную оптимизацию нулевого порядка
  2. Поиск глобальных решений: Разработка более эффективных методов поиска глобальных решений
  3. Адаптивные параметры: Автоматическая настройка параметра температуры, размера шага и других гиперпараметров
  4. Совершенствование теории: Предоставление более сильных теоретических гарантий для случайного сглаживания

Глубокая оценка

Преимущества

  1. Выдающийся теоретический вклад: Предоставляет первую унифицированную теоретическую схему оптимизации нулевого порядка в робототехнике
  2. Математическая строгость: Выводы точны, теоретический анализ глубок
  3. Практическая ценность: Теоретические выводы непосредственно направляют разработку новых алгоритмов
  4. Достаточность экспериментов: Охватывает множество эталонных тестов в обеих областях TO и RL
  5. Ясность изложения: Сложная теория изложена ясно и доступно

Недостатки

  1. Ограниченная новизна: В основном переинтерпретирует существующие алгоритмы, оригинальный вклад алгоритмов относительно ограничен
  2. Масштаб экспериментов: Эксперименты RL проводились только в окружении MuJoCo, отсутствуют более сложные робототехнические задачи
  3. Теоретический разрыв: Теория глобальной сходимости случайного сглаживания не столь совершенна, как SPSA
  4. Практические ограничения: Некоторые теоретические результаты (например, асимптотическая сходимость) имеют ограниченное практическое значение

Влияние

  1. Академическая ценность: Предоставляет важное теоретическое объединение для области оптимизации в робототехнике
  2. Образовательное значение: Как учебная статья, имеет большую образовательную ценность для студентов и исследователей
  3. Вдохновение методов: Унифицированная схема может вдохновить разработку большего количества новых алгоритмов
  4. Междисциплинарные связи: Способствует общению и сотрудничеству между сообществами TO и RL

Применимые сценарии

  1. Негладкая оптимизация: Задачи управления роботом, связанные с контактом и столкновениями
  2. Высокомерная оптимизация: Оптимизация параметров политики нейронной сети
  3. Параллельные вычисления: Сценарии с большим количеством доступных параллельных вычислительных ресурсов
  4. Исследовательские задачи: Сложные задачи оптимизации, требующие избежания локальных минимумов

Список литературы

Статья цитирует 51 связанную работу, включая:

  • Теория оптимизации: 1 Conn и др. по оптимизации без производных, 12 Nesterov по случайному сглаживанию
  • Робототехнические приложения: 2,3 последние приложения выборочного MPC, 4,5 успехи RL в робототехнике
  • Классические алгоритмы: 8 CMA-ES, 10 MPPI, 11 REINFORCE
  • Теоретические основы: 22 SPSA Spall, 27 методы MCMC

Эта статья посредством унифицированной перспективы случайного поиска успешно связывает кажущиеся различными методы оптимизации в робототехнике, предоставляя не только важные теоретические выводы, но и направляя разработку новых алгоритмов. Хотя в отношении оригинальности алгоритмов имеются некоторые недостатки, её теоретическая ценность объединения и образовательное значение делают её важным вкладом в данную область.