2025-11-16T22:04:13.069952

An Introduction to Zero-Order Optimization Techniques for Robotics

Jordana, Zhang, Amigo et al.

Zero-order optimization techniques are becoming increasingly popular in robotics due to their ability to handle non-differentiable functions and escape local minima. These advantages make them particularly useful for trajectory optimization and policy optimization. In this work, we propose a mathematical tutorial on random search. It offers a simple and unifying perspective for understanding a wide range of algorithms commonly used in robotics. Leveraging this viewpoint, we classify many trajectory optimization methods under a common framework and derive novel competitive RL algorithms.

academic

Une Introduction aux Techniques d'Optimisation d'Ordre Zéro pour la Robotique

Informations Fondamentales

Identifiant de l'article : 2506.22087
Titre : An Introduction to Zero-Order Optimization Techniques for Robotics
Auteurs : Armand Jordana, Jianghan Zhang, Joseph Amigo, Ludovic Righetti (Université de New York)
Classification : cs.RO (Robotique)
Date de Publication : Prépublication arXiv, version la plus récente du 10 octobre 2025
Lien de l'article : https://arxiv.org/abs/2506.22087

Résumé

Les techniques d'optimisation d'ordre zéro gagnent en popularité en robotique car elles peuvent traiter les fonctions non-différentiables et échapper aux minima locaux. Ces avantages les rendent particulièrement utiles dans l'optimisation de trajectoires et l'optimisation de politiques. Cet article présente un tutoriel mathématique sur la recherche stochastique, offrant une perspective simple et unifiée pour comprendre les algorithmes largement utilisés en robotique. En exploitant ce point de vue, les auteurs classent de nombreuses méthodes d'optimisation de trajectoires sous un cadre générique et déduisent de nouveaux algorithmes d'apprentissage par renforcement novateurs et compétitifs.

Contexte de Recherche et Motivation

Problème Central

L'article vise à résoudre le problème central de la compréhension unifiée des algorithmes d'optimisation d'ordre zéro largement utilisés en robotique, incluant diverses méthodes en optimisation de trajectoires (TO) et apprentissage par renforcement (RL).

Importance du Problème

Motivation Pratique : Les systèmes robotiques rencontrent fréquemment des fonctions objectif non-différentiables, particulièrement dans les problèmes impliquant le contact (marche, manipulation)
Amélioration des Capacités de Calcul : Le développement du calcul parallèle et du matériel GPU rend possible l'utilisation de méthodes d'ordre zéro intensives en échantillonnage sur des systèmes robotiques complexes
Manque d'Unification Théorique : Bien que les algorithmes existants possèdent des fondations théoriques solides, ils manquent d'une compréhension unifiée dans la communauté robotique

Limitations des Approches Existantes

Isolement des Algorithmes : Les algorithmes MPPI, CMA-ES, REINFORCE semblent sans rapport, manquant d'un cadre unifié
Théorie Fragmentée : Ces algorithmes sont dispersés dans plusieurs domaines : optimisation, statistiques, apprentissage automatique, contrôle
Limitations Applicatives : Absence de directives pour concevoir de nouveaux algorithmes à partir d'une perspective unifiée

Motivation de la Recherche

En utilisant une perspective unifiée de recherche stochastique et lissage gaussien, connecter les méthodes d'ordre zéro en optimisation de trajectoires et optimisation de politiques, approfondissant à la fois la compréhension théorique et guidant la conception de nouveaux algorithmes.

Contributions Principales

Cadre Théorique Unifié : Fournit une perspective unifiée pour comprendre les algorithmes d'ordre zéro en TO et RL basée sur la recherche stochastique
Réinterprétation d'Algorithmes : Unifie les algorithmes classiques MPPI, CMA, REINFORCE sous le cadre de lissage gaussien
Déduction de Nouveaux Algorithmes : Déduit de nouveaux algorithmes RL compétitifs basés sur le cadre unifié (par exemple RS-DDPG, LSE-DDPG)
Intuitions Théoriques : Explique le mécanisme théorique permettant aux algorithmes stochastiques d'échapper aux minima locaux
Vérification Expérimentale : Valide l'efficacité du cadre et la compétitivité des nouveaux algorithmes sur plusieurs tâches robotiques

Détails Méthodologiques

Définition de la Tâche

Cet article se concentre sur la résolution du problème d'optimisation générique suivant : $\min_{x \in \mathbb{R}^n} f(x)$

Cette formulation couvre un large éventail de problèmes en robotique :

Optimisation de Trajectoires : Optimisation dans l'espace des trajectoires (dimension finie)
Optimisation de Politiques : Optimisation dans l'espace des paramètres de politique (fonctions de dimension infinie)

Cadre Théorique Principal

1. Fondamentaux de la Recherche Stochastique

Recherche Aléatoire Pure (Algorithme 1) :

Entrée: x₀ ∈ Rⁿ
tant que condition d'arrêt non satisfaite:
    échantillonner aléatoirement x̃ dans Rⁿ
    si f(x̃) < f(x):
        x ← x̃
Sortie: x

Recherche Locale Gourmande (Algorithme 2) :

Entrée: x₀ ∈ Rⁿ, Σ
tant que condition d'arrêt non satisfaite:
    échantillonner d ~ N(0,Σ)
    si f(x+d) < f(x):
        x ← x+d

2. Approximation du Gradient par Lissage Gaussien

Idée Centrale : Au lieu d'approximer directement le gradient de la fonction originale f, étudier la fonction de substitution lissée : $f_μ(x) = \mathbb{E}[f(x + μϵ)]$ où $ϵ \sim \mathcal{N}(0,Σ)$

Déduction Clé : Le gradient de la fonction de substitution peut être estimé via l'évaluation de fonction : $\nabla f_μ(x) = \mathbb{E}\left[\frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ\right]$

Ceci fournit l'estimation du gradient : $g = \frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ$

3. Transformation Log-Sum-Exp

Fondation Théorique de MPPI : Considérer la fonction de transformation log-sum-exp continue : $f_{μ,λ}(x) = -λ \log\left(\mathbb{E}\left[\exp\left(-\frac{1}{λ}f(x+μϵ)\right)\right]\right)$

Son gradient est : $\nabla f_{μ,λ}(x) = \frac{-λ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))Σ^{-1}ϵ]}{μ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))]}$

Ceci correspond directement à la règle de mise à jour de MPPI : $x \leftarrow \sum_{k=1}^K w_k x_k$ où les poids sont : $w_k = \frac{\exp(-\frac{1}{λ}(f(x_k) - ρ))}{\sum_j \exp(-\frac{1}{λ}(f(x_j) - ρ))}$

Points d'Innovation Technique

1. Établissement d'une Perspective Unifiée

Unifier les algorithmes apparemment différents (MPPI, CMA, REINFORCE) sous le cadre de lissage gaussien
Révéler la transformation log-sum-exp comme généralisation du lissage gaussien

2. Interprétation du Gradient Naturel

Prouver que MPPI exécute une étape de gradient naturel : $x \leftarrow x - αF^{-1}g$ où F est la matrice d'information de Fisher, égale à l'inverse de la matrice de covariance pour les distributions gaussiennes

3. Déduction de CMA

Redéduire CMA du point de vue de l'optimisation des paramètres de distribution gaussienne : $\min_{θ=(x,Σ)} \mathbb{E}_{z\sim\mathcal{N}(x,Σ)}[f(z)]$

En utilisant le gradient naturel, obtenir les règles de mise à jour :

Σ ← (1-α∑wₖ)Σ + α∑wₖ(xₖ-x)(xₖ-x)ᵀ
x ← (1-α∑wₖ)x + α∑wₖxₖ

4. Explication Théorique de la Convergence Globale

Expliquer via la dynamique de Langevin comment la stochasticité aide à échapper aux minima locaux : $x_{k+1} = x_k - α_k g_k + γ_k ϵ_k$

Configuration Expérimentale

Expériences d'Optimisation de Trajectoires

Ensemble de Données : Quatre problèmes de référence basés sur Hydrax

Cartpole : Contrôle classique du pendule inversé
DoubleCartpole : Système de double pendule inversé
PushT : Tâche de poussée
Humanoid : Contrôle de robot humanoïde

Algorithmes de Comparaison :

Predictive Sampling
Randomized Smoothing
MPPI
MPPI-CMA (proposé dans cet article)

Configuration Expérimentale :

2048 échantillons utilisés par itération
Paramètre de température MPPI λ = 0.1
Moyenne sur 6 graines aléatoires
Limites de contrôle appliquées via termes de pénalité dans la fonction de coût

Expériences d'Apprentissage par Renforcement

Environnements : 7 environnements de contrôle continu MuJoCo

Algorithmes de Comparaison :

DDPG vs RS-DDPG vs LSE-DDPG
TD3 vs RS-TD3 vs LSE-TD3

Configuration Expérimentale :

Implémentation basée sur CleanRL
10 échantillons utilisés par mise à jour
Écart-type du bruit d'échantillonnage 0.1
Moyenne sur 5 exécutions

Métriques d'Évaluation

TO : Courbes de décroissance des coûts au cours du processus d'optimisation
RL : Scores normalisés et récompenses par épisode

Résultats Expérimentaux

Résultats d'Optimisation de Trajectoires

MPPI-CMA Surperforme : Surpasse systématiquement MPPI sur tous les problèmes testés
Predictive Sampling Étonnamment Efficace : Malgré sa simplicité, affiche de bonnes performances
Randomized Smoothing Sensible : Hautement sensible au choix de la taille de pas, performances très variables
Valeur de l'Adaptation de Covariance : Démontre l'importance de la matrice de covariance adaptative

Résultats d'Apprentissage par Renforcement

Amélioration Significative de DDPG : RS-DDPG et LSE-DDPG surpassent significativement le DDPG original
Amélioration Limitée de TD3 : TD3 étant déjà un algorithme fort, l'espace d'amélioration est limité
Bénéfice Universel du Lissage : Démontre la valeur universelle du lissage du gradient de fonction Q

Découvertes Clés

Avantage Log-Sum-Exp : Gère mieux les fonctions multimodales comparé au lissage gaussien standard
Importance du Paramètre de Température : Un paramètre de température λ approprié est critique pour les performances
Convivialité pour la Parallélisation : Toutes les méthodes se parallélisent bien

Travaux Connexes

Domaine de l'Optimisation de Trajectoires

Méthodes Classiques : La descente de gradient, la méthode de Newton et autres méthodes déterministes se retrouvent facilement piégées dans les minima locaux
Méthodes d'Échantillonnage : Predictive Sampling, MPPI et autres méthodes d'ordre zéro
Connexions Théoriques : 13 montre pour la première fois les similarités entre MPPI et CMA-ES, 14 comprend MPPI comme une méthode d'approximation de gradient

Domaine de l'Apprentissage par Renforcement

Recherche dans l'Espace des Paramètres : 16,17 explorent la recherche stochastique dans l'espace des paramètres de politique
Connexions avec Gradients de Politique : 18,19 établissent les liens entre gradients de politique et recherche stochastique
Stratégies Évolutionnaires : 20,21 fournissent des enquêtes complètes connectant RL et techniques ES

Positionnement de la Contribution

Cet article fournit pour la première fois une perspective large connectant les méthodes sans gradient en TO et RL, comblant le vide d'un cadre théorique unifié.

Conclusion et Discussion

Conclusions Principales

Cadre Unifié Efficace : La perspective de recherche stochastique unifie avec succès plusieurs algorithmes d'ordre zéro en TO et RL
Théorie Guidant la Pratique : La compréhension unifiée a conduit à la conception de nouveaux algorithmes compétitifs
Valeur de la Stochasticité : Explique théoriquement le mécanisme permettant aux algorithmes stochastiques d'échapper aux minima locaux
Vérification Pratique : Valide l'efficacité du cadre et des nouveaux algorithmes sur plusieurs tâches robotiques

Limitations

Convergence Asymptotique : Les garanties de convergence globale sont uniquement asymptotiques, avec une signification pratique limitée
Malédiction de la Dimensionnalité : Les méthodes d'échantillonnage restent affectées par la malédiction de la dimensionnalité
Sensibilité aux Hyperparamètres : Le paramètre de température, la taille de pas et autres nécessitent un ajustement minutieux
Traitement des Contraintes : Le cadre actuel traite principalement les problèmes d'optimisation sans contraintes

Directions Futures

Optimisation Contrainte : Étendre à l'optimisation d'ordre zéro contrainte
Recherche de Solutions Globales : Développer des méthodes plus efficaces pour la recherche de solutions globales
Paramètres Adaptatifs : Ajuster automatiquement la température, la taille de pas et autres hyperparamètres
Perfectionnement Théorique : Fournir des garanties théoriques plus fortes pour le lissage stochastique

Évaluation Approfondie

Points Forts

Contribution Théorique Remarquable : Fournit le premier cadre théorique unifié pour l'optimisation d'ordre zéro en robotique
Rigueur Mathématique : Les déductions sont précises, l'analyse théorique approfondie
Valeur Directrice Pratique : Les intuitions théoriques guident directement la conception de nouveaux algorithmes
Suffisance Expérimentale : Couvre plusieurs tests de référence dans les deux domaines majeurs TO et RL
Clarté de la Rédaction : Les théories complexes sont exprimées clairement, faciles à comprendre

Insuffisances

Nouveauté Limitée : Principalement une réinterprétation des algorithmes existants, contribution d'algorithmes originaux relativement limitée
Échelle Expérimentale : Les expériences RL testées uniquement sur les environnements MuJoCo, manquent de tâches robotiques plus complexes
Écart Théorique : La théorie de convergence globale du lissage stochastique n'est pas aussi complète que celle de SPSA
Limitations Pratiques : Certains résultats théoriques (comme la convergence asymptotique) ont une valeur pratique limitée

Impact

Valeur Académique : Fournit une unification théorique importante pour le domaine de l'optimisation robotique
Signification Éducative : En tant qu'article tutoriel, offre une excellente valeur éducative pour les étudiants et chercheurs
Inspiration Méthodologique : Le cadre unifié peut inspirer la conception de plus d'algorithmes nouveaux
Connexion Interdisciplinaire : Favorise la communication et la collaboration entre les communautés TO et RL

Scénarios Applicables

Optimisation Non-Lisse : Problèmes de contrôle robotique impliquant contact, collision
Optimisation Haute Dimension : Optimisation des paramètres de politique de réseau de neurones
Calcul Parallèle : Scénarios disposant de ressources de calcul parallèle abondantes
Recherche Exploratoire : Problèmes d'optimisation complexes nécessitant d'échapper aux minima locaux

Références

L'article cite 51 références connexes, incluant principalement :

Théorie de l'Optimisation : 1 Optimisation sans dérivées de Conn et al., 12 Lissage stochastique de Nesterov
Applications Robotiques : 2,3 Applications récentes de MPC d'échantillonnage, 4,5 Succès de RL en robotique
Algorithmes Classiques : 8 CMA-ES, 10 MPPI, 11 REINFORCE
Fondations Théoriques : 22 SPSA de Spall, 27 Méthodes MCMC

Cet article réussit à connecter les méthodes d'optimisation apparemment disparates en robotique à travers une perspective unifiée de recherche stochastique, fournissant non seulement des intuitions théoriques importantes mais guidant également la conception de nouveaux algorithmes. Bien qu'il présente certaines insuffisances en termes d'originalité algorithmique, sa valeur théorique unifiée et sa signification éducative en font une contribution importante au domaine.