2025-11-16T22:04:13.069952

An Introduction to Zero-Order Optimization Techniques for Robotics

Jordana, Zhang, Amigo et al.
Zero-order optimization techniques are becoming increasingly popular in robotics due to their ability to handle non-differentiable functions and escape local minima. These advantages make them particularly useful for trajectory optimization and policy optimization. In this work, we propose a mathematical tutorial on random search. It offers a simple and unifying perspective for understanding a wide range of algorithms commonly used in robotics. Leveraging this viewpoint, we classify many trajectory optimization methods under a common framework and derive novel competitive RL algorithms.
academic

Une Introduction aux Techniques d'Optimisation d'Ordre Zéro pour la Robotique

Informations Fondamentales

  • Identifiant de l'article : 2506.22087
  • Titre : An Introduction to Zero-Order Optimization Techniques for Robotics
  • Auteurs : Armand Jordana, Jianghan Zhang, Joseph Amigo, Ludovic Righetti (Université de New York)
  • Classification : cs.RO (Robotique)
  • Date de Publication : Prépublication arXiv, version la plus récente du 10 octobre 2025
  • Lien de l'article : https://arxiv.org/abs/2506.22087

Résumé

Les techniques d'optimisation d'ordre zéro gagnent en popularité en robotique car elles peuvent traiter les fonctions non-différentiables et échapper aux minima locaux. Ces avantages les rendent particulièrement utiles dans l'optimisation de trajectoires et l'optimisation de politiques. Cet article présente un tutoriel mathématique sur la recherche stochastique, offrant une perspective simple et unifiée pour comprendre les algorithmes largement utilisés en robotique. En exploitant ce point de vue, les auteurs classent de nombreuses méthodes d'optimisation de trajectoires sous un cadre générique et déduisent de nouveaux algorithmes d'apprentissage par renforcement novateurs et compétitifs.

Contexte de Recherche et Motivation

Problème Central

L'article vise à résoudre le problème central de la compréhension unifiée des algorithmes d'optimisation d'ordre zéro largement utilisés en robotique, incluant diverses méthodes en optimisation de trajectoires (TO) et apprentissage par renforcement (RL).

Importance du Problème

  1. Motivation Pratique : Les systèmes robotiques rencontrent fréquemment des fonctions objectif non-différentiables, particulièrement dans les problèmes impliquant le contact (marche, manipulation)
  2. Amélioration des Capacités de Calcul : Le développement du calcul parallèle et du matériel GPU rend possible l'utilisation de méthodes d'ordre zéro intensives en échantillonnage sur des systèmes robotiques complexes
  3. Manque d'Unification Théorique : Bien que les algorithmes existants possèdent des fondations théoriques solides, ils manquent d'une compréhension unifiée dans la communauté robotique

Limitations des Approches Existantes

  1. Isolement des Algorithmes : Les algorithmes MPPI, CMA-ES, REINFORCE semblent sans rapport, manquant d'un cadre unifié
  2. Théorie Fragmentée : Ces algorithmes sont dispersés dans plusieurs domaines : optimisation, statistiques, apprentissage automatique, contrôle
  3. Limitations Applicatives : Absence de directives pour concevoir de nouveaux algorithmes à partir d'une perspective unifiée

Motivation de la Recherche

En utilisant une perspective unifiée de recherche stochastique et lissage gaussien, connecter les méthodes d'ordre zéro en optimisation de trajectoires et optimisation de politiques, approfondissant à la fois la compréhension théorique et guidant la conception de nouveaux algorithmes.

Contributions Principales

  1. Cadre Théorique Unifié : Fournit une perspective unifiée pour comprendre les algorithmes d'ordre zéro en TO et RL basée sur la recherche stochastique
  2. Réinterprétation d'Algorithmes : Unifie les algorithmes classiques MPPI, CMA, REINFORCE sous le cadre de lissage gaussien
  3. Déduction de Nouveaux Algorithmes : Déduit de nouveaux algorithmes RL compétitifs basés sur le cadre unifié (par exemple RS-DDPG, LSE-DDPG)
  4. Intuitions Théoriques : Explique le mécanisme théorique permettant aux algorithmes stochastiques d'échapper aux minima locaux
  5. Vérification Expérimentale : Valide l'efficacité du cadre et la compétitivité des nouveaux algorithmes sur plusieurs tâches robotiques

Détails Méthodologiques

Définition de la Tâche

Cet article se concentre sur la résolution du problème d'optimisation générique suivant : minxRnf(x)\min_{x \in \mathbb{R}^n} f(x)

Cette formulation couvre un large éventail de problèmes en robotique :

  • Optimisation de Trajectoires : Optimisation dans l'espace des trajectoires (dimension finie)
  • Optimisation de Politiques : Optimisation dans l'espace des paramètres de politique (fonctions de dimension infinie)

Cadre Théorique Principal

1. Fondamentaux de la Recherche Stochastique

Recherche Aléatoire Pure (Algorithme 1) :

Entrée: x₀ ∈ Rⁿ
tant que condition d'arrêt non satisfaite:
    échantillonner aléatoirement x̃ dans Rⁿ
    si f(x̃) < f(x):
        x ← x̃
Sortie: x

Recherche Locale Gourmande (Algorithme 2) :

Entrée: x₀ ∈ Rⁿ, Σ
tant que condition d'arrêt non satisfaite:
    échantillonner d ~ N(0,Σ)
    si f(x+d) < f(x):
        x ← x+d

2. Approximation du Gradient par Lissage Gaussien

Idée Centrale : Au lieu d'approximer directement le gradient de la fonction originale f, étudier la fonction de substitution lissée : fμ(x)=E[f(x+μϵ)]f_μ(x) = \mathbb{E}[f(x + μϵ)]ϵN(0,Σ)ϵ \sim \mathcal{N}(0,Σ)

Déduction Clé : Le gradient de la fonction de substitution peut être estimé via l'évaluation de fonction : fμ(x)=E[f(x+μϵ)f(x)μΣ1ϵ]\nabla f_μ(x) = \mathbb{E}\left[\frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ\right]

Ceci fournit l'estimation du gradient : g=f(x+μϵ)f(x)μΣ1ϵg = \frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ

3. Transformation Log-Sum-Exp

Fondation Théorique de MPPI : Considérer la fonction de transformation log-sum-exp continue : fμ,λ(x)=λlog(E[exp(1λf(x+μϵ))])f_{μ,λ}(x) = -λ \log\left(\mathbb{E}\left[\exp\left(-\frac{1}{λ}f(x+μϵ)\right)\right]\right)

Son gradient est : fμ,λ(x)=λE[exp(1λf(x+μϵ))Σ1ϵ]μE[exp(1λf(x+μϵ))]\nabla f_{μ,λ}(x) = \frac{-λ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))Σ^{-1}ϵ]}{μ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))]}

Ceci correspond directement à la règle de mise à jour de MPPI : xk=1Kwkxkx \leftarrow \sum_{k=1}^K w_k x_k où les poids sont : wk=exp(1λ(f(xk)ρ))jexp(1λ(f(xj)ρ))w_k = \frac{\exp(-\frac{1}{λ}(f(x_k) - ρ))}{\sum_j \exp(-\frac{1}{λ}(f(x_j) - ρ))}

Points d'Innovation Technique

1. Établissement d'une Perspective Unifiée

  • Unifier les algorithmes apparemment différents (MPPI, CMA, REINFORCE) sous le cadre de lissage gaussien
  • Révéler la transformation log-sum-exp comme généralisation du lissage gaussien

2. Interprétation du Gradient Naturel

Prouver que MPPI exécute une étape de gradient naturel : xxαF1gx \leftarrow x - αF^{-1}g où F est la matrice d'information de Fisher, égale à l'inverse de la matrice de covariance pour les distributions gaussiennes

3. Déduction de CMA

Redéduire CMA du point de vue de l'optimisation des paramètres de distribution gaussienne : minθ=(x,Σ)EzN(x,Σ)[f(z)]\min_{θ=(x,Σ)} \mathbb{E}_{z\sim\mathcal{N}(x,Σ)}[f(z)]

En utilisant le gradient naturel, obtenir les règles de mise à jour :

Σ ← (1-α∑wₖ)Σ + α∑wₖ(xₖ-x)(xₖ-x)ᵀ
x ← (1-α∑wₖ)x + α∑wₖxₖ

4. Explication Théorique de la Convergence Globale

Expliquer via la dynamique de Langevin comment la stochasticité aide à échapper aux minima locaux : xk+1=xkαkgk+γkϵkx_{k+1} = x_k - α_k g_k + γ_k ϵ_k

Configuration Expérimentale

Expériences d'Optimisation de Trajectoires

Ensemble de Données : Quatre problèmes de référence basés sur Hydrax

  • Cartpole : Contrôle classique du pendule inversé
  • DoubleCartpole : Système de double pendule inversé
  • PushT : Tâche de poussée
  • Humanoid : Contrôle de robot humanoïde

Algorithmes de Comparaison :

  • Predictive Sampling
  • Randomized Smoothing
  • MPPI
  • MPPI-CMA (proposé dans cet article)

Configuration Expérimentale :

  • 2048 échantillons utilisés par itération
  • Paramètre de température MPPI λ = 0.1
  • Moyenne sur 6 graines aléatoires
  • Limites de contrôle appliquées via termes de pénalité dans la fonction de coût

Expériences d'Apprentissage par Renforcement

Environnements : 7 environnements de contrôle continu MuJoCo

Algorithmes de Comparaison :

  • DDPG vs RS-DDPG vs LSE-DDPG
  • TD3 vs RS-TD3 vs LSE-TD3

Configuration Expérimentale :

  • Implémentation basée sur CleanRL
  • 10 échantillons utilisés par mise à jour
  • Écart-type du bruit d'échantillonnage 0.1
  • Moyenne sur 5 exécutions

Métriques d'Évaluation

  • TO : Courbes de décroissance des coûts au cours du processus d'optimisation
  • RL : Scores normalisés et récompenses par épisode

Résultats Expérimentaux

Résultats d'Optimisation de Trajectoires

  1. MPPI-CMA Surperforme : Surpasse systématiquement MPPI sur tous les problèmes testés
  2. Predictive Sampling Étonnamment Efficace : Malgré sa simplicité, affiche de bonnes performances
  3. Randomized Smoothing Sensible : Hautement sensible au choix de la taille de pas, performances très variables
  4. Valeur de l'Adaptation de Covariance : Démontre l'importance de la matrice de covariance adaptative

Résultats d'Apprentissage par Renforcement

  1. Amélioration Significative de DDPG : RS-DDPG et LSE-DDPG surpassent significativement le DDPG original
  2. Amélioration Limitée de TD3 : TD3 étant déjà un algorithme fort, l'espace d'amélioration est limité
  3. Bénéfice Universel du Lissage : Démontre la valeur universelle du lissage du gradient de fonction Q

Découvertes Clés

  1. Avantage Log-Sum-Exp : Gère mieux les fonctions multimodales comparé au lissage gaussien standard
  2. Importance du Paramètre de Température : Un paramètre de température λ approprié est critique pour les performances
  3. Convivialité pour la Parallélisation : Toutes les méthodes se parallélisent bien

Travaux Connexes

Domaine de l'Optimisation de Trajectoires

  • Méthodes Classiques : La descente de gradient, la méthode de Newton et autres méthodes déterministes se retrouvent facilement piégées dans les minima locaux
  • Méthodes d'Échantillonnage : Predictive Sampling, MPPI et autres méthodes d'ordre zéro
  • Connexions Théoriques : 13 montre pour la première fois les similarités entre MPPI et CMA-ES, 14 comprend MPPI comme une méthode d'approximation de gradient

Domaine de l'Apprentissage par Renforcement

  • Recherche dans l'Espace des Paramètres : 16,17 explorent la recherche stochastique dans l'espace des paramètres de politique
  • Connexions avec Gradients de Politique : 18,19 établissent les liens entre gradients de politique et recherche stochastique
  • Stratégies Évolutionnaires : 20,21 fournissent des enquêtes complètes connectant RL et techniques ES

Positionnement de la Contribution

Cet article fournit pour la première fois une perspective large connectant les méthodes sans gradient en TO et RL, comblant le vide d'un cadre théorique unifié.

Conclusion et Discussion

Conclusions Principales

  1. Cadre Unifié Efficace : La perspective de recherche stochastique unifie avec succès plusieurs algorithmes d'ordre zéro en TO et RL
  2. Théorie Guidant la Pratique : La compréhension unifiée a conduit à la conception de nouveaux algorithmes compétitifs
  3. Valeur de la Stochasticité : Explique théoriquement le mécanisme permettant aux algorithmes stochastiques d'échapper aux minima locaux
  4. Vérification Pratique : Valide l'efficacité du cadre et des nouveaux algorithmes sur plusieurs tâches robotiques

Limitations

  1. Convergence Asymptotique : Les garanties de convergence globale sont uniquement asymptotiques, avec une signification pratique limitée
  2. Malédiction de la Dimensionnalité : Les méthodes d'échantillonnage restent affectées par la malédiction de la dimensionnalité
  3. Sensibilité aux Hyperparamètres : Le paramètre de température, la taille de pas et autres nécessitent un ajustement minutieux
  4. Traitement des Contraintes : Le cadre actuel traite principalement les problèmes d'optimisation sans contraintes

Directions Futures

  1. Optimisation Contrainte : Étendre à l'optimisation d'ordre zéro contrainte
  2. Recherche de Solutions Globales : Développer des méthodes plus efficaces pour la recherche de solutions globales
  3. Paramètres Adaptatifs : Ajuster automatiquement la température, la taille de pas et autres hyperparamètres
  4. Perfectionnement Théorique : Fournir des garanties théoriques plus fortes pour le lissage stochastique

Évaluation Approfondie

Points Forts

  1. Contribution Théorique Remarquable : Fournit le premier cadre théorique unifié pour l'optimisation d'ordre zéro en robotique
  2. Rigueur Mathématique : Les déductions sont précises, l'analyse théorique approfondie
  3. Valeur Directrice Pratique : Les intuitions théoriques guident directement la conception de nouveaux algorithmes
  4. Suffisance Expérimentale : Couvre plusieurs tests de référence dans les deux domaines majeurs TO et RL
  5. Clarté de la Rédaction : Les théories complexes sont exprimées clairement, faciles à comprendre

Insuffisances

  1. Nouveauté Limitée : Principalement une réinterprétation des algorithmes existants, contribution d'algorithmes originaux relativement limitée
  2. Échelle Expérimentale : Les expériences RL testées uniquement sur les environnements MuJoCo, manquent de tâches robotiques plus complexes
  3. Écart Théorique : La théorie de convergence globale du lissage stochastique n'est pas aussi complète que celle de SPSA
  4. Limitations Pratiques : Certains résultats théoriques (comme la convergence asymptotique) ont une valeur pratique limitée

Impact

  1. Valeur Académique : Fournit une unification théorique importante pour le domaine de l'optimisation robotique
  2. Signification Éducative : En tant qu'article tutoriel, offre une excellente valeur éducative pour les étudiants et chercheurs
  3. Inspiration Méthodologique : Le cadre unifié peut inspirer la conception de plus d'algorithmes nouveaux
  4. Connexion Interdisciplinaire : Favorise la communication et la collaboration entre les communautés TO et RL

Scénarios Applicables

  1. Optimisation Non-Lisse : Problèmes de contrôle robotique impliquant contact, collision
  2. Optimisation Haute Dimension : Optimisation des paramètres de politique de réseau de neurones
  3. Calcul Parallèle : Scénarios disposant de ressources de calcul parallèle abondantes
  4. Recherche Exploratoire : Problèmes d'optimisation complexes nécessitant d'échapper aux minima locaux

Références

L'article cite 51 références connexes, incluant principalement :

  • Théorie de l'Optimisation : 1 Optimisation sans dérivées de Conn et al., 12 Lissage stochastique de Nesterov
  • Applications Robotiques : 2,3 Applications récentes de MPC d'échantillonnage, 4,5 Succès de RL en robotique
  • Algorithmes Classiques : 8 CMA-ES, 10 MPPI, 11 REINFORCE
  • Fondations Théoriques : 22 SPSA de Spall, 27 Méthodes MCMC

Cet article réussit à connecter les méthodes d'optimisation apparemment disparates en robotique à travers une perspective unifiée de recherche stochastique, fournissant non seulement des intuitions théoriques importantes mais guidant également la conception de nouveaux algorithmes. Bien qu'il présente certaines insuffisances en termes d'originalité algorithmique, sa valeur théorique unifiée et sa signification éducative en font une contribution importante au domaine.