2025-11-16T22:04:13.069952

An Introduction to Zero-Order Optimization Techniques for Robotics

Jordana, Zhang, Amigo et al.
Zero-order optimization techniques are becoming increasingly popular in robotics due to their ability to handle non-differentiable functions and escape local minima. These advantages make them particularly useful for trajectory optimization and policy optimization. In this work, we propose a mathematical tutorial on random search. It offers a simple and unifying perspective for understanding a wide range of algorithms commonly used in robotics. Leveraging this viewpoint, we classify many trajectory optimization methods under a common framework and derive novel competitive RL algorithms.
academic

Eine Einführung in Nullter-Ordnung-Optimierungstechniken für Robotik

Grundlegende Informationen

  • Papier-ID: 2506.22087
  • Titel: An Introduction to Zero-Order Optimization Techniques for Robotics
  • Autoren: Armand Jordana, Jianghan Zhang, Joseph Amigo, Ludovic Righetti (New York University)
  • Klassifizierung: cs.RO (Robotik)
  • Veröffentlichungszeit: arXiv-Preprint, neueste Version vom 10. Oktober 2025
  • Papier-Link: https://arxiv.org/abs/2506.22087

Zusammenfassung

Nullter-Ordnung-Optimierungstechniken werden in der Robotik zunehmend beliebter, da sie nicht-differenzierbare Funktionen verarbeiten und lokale Minima verlassen können. Diese Vorteile machen sie besonders nützlich bei der Trajektorienoptimierung und Richtlinienoptimierung. Dieses Papier präsentiert ein mathematisches Tutorial über stochastische Suche und bietet eine einfache, einheitliche Perspektive zum Verständnis von in der Robotik weit verbreiteten Algorithmen. Mit dieser Perspektive klassifizieren die Autoren viele Trajektorienoptimierungsmethoden unter einem gemeinsamen Rahmen und leiten neuartige und wettbewerbsfähige Reinforcement-Learning-Algorithmen ab.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem, das dieses Papier lösen möchte, ist die Vereinheitlichung des Verständnisses von in der Robotik weit verbreiteten Nullter-Ordnung-Optimierungsalgorithmen, einschließlich verschiedener Methoden in der Trajektorienoptimierung (TO) und dem Reinforcement Learning (RL).

Bedeutung des Problems

  1. Praktische Anforderungen: Robotersysteme stoßen häufig auf nicht-differenzierbare Zielfunktionen, besonders bei Problemen mit Kontakt (wie Gehen, Manipulation)
  2. Verbesserte Rechenleistung: Die Entwicklung von Parallelcomputing und GPU-Hardware macht samplingintensive Nullter-Ordnung-Methoden auf komplexen Robotersystemen möglich
  3. Fehlende theoretische Einheit: Obwohl bestehende Algorithmen eine starke theoretische Grundlage haben, fehlt es in der Robotik-Gemeinschaft an einheitlichem Verständnis

Einschränkungen bestehender Methoden

  1. Algorithmen-Isolation: MPPI, CMA-ES, REINFORCE und andere Algorithmen erscheinen unabhängig und es fehlt ein einheitlicher Rahmen
  2. Verstreute Theorie: Diese Algorithmen sind über Optimierung, Statistik, maschinelles Lernen und Steuerung verteilt
  3. Anwendungsbeschränkungen: Mangel an Anleitung zur Gestaltung neuer Algorithmen aus einer einheitlichen Perspektive

Forschungsmotivation

Durch eine einheitliche Perspektive der stochastischen Suche und Gaußschen Glättung werden Nullter-Ordnung-Methoden in Trajektorienoptimierung und Richtlinienoptimierung verbunden, was sowohl das theoretische Verständnis vertieft als auch die Gestaltung neuer Algorithmen leitet.

Kernbeiträge

  1. Einheitlicher theoretischer Rahmen: Bietet eine einheitliche Perspektive zum Verständnis von Nullter-Ordnung-Algorithmen in TO und RL basierend auf stochastischer Suche
  2. Neuinterpretation von Algorithmen: Vereinigt klassische Algorithmen wie MPPI, CMA, REINFORCE unter einem Gaußschen Glättungsrahmen
  3. Ableitung neuer Algorithmen: Leitet neue wettbewerbsfähige RL-Algorithmen basierend auf dem einheitlichen Rahmen ab (z.B. RS-DDPG, LSE-DDPG)
  4. Theoretische Einsichten: Erklärt den theoretischen Mechanismus, wie stochastische Algorithmen lokale Minima verlassen
  5. Experimentelle Validierung: Validiert die Effektivität des Rahmens und die Wettbewerbsfähigkeit neuer Algorithmen auf mehreren Roboteraufgaben

Methodische Details

Aufgabendefinition

Dieses Papier konzentriert sich auf die Lösung des folgenden allgemeinen Optimierungsproblems: minxRnf(x)\min_{x \in \mathbb{R}^n} f(x)

Diese Form umfasst ein breites Spektrum von Problemen in der Robotik:

  • Trajektorienoptimierung: Optimierung im Trajektorienraum (endlichdimensional)
  • Richtlinienoptimierung: Optimierung im Richtlinienparameterraum (unendlichdimensionale Funktionen)

Zentraler theoretischer Rahmen

1. Grundlagen der stochastischen Suche

Reine stochastische Suche (Algorithmus 1):

Eingabe: x₀ ∈ Rⁿ
while Stoppbedingung nicht erfüllt:
    Zufällige Stichprobe x̃ in Rⁿ
    if f(x̃) < f(x):
        x ← x̃
Ausgabe: x

Gierige lokale Suche (Algorithmus 2):

Eingabe: x₀ ∈ Rⁿ, Σ
while Stoppbedingung nicht erfüllt:
    Stichprobe d ~ N(0,Σ)
    if f(x+d) < f(x):
        x ← x+d

2. Gaußsche Glättungs-Gradientennäherung

Kernidee: Anstatt den Gradienten der ursprünglichen Funktion f direkt zu approximieren, wird eine geglättete Ersatzfunktion untersucht: fμ(x)=E[f(x+μϵ)]f_μ(x) = \mathbb{E}[f(x + μϵ)] wobei ϵN(0,Σ)ϵ \sim \mathcal{N}(0,Σ)

Schlüsselableitung: Der Gradient der Ersatzfunktion kann durch Funktionsbewertungen geschätzt werden: fμ(x)=E[f(x+μϵ)f(x)μΣ1ϵ]\nabla f_μ(x) = \mathbb{E}\left[\frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ\right]

Dies liefert die Gradientenschätzung: g=f(x+μϵ)f(x)μΣ1ϵg = \frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ

3. Log-Sum-Exp-Transformation

Theoretische Grundlage von MPPI: Betrachten Sie die kontinuierliche Log-Sum-Exp-Transformationsfunktion: fμ,λ(x)=λlog(E[exp(1λf(x+μϵ))])f_{μ,λ}(x) = -λ \log\left(\mathbb{E}\left[\exp\left(-\frac{1}{λ}f(x+μϵ)\right)\right]\right)

Ihr Gradient ist: fμ,λ(x)=λE[exp(1λf(x+μϵ))Σ1ϵ]μE[exp(1λf(x+μϵ))]\nabla f_{μ,λ}(x) = \frac{-λ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))Σ^{-1}ϵ]}{μ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))]}

Dies entspricht direkt der Aktualisierungsregel von MPPI: xk=1Kwkxkx \leftarrow \sum_{k=1}^K w_k x_k wobei die Gewichte sind: wk=exp(1λ(f(xk)ρ))jexp(1λ(f(xj)ρ))w_k = \frac{\exp(-\frac{1}{λ}(f(x_k) - ρ))}{\sum_j \exp(-\frac{1}{λ}(f(x_j) - ρ))}

Technische Innovationspunkte

1. Etablierung einer einheitlichen Perspektive

  • Vereinigt scheinbar unterschiedliche Algorithmen (MPPI, CMA, REINFORCE) unter einem Gaußschen Glättungsrahmen
  • Offenbart die Log-Sum-Exp-Transformation als Verallgemeinerung der Gaußschen Glättung

2. Interpretation des natürlichen Gradienten

Beweist, dass MPPI einen natürlichen Gradientenschritt ausführt: xxαF1gx \leftarrow x - αF^{-1}g wobei F die Fisher-Informationsmatrix ist, die für Gaußverteilungen gleich der Inversen der Kovarianzmatrix ist

3. Ableitung von CMA

Leitet CMA neu ab aus der Perspektive der Optimierung von Gaußverteilungsparametern: minθ=(x,Σ)EzN(x,Σ)[f(z)]\min_{θ=(x,Σ)} \mathbb{E}_{z\sim\mathcal{N}(x,Σ)}[f(z)]

Unter Verwendung des natürlichen Gradienten erhält man die Aktualisierungsregeln:

Σ ← (1-α∑wₖ)Σ + α∑wₖ(xₖ-x)(xₖ-x)ᵀ
x ← (1-α∑wₖ)x + α∑wₖxₖ

4. Theoretische Erklärung der globalen Konvergenz

Erklärt durch Langevin-Dynamik, wie Stochastizität hilft, lokale Minima zu verlassen: xk+1=xkαkgk+γkϵkx_{k+1} = x_k - α_k g_k + γ_k ϵ_k

Experimentelle Einrichtung

Trajektorienoptimierungs-Experimente

Datensatz: Vier Benchmark-Probleme basierend auf Hydrax

  • Cartpole: Klassische Inverted-Pendulum-Steuerung
  • DoubleCartPole: Doppeltes Inverted-Pendulum-System
  • PushT: Push-Aufgabe
  • Humanoid: Humanoid-Roboter-Steuerung

Vergleichsalgorithmen:

  • Predictive Sampling
  • Randomized Smoothing
  • MPPI
  • MPPI-CMA (in diesem Papier vorgeschlagen)

Experimentelle Einrichtung:

  • 2048 Stichproben pro Iteration
  • MPPI-Temperaturparameter λ = 0,1
  • Durchschnitt über 6 zufällige Seeds
  • Erzwungene Steuergrenzen durch Strafterme in der Kostenfunktion

Reinforcement-Learning-Experimente

Umgebungen: 7 MuJoCo-Umgebungen für kontinuierliche Steuerung

Vergleichsalgorithmen:

  • DDPG vs RS-DDPG vs LSE-DDPG
  • TD3 vs RS-TD3 vs LSE-TD3

Experimentelle Einrichtung:

  • Implementierung basierend auf CleanRL
  • 10 Stichproben pro Update
  • Sampling-Rausch-Standardabweichung 0,1
  • Durchschnitt über 5 Durchläufe

Bewertungsmetriken

  • TO: Kostensenkungskurven während des Optimierungsprozesses
  • RL: Normalisierte Scores und Episode-Rewards

Experimentelle Ergebnisse

Trajektorienoptimierungs-Ergebnisse

  1. MPPI-CMA zeigt beste Leistung: Übertrifft MPPI konsistent bei allen Testproblemen
  2. Predictive Sampling überraschend effektiv: Trotz Einfachheit gute Leistung
  3. Randomized Smoothing empfindlich: Hochgradig empfindlich gegenüber Schrittweite, große Leistungsschwankungen
  4. Wert der Kovarianzadaption: Beweist die Wichtigkeit adaptiver Kovarianzmatrizen

Reinforcement-Learning-Ergebnisse

  1. Signifikante DDPG-Verbesserung: RS-DDPG und LSE-DDPG übertreffen deutlich das ursprüngliche DDPG
  2. Begrenzte TD3-Verbesserung: TD3 ist bereits ein starker Algorithmus mit begrenztem Verbesserungsspielraum
  3. Universeller Nutzen der Glättung: Beweist den universellen Wert der Q-Funktions-Gradienten-Glättung

Schlüsselfeststellungen

  1. Log-Sum-Exp-Vorteile: Bessere Behandlung multimodaler Funktionen im Vergleich zur standardmäßigen Gaußschen Glättung
  2. Wichtigkeit des Temperaturparameters: Angemessener Temperaturparameter λ ist kritisch für die Leistung
  3. Parallelisierungsfreundlich: Alle Methoden lassen sich gut parallelisieren

Verwandte Arbeiten

Trajektorienoptimierungs-Bereich

  • Klassische Methoden: Gradientenabstieg, Newton-Verfahren und andere deterministische Methoden fallen leicht in lokale Minima
  • Sampling-Methoden: Predictive Sampling, MPPI und andere Nullter-Ordnung-Methoden
  • Theoretische Verbindungen: 13 zeigt erstmals Ähnlichkeiten zwischen MPPI und CMA-ES, 14 versteht MPPI als approximative Gradientenmethode

Reinforcement-Learning-Bereich

  • Parameterraum-Suche: 16,17 erforschen stochastische Suche im Richtlinienparameterraum
  • Richtliniengradienten-Verbindung: 18,19 etablieren Verbindungen zwischen Richtliniengradienten und stochastischer Suche
  • Evolutionsstrategien: 20,21 bieten umfassende Übersichten über Verbindungen zwischen RL und ES-Techniken

Positionierung des Beitrags dieses Papiers

Dieses Papier bietet erstmals eine umfassende Perspektive, die gradientenfreie Methoden in TO und RL verbindet und füllt die Lücke eines einheitlichen theoretischen Rahmens.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Einheitlicher Rahmen ist effektiv: Die stochastische Suchperspektive vereinigt erfolgreich mehrere Nullter-Ordnung-Algorithmen in TO und RL
  2. Theorie leitet Praxis: Einheitliches Verständnis führt zur Gestaltung neuer wettbewerbsfähiger Algorithmen
  3. Wert der Stochastizität: Erklärt theoretisch den Mechanismus, wie stochastische Algorithmen lokale Minima verlassen
  4. Praktische Validierung: Validiert die Effektivität des Rahmens und neuer Algorithmen auf mehreren Roboteraufgaben

Einschränkungen

  1. Asymptotische Konvergenz: Globale Konvergenzgarantien sind nur asymptotisch, mit begrenzter praktischer Bedeutung
  2. Fluch der Dimensionalität: Sampling-Methoden sind immer noch vom Fluch der Dimensionalität betroffen
  3. Hyperparameter-Empfindlichkeit: Temperaturparameter, Schrittweite usw. erfordern sorgfältige Abstimmung
  4. Behandlung von Nebenbedingungen: Der aktuelle Rahmen behandelt hauptsächlich uneingeschränkte Optimierungsprobleme

Zukünftige Richtungen

  1. Eingeschränkte Optimierung: Erweiterung auf eingeschränkte Nullter-Ordnung-Optimierung
  2. Globale Lösungssuche: Entwicklung effektiverer Methoden zur Suche nach globalen Lösungen
  3. Adaptive Parameter: Automatische Abstimmung von Temperatur, Schrittweite und anderen Hyperparametern
  4. Theoretische Verbesserung: Stärkere theoretische Garantien für stochastische Glättung

Tiefgreifende Bewertung

Stärken

  1. Hervorragende theoretische Beiträge: Bietet den ersten einheitlichen theoretischen Rahmen für Nullter-Ordnung-Optimierung in der Robotik
  2. Mathematische Strenge: Ableitungsprozess ist rigoros und theoretische Analyse ist tiefgreifend
  3. Praktischer Anwendungswert: Theoretische Einsichten leiten direkt die Gestaltung neuer Algorithmen
  4. Ausreichende Experimente: Umfasst mehrere Benchmark-Tests in den beiden Hauptbereichen TO und RL
  5. Schreibklarheit: Komplexe Theorie wird klar ausgedrückt und ist leicht verständlich

Mängel

  1. Begrenzte Neuheit: Hauptsächlich Neuinterpretation bestehender Algorithmen, mit relativ begrenzten Beiträgen originaler Algorithmen
  2. Experimenteller Umfang: RL-Experimente nur in MuJoCo-Umgebungen, fehlende komplexere Roboteraufgaben
  3. Theoretische Lücke: Globale Konvergenztheorie für stochastische Glättung nicht so ausgereift wie SPSA
  4. Praktische Einschränkungen: Einige theoretische Ergebnisse (z.B. asymptotische Konvergenz) haben begrenzte praktische Bedeutung

Einfluss

  1. Akademischer Wert: Bietet wichtige theoretische Vereinigung für das Robotik-Optimierungsfeld
  2. Pädagogischer Wert: Als Tutorial-Papier hat es großen Bildungswert für Studenten und Forscher
  3. Methodische Inspiration: Der einheitliche Rahmen könnte die Gestaltung weiterer neuer Algorithmen inspirieren
  4. Bereichsübergreifende Verbindung: Fördert Kommunikation und Zusammenarbeit zwischen TO- und RL-Gemeinschaften

Anwendungsszenarien

  1. Nicht-glatte Optimierung: Robotersteuerungsprobleme mit Kontakt, Kollision
  2. Hochdimensionale Optimierung: Optimierung von Neuronnetzwerk-Richtlinienparametern
  3. Parallelcomputing: Szenarien mit großen Mengen an Parallelcomputingressourcen
  4. Explorative Forschung: Komplexe Optimierungsprobleme, die lokale Minima verlassen müssen

Literaturverzeichnis

Das Papier zitiert 51 verwandte Literaturquellen, hauptsächlich einschließlich:

  • Optimierungstheorie: 1 Conn et al. zur ableitungsfreien Optimierung, 12 Nesterovs stochastische Glättung
  • Robotik-Anwendungen: 2,3 neueste Sampling-MPC-Anwendungen, 4,5 RL-Erfolge in der Robotik
  • Klassische Algorithmen: 8 CMA-ES, 10 MPPI, 11 REINFORCE
  • Theoretische Grundlagen: 22 Spalls SPSA, 27 MCMC-Methoden

Dieses Papier verbindet durch eine einheitliche Perspektive der stochastischen Suche erfolgreich scheinbar unterschiedliche Optimierungsmethoden in der Robotik. Es bietet nicht nur wichtige theoretische Einsichten, sondern leitet auch die Gestaltung neuer Algorithmen an. Obwohl es in Bezug auf die Originalität von Algorithmen etwas zu wünschen übrig lässt, machen sein theoretischer Vereinigungswert und seine pädagogische Bedeutung es zu einem wichtigen Beitrag auf diesem Gebiet.