2025-11-16T22:04:13.069952

An Introduction to Zero-Order Optimization Techniques for Robotics

Jordana, Zhang, Amigo et al.

Zero-order optimization techniques are becoming increasingly popular in robotics due to their ability to handle non-differentiable functions and escape local minima. These advantages make them particularly useful for trajectory optimization and policy optimization. In this work, we propose a mathematical tutorial on random search. It offers a simple and unifying perspective for understanding a wide range of algorithms commonly used in robotics. Leveraging this viewpoint, we classify many trajectory optimization methods under a common framework and derive novel competitive RL algorithms.

academic

Un'Introduzione alle Tecniche di Ottimizzazione di Ordine Zero per la Robotica

Informazioni Fondamentali

ID Articolo: 2506.22087
Titolo: An Introduction to Zero-Order Optimization Techniques for Robotics
Autori: Armand Jordana, Jianghan Zhang, Joseph Amigo, Ludovic Righetti (New York University)
Classificazione: cs.RO (Robotica)
Data di Pubblicazione: Preprint arXiv, versione più recente del 10 ottobre 2025
Link dell'Articolo: https://arxiv.org/abs/2506.22087

Riassunto

Le tecniche di ottimizzazione di ordine zero stanno diventando sempre più popolari nella robotica perché sono in grado di gestire funzioni non differenziabili e di sfuggire ai minimi locali. Questi vantaggi le rendono particolarmente utili nell'ottimizzazione di traiettorie e nell'ottimizzazione di politiche. Questo articolo presenta un tutorial matematico sulla ricerca stocastica, fornendo una prospettiva semplice e unificata per comprendere gli algoritmi ampiamente utilizzati nella robotica. Sfruttando questo punto di vista, gli autori classificano molti metodi di ottimizzazione di traiettorie all'interno di un framework unificato e derivano nuovi algoritmi di apprendimento per rinforzo innovativi e competitivi.

Contesto di Ricerca e Motivazione

Problema Fondamentale

Il problema fondamentale affrontato in questo articolo è come unificare la comprensione degli algoritmi di ottimizzazione di ordine zero ampiamente utilizzati nella robotica, inclusi vari metodi nell'ottimizzazione di traiettorie (TO) e nell'apprendimento per rinforzo (RL).

Importanza del Problema

Esigenza Pratica: I sistemi robotici incontrano frequentemente funzioni obiettivo non differenziabili, in particolare nei problemi che coinvolgono il contatto (come la locomozione e la manipolazione)
Miglioramento della Capacità Computazionale: Lo sviluppo del calcolo parallelo e dell'hardware GPU ha reso possibile l'utilizzo di metodi di ordine zero ad alta intensità di campionamento su sistemi robotici complessi
Mancanza di Unificazione Teorica: Sebbene gli algoritmi esistenti abbiano solide basi teoriche, manca una comprensione unificata nella comunità robotica

Limitazioni dei Metodi Esistenti

Isolamento degli Algoritmi: Algoritmi come MPPI, CMA-ES, REINFORCE sembrano non correlati e mancano di un framework unificato
Teoria Dispersa: Questi algoritmi sono distribuiti in più discipline: ottimizzazione, statistica, apprendimento automatico, controllo
Limitazioni Applicative: Mancanza di guida nel progettare nuovi algoritmi da una prospettiva unificata

Motivazione della Ricerca

Attraverso una prospettiva unificata di ricerca stocastica e lisciamento gaussiano, collegare i metodi di ordine zero nell'ottimizzazione di traiettorie e nell'ottimizzazione di politiche, approfondendo sia la comprensione teorica che guidando la progettazione di nuovi algoritmi.

Contributi Fondamentali

Framework Teorico Unificato: Fornisce una prospettiva unificata per comprendere gli algoritmi di ordine zero in TO e RL basata sulla ricerca stocastica
Reinterpretazione di Algoritmi: Unifica gli algoritmi classici MPPI, CMA, REINFORCE all'interno del framework di lisciamento gaussiano
Derivazione di Nuovi Algoritmi: Deriva nuovi algoritmi RL competitivi basati sul framework unificato (come RS-DDPG, LSE-DDPG)
Intuizioni Teoriche: Spiega il meccanismo teorico di come gli algoritmi stocastici sfuggono ai minimi locali
Verifica Sperimentale: Verifica l'efficacia del framework e la competitività dei nuovi algoritmi su molteplici compiti robotici

Dettagli dei Metodi

Definizione del Compito

Questo articolo si concentra sulla risoluzione del seguente problema di ottimizzazione generico: $\min_{x \in \mathbb{R}^n} f(x)$

Questa forma copre un'ampia gamma di problemi nella robotica:

Ottimizzazione di Traiettorie: Ottimizzazione nello spazio delle traiettorie (dimensione finita)
Ottimizzazione di Politiche: Ottimizzazione nello spazio dei parametri della politica (funzioni di dimensione infinita)

Framework Teorico Fondamentale

1. Fondamenti della Ricerca Stocastica

Ricerca Stocastica Pura (Algoritmo 1):

Input: x₀ ∈ Rⁿ
while condizione di arresto non soddisfatta:
    Campiona casualmente x̃ in Rⁿ
    if f(x̃) < f(x):
        x ← x̃
Output: x

Ricerca Locale Greedy (Algoritmo 2):

Input: x₀ ∈ Rⁿ, Σ
while condizione di arresto non soddisfatta:
    Campiona d ~ N(0,Σ)
    if f(x+d) < f(x):
        x ← x+d

2. Approssimazione del Gradiente mediante Lisciamento Gaussiano

Idea Fondamentale: Invece di approssimare direttamente il gradiente della funzione originale f, studiare la funzione surrogato lisciata: $f_μ(x) = \mathbb{E}[f(x + μϵ)]$ dove $ϵ \sim \mathcal{N}(0,Σ)$

Derivazione Chiave: Il gradiente della funzione surrogato può essere stimato attraverso valutazioni di funzione: $\nabla f_μ(x) = \mathbb{E}\left[\frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ\right]$

Questo fornisce la stima del gradiente: $g = \frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ$

3. Trasformazione Log-Sum-Exp

Base Teorica di MPPI: Considerare la funzione di trasformazione log-sum-exp continua: $f_{μ,λ}(x) = -λ \log\left(\mathbb{E}\left[\exp\left(-\frac{1}{λ}f(x+μϵ)\right)\right]\right)$

Il suo gradiente è: $\nabla f_{μ,λ}(x) = \frac{-λ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))Σ^{-1}ϵ]}{μ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))]}$

Questo corrisponde direttamente alla regola di aggiornamento di MPPI: $x \leftarrow \sum_{k=1}^K w_k x_k$ dove i pesi sono: $w_k = \frac{\exp(-\frac{1}{λ}(f(x_k) - ρ))}{\sum_j \exp(-\frac{1}{λ}(f(x_j) - ρ))}$

Punti di Innovazione Tecnica

1. Stabilimento della Prospettiva Unificata

Unifica algoritmi apparentemente diversi (MPPI, CMA, REINFORCE) all'interno del framework di lisciamento gaussiano
Rivela la trasformazione log-sum-exp come generalizzazione del lisciamento gaussiano

2. Interpretazione del Gradiente Naturale

Dimostra che MPPI esegue un passo di gradiente naturale: $x \leftarrow x - αF^{-1}g$ dove F è la matrice di informazione di Fisher, uguale all'inverso della matrice di covarianza per la distribuzione gaussiana

3. Derivazione di CMA

Rideriva CMA dalla prospettiva dell'ottimizzazione dei parametri della distribuzione gaussiana: $\min_{θ=(x,Σ)} \mathbb{E}_{z\sim\mathcal{N}(x,Σ)}[f(z)]$

Utilizzando il gradiente naturale si ottengono le regole di aggiornamento:

Σ ← (1-α∑wₖ)Σ + α∑wₖ(xₖ-x)(xₖ-x)ᵀ
x ← (1-α∑wₖ)x + α∑wₖxₖ

4. Spiegazione Teorica della Convergenza Globale

Attraverso la dinamica di Langevin spiega come la stocasticità aiuta a sfuggire ai minimi locali: $x_{k+1} = x_k - α_k g_k + γ_k ϵ_k$

Configurazione Sperimentale

Esperimenti di Ottimizzazione di Traiettorie

Dataset: Quattro problemi di benchmark basati su Hydrax

Cartpole: Controllo classico del pendolo invertito
DoubleCartpole: Sistema a doppio pendolo invertito
PushT: Compito di spinta
Humanoid: Controllo di robot umanoide

Algoritmi di Confronto:

Predictive Sampling
Randomized Smoothing
MPPI
MPPI-CMA (proposto in questo articolo)

Configurazione Sperimentale:

2048 campioni per iterazione
Parametro di temperatura MPPI λ = 0.1
Media su 6 semi casuali
Controllo dei limiti forzato attraverso termini di penalità nella funzione di costo

Esperimenti di Apprendimento per Rinforzo

Ambienti: 7 ambienti di controllo continuo MuJoCo

Algoritmi di Confronto:

DDPG vs RS-DDPG vs LSE-DDPG
TD3 vs RS-TD3 vs LSE-TD3

Configurazione Sperimentale:

Implementazione basata su CleanRL
10 campioni per aggiornamento
Deviazione standard del rumore di campionamento 0.1
Media su 5 esecuzioni

Metriche di Valutazione

TO: Curve di riduzione del costo durante il processo di ottimizzazione
RL: Punteggi normalizzati e ricompense per episodio

Risultati Sperimentali

Risultati dell'Ottimizzazione di Traiettorie

MPPI-CMA Migliore: Supera costantemente MPPI su tutti i problemi testati
Predictive Sampling Sorprendentemente Efficace: Nonostante la semplicità, mostra buone prestazioni
Randomized Smoothing Sensibile: Altamente sensibile alla scelta della dimensione del passo, con grande variabilità nelle prestazioni
Valore dell'Adattamento della Covarianza: Dimostra l'importanza della matrice di covarianza adattiva

Risultati dell'Apprendimento per Rinforzo

Miglioramento Significativo di DDPG: RS-DDPG e LSE-DDPG superano significativamente DDPG originale
Miglioramento Limitato di TD3: TD3 è già un algoritmo forte, con spazio di miglioramento limitato
Beneficio Universale del Lisciamento: Dimostra il valore universale del lisciamento del gradiente della funzione Q

Scoperte Chiave

Vantaggio di Log-Sum-Exp: Gestisce meglio le funzioni multimodali rispetto al lisciamento gaussiano standard
Importanza del Parametro di Temperatura: Un parametro di temperatura λ appropriato è cruciale per le prestazioni
Facilità di Parallelizzazione: Tutti i metodi si parallelizzano bene

Lavori Correlati

Campo dell'Ottimizzazione di Traiettorie

Metodi Classici: Discesa del gradiente, metodo di Newton e altri metodi deterministici rimangono intrappolati nei minimi locali
Metodi di Campionamento: Predictive Sampling, MPPI e altri metodi di ordine zero
Connessioni Teoriche: 13 mostra per la prima volta la somiglianza tra MPPI e CMA-ES, 14 comprende MPPI come metodo di approssimazione del gradiente

Campo dell'Apprendimento per Rinforzo

Ricerca nello Spazio dei Parametri: 16,17 esplorano la ricerca stocastica nello spazio dei parametri della politica
Connessione con Gradienti di Politica: 18,19 stabiliscono il collegamento tra gradienti di politica e ricerca stocastica
Strategie Evolutive: 20,21 forniscono indagini complete che collegano RL e tecniche ES

Posizionamento del Contributo di questo Articolo

Questo articolo fornisce per la prima volta una prospettiva ampia che collega i metodi senza gradiente in TO e RL, colmando il vuoto di un framework teorico unificato.

Conclusioni e Discussione

Conclusioni Principali

Framework Unificato Efficace: La prospettiva di ricerca stocastica unifica con successo molteplici algoritmi di ordine zero in TO e RL
Teoria Guida Pratica: La comprensione unificata ha portato alla progettazione di nuovi algoritmi competitivi
Valore della Stocasticità: Spiega teoricamente il meccanismo di come gli algoritmi stocastici sfuggono ai minimi locali
Verifica Pratica: Verifica l'efficacia del framework e dei nuovi algoritmi su molteplici compiti robotici

Limitazioni

Convergenza Asintotica: Le garanzie di convergenza globale sono solo asintotiche, con significato pratico limitato
Maledizione della Dimensionalità: I metodi di campionamento rimangono ancora soggetti alla maledizione della dimensionalità
Sensibilità agli Iperparametri: Il parametro di temperatura, la dimensione del passo e altri richiedono un'attenta regolazione
Gestione dei Vincoli: Il framework attuale affronta principalmente problemi di ottimizzazione senza vincoli

Direzioni Future

Ottimizzazione Vincolata: Estensione all'ottimizzazione di ordine zero vincolata
Ricerca di Soluzioni Globali: Sviluppo di metodi più efficienti per la ricerca di soluzioni globali
Parametri Adattivi: Regolazione automatica della temperatura, della dimensione del passo e altri iperparametri
Perfezionamento Teorico: Fornire garanzie teoriche più forti per il lisciamento stocastico

Valutazione Approfondita

Punti di Forza

Contributo Teorico Notevole: Fornisce il primo framework teorico unificato per l'ottimizzazione di ordine zero nella robotica
Rigore Matematico: Il processo di derivazione è rigoroso e l'analisi teorica è profonda
Valore Guida Pratica: Le intuizioni teoriche guidano direttamente la progettazione di nuovi algoritmi
Completezza Sperimentale: Copre molteplici test di benchmark in due grandi aree: TO e RL
Chiarezza della Scrittura: L'esposizione di teorie complesse è chiara e facile da comprendere

Carenze

Novità Limitata: Principalmente una reinterpretazione di algoritmi esistenti, con contributi di algoritmi originali relativamente limitati
Scala Sperimentale: Gli esperimenti RL sono testati solo in ambienti MuJoCo, mancano compiti robotici più complessi
Gap Teorico: La teoria di convergenza globale del lisciamento stocastico non è così completa quanto SPSA
Limitazioni Pratiche: Alcuni risultati teorici (come la convergenza asintotica) hanno valore pratico limitato

Impatto

Valore Accademico: Fornisce un'importante unificazione teorica per il campo dell'ottimizzazione robotica
Significato Educativo: Come articolo tutorial, ha grande valore educativo per studenti e ricercatori
Ispirazione Metodologica: Il framework unificato potrebbe ispirare la progettazione di più nuovi algoritmi
Connessione Interdisciplinare: Promuove la comunicazione e la collaborazione tra le comunità TO e RL

Scenari Applicabili

Ottimizzazione Non-Liscia: Problemi di controllo robotico che coinvolgono contatto, collisione
Ottimizzazione ad Alta Dimensione: Ottimizzazione dei parametri di politiche di reti neurali
Calcolo Parallelo: Scenari con abbondanti risorse di calcolo parallelo
Ricerca Esplorativa: Problemi di ottimizzazione complessi che richiedono di sfuggire ai minimi locali

Riferimenti Bibliografici

L'articolo cita 51 riferimenti correlati, principalmente includenti:

Teoria dell'Ottimizzazione: 1 Ottimizzazione senza derivate di Conn et al., 12 Lisciamento stocastico di Nesterov
Applicazioni Robotiche: 2,3 Applicazioni recenti di MPC di campionamento, 4,5 Successi di RL nella robotica
Algoritmi Classici: 8 CMA-ES, 10 MPPI, 11 REINFORCE
Fondamenti Teorici: 22 SPSA di Spall, 27 Metodi MCMC

Questo articolo, attraverso una prospettiva unificata di ricerca stocastica, connette con successo metodi di ottimizzazione apparentemente diversi nella robotica, fornendo non solo importanti intuizioni teoriche ma guidando anche la progettazione di nuovi algoritmi. Sebbene presenti alcune carenze in termini di originalità degli algoritmi, il suo valore di unificazione teorica e il significato educativo lo rendono un contributo importante nel campo.