2025-11-16T22:04:13.069952

An Introduction to Zero-Order Optimization Techniques for Robotics

Jordana, Zhang, Amigo et al.

Zero-order optimization techniques are becoming increasingly popular in robotics due to their ability to handle non-differentiable functions and escape local minima. These advantages make them particularly useful for trajectory optimization and policy optimization. In this work, we propose a mathematical tutorial on random search. It offers a simple and unifying perspective for understanding a wide range of algorithms commonly used in robotics. Leveraging this viewpoint, we classify many trajectory optimization methods under a common framework and derive novel competitive RL algorithms.

academic

रोबोटिक्स के लिए शून्य-क्रम अनुकूलन तकनीकों का परिचय

मूल जानकारी

पेपर ID: 2506.22087
शीर्षक: An Introduction to Zero-Order Optimization Techniques for Robotics
लेखक: Armand Jordana, Jianghan Zhang, Joseph Amigo, Ludovic Righetti (न्यूयॉर्क विश्वविद्यालय)
वर्गीकरण: cs.RO (रोबोटिक्स)
प्रकाशन समय: arXiv प्रीप्रिंट, 25 अक्टूबर 2025 को नवीनतम संस्करण
पेपर लिंक: https://arxiv.org/abs/2506.22087

सारांश

शून्य-क्रम अनुकूलन तकनीकें रोबोटिक्स में तेजी से लोकप्रिय हो रही हैं क्योंकि वे गैर-अवकलनीय फलनों को संभाल सकती हैं और स्थानीय न्यूनतम से बच सकती हैं। ये लाभ उन्हें प्रक्षेपवक्र अनुकूलन और नीति अनुकूलन में विशेष रूप से उपयोगी बनाते हैं। यह पेपर यादृच्छिक खोज पर एक गणितीय ट्यूटोरियल प्रस्तुत करता है, जो रोबोटिक्स में व्यापक रूप से उपयोग किए जाने वाले एल्गोरिदम को समझने के लिए एक सरल एकीकृत दृष्टिकोण प्रदान करता है। इस दृष्टिकोण का उपयोग करते हुए, लेखक कई प्रक्षेपवक्र अनुकूलन विधियों को एक सामान्य ढांचे के तहत वर्गीकृत करते हैं और नई और प्रतिस्पर्धी सुदृढ़ीकरण सीखने वाली एल्गोरिदम प्राप्त करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

यह पेपर रोबोटिक्स में व्यापक रूप से उपयोग किए जाने वाले शून्य-क्रम अनुकूलन एल्गोरिदम को समझने को एकीकृत करने की समस्या को हल करता है, जिसमें प्रक्षेपवक्र अनुकूलन (TO) और सुदृढ़ीकरण सीखने (RL) में विभिन्न विधियां शामिल हैं।

समस्या की महत्ता

व्यावहारिक आवश्यकता द्वारा संचालित: रोबोटिक सिस्टम में अक्सर गैर-अवकलनीय उद्देश्य फलन का सामना करना पड़ता है, विशेष रूप से संपर्क से संबंधित समस्याओं में (जैसे चलना, हेरफेर)
कम्प्यूटेशनल क्षमता में वृद्धि: समानांतर कंप्यूटिंग और GPU हार्डवेयर के विकास ने जटिल रोबोटिक सिस्टम पर नमूना-गहन शून्य-क्रम विधियों को संभव बनाया है
सैद्धांतिक एकता की कमी: मौजूदा एल्गोरिदम के पास मजबूत सैद्धांतिक आधार हैं, लेकिन रोबोटिक्स समुदाय में एकीकृत समझ की कमी है

मौजूदा विधियों की सीमाएं

एल्गोरिदम अलगाव: MPPI, CMA-ES, REINFORCE आदि एल्गोरिदम असंबंधित प्रतीत होते हैं, एकीकृत ढांचे की कमी है
सैद्धांतिक विखंडन: ये एल्गोरिदम अनुकूलन, सांख्यिकी, मशीन लर्निंग, नियंत्रण आदि कई क्षेत्रों में वितरित हैं
अनुप्रयोग सीमाएं: एकीकृत दृष्टिकोण से नई एल्गोरिदम डिजाइन करने के लिए मार्गदर्शन की कमी है

अनुसंधान प्रेरणा

यादृच्छिक खोज और गाऊसी स्मूथिंग के एकीकृत दृष्टिकोण के माध्यम से, प्रक्षेपवक्र अनुकूलन और नीति अनुकूलन में शून्य-क्रम विधियों को जोड़ना, जो सैद्धांतिक समझ को गहरा करता है और नई एल्गोरिदम डिजाइन को निर्देशित करता है।

मूल योगदान

एकीकृत सैद्धांतिक ढांचा: यादृच्छिक खोज के आधार पर TO और RL में शून्य-क्रम एल्गोरिदम को समझने के लिए एकीकृत दृष्टिकोण प्रदान करता है
एल्गोरिदम पुनर्व्याख्या: MPPI, CMA, REINFORCE आदि शास्त्रीय एल्गोरिदम को गाऊसी स्मूथिंग ढांचे के तहत एकीकृत करता है
नई एल्गोरिदम व्युत्पत्ति: एकीकृत ढांचे के आधार पर नई प्रतिस्पर्धी RL एल्गोरिदम (जैसे RS-DDPG, LSE-DDPG) प्राप्त करता है
सैद्धांतिक अंतर्दृष्टि: यादृच्छिक एल्गोरिदम के स्थानीय न्यूनतम से बचने की सैद्धांतिक तंत्र की व्याख्या करता है
प्रायोगिक सत्यापन: कई रोबोटिक कार्यों पर ढांचे की प्रभावशीलता और नई एल्गोरिदम की प्रतिस्पर्धिता को सत्यापित करता है

विधि विवरण

कार्य परिभाषा

यह पेपर निम्नलिखित सामान्य अनुकूलन समस्या को हल करने पर केंद्रित है: $\min_{x \in \mathbb{R}^n} f(x)$

यह रूप रोबोटिक्स में व्यापक समस्याओं को शामिल करता है:

प्रक्षेपवक्र अनुकूलन: प्रक्षेपवक्र स्थान में अनुकूलन (परिमित-आयामी)
नीति अनुकूलन: नीति पैरामीटर स्थान में अनुकूलन (अनंत-आयामी फलन)

मूल सैद्धांतिक ढांचा

1. यादृच्छिक खोज की नींव

शुद्ध यादृच्छिक खोज (एल्गोरिदम 1):

इनपुट: x₀ ∈ Rⁿ
जब तक रोकने की शर्त पूरी न हो:
    Rⁿ में यादृच्छिक रूप से नमूना x̃
    यदि f(x̃) < f(x):
        x ← x̃
आउटपुट: x

लालची स्थानीय खोज (एल्गोरिदम 2):

इनपुट: x₀ ∈ Rⁿ, Σ
जब तक रोकने की शर्त पूरी न हो:
    नमूना d ~ N(0,Σ)
    यदि f(x+d) < f(x):
        x ← x+d

2. गाऊसी स्मूथिंग ग्रेडिएंट सन्निकटन

मूल विचार: मूल फलन f के ग्रेडिएंट को सीधे सन्निकट न करके, स्मूथ प्रतिनिधि फलन का अध्ययन करें: $f_μ(x) = \mathbb{E}[f(x + μϵ)]$ जहां $ϵ \sim \mathcal{N}(0,Σ)$

मुख्य व्युत्पत्ति: प्रतिनिधि फलन के ग्रेडिएंट को फलन मूल्यांकन द्वारा अनुमानित किया जा सकता है: $\nabla f_μ(x) = \mathbb{E}\left[\frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ\right]$

यह ग्रेडिएंट अनुमान प्रदान करता है: $g = \frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ$

3. लॉग-सम-एक्सप रूपांतरण

MPPI की सैद्धांतिक नींव: निरंतर लॉग-सम-एक्सप रूपांतरण फलन पर विचार करें: $f_{μ,λ}(x) = -λ \log\left(\mathbb{E}\left[\exp\left(-\frac{1}{λ}f(x+μϵ)\right)\right]\right)$

इसका ग्रेडिएंट है: $\nabla f_{μ,λ}(x) = \frac{-λ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))Σ^{-1}ϵ]}{μ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))]}$

यह सीधे MPPI के अपडेट नियम के अनुरूप है: $x \leftarrow \sum_{k=1}^K w_k x_k$ जहां वजन हैं: $w_k = \frac{\exp(-\frac{1}{λ}(f(x_k) - ρ))}{\sum_j \exp(-\frac{1}{λ}(f(x_j) - ρ))}$

तकनीकी नवाचार बिंदु

1. एकीकृत दृष्टिकोण की स्थापना

देखने में अलग-अलग एल्गोरिदम (MPPI, CMA, REINFORCE) को गाऊसी स्मूथिंग ढांचे के तहत एकीकृत करना
लॉग-सम-एक्सप रूपांतरण को गाऊसी स्मूथिंग के सामान्यीकरण के रूप में प्रकट करना

2. प्राकृतिक ग्रेडिएंट व्याख्या

MPPI को प्राकृतिक ग्रेडिएंट चरण निष्पादित करने के रूप में साबित करना: $x \leftarrow x - αF^{-1}g$ जहां F फिशर सूचना मैट्रिक्स है, गाऊसी वितरण के लिए सहप्रसरण मैट्रिक्स के व्युत्क्रम के बराबर है

3. CMA की व्युत्पत्ति

गाऊसी वितरण के पैरामीटर को अनुकूलित करने के दृष्टिकोण से CMA को पुनः प्राप्त करना: $\min_{θ=(x,Σ)} \mathbb{E}_{z\sim\mathcal{N}(x,Σ)}[f(z)]$

प्राकृतिक ग्रेडिएंट का उपयोग करके अपडेट नियम प्राप्त करना:

Σ ← (1-α∑wₖ)Σ + α∑wₖ(xₖ-x)(xₖ-x)ᵀ
x ← (1-α∑wₖ)x + α∑wₖxₖ

4. वैश्विक अभिसरण की सैद्धांतिक व्याख्या

Langevin गतिविज्ञान के माध्यम से यादृच्छिकता कैसे स्थानीय न्यूनतम से बचने में मदद करती है, इसकी व्याख्या करना: $x_{k+1} = x_k - α_k g_k + γ_k ϵ_k$

प्रायोगिक सेटअप

प्रक्षेपवक्र अनुकूलन प्रयोग

डेटासेट: Hydrax पर आधारित चार बेंचमार्क समस्याएं

Cartpole: शास्त्रीय उलटा पेंडुलम नियंत्रण
DoubleCartPole: दोहरा उलटा पेंडुलम प्रणाली
PushT: धकेलने का कार्य
Humanoid: मानवाकार रोबोट नियंत्रण

तुलना एल्गोरिदम:

Predictive Sampling
Randomized Smoothing
MPPI
MPPI-CMA (इस पेपर द्वारा प्रस्तावित)

प्रायोगिक सेटअप:

प्रत्येक पुनरावृत्ति में 2048 नमूनों का उपयोग
MPPI तापमान पैरामीटर λ = 0.1
6 यादृच्छिक बीजों पर औसत
नियंत्रण सीमाओं को लागू करने के लिए लागत फलन में दंड के माध्यम से

सुदृढ़ीकरण सीखने के प्रयोग

वातावरण: 7 MuJoCo निरंतर नियंत्रण वातावरण

तुलना एल्गोरिदम:

DDPG vs RS-DDPG vs LSE-DDPG
TD3 vs RS-TD3 vs LSE-TD3

प्रायोगिक सेटअप:

CleanRL पर आधारित कार्यान्वयन
प्रत्येक अपडेट में 10 नमूनों का उपयोग
नमूना शोर मानक विचलन 0.1
5 चलाने पर औसत

मूल्यांकन मेट्रिक्स

TO: अनुकूलन प्रक्रिया में लागत में कमी वक्र
RL: मानकीकृत स्कोर और एपिसोड पुरस्कार

प्रायोगिक परिणाम

प्रक्षेपवक्र अनुकूलन परिणाम

MPPI-CMA सर्वश्रेष्ठ प्रदर्शन: सभी परीक्षण समस्याओं पर MPPI से लगातार बेहतर
Predictive Sampling अप्रत्याशित रूप से प्रभावी: सरलता के बावजूद, अच्छा प्रदर्शन
Randomized Smoothing संवेदनशील: चरण आकार चयन के लिए अत्यधिक संवेदनशील, प्रदर्शन में बड़ी भिन्नता
सहप्रसरण अनुकूलन का मूल्य: अनुकूली सहप्रसरण मैट्रिक्स की महत्ता को साबित करता है

सुदृढ़ीकरण सीखने के परिणाम

DDPG में महत्वपूर्ण सुधार: RS-DDPG और LSE-DDPG मूल DDPG से काफी बेहतर
TD3 में सीमित सुधार: TD3 पहले से ही एक मजबूत एल्गोरिदम है, सुधार की गुंजाइश सीमित है
स्मूथिंग का सार्वभौमिक लाभ: Q फलन ग्रेडिएंट स्मूथिंग के सार्वभौमिक मूल्य को साबित करता है

मुख्य निष्कर्ष

लॉग-सम-एक्सप लाभ: मानक गाऊसी स्मूथिंग की तुलना में, बहु-शिखर फलनों को बेहतर तरीके से संभालता है
तापमान पैरामीटर महत्व: उपयुक्त तापमान पैरामीटर λ प्रदर्शन के लिए महत्वपूर्ण है
समानांतरकरण-अनुकूल: सभी विधियां समानांतर कार्यान्वयन को अच्छी तरह से समर्थन करती हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

एकीकृत ढांचा प्रभावी: यादृच्छिक खोज दृष्टिकोण TO और RL में कई शून्य-क्रम एल्गोरिदम को सफलतापूर्वक एकीकृत करता है
सैद्धांतिक व्यावहारिकता: एकीकृत समझ नई प्रतिस्पर्धी एल्गोरिदम डिजाइन को बढ़ावा देता है
यादृच्छिकता का मूल्य: सैद्धांतिक रूप से यादृच्छिक एल्गोरिदम के स्थानीय न्यूनतम से बचने की तंत्र की व्याख्या करता है
व्यावहारिकता सत्यापन: कई रोबोटिक कार्यों पर ढांचे और नई एल्गोरिदम की प्रभावशीलता को सत्यापित करता है

सीमाएं

अनंतस्पर्शी अभिसरण: वैश्विक अभिसरण गारंटी केवल अनंतस्पर्शी हैं, व्यावहारिक महत्व सीमित है
उच्च-आयामीता का अभिशाप: नमूना विधियां अभी भी आयाम के अभिशाप से प्रभावित हैं
हाइपरपैरामीटर संवेदनशीलता: तापमान पैरामीटर, चरण आकार आदि को सावधानीपूर्वक समायोजित करने की आवश्यकता है
बाधा प्रबंधन: वर्तमान ढांचा मुख्य रूप से अबाधित अनुकूलन समस्याओं को संभालता है

भविष्य की दिशाएं

बाधित अनुकूलन: बाधित शून्य-क्रम अनुकूलन तक विस्तार
वैश्विक समाधान खोज: अधिक प्रभावी वैश्विक समाधान खोज विधियों का विकास
स्वचालित पैरामीटर: तापमान, चरण आकार आदि हाइपरपैरामीटर को स्वचालित रूप से समायोजित करना
सैद्धांतिक सुधार: यादृच्छिक स्मूथिंग के लिए मजबूत सैद्धांतिक गारंटी

गहन मूल्यांकन

शक्तियां

सैद्धांतिक योगदान उत्कृष्ट: रोबोटिक्स में शून्य-क्रम अनुकूलन का पहला एकीकृत सैद्धांतिक ढांचा प्रदान करता है
गणितीय कठोरता: व्युत्पत्ति प्रक्रिया सटीक है, सैद्धांतिक विश्लेषण गहन है
व्यावहारिक मार्गदर्शन मूल्य: सैद्धांतिक अंतर्दृष्टि सीधे नई एल्गोरिदम डिजाइन को निर्देशित करती है
प्रायोगिक पूर्णता: TO और RL दोनों क्षेत्रों में कई बेंचमार्क परीक्षण शामिल हैं
लेखन स्पष्टता: जटिल सिद्धांत स्पष्ट रूप से व्यक्त किए गए हैं, समझने में आसान हैं

कमियां

सीमित नवीनता: मुख्य रूप से मौजूदा एल्गोरिदम की पुनर्व्याख्या है, मूल एल्गोरिदम योगदान अपेक्षाकृत सीमित है
प्रायोगिक पैमाना: RL प्रयोग केवल MuJoCo वातावरण में परीक्षण किए गए हैं, अधिक जटिल रोबोटिक कार्यों की कमी है
सैद्धांतिक अंतराल: यादृच्छिक स्मूथिंग का वैश्विक अभिसरण सिद्धांत SPSA जितना परिपक्व नहीं है
व्यावहारिक सीमाएं: कुछ सैद्धांतिक परिणाम (जैसे अनंतस्पर्शी अभिसरण) व्यावहारिक मूल्य सीमित हैं

प्रभाव

शैक्षणिक मूल्य: रोबोटिक्स अनुकूलन क्षेत्र के लिए महत्वपूर्ण सैद्धांतिक एकीकरण प्रदान करता है
शिक्षा महत्व: ट्यूटोरियल पेपर के रूप में, छात्रों और शोधकर्ताओं के लिए बहुत अच्छा शिक्षा मूल्य है
विधि प्रेरणा: एकीकृत ढांचा अधिक नई एल्गोरिदम डिजाइन को प्रेरित कर सकता है
अंतःविषय संबंध: TO और RL समुदायों के बीच संचार और सहयोग को बढ़ावा देता है

लागू परिदृश्य

गैर-चिकनी अनुकूलन: संपर्क, टकराव से संबंधित रोबोटिक नियंत्रण समस्याएं
उच्च-आयामीय अनुकूलन: तंत्रिका नेटवर्क नीति पैरामीटर अनुकूलन
समानांतर कंप्यूटिंग: बड़ी मात्रा में समानांतर कंप्यूटिंग संसाधनों वाले परिदृश्य
अन्वेषणात्मक अनुसंधान: जटिल अनुकूलन समस्याओं में स्थानीय न्यूनतम से बचने की आवश्यकता

संदर्भ

पेपर 51 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से:

अनुकूलन सिद्धांत: 1 Conn आदि की व्युत्पन्न-मुक्त अनुकूलन, 12 Nesterov की यादृच्छिक स्मूथिंग
रोबोटिक्स अनुप्रयोग: 2,3 नवीनतम नमूना MPC अनुप्रयोग, 4,5 RL रोबोटिक्स में सफलता
शास्त्रीय एल्गोरिदम: 8 CMA-ES, 10 MPPI, 11 REINFORCE
सैद्धांतिक आधार: 22 Spall का SPSA, 27 MCMC विधियां

यह पेपर यादृच्छिक खोज के एकीकृत दृष्टिकोण के माध्यम से, रोबोटिक्स में देखने में अलग-अलग अनुकूलन विधियों को सफलतापूर्वक जोड़ता है, न केवल महत्वपूर्ण सैद्धांतिक अंतर्दृष्टि प्रदान करता है, बल्कि नई एल्गोरिदम डिजाइन को भी निर्देशित करता है। हालांकि एल्गोरिदम मौलिकता के पहलू में कुछ कमी है, लेकिन इसका सैद्धांतिक एकीकरण मूल्य और शिक्षा महत्व इसे इस क्षेत्र का एक महत्वपूर्ण योगदान बनाता है।