Zero-order optimization techniques are becoming increasingly popular in robotics due to their ability to handle non-differentiable functions and escape local minima. These advantages make them particularly useful for trajectory optimization and policy optimization. In this work, we propose a mathematical tutorial on random search. It offers a simple and unifying perspective for understanding a wide range of algorithms commonly used in robotics. Leveraging this viewpoint, we classify many trajectory optimization methods under a common framework and derive novel competitive RL algorithms.
معرّف الورقة : 2506.22087العنوان : An Introduction to Zero-Order Optimization Techniques for Roboticsالمؤلفون : Armand Jordana, Jianghan Zhang, Joseph Amigo, Ludovic Righetti (جامعة نيويورك)التصنيف : cs.RO (الروبوتات)تاريخ النشر : ورقة arXiv، آخر نسخة في 10 أكتوبر 2025رابط الورقة : https://arxiv.org/abs/2506.22087 تحظى تقنيات التحسين من الرتبة الصفرية بشعبية متزايدة في مجال الروبوتات لأنها قادرة على التعامل مع الدوال غير القابلة للاشتقاق والهروب من النقاط الصغرى المحلية. تجعلها هذه المزايا مفيدة بشكل خاص في تحسين المسارات وتحسين السياسات. تقدم هذه الورقة برنامجاً تعليمياً رياضياً عن البحث العشوائي، مما يوفر منظوراً موحداً وبسيطاً لفهم الخوارزميات المستخدمة على نطاق واسع في الروبوتات. باستخدام هذا المنظور، يصنف المؤلفون العديد من طرق تحسين المسارات ضمن إطار عام موحد، ويشتقون خوارزميات تعلم معزز جديدة وتنافسية.
تركز هذه الورقة على حل مشكلة كيفية فهم موحد للخوارزميات من الرتبة الصفرية المستخدمة على نطاق واسع في الروبوتات، بما في ذلك الطرق المختلفة في تحسين المسارات (TO) والتعلم المعزز (RL).
الدافع العملي : غالباً ما تواجه أنظمة الروبوتات دوال هدف غير قابلة للاشتقاق، خاصة في المسائل التي تتضمن التلامس (مثل المشي والمناورة)تحسن القدرات الحسابية : تطور الحوسبة المتوازية وأجهزة GPU جعل الطرق الكثيفة العينات من الرتبة الصفرية ممكنة على الأنظمة الروبوتية المعقدةنقص التوحيد النظري : بينما تتمتع الخوارزميات الموجودة بأساس نظري قوي، إلا أنها تفتقر إلى فهم موحد في مجتمع الروبوتاتعزلة الخوارزميات : تبدو خوارزميات MPPI و CMA-ES و REINFORCE غير مرتبطة، وتفتقر إلى إطار موحدتشتت النظرية : توزعت هذه الخوارزميات عبر مجالات متعددة مثل التحسين والإحصاء والتعلم الآلي والتحكمقيود التطبيق : نقص التوجيه من منظور موحد لتصميم خوارزميات جديدةمن خلال منظور موحد للبحث العشوائي والتمويه الغاوسي، ربط طرق الرتبة الصفرية في تحسين المسارات وتحسين السياسات، مما يعمق الفهم النظري ويوجه تصميم الخوارزميات الجديدة.
إطار نظري موحد : توفير منظور موحد لفهم خوارزميات الرتبة الصفرية في TO و RL بناءً على البحث العشوائيإعادة تفسير الخوارزميات : توحيد الخوارزميات الكلاسيكية مثل MPPI و CMA و REINFORCE ضمن إطار التمويه الغاوسياستنتاج خوارزميات جديدة : اشتقاق خوارزميات تعلم معزز جديدة وتنافسية بناءً على الإطار الموحد (مثل RS-DDPG و LSE-DDPG)رؤى نظرية : شرح الآلية النظرية لكيفية هروب الخوارزميات العشوائية من النقاط الصغرى المحليةالتحقق التجريبي : التحقق من فعالية الإطار والخوارزميات الجديدة على عدة مهام روبوتيةتركز هذه الورقة على حل مشكلة التحسين العامة التالية:
min x ∈ R n f ( x ) \min_{x \in \mathbb{R}^n} f(x) min x ∈ R n f ( x )
يغطي هذا الشكل مجموعة واسعة من المسائل في الروبوتات:
تحسين المسارات : التحسين في فضاء المسارات (محدود الأبعاد)تحسين السياسات : التحسين في فضاء معاملات السياسة (دوال بأبعاد لا نهائية)البحث العشوائي النقي (الخوارزمية 1) :
الإدخال: x₀ ∈ Rⁿ
بينما لم يتم استيفاء شرط الإيقاف:
أخذ عينة عشوائية x̃ من Rⁿ
إذا كان f(x̃) < f(x):
x ← x̃
الإخراج: x
البحث المحلي الجشع (الخوارزمية 2) :
الإدخال: x₀ ∈ Rⁿ, Σ
بينما لم يتم استيفاء شرط الإيقاف:
أخذ عينة d ~ N(0,Σ)
إذا كان f(x+d) < f(x):
x ← x+d
الفكرة الأساسية : بدلاً من تقريب التدرج للدالة الأصلية f مباشرة، ندرس دالة الوكيل الممسحة:
f μ ( x ) = E [ f ( x + μ ϵ ) ] f_μ(x) = \mathbb{E}[f(x + μϵ)] f μ ( x ) = E [ f ( x + μ ϵ )]
حيث ϵ ∼ N ( 0 , Σ ) ϵ \sim \mathcal{N}(0,Σ) ϵ ∼ N ( 0 , Σ )
الاشتقاق الرئيسي : يمكن تقدير تدرج دالة الوكيل من خلال تقييمات الدالة:
∇ f μ ( x ) = E [ f ( x + μ ϵ ) − f ( x ) μ Σ − 1 ϵ ] \nabla f_μ(x) = \mathbb{E}\left[\frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ\right] ∇ f μ ( x ) = E [ μ f ( x + μ ϵ ) − f ( x ) Σ − 1 ϵ ]
هذا يوفر تقدير التدرج:
g = f ( x + μ ϵ ) − f ( x ) μ Σ − 1 ϵ g = \frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ g = μ f ( x + μ ϵ ) − f ( x ) Σ − 1 ϵ
الأساس النظري لـ MPPI : النظر في دالة تحويل log-sum-exp المستمرة:
f μ , λ ( x ) = − λ log ( E [ exp ( − 1 λ f ( x + μ ϵ ) ) ] ) f_{μ,λ}(x) = -λ \log\left(\mathbb{E}\left[\exp\left(-\frac{1}{λ}f(x+μϵ)\right)\right]\right) f μ , λ ( x ) = − λ log ( E [ exp ( − λ 1 f ( x + μ ϵ ) ) ] )
تدرجها هو:
∇ f μ , λ ( x ) = − λ E [ exp ( − 1 λ f ( x + μ ϵ ) ) Σ − 1 ϵ ] μ E [ exp ( − 1 λ f ( x + μ ϵ ) ) ] \nabla f_{μ,λ}(x) = \frac{-λ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))Σ^{-1}ϵ]}{μ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))]} ∇ f μ , λ ( x ) = μ E [ e x p ( − λ 1 f ( x + μ ϵ ))] − λ E [ e x p ( − λ 1 f ( x + μ ϵ )) Σ − 1 ϵ ]
هذا يتوافق مباشرة مع قاعدة التحديث في MPPI:
x ← ∑ k = 1 K w k x k x \leftarrow \sum_{k=1}^K w_k x_k x ← ∑ k = 1 K w k x k
حيث الأوزان هي:
w k = exp ( − 1 λ ( f ( x k ) − ρ ) ) ∑ j exp ( − 1 λ ( f ( x j ) − ρ ) ) w_k = \frac{\exp(-\frac{1}{λ}(f(x_k) - ρ))}{\sum_j \exp(-\frac{1}{λ}(f(x_j) - ρ))} w k = ∑ j e x p ( − λ 1 ( f ( x j ) − ρ )) e x p ( − λ 1 ( f ( x k ) − ρ ))
توحيد الخوارزميات التي تبدو مختلفة (MPPI و CMA و REINFORCE) ضمن إطار التمويه الغاوسي الكشف عن تحويل log-sum-exp كتعميم للتمويه الغاوسي إثبات أن MPPI ينفذ خطوة تدرج طبيعي:
x ← x − α F − 1 g x \leftarrow x - αF^{-1}g x ← x − α F − 1 g
حيث F هي مصفوفة معلومات Fisher، وتساوي معكوس مصفوفة التغاير للتوزيع الغاوسي
إعادة استنتاج CMA من منظور تحسين معاملات التوزيع الغاوسي:
min θ = ( x , Σ ) E z ∼ N ( x , Σ ) [ f ( z ) ] \min_{θ=(x,Σ)} \mathbb{E}_{z\sim\mathcal{N}(x,Σ)}[f(z)] min θ = ( x , Σ ) E z ∼ N ( x , Σ ) [ f ( z )]
باستخدام التدرج الطبيعي للحصول على قواعد التحديث:
Σ ← (1-α∑wₖ)Σ + α∑wₖ(xₖ-x)(xₖ-x)ᵀ
x ← (1-α∑wₖ)x + α∑wₖxₖ
شرح كيفية مساعدة العشوائية في الهروب من النقاط الصغرى المحلية من خلال ديناميكيات Langevin:
x k + 1 = x k − α k g k + γ k ϵ k x_{k+1} = x_k - α_k g_k + γ_k ϵ_k x k + 1 = x k − α k g k + γ k ϵ k
مجموعة البيانات : أربع مسائل معيارية بناءً على Hydrax
Cartpole: التحكم الكلاسيكي بالبندول المقلوب DoubleCartpole: نظام البندول المقلوب المزدوج PushT: مهمة الدفع Humanoid: التحكم بالروبوت الإنساني الشكل الخوارزميات المقارنة :
Predictive Sampling Randomized Smoothing MPPI MPPI-CMA (مقترح في هذه الورقة) إعداد التجربة :
استخدام 2048 عينة في كل تكرار معامل درجة حرارة MPPI λ = 0.1 متوسط 6 بذور عشوائية فرض حدود التحكم من خلال حدود العقوبة في دالة التكلفة البيئات : 7 بيئات تحكم مستمرة في MuJoCo
الخوارزميات المقارنة :
DDPG مقابل RS-DDPG مقابل LSE-DDPG TD3 مقابل RS-TD3 مقابل LSE-TD3 إعداد التجربة :
التنفيذ بناءً على CleanRL استخدام 10 عينات في كل تحديث الانحراف المعياري لضوضاء العينة 0.1 متوسط 5 عمليات تشغيل TO : منحنى انخفاض التكلفة أثناء عملية التحسينRL : النقاط المعيارية والمكافآت لكل حلقةأداء MPPI-CMA الأفضل : يتفوق باستمرار على MPPI في جميع المسائل المختبرةفعالية Predictive Sampling غير المتوقعة : رغم بساطتها، تظهر أداء جيدةحساسية Randomized Smoothing : حساسة جداً لاختيار حجم الخطوة، مع تباين كبير في الأداءقيمة التكيف مع التغاير : إثبات أهمية مصفوفة التغاير المتكيفةتحسن DDPG كبير : يتفوق RS-DDPG و LSE-DDPG بشكل كبير على DDPG الأصليتحسن TD3 محدود : TD3 هو بالفعل خوارزمية قوية، مع مساحة تحسن محدودةالفائدة العامة للتمويه : إثبات القيمة العامة لتمويه تدرج دالة Qميزة Log-sum-exp : أفضل من التمويه الغاوسي القياسي في التعامل مع الدوال متعددة الأوجهأهمية معامل درجة الحرارة : معامل درجة الحرارة المناسب λ حاسم للأداءودية المتوازاة : جميع الطرق يمكن تنفيذها بشكل متوازٍ بشكل جيدالطرق الكلاسيكية : الانحدار التدريجي وطريقة نيوتن وغيرها من الطرق الحتمية تميل للوقوع في النقاط الصغرى المحليةطرق العينات : Predictive Sampling و MPPI وغيرها من طرق الرتبة الصفريةالاتصالات النظرية : 13 أول من أظهر التشابه بين MPPI و CMA-ES، 14 فهم MPPI كطريقة تقريب التدرجالبحث في فضاء المعاملات : 16,17 استكشاف البحث العشوائي في فضاء معاملات السياسةاتصالات تدرج السياسة : 18,19 إنشاء روابط بين تدرج السياسة والبحث العشوائياستراتيجيات التطور : 20,21 توفير مسح شامل يربط RL وتقنيات ESتوفر هذه الورقة للمرة الأولى منظوراً واسعاً يربط الطرق غير المرتبطة بالتدرج في TO و RL، مما يملأ الفراغ في الإطار النظري الموحد.
فعالية الإطار الموحد : منظور البحث العشوائي ينجح في توحيد عدة خوارزميات من الرتبة الصفرية في TO و RLالنظرية توجه الممارسة : الفهم الموحد أدى إلى تصميم خوارزميات جديدة وتنافسيةقيمة العشوائية : شرح نظري لكيفية هروب الخوارزميات العشوائية من النقاط الصغرى المحليةالتحقق من الفائدة العملية : التحقق من فعالية الإطار والخوارزميات الجديدة على عدة مهام روبوتيةالتقارب المقارب : ضمانات التقارب العام مقاربة فقط، مع قيمة عملية محدودةلعنة الأبعاد : طرق العينات لا تزال تتأثر بلعنة الأبعادحساسية المعاملات الفائقة : معامل درجة الحرارة وحجم الخطوة وغيرها تتطلب ضبطاً دقيقاًمعالجة القيود : الإطار الحالي يتعامل بشكل أساسي مع مسائل التحسين غير المقيدةالتحسين المقيد : التوسع إلى التحسين من الرتبة الصفرية المقيدالبحث عن الحلول العامة : تطوير طرق أكثر فعالية للبحث عن الحلول العامةالمعاملات المتكيفة : ضبط تلقائي لمعامل درجة الحرارة وحجم الخطوة وغيرهاتحسين النظرية : توفير ضمانات نظرية أقوى للتمويه العشوائيمساهمة نظرية بارزة : توفير أول إطار نظري موحد للتحسين من الرتبة الصفرية في الروبوتاتالدقة الرياضية : عملية الاشتقاق صارمة والتحليل النظري عميققيمة التوجيه العملي : الرؤى النظرية توجه مباشرة تصميم الخوارزميات الجديدةكفاية التجارب : تغطي اختبارات معيارية متعددة في مجالي TO و RLوضوح الكتابة : التعبير عن النظرية المعقدة بوضوح وسهولة الفهمالحداثة المحدودة : في الأساس إعادة تفسير الخوارزميات الموجودة، مع مساهمة محدودة نسبياً من الخوارزميات الأصليةنطاق التجارب : تجارب RL مختبرة فقط في بيئات MuJoCo، تفتقد مهام روبوتية أكثر تعقيداًالفجوة النظرية : النظرية العامة للتقارب للتمويه العشوائي ليست متطورة مثل SPSAقيود الفائدة العملية : بعض النتائج النظرية (مثل التقارب المقارب) ذات قيمة عملية محدودةالقيمة الأكاديمية : توفير توحيد نظري مهم لمجال تحسين الروبوتاتالأهمية التعليمية : كورقة tutorial، لها قيمة تعليمية كبيرة للطلاب والباحثينإلهام الطرق : قد يلهم الإطار الموحد تصميم خوارزميات جديدة أكثرالاتصال بين المجالات : تعزيز التواصل والتعاون بين مجتمعات TO و RLالتحسين غير الناعم : مسائل التحكم الروبوتي التي تتضمن التلامس والاصطدامالتحسين عالي الأبعاد : تحسين معاملات السياسة للشبكات العصبيةالحوسبة المتوازية : السيناريوهات التي تتوفر فيها موارد حوسبة متوازية كبيرةالبحث الاستكشافي : مسائل التحسين المعقدة التي تتطلب الهروب من النقاط الصغرى المحليةتستشهد الورقة بـ 51 مرجعاً ذا صلة، تتضمن بشكل أساسي:
نظرية التحسين : 1 التحسين بدون مشتقات من Conn وآخرين، 12 التمويه العشوائي من Nesterovالتطبيقات الروبوتية : 2,3 تطبيقات MPC بالعينات الحديثة، 4,5 نجاح RL في الروبوتاتالخوارزميات الكلاسيكية : 8 CMA-ES، 10 MPPI، 11 REINFORCEالأساس النظري : 22 SPSA من Spall، 27 طرق MCMCمن خلال منظور موحد للبحث العشوائي، تنجح هذه الورقة في ربط طرق التحسين التي تبدو مختلفة في الروبوتات، وتوفر ليس فقط رؤى نظرية مهمة بل تيسر أيضاً تصميم خوارزميات جديدة. بينما قد تكون هناك نقاط ضعف في الأصالة الخوارزمية، فإن قيمتها النظرية الموحدة وأهميتها التعليمية تجعلها مساهمة مهمة في هذا المجال.