2025-11-16T22:04:13.069952

An Introduction to Zero-Order Optimization Techniques for Robotics

Jordana, Zhang, Amigo et al.
Zero-order optimization techniques are becoming increasingly popular in robotics due to their ability to handle non-differentiable functions and escape local minima. These advantages make them particularly useful for trajectory optimization and policy optimization. In this work, we propose a mathematical tutorial on random search. It offers a simple and unifying perspective for understanding a wide range of algorithms commonly used in robotics. Leveraging this viewpoint, we classify many trajectory optimization methods under a common framework and derive novel competitive RL algorithms.
academic

مقدمة إلى تقنيات التحسين من الرتبة الصفرية للروبوتات

المعلومات الأساسية

  • معرّف الورقة: 2506.22087
  • العنوان: An Introduction to Zero-Order Optimization Techniques for Robotics
  • المؤلفون: Armand Jordana, Jianghan Zhang, Joseph Amigo, Ludovic Righetti (جامعة نيويورك)
  • التصنيف: cs.RO (الروبوتات)
  • تاريخ النشر: ورقة arXiv، آخر نسخة في 10 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2506.22087

الملخص

تحظى تقنيات التحسين من الرتبة الصفرية بشعبية متزايدة في مجال الروبوتات لأنها قادرة على التعامل مع الدوال غير القابلة للاشتقاق والهروب من النقاط الصغرى المحلية. تجعلها هذه المزايا مفيدة بشكل خاص في تحسين المسارات وتحسين السياسات. تقدم هذه الورقة برنامجاً تعليمياً رياضياً عن البحث العشوائي، مما يوفر منظوراً موحداً وبسيطاً لفهم الخوارزميات المستخدمة على نطاق واسع في الروبوتات. باستخدام هذا المنظور، يصنف المؤلفون العديد من طرق تحسين المسارات ضمن إطار عام موحد، ويشتقون خوارزميات تعلم معزز جديدة وتنافسية.

خلفية البحث والدافع

المشكلة الأساسية

تركز هذه الورقة على حل مشكلة كيفية فهم موحد للخوارزميات من الرتبة الصفرية المستخدمة على نطاق واسع في الروبوتات، بما في ذلك الطرق المختلفة في تحسين المسارات (TO) والتعلم المعزز (RL).

أهمية المشكلة

  1. الدافع العملي: غالباً ما تواجه أنظمة الروبوتات دوال هدف غير قابلة للاشتقاق، خاصة في المسائل التي تتضمن التلامس (مثل المشي والمناورة)
  2. تحسن القدرات الحسابية: تطور الحوسبة المتوازية وأجهزة GPU جعل الطرق الكثيفة العينات من الرتبة الصفرية ممكنة على الأنظمة الروبوتية المعقدة
  3. نقص التوحيد النظري: بينما تتمتع الخوارزميات الموجودة بأساس نظري قوي، إلا أنها تفتقر إلى فهم موحد في مجتمع الروبوتات

قيود الطرق الموجودة

  1. عزلة الخوارزميات: تبدو خوارزميات MPPI و CMA-ES و REINFORCE غير مرتبطة، وتفتقر إلى إطار موحد
  2. تشتت النظرية: توزعت هذه الخوارزميات عبر مجالات متعددة مثل التحسين والإحصاء والتعلم الآلي والتحكم
  3. قيود التطبيق: نقص التوجيه من منظور موحد لتصميم خوارزميات جديدة

دافع البحث

من خلال منظور موحد للبحث العشوائي والتمويه الغاوسي، ربط طرق الرتبة الصفرية في تحسين المسارات وتحسين السياسات، مما يعمق الفهم النظري ويوجه تصميم الخوارزميات الجديدة.

المساهمات الأساسية

  1. إطار نظري موحد: توفير منظور موحد لفهم خوارزميات الرتبة الصفرية في TO و RL بناءً على البحث العشوائي
  2. إعادة تفسير الخوارزميات: توحيد الخوارزميات الكلاسيكية مثل MPPI و CMA و REINFORCE ضمن إطار التمويه الغاوسي
  3. استنتاج خوارزميات جديدة: اشتقاق خوارزميات تعلم معزز جديدة وتنافسية بناءً على الإطار الموحد (مثل RS-DDPG و LSE-DDPG)
  4. رؤى نظرية: شرح الآلية النظرية لكيفية هروب الخوارزميات العشوائية من النقاط الصغرى المحلية
  5. التحقق التجريبي: التحقق من فعالية الإطار والخوارزميات الجديدة على عدة مهام روبوتية

شرح الطريقة

تعريف المهمة

تركز هذه الورقة على حل مشكلة التحسين العامة التالية: minxRnf(x)\min_{x \in \mathbb{R}^n} f(x)

يغطي هذا الشكل مجموعة واسعة من المسائل في الروبوتات:

  • تحسين المسارات: التحسين في فضاء المسارات (محدود الأبعاد)
  • تحسين السياسات: التحسين في فضاء معاملات السياسة (دوال بأبعاد لا نهائية)

الإطار النظري الأساسي

1. أساسيات البحث العشوائي

البحث العشوائي النقي (الخوارزمية 1):

الإدخال: x₀ ∈ Rⁿ
بينما لم يتم استيفاء شرط الإيقاف:
    أخذ عينة عشوائية x̃ من Rⁿ
    إذا كان f(x̃) < f(x):
        x ← x̃
الإخراج: x

البحث المحلي الجشع (الخوارزمية 2):

الإدخال: x₀ ∈ Rⁿ, Σ
بينما لم يتم استيفاء شرط الإيقاف:
    أخذ عينة d ~ N(0,Σ)
    إذا كان f(x+d) < f(x):
        x ← x+d

2. تقريب التدرج بالتمويه الغاوسي

الفكرة الأساسية: بدلاً من تقريب التدرج للدالة الأصلية f مباشرة، ندرس دالة الوكيل الممسحة: fμ(x)=E[f(x+μϵ)]f_μ(x) = \mathbb{E}[f(x + μϵ)] حيث ϵN(0,Σ)ϵ \sim \mathcal{N}(0,Σ)

الاشتقاق الرئيسي: يمكن تقدير تدرج دالة الوكيل من خلال تقييمات الدالة: fμ(x)=E[f(x+μϵ)f(x)μΣ1ϵ]\nabla f_μ(x) = \mathbb{E}\left[\frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ\right]

هذا يوفر تقدير التدرج: g=f(x+μϵ)f(x)μΣ1ϵg = \frac{f(x+μϵ) - f(x)}{μ}Σ^{-1}ϵ

3. تحويل Log-Sum-Exp

الأساس النظري لـ MPPI: النظر في دالة تحويل log-sum-exp المستمرة: fμ,λ(x)=λlog(E[exp(1λf(x+μϵ))])f_{μ,λ}(x) = -λ \log\left(\mathbb{E}\left[\exp\left(-\frac{1}{λ}f(x+μϵ)\right)\right]\right)

تدرجها هو: fμ,λ(x)=λE[exp(1λf(x+μϵ))Σ1ϵ]μE[exp(1λf(x+μϵ))]\nabla f_{μ,λ}(x) = \frac{-λ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))Σ^{-1}ϵ]}{μ\mathbb{E}[\exp(-\frac{1}{λ}f(x+μϵ))]}

هذا يتوافق مباشرة مع قاعدة التحديث في MPPI: xk=1Kwkxkx \leftarrow \sum_{k=1}^K w_k x_k حيث الأوزان هي: wk=exp(1λ(f(xk)ρ))jexp(1λ(f(xj)ρ))w_k = \frac{\exp(-\frac{1}{λ}(f(x_k) - ρ))}{\sum_j \exp(-\frac{1}{λ}(f(x_j) - ρ))}

نقاط الابتكار التقني

1. إنشاء منظور موحد

  • توحيد الخوارزميات التي تبدو مختلفة (MPPI و CMA و REINFORCE) ضمن إطار التمويه الغاوسي
  • الكشف عن تحويل log-sum-exp كتعميم للتمويه الغاوسي

2. تفسير التدرج الطبيعي

إثبات أن MPPI ينفذ خطوة تدرج طبيعي: xxαF1gx \leftarrow x - αF^{-1}g حيث F هي مصفوفة معلومات Fisher، وتساوي معكوس مصفوفة التغاير للتوزيع الغاوسي

3. استنتاج CMA

إعادة استنتاج CMA من منظور تحسين معاملات التوزيع الغاوسي: minθ=(x,Σ)EzN(x,Σ)[f(z)]\min_{θ=(x,Σ)} \mathbb{E}_{z\sim\mathcal{N}(x,Σ)}[f(z)]

باستخدام التدرج الطبيعي للحصول على قواعد التحديث:

Σ ← (1-α∑wₖ)Σ + α∑wₖ(xₖ-x)(xₖ-x)ᵀ
x ← (1-α∑wₖ)x + α∑wₖxₖ

4. شرح التقارب العام

شرح كيفية مساعدة العشوائية في الهروب من النقاط الصغرى المحلية من خلال ديناميكيات Langevin: xk+1=xkαkgk+γkϵkx_{k+1} = x_k - α_k g_k + γ_k ϵ_k

إعداد التجارب

تجارب تحسين المسارات

مجموعة البيانات: أربع مسائل معيارية بناءً على Hydrax

  • Cartpole: التحكم الكلاسيكي بالبندول المقلوب
  • DoubleCartpole: نظام البندول المقلوب المزدوج
  • PushT: مهمة الدفع
  • Humanoid: التحكم بالروبوت الإنساني الشكل

الخوارزميات المقارنة:

  • Predictive Sampling
  • Randomized Smoothing
  • MPPI
  • MPPI-CMA (مقترح في هذه الورقة)

إعداد التجربة:

  • استخدام 2048 عينة في كل تكرار
  • معامل درجة حرارة MPPI λ = 0.1
  • متوسط 6 بذور عشوائية
  • فرض حدود التحكم من خلال حدود العقوبة في دالة التكلفة

تجارب التعلم المعزز

البيئات: 7 بيئات تحكم مستمرة في MuJoCo

الخوارزميات المقارنة:

  • DDPG مقابل RS-DDPG مقابل LSE-DDPG
  • TD3 مقابل RS-TD3 مقابل LSE-TD3

إعداد التجربة:

  • التنفيذ بناءً على CleanRL
  • استخدام 10 عينات في كل تحديث
  • الانحراف المعياري لضوضاء العينة 0.1
  • متوسط 5 عمليات تشغيل

مؤشرات التقييم

  • TO: منحنى انخفاض التكلفة أثناء عملية التحسين
  • RL: النقاط المعيارية والمكافآت لكل حلقة

نتائج التجارب

نتائج تحسين المسارات

  1. أداء MPPI-CMA الأفضل: يتفوق باستمرار على MPPI في جميع المسائل المختبرة
  2. فعالية Predictive Sampling غير المتوقعة: رغم بساطتها، تظهر أداء جيدة
  3. حساسية Randomized Smoothing: حساسة جداً لاختيار حجم الخطوة، مع تباين كبير في الأداء
  4. قيمة التكيف مع التغاير: إثبات أهمية مصفوفة التغاير المتكيفة

نتائج التعلم المعزز

  1. تحسن DDPG كبير: يتفوق RS-DDPG و LSE-DDPG بشكل كبير على DDPG الأصلي
  2. تحسن TD3 محدود: TD3 هو بالفعل خوارزمية قوية، مع مساحة تحسن محدودة
  3. الفائدة العامة للتمويه: إثبات القيمة العامة لتمويه تدرج دالة Q

الاكتشافات الرئيسية

  1. ميزة Log-sum-exp: أفضل من التمويه الغاوسي القياسي في التعامل مع الدوال متعددة الأوجه
  2. أهمية معامل درجة الحرارة: معامل درجة الحرارة المناسب λ حاسم للأداء
  3. ودية المتوازاة: جميع الطرق يمكن تنفيذها بشكل متوازٍ بشكل جيد

الأعمال ذات الصلة

مجال تحسين المسارات

  • الطرق الكلاسيكية: الانحدار التدريجي وطريقة نيوتن وغيرها من الطرق الحتمية تميل للوقوع في النقاط الصغرى المحلية
  • طرق العينات: Predictive Sampling و MPPI وغيرها من طرق الرتبة الصفرية
  • الاتصالات النظرية: 13 أول من أظهر التشابه بين MPPI و CMA-ES، 14 فهم MPPI كطريقة تقريب التدرج

مجال التعلم المعزز

  • البحث في فضاء المعاملات: 16,17 استكشاف البحث العشوائي في فضاء معاملات السياسة
  • اتصالات تدرج السياسة: 18,19 إنشاء روابط بين تدرج السياسة والبحث العشوائي
  • استراتيجيات التطور: 20,21 توفير مسح شامل يربط RL وتقنيات ES

موضع مساهمة هذه الورقة

توفر هذه الورقة للمرة الأولى منظوراً واسعاً يربط الطرق غير المرتبطة بالتدرج في TO و RL، مما يملأ الفراغ في الإطار النظري الموحد.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. فعالية الإطار الموحد: منظور البحث العشوائي ينجح في توحيد عدة خوارزميات من الرتبة الصفرية في TO و RL
  2. النظرية توجه الممارسة: الفهم الموحد أدى إلى تصميم خوارزميات جديدة وتنافسية
  3. قيمة العشوائية: شرح نظري لكيفية هروب الخوارزميات العشوائية من النقاط الصغرى المحلية
  4. التحقق من الفائدة العملية: التحقق من فعالية الإطار والخوارزميات الجديدة على عدة مهام روبوتية

القيود

  1. التقارب المقارب: ضمانات التقارب العام مقاربة فقط، مع قيمة عملية محدودة
  2. لعنة الأبعاد: طرق العينات لا تزال تتأثر بلعنة الأبعاد
  3. حساسية المعاملات الفائقة: معامل درجة الحرارة وحجم الخطوة وغيرها تتطلب ضبطاً دقيقاً
  4. معالجة القيود: الإطار الحالي يتعامل بشكل أساسي مع مسائل التحسين غير المقيدة

الاتجاهات المستقبلية

  1. التحسين المقيد: التوسع إلى التحسين من الرتبة الصفرية المقيد
  2. البحث عن الحلول العامة: تطوير طرق أكثر فعالية للبحث عن الحلول العامة
  3. المعاملات المتكيفة: ضبط تلقائي لمعامل درجة الحرارة وحجم الخطوة وغيرها
  4. تحسين النظرية: توفير ضمانات نظرية أقوى للتمويه العشوائي

التقييم المتعمق

المزايا

  1. مساهمة نظرية بارزة: توفير أول إطار نظري موحد للتحسين من الرتبة الصفرية في الروبوتات
  2. الدقة الرياضية: عملية الاشتقاق صارمة والتحليل النظري عميق
  3. قيمة التوجيه العملي: الرؤى النظرية توجه مباشرة تصميم الخوارزميات الجديدة
  4. كفاية التجارب: تغطي اختبارات معيارية متعددة في مجالي TO و RL
  5. وضوح الكتابة: التعبير عن النظرية المعقدة بوضوح وسهولة الفهم

أوجه القصور

  1. الحداثة المحدودة: في الأساس إعادة تفسير الخوارزميات الموجودة، مع مساهمة محدودة نسبياً من الخوارزميات الأصلية
  2. نطاق التجارب: تجارب RL مختبرة فقط في بيئات MuJoCo، تفتقد مهام روبوتية أكثر تعقيداً
  3. الفجوة النظرية: النظرية العامة للتقارب للتمويه العشوائي ليست متطورة مثل SPSA
  4. قيود الفائدة العملية: بعض النتائج النظرية (مثل التقارب المقارب) ذات قيمة عملية محدودة

التأثير

  1. القيمة الأكاديمية: توفير توحيد نظري مهم لمجال تحسين الروبوتات
  2. الأهمية التعليمية: كورقة tutorial، لها قيمة تعليمية كبيرة للطلاب والباحثين
  3. إلهام الطرق: قد يلهم الإطار الموحد تصميم خوارزميات جديدة أكثر
  4. الاتصال بين المجالات: تعزيز التواصل والتعاون بين مجتمعات TO و RL

السيناريوهات المناسبة

  1. التحسين غير الناعم: مسائل التحكم الروبوتي التي تتضمن التلامس والاصطدام
  2. التحسين عالي الأبعاد: تحسين معاملات السياسة للشبكات العصبية
  3. الحوسبة المتوازية: السيناريوهات التي تتوفر فيها موارد حوسبة متوازية كبيرة
  4. البحث الاستكشافي: مسائل التحسين المعقدة التي تتطلب الهروب من النقاط الصغرى المحلية

المراجع

تستشهد الورقة بـ 51 مرجعاً ذا صلة، تتضمن بشكل أساسي:

  • نظرية التحسين: 1 التحسين بدون مشتقات من Conn وآخرين، 12 التمويه العشوائي من Nesterov
  • التطبيقات الروبوتية: 2,3 تطبيقات MPC بالعينات الحديثة، 4,5 نجاح RL في الروبوتات
  • الخوارزميات الكلاسيكية: 8 CMA-ES، 10 MPPI، 11 REINFORCE
  • الأساس النظري: 22 SPSA من Spall، 27 طرق MCMC

من خلال منظور موحد للبحث العشوائي، تنجح هذه الورقة في ربط طرق التحسين التي تبدو مختلفة في الروبوتات، وتوفر ليس فقط رؤى نظرية مهمة بل تيسر أيضاً تصميم خوارزميات جديدة. بينما قد تكون هناك نقاط ضعف في الأصالة الخوارزمية، فإن قيمتها النظرية الموحدة وأهميتها التعليمية تجعلها مساهمة مهمة في هذا المجال.