2025-11-20T22:01:15.701145

Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

Tayar, de Oliveira, Tommaselli et al.
Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.
academic

الملاحة المستقلة للطائرات بدون طيار في الأماكن المحصورة: نهج التعلم المعزز

المعلومات الأساسية

  • معرّف الورقة: 2508.16807
  • العنوان: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
  • المؤلفون: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (جامعة ساو باولو)
  • التصنيف: cs.RO cs.AI cs.LG cs.SY eess.SY
  • تاريخ النشر: 11 أكتوبر 2025 (arXiv v2)
  • رابط الورقة: https://arxiv.org/abs/2508.16807

الملخص

تتناول هذه الورقة مشكلة الفحص المستقل للطائرات بدون طيار في البنية التحتية الصناعية المحصورة (مثل قنوات التهوية)، وهي مهام تتطلب استراتيجيات ملاحة قوية لا تسمح بالاصطدام. بينما يوفر التعلم المعزز العميق (DRL) نموذجاً قوياً لتطوير هذه الاستراتيجيات، إلا أن هناك مقايضات حاسمة بين خوارزميات on-policy و off-policy. تعد طرق off-policy بكفاءة عينة عالية، وهو أمر حاسم لتقليل الضبط الدقيق الباهظ والخطر في العالم الحقيقي. في المقابل، تُظهر طرق on-policy عادة استقراراً تدريبياً أفضل، وهو أمر حاسم للتقارب الموثوق في البيئات ذات كثافة الخطر العالية. تدرس هذه الورقة هذه المقايضة مباشرة من خلال مقارنة أداء الطيران الدقيقة للخوارزمية on-policy الرائدة PPO مع خوارزمية off-policy SAC في قنوات مولدة إجرائياً في محاكي عالي الدقة. تُظهر النتائج أن PPO يتعلم باستمرار استراتيجيات مستقرة وخالية من الاصطدام ويكمل المسار بالكامل، بينما فشل SAC في إيجاد حل كامل، متقاربة إلى استراتيجية دون المستوى الأمثل التي تستطيع فقط التنقل في المقطع الأولي.

السياق البحثي والدافع

تعريف المشكلة

يعتبر الفحص اليدوي للبنية التحتية الصناعية (مثل الأنابيب وقنوات التهوية) عملية معقدة وباهظة الثمن وتستغرق وقتاً طويلاً، وهي حاسمة للحفاظ على سلامة العمليات. تمثل الطائرات بدون طيار (UAVs) تقدماً كبيراً في مجال الفحص الصناعي، مما يتيح جمع البيانات الآلي والآمن في البيئات التي يتعذر على الإنسان الوصول إليها أو غير آمنة.

تحليل التحديات

يواجه التنقل بالطائرات بدون طيار في الأماكن المحصورة مثل الأنابيب تحديات فريدة:

  1. التأثيرات الديناميكية الهوائية المعقدة: يخلق القرب من الجدران تأثيرات ديناميكية هوائية معقدة، مما يزيد من خطر الاصطدام
  2. قيود الطرق الكلاسيكية: تفتقر طرق التخطيط الحركي التقليدية إلى القدرة على التكيف، وتواجه صعوبة في التعامل مع الظواهر الديناميكية الهوائية غير المُنمذجة (مثل تأثير الأرض في الأنابيب الضيقة)
  3. الحرجية الأمنية: في هذه البيئات، يكون الاصطدام غير مقبول، مما يتطلب استراتيجيات تحكم موثوقة للغاية

الدافع البحثي

يوفر التعلم المعزز العميق نموذجاً قوياً لحل هذه التحديات، لكن اختيار الخوارزمية حاسم. السؤال الأساسي هو: بالنسبة للمهام التي تتطلب دقة عالية وسلامة، هل استقرار طرق on-policy أكثر أهمية من كفاءة العينة في خوارزميات off-policy؟

المساهمات الأساسية

  1. تحليل المقارنة المباشرة: إجراء مقارنة مباشرة بين خوارزميات on-policy و off-policy الناضجة على مهمة الملاحة المستقلة للطائرات بدون طيار في الأنابيب الصناعية المحصورة
  2. الأدلة التجريبية: توفير أدلة تجريبية للمهام ذات كثافة الخطر العالية والدقة العالية، مما يثبت أن استقرار التدريب في طرق on-policy أكثر حرجاً من كفاءة العينة في طرق off-policy
  3. التحقق من سير العمل المحاكاة: التحقق من سير عمل المحاكاة باستخدام البيئات المولدة إجرائياً ومحركات الفيزياء عالية الدقة كمنصة اختبار لتطوير واختبار استراتيجيات التحكم بالطائرات بدون طيار للتطبيقات الصناعية

شرح الطريقة

تعريف المهمة

نمذجة التحكم بالطائرات بدون طيار الموجهة نحو الهدف كعملية قرار ماركوفية (MDP): M = (S,A,T,R,γ)

فضاء الحالة:

st = [prel, p̂Brel, q, vBlin, vBang, at-1] ∈ R20

حيث:

  • prel ∈ R³: متجه الموضع النسبي للطائرة بدون طيار إلى نقطة الطريق التالية
  • p̂Brel ∈ R³: التمثيل المعياري الموحد في نظام إحداثيات الجسم
  • q ∈ R⁴: رباعي الأبعاد الوحدة (من العالم إلى الجسم)
  • vBlin, vBang ∈ R³: السرعة الخطية والزاوية في نظام إحداثيات الجسم
  • at-1 ∈ R⁴: متجه أوامر المحرك من الخطوة الزمنية السابقة

فضاء الحركة: حركة مستمرة at ∈ -1,1⁴، تحدد معاملات كل أمر دوار:

ωi = (1 + 0.8 at,i) ωhover, i = 1,...,4

حيث ωhover = 14.47 krpm هي سرعة التحوم المعايرة.

تصميم بيئة المحاكاة

محرك الفيزياء Genesis: استخدام محرك الفيزياء Genesis عالي الدقة لمحاكاة الأجسام الصلبة المتوازية المسرعة بوحدة معالجة الرسومات.

توليد الأنابيب الإجرائي:

  • يتم توليد أنابيب مختلفة في كل حلقة، مما يضمن تعلم الاستراتيجية للتنقل في سيناريوهات متنوعة وصعبة
  • تتكون الأنابيب من Ns قطعة أنبوب مستقيمة متصلة من طرف إلى طرف
  • استخدام صيغة دوران Rodrigues للتحكم في انحراف الزاوية بين قطع الأنابيب المجاورة:
v' = v cos θ + (k × v) sin θ + k(k · v)(1 - cos θ)

نموذج الطائرة بدون طيار: استخدام نموذج محاكاة Bitcraze Crazyflie 2 (رباعي الأجنحة النانوي 92×92×29 ملم).

مقارنة خوارزميات التعلم

استخدام إطار عمل skrl لضمان مقارنة عادلة، حيث تشترك كلا الخوارزميتين في نفس بنية الشبكة:

  • بنية الشبكة: actor-critic، طبقتان مخفيتان (256، 128 وحدة، تفعيل ELU)
  • تكوين PPO: أفق rollout 256، 4096 بيئة متوازية، هدف KL تكيفي 0.01، γ=0.99، λ=0.95، ε=0.2
  • تكوين SAC: ناقدان توأم، مخزن مؤقت للتشغيل 10⁶، حجم الدفعة 512، τ=0.005، γ=0.99، تعديل الإنتروبيا التلقائي

تصميم دالة المكافأة

اعتماد دالة مكافأة معيارية: Rt = Σk wk rk

ثلاث فئات رئيسية:

  1. مكافآت التوجيه:
    • Progress: مكافأة الحركة نحو نقطة الطريق التالية
    • Centerline Deviation: معاقبة الانحراف عن خط وسط الأنبوب
    • Velocity Tracking: تشجيع السرعة الأمامية المستهدفة
  2. مكافآت الاستقرار:
    • Orientation Alignment: مكافأة محاذاة الانحراف والموقف الأفقي
    • Angular Velocity Damping: معاقبة سرعة الدوران
    • Action Smoothness: معاقبة التغييرات المفاجئة في أوامر المحرك
  3. مكافآت الأحداث:
    • Waypoint Pass: مكافأة نادرة لتمرير نقطة الطريق
    • Duct Finish: مكافأة نهائية كبيرة لإكمال الأنبوب
    • Crash Penalty: عقوبة كبيرة للاصطدام/الانتهاك

إعداد التجارب

بيئة التجارب

  • المنصة: محرك الفيزياء Genesis
  • تكوين الأنابيب: مولد إجرائياً، Rd = 0.5m، 7 نقاط طريق
  • تكوين التدريب: تدريب PPO و SAC لكل منهما 500 نقطة تفتيش

مقاييس التقييم

  • Average Reward: متوسط المكافأة
  • Waypoints Passed: عدد نقاط الطريق المُمررة
  • Collisions per Episode: عدد الاصطدامات لكل حلقة
  • Average/Maximum Deviation: متوسط/أقصى انحراف

تحسين المعاملات الفائقة

استخدام أداة Weights & Biases sweep لتحسين أوزان المكافآت، مع زيادة نطاق الأوزان الموجهة الرئيسية لـ SAC للتكيف مع خصائص مخزنه المؤقت للتشغيل.

نتائج التجارب

نتائج تدريب PPO

نقطة التفتيش5075100150200300400500
متوسط المكافأة1.3k2.7k4.5k6.4k7.2k9.9k10.2k9.6k
نقاط الطريق المُمررة1/72/74/75/76/77/77/77/7
الاصطدامات/الحلقة1.000.700.300.000.000.000.000.00
متوسط الانحراف (م)0.1230.1130.0840.0650.0940.0640.0630.094

النتائج الرئيسية:

  • تحقيق معدل إكمال 100% للمسار بدون اصطدامات عند نقطة التفتيش 300
  • انخفاض متوسط انحراف خط الوسط من 0.1128م إلى 0.0636م (بين نقاط التفتيش 200-300)
  • تحقيق أفضل أداء عند نقطة التفتيش 400 (متوسط مكافأة 10.2k)

نتائج تدريب SAC

نقطة التفتيش5075100150200300
متوسط المكافأة2.0k3.0k3.6k4.1k5.4k4.4k
نقاط الطريق المُمررة0/71/72/73/73/73/7
الاصطدامات/الحلقة1.001.001.001.001.001.00

النتائج الرئيسية:

  • معدل إكمال المسار 0% طوال عملية التدريب
  • متوسط اصطدام واحد لكل حلقة، مما يشير إلى أن الفشل النهائي هو النتيجة القياسية
  • تمرير أقصى 3 نقاط طريق قبل الانهيار، متقاربة إلى أمثل محلي

تحليل المقارنة الأداء

أسباب نجاح PPO:

  • التحديث on-policy يوفر إشارة تعلم متسقة
  • القدرة على التغلب على الأمثل المحلي وحل المهام من طرف إلى طرف
  • إظهار نمط تعلم كلاسيكي: إتقان الهدف الرئيسي أولاً، ثم تحسين المسار

أسباب فشل SAC:

  • تشبع مخزن التشغيل المؤقت بالخبرة من القطاعات البسيطة الأولية
  • الميل نحو تحسين بداية المسار، مع تجاهل التحديات اللاحقة
  • كفاءة العينة تصبح معاكسة في هذا السياق

الأعمال ذات الصلة

تطبيقات DRL في الروبوتات

  • يتعلم DRL استراتيجيات التحكم المعقدة من خلال التفاعل بالمحاولة والخطأ، وهو مناسب للمهام الروبوتية التي يصعب نمذجتها بدقة
  • تحقيق اختراقات في مجالات مثل توليد مهارات الحركة الديناميكية للروبوتات ذات الأرجل

أهمية المحاكاة عالية الدقة

  • نظراً للتكلفة العالية والمخاطر الأمنية للتفاعل في العالم الحقيقي، أصبحت المحاكاة أداة مهمة في بحث DRL
  • تعتبر تقنيات مثل العشوائية في المجال حاسمة لنقل sim-to-real

الملاحة المستقلة للطائرات بدون طيار

  • أظهر DRL أداء خارق للبشر في مهام عالية السرعة والديناميكية مثل سباق الطائرات بدون طيار
  • يشكل التنقل في البيئات المحصورة تحديات أكبر من التنقل في الفضاء المفتوح، مما يتطلب خوارزميات تعلم أكثر استقراراً وموثوقية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. الاستقرار يتفوق على الكفاءة: بالنسبة لمهام الملاحة عالية الدقة والحرجة الأمنية، يكون استقرار التدريب في طرق on-policy أكثر أهمية من كفاءة العينة في طرق off-policy
  2. حرجية اختيار الخوارزمية: نجح PPO في تعلم استراتيجيات قوية خالية من الاصطدام، بينما تقاربت SAC إلى حل دون المستوى الأمثل
  3. قيود مخزن التشغيل المؤقت: قد يؤدي مخزن التشغيل المؤقت لـ SAC إلى انحياز استكشافي في مهام التسلسل المعقدة

القيود

  1. نطاق خوارزمي محدود: مقارنة خوارزميتين فقط (PPO و SAC)
  2. الاعتماد على هندسة المكافآت: يعتمد الأداء بشكل كبير على دالة مكافأة مصممة بعناية
  3. غياب التحقق من الواقع: لم يتم التحقق من جميع التجارب إلا في بيئة محاكاة
  4. حساسية تصميم المكافآت: قد يؤثر استخدام أوزان مكافآت مختلفة للخوارزميات المختلفة على عمومية الاستنتاجات

الآثار المترتبة

  1. المساهمة الأكاديمية: توفير إرشادات تجريبية لاختيار خوارزميات DRL في المهام الحرجة الأمنية
  2. القيمة الصناعية: توفير مرجع تقني لتطوير طائرات بدون طيار للفحص الصناعي
  3. القيمة المنهجية: التحقق من فعالية البيئات المولدة إجرائياً في تدريب DRL

السيناريوهات القابلة للتطبيق

  • مهام الملاحة بالطائرات بدون طيار عالية الدقة والحرجة الأمنية
  • التحكم بالروبوتات في الأماكن المحصورة
  • تطبيقات التعلم المعزز التي تتطلب ضمانات تقارب موثوقة

المراجع

تستشهد الورقة بـ 26 مرجعاً ذا صلة، تغطي نظرية أساسيات DRL وملاحة الطائرات بدون طيار وتقنيات المحاكاة وغيرها، مما يوفر أساساً نظرياً متيناً. تشمل المراجع الرئيسية الأوراق الأصلية لـ PPO و SAC والأعمال الرائدة في سباق الطائرات بدون طيار والأبحاث المهمة في نقل sim-to-real.