Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
Tayar, de Oliveira, Tommaselli et al.
Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.
academic
الملاحة المستقلة للطائرات بدون طيار في الأماكن المحصورة: نهج التعلم المعزز
العنوان: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
المؤلفون: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (جامعة ساو باولو)
تتناول هذه الورقة مشكلة الفحص المستقل للطائرات بدون طيار في البنية التحتية الصناعية المحصورة (مثل قنوات التهوية)، وهي مهام تتطلب استراتيجيات ملاحة قوية لا تسمح بالاصطدام. بينما يوفر التعلم المعزز العميق (DRL) نموذجاً قوياً لتطوير هذه الاستراتيجيات، إلا أن هناك مقايضات حاسمة بين خوارزميات on-policy و off-policy. تعد طرق off-policy بكفاءة عينة عالية، وهو أمر حاسم لتقليل الضبط الدقيق الباهظ والخطر في العالم الحقيقي. في المقابل، تُظهر طرق on-policy عادة استقراراً تدريبياً أفضل، وهو أمر حاسم للتقارب الموثوق في البيئات ذات كثافة الخطر العالية. تدرس هذه الورقة هذه المقايضة مباشرة من خلال مقارنة أداء الطيران الدقيقة للخوارزمية on-policy الرائدة PPO مع خوارزمية off-policy SAC في قنوات مولدة إجرائياً في محاكي عالي الدقة. تُظهر النتائج أن PPO يتعلم باستمرار استراتيجيات مستقرة وخالية من الاصطدام ويكمل المسار بالكامل، بينما فشل SAC في إيجاد حل كامل، متقاربة إلى استراتيجية دون المستوى الأمثل التي تستطيع فقط التنقل في المقطع الأولي.
يعتبر الفحص اليدوي للبنية التحتية الصناعية (مثل الأنابيب وقنوات التهوية) عملية معقدة وباهظة الثمن وتستغرق وقتاً طويلاً، وهي حاسمة للحفاظ على سلامة العمليات. تمثل الطائرات بدون طيار (UAVs) تقدماً كبيراً في مجال الفحص الصناعي، مما يتيح جمع البيانات الآلي والآمن في البيئات التي يتعذر على الإنسان الوصول إليها أو غير آمنة.
يواجه التنقل بالطائرات بدون طيار في الأماكن المحصورة مثل الأنابيب تحديات فريدة:
التأثيرات الديناميكية الهوائية المعقدة: يخلق القرب من الجدران تأثيرات ديناميكية هوائية معقدة، مما يزيد من خطر الاصطدام
قيود الطرق الكلاسيكية: تفتقر طرق التخطيط الحركي التقليدية إلى القدرة على التكيف، وتواجه صعوبة في التعامل مع الظواهر الديناميكية الهوائية غير المُنمذجة (مثل تأثير الأرض في الأنابيب الضيقة)
الحرجية الأمنية: في هذه البيئات، يكون الاصطدام غير مقبول، مما يتطلب استراتيجيات تحكم موثوقة للغاية
يوفر التعلم المعزز العميق نموذجاً قوياً لحل هذه التحديات، لكن اختيار الخوارزمية حاسم. السؤال الأساسي هو: بالنسبة للمهام التي تتطلب دقة عالية وسلامة، هل استقرار طرق on-policy أكثر أهمية من كفاءة العينة في خوارزميات off-policy؟
تحليل المقارنة المباشرة: إجراء مقارنة مباشرة بين خوارزميات on-policy و off-policy الناضجة على مهمة الملاحة المستقلة للطائرات بدون طيار في الأنابيب الصناعية المحصورة
الأدلة التجريبية: توفير أدلة تجريبية للمهام ذات كثافة الخطر العالية والدقة العالية، مما يثبت أن استقرار التدريب في طرق on-policy أكثر حرجاً من كفاءة العينة في طرق off-policy
التحقق من سير العمل المحاكاة: التحقق من سير عمل المحاكاة باستخدام البيئات المولدة إجرائياً ومحركات الفيزياء عالية الدقة كمنصة اختبار لتطوير واختبار استراتيجيات التحكم بالطائرات بدون طيار للتطبيقات الصناعية
الاستقرار يتفوق على الكفاءة: بالنسبة لمهام الملاحة عالية الدقة والحرجة الأمنية، يكون استقرار التدريب في طرق on-policy أكثر أهمية من كفاءة العينة في طرق off-policy
حرجية اختيار الخوارزمية: نجح PPO في تعلم استراتيجيات قوية خالية من الاصطدام، بينما تقاربت SAC إلى حل دون المستوى الأمثل
قيود مخزن التشغيل المؤقت: قد يؤدي مخزن التشغيل المؤقت لـ SAC إلى انحياز استكشافي في مهام التسلسل المعقدة
تستشهد الورقة بـ 26 مرجعاً ذا صلة، تغطي نظرية أساسيات DRL وملاحة الطائرات بدون طيار وتقنيات المحاكاة وغيرها، مما يوفر أساساً نظرياً متيناً. تشمل المراجع الرئيسية الأوراق الأصلية لـ PPO و SAC والأعمال الرائدة في سباق الطائرات بدون طيار والأبحاث المهمة في نقل sim-to-real.