Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
Tayar, de Oliveira, Tommaselli et al.
Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.
academic
स्वायत्त यूएवी उड़ान नेविगेशन सीमित स्थानों में: एक सुदृढीकरण शिक्षा दृष्टिकोण
शीर्षक: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
लेखक: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (साओ पाउलो विश्वविद्यालय)
यह पेपर सीमित औद्योगिक बुनियादी ढांचे (जैसे वेंटिलेशन नलिकाएं) में स्वायत्त यूएवी निरीक्षण की समस्या का अध्ययन करता है, जिसमें टकराव को रोकने वाली मजबूत नेविगेशन रणनीति की आवश्यकता होती है। हालांकि गहन सुदृढीकरण शिक्षा (डीआरएल) ऐसी रणनीतियों को विकसित करने के लिए एक शक्तिशाली प्रतिमान प्रदान करता है, लेकिन ऑन-पॉलिसी और ऑफ-पॉलिसी एल्गोरिदम के बीच महत्वपूर्ण व्यापार-बंद मौजूद हैं। ऑफ-पॉलिसी विधियां उच्च नमूना दक्षता का वादा करती हैं, जो महंगे और असुरक्षित वास्तविक-विश्व सूक्ष्म-ट्यूनिंग को कम करने के लिए महत्वपूर्ण है। इसके विपरीत, ऑन-पॉलिसी विधियां आमतौर पर बेहतर प्रशिक्षण स्थिरता प्रदर्शित करती हैं, जो उच्च-जोखिम-घनत्व वाले वातावरण में विश्वसनीय अभिसरण के लिए महत्वपूर्ण है। यह पेपर उच्च-निष्ठा सिम्युलेटर में प्रोग्रामेटिक रूप से उत्पन्न नलिकाओं में अग्रणी ऑन-पॉलिसी एल्गोरिदम पीपीओ और ऑफ-पॉलिसी एल्गोरिदम एसएसी की सटीक उड़ान कार्यक्षमता की तुलना करके इस व्यापार-बंद का सीधे अध्ययन करता है। परिणाम दर्शाते हैं कि पीपीओ लगातार स्थिर, टकराव-मुक्त रणनीतियां सीखता है और पूरी उड़ान को पूरा करता है, जबकि एसएसी पूर्ण समाधान खोजने में विफल रहता है, केवल प्रारंभिक खंड को नेविगेट करने वाली उप-इष्टतम रणनीति में परिवर्तित होता है।
औद्योगिक बुनियादी ढांचे का मानव निरीक्षण (जैसे पाइपलाइनें और वेंटिलेशन नलिकाएं) एक जटिल, महंगी और समय लेने वाली प्रक्रिया है, जो रखरखाव संचालन की अखंडता के लिए महत्वपूर्ण है। यूएवी (अनमैन्ड एरियल व्हीकल) औद्योगिक निरीक्षण क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करते हैं, जो मानव पहुंच से परे या असुरक्षित वातावरण में स्वचालित और सुरक्षित डेटा संग्रह को सक्षम बनाते हैं।
पाइपलाइनों जैसी सीमित जगहों में यूएवी को नेविगेट करना अद्वितीय चुनौतियां प्रस्तुत करता है:
जटिल वायुगतिकीय प्रभाव: दीवारों की निकटता जटिल वायुगतिकीय प्रभाव पैदा करती है, जिससे टकराव का जोखिम बढ़ता है
शास्त्रीय विधियों की सीमाएं: पारंपरिक गति योजना विधियां अनुकूली नहीं हैं और अनमॉडल वायुगतिकीय घटनाओं (जैसे संकीर्ण नलिकाओं में जमीन प्रभाव) को संभालने में कठिनाई होती है
सुरक्षा-महत्वपूर्ण प्रकृति: इन वातावरणों में, टकराव अस्वीकार्य है, जिसके लिए अत्यधिक विश्वसनीय नियंत्रण रणनीति की आवश्यकता है
गहन सुदृढीकरण शिक्षा इन चुनौतियों को हल करने के लिए एक शक्तिशाली प्रतिमान प्रदान करता है, लेकिन एल्गोरिदम का चयन महत्वपूर्ण है। मूल प्रश्न यह है: उच्च सटीकता और सुरक्षा की आवश्यकता वाले कार्यों के लिए, क्या ऑन-पॉलिसी विधियों की स्थिरता ऑफ-पॉलिसी एल्गोरिदम की नमूना दक्षता से अधिक महत्वपूर्ण है?
प्रत्यक्ष तुलनात्मक विश्लेषण: सीमित औद्योगिक पाइपलाइनों में स्वायत्त यूएवी नेविगेशन कार्य पर परिपक्व ऑन-पॉलिसी और ऑफ-पॉलिसी एल्गोरिदम की प्रत्यक्ष तुलना विश्लेषण
अनुभवजन्य साक्ष्य: उच्च-जोखिम-घनत्व, उच्च-सटीकता कार्यों के लिए अनुभवजन्य साक्ष्य प्रदान करता है, जो ऑन-पॉलिसी विधियों की प्रशिक्षण स्थिरता को ऑफ-पॉलिसी विधियों की नमूना दक्षता से अधिक महत्वपूर्ण साबित करता है
सिम्युलेशन वर्कफ़्लो सत्यापन: प्रोग्रामेटिक रूप से उत्पन्न वातावरण और उच्च-निष्ठा भौतिकी इंजन का उपयोग करके औद्योगिक अनुप्रयोग यूएवी नियंत्रण रणनीति के विकास और बेंचमार्किंग के लिए परीक्षण मंच के रूप में सिम्युलेशन वर्कफ़्लो को सत्यापित करता है
Weights & Biases sweep उपकरण का उपयोग करके पुरस्कार वजन को अनुकूलित किया गया, एसएसी के लिए replay buffer विशेषताओं के अनुकूल करने के लिए मुख्य निर्देशक आइटम के वजन रेंज को बढ़ाया गया।
स्थिरता दक्षता से बेहतर है: उच्च सटीकता, सुरक्षा-महत्वपूर्ण नेविगेशन कार्यों के लिए, ऑन-पॉलिसी विधियों की प्रशिक्षण स्थिरता ऑफ-पॉलिसी विधियों की नमूना दक्षता से अधिक महत्वपूर्ण है
एल्गोरिदम चयन की महत्वपूर्णता: पीपीओ मजबूत टकराव-मुक्त रणनीति सीखने में सफल रहा, जबकि एसएसी उप-इष्टतम समाधान में परिवर्तित हुआ
Replay buffer की सीमाएं: एसएसी का replay buffer जटिल अनुक्रमिक कार्यों में अन्वेषण पूर्वाग्रह का कारण बन सकता है
पेपर 26 संबंधित संदर्भों का हवाला देता है, जो डीआरएल मौलिक सिद्धांत, यूएवी नेविगेशन, सिम्युलेशन तकनीक और अन्य कई पहलुओं को कवर करते हैं, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं। मुख्य संदर्भ साहित्य में पीपीओ और एसएसी के मूल पेपर, यूएवी रेसिंग में सफलता के कार्य और sim-to-real स्थानांतरण के महत्वपूर्ण अनुसंधान शामिल हैं।