2025-11-20T22:01:15.701145

Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

Tayar, de Oliveira, Tommaselli et al.
Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.
academic

स्वायत्त यूएवी उड़ान नेविगेशन सीमित स्थानों में: एक सुदृढीकरण शिक्षा दृष्टिकोण

मूल जानकारी

  • पेपर आईडी: 2508.16807
  • शीर्षक: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
  • लेखक: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (साओ पाउलो विश्वविद्यालय)
  • वर्गीकरण: cs.RO cs.AI cs.LG cs.SY eess.SY
  • प्रकाशन समय: 25 अक्टूबर, 2025 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2508.16807

सारांश

यह पेपर सीमित औद्योगिक बुनियादी ढांचे (जैसे वेंटिलेशन नलिकाएं) में स्वायत्त यूएवी निरीक्षण की समस्या का अध्ययन करता है, जिसमें टकराव को रोकने वाली मजबूत नेविगेशन रणनीति की आवश्यकता होती है। हालांकि गहन सुदृढीकरण शिक्षा (डीआरएल) ऐसी रणनीतियों को विकसित करने के लिए एक शक्तिशाली प्रतिमान प्रदान करता है, लेकिन ऑन-पॉलिसी और ऑफ-पॉलिसी एल्गोरिदम के बीच महत्वपूर्ण व्यापार-बंद मौजूद हैं। ऑफ-पॉलिसी विधियां उच्च नमूना दक्षता का वादा करती हैं, जो महंगे और असुरक्षित वास्तविक-विश्व सूक्ष्म-ट्यूनिंग को कम करने के लिए महत्वपूर्ण है। इसके विपरीत, ऑन-पॉलिसी विधियां आमतौर पर बेहतर प्रशिक्षण स्थिरता प्रदर्शित करती हैं, जो उच्च-जोखिम-घनत्व वाले वातावरण में विश्वसनीय अभिसरण के लिए महत्वपूर्ण है। यह पेपर उच्च-निष्ठा सिम्युलेटर में प्रोग्रामेटिक रूप से उत्पन्न नलिकाओं में अग्रणी ऑन-पॉलिसी एल्गोरिदम पीपीओ और ऑफ-पॉलिसी एल्गोरिदम एसएसी की सटीक उड़ान कार्यक्षमता की तुलना करके इस व्यापार-बंद का सीधे अध्ययन करता है। परिणाम दर्शाते हैं कि पीपीओ लगातार स्थिर, टकराव-मुक्त रणनीतियां सीखता है और पूरी उड़ान को पूरा करता है, जबकि एसएसी पूर्ण समाधान खोजने में विफल रहता है, केवल प्रारंभिक खंड को नेविगेट करने वाली उप-इष्टतम रणनीति में परिवर्तित होता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

औद्योगिक बुनियादी ढांचे का मानव निरीक्षण (जैसे पाइपलाइनें और वेंटिलेशन नलिकाएं) एक जटिल, महंगी और समय लेने वाली प्रक्रिया है, जो रखरखाव संचालन की अखंडता के लिए महत्वपूर्ण है। यूएवी (अनमैन्ड एरियल व्हीकल) औद्योगिक निरीक्षण क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करते हैं, जो मानव पहुंच से परे या असुरक्षित वातावरण में स्वचालित और सुरक्षित डेटा संग्रह को सक्षम बनाते हैं।

चुनौती विश्लेषण

पाइपलाइनों जैसी सीमित जगहों में यूएवी को नेविगेट करना अद्वितीय चुनौतियां प्रस्तुत करता है:

  1. जटिल वायुगतिकीय प्रभाव: दीवारों की निकटता जटिल वायुगतिकीय प्रभाव पैदा करती है, जिससे टकराव का जोखिम बढ़ता है
  2. शास्त्रीय विधियों की सीमाएं: पारंपरिक गति योजना विधियां अनुकूली नहीं हैं और अनमॉडल वायुगतिकीय घटनाओं (जैसे संकीर्ण नलिकाओं में जमीन प्रभाव) को संभालने में कठिनाई होती है
  3. सुरक्षा-महत्वपूर्ण प्रकृति: इन वातावरणों में, टकराव अस्वीकार्य है, जिसके लिए अत्यधिक विश्वसनीय नियंत्रण रणनीति की आवश्यकता है

अनुसंधान प्रेरणा

गहन सुदृढीकरण शिक्षा इन चुनौतियों को हल करने के लिए एक शक्तिशाली प्रतिमान प्रदान करता है, लेकिन एल्गोरिदम का चयन महत्वपूर्ण है। मूल प्रश्न यह है: उच्च सटीकता और सुरक्षा की आवश्यकता वाले कार्यों के लिए, क्या ऑन-पॉलिसी विधियों की स्थिरता ऑफ-पॉलिसी एल्गोरिदम की नमूना दक्षता से अधिक महत्वपूर्ण है?

मुख्य योगदान

  1. प्रत्यक्ष तुलनात्मक विश्लेषण: सीमित औद्योगिक पाइपलाइनों में स्वायत्त यूएवी नेविगेशन कार्य पर परिपक्व ऑन-पॉलिसी और ऑफ-पॉलिसी एल्गोरिदम की प्रत्यक्ष तुलना विश्लेषण
  2. अनुभवजन्य साक्ष्य: उच्च-जोखिम-घनत्व, उच्च-सटीकता कार्यों के लिए अनुभवजन्य साक्ष्य प्रदान करता है, जो ऑन-पॉलिसी विधियों की प्रशिक्षण स्थिरता को ऑफ-पॉलिसी विधियों की नमूना दक्षता से अधिक महत्वपूर्ण साबित करता है
  3. सिम्युलेशन वर्कफ़्लो सत्यापन: प्रोग्रामेटिक रूप से उत्पन्न वातावरण और उच्च-निष्ठा भौतिकी इंजन का उपयोग करके औद्योगिक अनुप्रयोग यूएवी नियंत्रण रणनीति के विकास और बेंचमार्किंग के लिए परीक्षण मंच के रूप में सिम्युलेशन वर्कफ़्लो को सत्यापित करता है

विधि विवरण

कार्य परिभाषा

लक्ष्य-उन्मुख यूएवी नियंत्रण को मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में मॉडल किया गया है: M = (S,A,T,R,γ)

स्थिति स्पेस:

st = [prel, p̂Brel, q, vBlin, vBang, at-1] ∈ R20

जहां:

  • prel ∈ R³: अगले वेपॉइंट के लिए यूएवी की स्थिति वेक्टर
  • p̂Brel ∈ R³: बॉडी कोऑर्डिनेट सिस्टम में इकाई सामान्यीकृत प्रतिनिधित्व
  • q ∈ R⁴: इकाई चतुर्भुज (विश्व से बॉडी)
  • vBlin, vBang ∈ R³: बॉडी कोऑर्डिनेट सिस्टम में रैखिक और कोणीय वेग
  • at-1 ∈ R⁴: पिछले समय चरण पर मोटर कमांड वेक्टर

क्रिया स्पेस: निरंतर क्रिया at ∈ -1,1⁴, प्रत्येक रोटर कमांड को पैरामीटराइज़ करता है:

ωi = (1 + 0.8 at,i) ωhover, i = 1,...,4

जहां ωhover = 14.47 krpm अंशांकित होवरिंग गति है।

सिम्युलेशन वातावरण डिजाइन

Genesis भौतिकी इंजन: जीपीयू-त्वरित समानांतर कठोर शरीर सिम्युलेशन के लिए Genesis उच्च-निष्ठा भौतिकी इंजन का उपयोग।

प्रोग्रामेटिक पाइपलाइन पीढ़ी:

  • प्रत्येक एपिसोड विभिन्न पाइपलाइनें उत्पन्न करता है, यह सुनिश्चित करता है कि रणनीति विविध और चुनौतीपूर्ण परिदृश्यों को नेविगेट करना सीखती है
  • पाइपलाइन Ns सीधी पाइपलाइन खंडों से बनी होती है जो सिरे से जुड़ी होती हैं
  • आसन्न पाइपलाइन खंडों के बीच कोणीय विचलन को नियंत्रित करने के लिए Rodrigues रोटेशन सूत्र का उपयोग:
v' = v cos θ + (k × v) sin θ + k(k · v)(1 - cos θ)

यूएवी मॉडल: Bitcraze Crazyflie 2 (92×92×29 मिमी नैनो क्वाड्रोकॉप्टर) का सिम्युलेशन मॉडल।

शिक्षण एल्गोरिदम तुलना

न्यायसंगत तुलना सुनिश्चित करने के लिए skrl फ्रेमवर्क का उपयोग, दोनों एल्गोरिदम समान नेटवर्क आर्किटेक्चर साझा करते हैं:

  • नेटवर्क संरचना: actor-critic, दो छिपी हुई परतें (256, 128 इकाइयां, ELU सक्रियण)
  • पीपीओ कॉन्फ़िगरेशन: rollout horizon 256, 4096 समानांतर वातावरण, अनुकूली KL लक्ष्य 0.01, γ=0.99, λ=0.95, ε=0.2
  • एसएसी कॉन्फ़िगरेशन: twin critics, replay buffer 10⁶, batch size 512, τ=0.005, γ=0.99, स्वचालित एन्ट्रॉपी समायोजन

पुरस्कार फ़ंक्शन डिजाइन

मॉड्यूलर पुरस्कार फ़ंक्शन अपनाया गया: Rt = Σk wk rk

तीन मुख्य श्रेणियां:

  1. निर्देशक पुरस्कार:
    • Progress: अगले वेपॉइंट की ओर गति के लिए पुरस्कार
    • Centerline Deviation: पाइपलाइन केंद्र रेखा से विचलन के लिए दंड
    • Velocity Tracking: लक्ष्य आगे की गति को प्रोत्साहित करता है
  2. स्थिरता पुरस्कार:
    • Orientation Alignment: yaw/horizontal orientation के लिए पुरस्कार
    • Angular Velocity Damping: घूर्णन गति के लिए दंड
    • Action Smoothness: अचानक मोटर कमांड परिवर्तन के लिए दंड
  3. घटना पुरस्कार:
    • Waypoint Pass: वेपॉइंट पास करने के लिए विरल पुरस्कार
    • Duct Finish: पाइपलाइन पूरी करने के लिए बड़ा टर्मिनल पुरस्कार
    • Crash Penalty: टकराव/उल्लंघन के लिए बड़ा दंड

प्रायोगिक सेटअप

प्रायोगिक वातावरण

  • मंच: Genesis भौतिकी इंजन
  • पाइपलाइन कॉन्फ़िगरेशन: प्रोग्रामेटिक रूप से उत्पन्न, Rd = 0.5m, 7 वेपॉइंट
  • प्रशिक्षण कॉन्फ़िगरेशन: पीपीओ और एसएसी प्रत्येक 500 checkpoints के लिए प्रशिक्षित

मूल्यांकन मेट्रिक्स

  • Average Reward: औसत पुरस्कार
  • Waypoints Passed: पास किए गए वेपॉइंट की संख्या
  • Collisions per Episode: प्रति एपिसोड टकराव
  • Average/Maximum Deviation: औसत/अधिकतम विचलन दूरी

हाइपरपैरामीटर अनुकूलन

Weights & Biases sweep उपकरण का उपयोग करके पुरस्कार वजन को अनुकूलित किया गया, एसएसी के लिए replay buffer विशेषताओं के अनुकूल करने के लिए मुख्य निर्देशक आइटम के वजन रेंज को बढ़ाया गया।

प्रायोगिक परिणाम

पीपीओ प्रशिक्षण परिणाम

Checkpoint5075100150200300400500
Average Reward1.3k2.7k4.5k6.4k7.2k9.9k10.2k9.6k
Waypoints Passed1/72/74/75/76/77/77/77/7
Collisions/Episode1.000.700.300.000.000.000.000.00
Avg Deviation (m)0.1230.1130.0840.0650.0940.0640.0630.094

मुख्य निष्कर्ष:

  • 300वें checkpoint पर 100% उड़ान पूर्णता दर, शून्य टकराव तक पहुंचा
  • औसत केंद्र रेखा विचलन 0.1128m से 0.0636m तक गिरा (checkpoint 200-300 के बीच)
  • 400वें checkpoint पर सर्वोत्तम प्रदर्शन प्राप्त (औसत पुरस्कार 10.2k)

एसएसी प्रशिक्षण परिणाम

Checkpoint5075100150200300
Average Reward2.0k3.0k3.6k4.1k5.4k4.4k
Waypoints Passed0/71/72/73/73/73/7
Collisions/Episode1.001.001.001.001.001.00

मुख्य निष्कर्ष:

  • पूरी प्रशिक्षण प्रक्रिया में उड़ान पूर्णता दर 0% रही
  • प्रति एपिसोड औसत 1 टकराव, जो टर्मिनल विफलता को मानक परिणाम दर्शाता है
  • 3 वेपॉइंट के बाद अधिकतम गिरावट, स्थानीय इष्टतम में परिवर्तित

प्रदर्शन तुलनात्मक विश्लेषण

पीपीओ सफलता के कारण:

  • ऑन-पॉलिसी अपडेट सुसंगत शिक्षण संकेत प्रदान करता है
  • स्थानीय इष्टतम को दूर करने और अंत-से-अंत कार्य को हल करने में सक्षम
  • शास्त्रीय शिक्षण पैटर्न प्रदर्शित करता है: पहले मुख्य उद्देश्य में महारत हासिल करना, फिर प्रक्षेपवक्र को अनुकूलित करना

एसएसी विफलता के कारण:

  • Replay buffer प्रारंभिक सरल खंड के अनुभव से संतृप्त है
  • प्रक्षेपवक्र की शुरुआत को परिष्कृत करने की ओर झुकाव, बाद की चुनौतियों को नजरअंदाज करता है
  • नमूना दक्षता इस संदर्भ में प्रतिकूल है

संबंधित कार्य

मशीन रोबोटिक्स में डीआरएल का अनुप्रयोग

  • डीआरएल परीक्षण और त्रुटि इंटरैक्शन के माध्यम से जटिल नियंत्रण रणनीतियां सीखता है, जो कठिन-से-मॉडल रोबोटिक कार्यों के लिए उपयुक्त है
  • पैर वाले रोबोट गतिशील आंदोलन कौशल पीढ़ी जैसे क्षेत्रों में सफलता प्राप्त की है

उच्च-निष्ठा सिम्युलेशन का महत्व

  • वास्तविक-विश्व इंटरैक्शन की उच्च लागत और सुरक्षा जोखिम के कारण, सिम्युलेशन डीआरएल अनुसंधान के लिए एक महत्वपूर्ण उपकरण बन गया है
  • डोमेन रैंडमाइजेशन जैसी तकनीकें sim-to-real स्थानांतरण के लिए महत्वपूर्ण हैं

यूएवी स्वायत्त नेविगेशन

  • डीआरएल यूएवी रेसिंग जैसे उच्च-गति गतिशील कार्यों में अतिमानवीय प्रदर्शन प्रदर्शित करता है
  • सीमित वातावरण नेविगेशन खुली जगह नेविगेशन की तुलना में अधिक चुनौतीपूर्ण है, जिसके लिए अधिक स्थिर विश्वसनीय शिक्षण एल्गोरिदम की आवश्यकता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. स्थिरता दक्षता से बेहतर है: उच्च सटीकता, सुरक्षा-महत्वपूर्ण नेविगेशन कार्यों के लिए, ऑन-पॉलिसी विधियों की प्रशिक्षण स्थिरता ऑफ-पॉलिसी विधियों की नमूना दक्षता से अधिक महत्वपूर्ण है
  2. एल्गोरिदम चयन की महत्वपूर्णता: पीपीओ मजबूत टकराव-मुक्त रणनीति सीखने में सफल रहा, जबकि एसएसी उप-इष्टतम समाधान में परिवर्तित हुआ
  3. Replay buffer की सीमाएं: एसएसी का replay buffer जटिल अनुक्रमिक कार्यों में अन्वेषण पूर्वाग्रह का कारण बन सकता है

सीमाएं

  1. एल्गोरिदम रेंज सीमित: केवल पीपीओ और एसएसी दो एल्गोरिदम की तुलना की गई
  2. पुरस्कार इंजीनियरिंग निर्भरता: प्रदर्शन बड़े हिस्से में सावधानीपूर्वक डिजाइन किए गए पुरस्कार फ़ंक्शन पर निर्भर है
  3. सिम्युलेशन से वास्तविकता का अंतराल: अभी तक वास्तविक भौतिक प्रणालियों पर सत्यापित नहीं किया गया है

भविष्य की दिशाएं

  1. Sim-to-real स्थानांतरण: सफल पीपीओ रणनीति को भौतिक यूएवी परीक्षण मंच में स्थानांतरित करना
  2. डोमेन रैंडमाइजेशन: नीति की मजबूती बढ़ाने के लिए डोमेन रैंडमाइजेशन और पाठ्यक्रम शिक्षा को संयोजित करना
  3. हाइब्रिड एल्गोरिदम: ऑन-पॉलिसी स्थिरता और ऑफ-पॉलिसी डेटा दक्षता को एकीकृत करने वाले उन्नत एल्गोरिदम का अन्वेषण करना

गहन मूल्यांकन

शक्तियां

  1. समस्या-केंद्रित: औद्योगिक निरीक्षण में वास्तविक सुरक्षा-महत्वपूर्ण समस्या को हल करता है
  2. कठोर प्रायोगिक डिजाइन: न्यायसंगत तुलना सुनिश्चित करने के लिए एकीकृत फ्रेमवर्क का उपयोग, प्रोग्रामेटिक रूप से उत्पन्न वातावरण सामान्यीकरण बढ़ाता है
  3. स्पष्ट शक्तिशाली निष्कर्ष: एल्गोरिदम चयन के लिए स्पष्ट निर्देशक सिद्धांत प्रदान करता है
  4. उच्च इंजीनियरिंग मूल्य: वास्तविक औद्योगिक अनुप्रयोगों के लिए मूल्यवान तकनीकी पथ प्रदान करता है

कमियां

  1. एल्गोरिदम कवरेज संकीर्ण: केवल दो एल्गोरिदम की तुलना, अधिक व्यापक एल्गोरिदम मूल्यांकन की कमी
  2. सैद्धांतिक विश्लेषण अपर्याप्त: विफलता के कारणों का विश्लेषण मुख्य रूप से अनुभवजन्य अवलोकन पर आधारित है, सैद्धांतिक समर्थन की कमी
  3. वास्तविक सत्यापन अनुपस्थित: सभी प्रयोग सिम्युलेशन वातावरण में किए गए, वास्तविक-विश्व सत्यापन की कमी
  4. पुरस्कार डिजाइन संवेदनशीलता: विभिन्न एल्गोरिदम विभिन्न पुरस्कार वजन का उपयोग करते हैं जो निष्कर्षों की सार्वभौमिकता को प्रभावित कर सकते हैं

प्रभाव

  1. शैक्षणिक योगदान: सुरक्षा-महत्वपूर्ण कार्यों में डीआरएल एल्गोरिदम चयन के लिए अनुभवजन्य मार्गदर्शन प्रदान करता है
  2. औद्योगिक मूल्य: औद्योगिक निरीक्षण यूएवी के विकास के लिए तकनीकी संदर्भ प्रदान करता है
  3. पद्धति मूल्य: डीआरएल प्रशिक्षण में प्रोग्रामेटिक रूप से उत्पन्न वातावरण की प्रभावशीलता को सत्यापित करता है

लागू परिदृश्य

  • उच्च सटीकता, सुरक्षा-महत्वपूर्ण यूएवी नेविगेशन कार्य
  • सीमित स्थानों में रोबोट नियंत्रण
  • विश्वसनीय अभिसरण गारंटी की आवश्यकता वाली सुदृढीकरण शिक्षा अनुप्रयोग

संदर्भ

पेपर 26 संबंधित संदर्भों का हवाला देता है, जो डीआरएल मौलिक सिद्धांत, यूएवी नेविगेशन, सिम्युलेशन तकनीक और अन्य कई पहलुओं को कवर करते हैं, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं। मुख्य संदर्भ साहित्य में पीपीओ और एसएसी के मूल पेपर, यूएवी रेसिंग में सफलता के कार्य और sim-to-real स्थानांतरण के महत्वपूर्ण अनुसंधान शामिल हैं।