2025-11-20T22:01:15.701145

Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

Tayar, de Oliveira, Tommaselli et al.

Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.

academic

স্বায়ত্তশাসিত ড্রোন ফ্লাইট নেভিগেশন সীমিত স্থানে: একটি শক্তিশালী শেখার পদ্ধতি

মৌলিক তথ্য

পেপার আইডি: 2508.16807
শিরোনাম: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
লেখক: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (সাও পাওলো বিশ্ববিদ্যালয়)
শ্রেণীবিভাগ: cs.RO cs.AI cs.LG cs.SY eess.SY
প্রকাশনার সময়: ২০২৫ সালের অক্টোবর ১১ তারিখ (arXiv v2)
পেপার লিঙ্ক: https://arxiv.org/abs/2508.16807

সংক্ষিপ্তসার

এই গবেষণাপত্র সীমিত শিল্প অবকাঠামো (যেমন বায়ুচলাচল নালিকা) এ স্বায়ত্তশাসিত ড্রোন পরিদর্শনের সমস্যা নিয়ে আলোচনা করে, যেখানে এই ধরনের কাজগুলি সংঘর্ষ অনুমতিহীন শক্তিশালী নেভিগেশন কৌশল প্রয়োজন। যদিও গভীর শক্তিশালী শেখা (DRL) এই ধরনের কৌশল বিকাশের জন্য একটি শক্তিশালী প্যারাডাইম প্রদান করে, তবে অন-পলিসি এবং অফ-পলিসি অ্যালগরিদমের মধ্যে মূল ট্রেড-অফ রয়েছে। অফ-পলিসি পদ্ধতি উচ্চ নমুনা দক্ষতার প্রতিশ্রুতি দেয়, যা ব্যয়বহুল এবং অনিরাপদ বাস্তব-বিশ্ব সূক্ষ্ম সমন্বয় কমাতে গুরুত্বপূর্ণ। বিপরীতে, অন-পলিসি পদ্ধতি সাধারণত উন্নত প্রশিক্ষণ স্থিতিশীলতা প্রদর্শন করে, যা উচ্চ-ঝুঁকি-ঘনত্ব পরিবেশে নির্ভরযোগ্য সংমিশ্রণের জন্য গুরুত্বপূর্ণ। এই গবেষণাপত্র উচ্চ-বিশ্বস্ততা সিমুলেটরে প্রোগ্রামগতভাবে উৎপন্ন নালিকায় অগ্রণী অন-পলিসি অ্যালগরিদম PPO এবং অফ-পলিসি অ্যালগরিদম SAC এর নির্ভুল ফ্লাইট কর্মক্ষমতা তুলনা করে এই ট্রেড-অফ সরাসরি অধ্যয়ন করে। ফলাফল দেখায় যে PPO ধারাবাহিকভাবে স্থিতিশীল, সংঘর্ষ-মুক্ত কৌশল শিখে এবং সম্পূর্ণ ফ্লাইট পথ সম্পন্ন করে, যখন SAC সম্পূর্ণ সমাধান খুঁজে পেতে ব্যর্থ হয়, শুধুমাত্র প্রাথমিক অংশ নেভিগেট করতে পারে এমন সাব-অপটিমাল কৌশলে সংমিশ্রিত হয়।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

শিল্প অবকাঠামোর মানব পরিদর্শন (যেমন পাইপলাইন এবং বায়ুচলাচল নালিকা) একটি জটিল, ব্যয়বহুল এবং সময়সাপেক্ষ প্রক্রিয়া যা রক্ষণাবেক্ষণ কার্যক্রমের সম্পূর্ণতা নিশ্চিত করতে গুরুত্বপূর্ণ। অপরিচালিত বায়বীয় যানবাহন (UAV) শিল্প পরিদর্শন ক্ষেত্রে উল্লেখযোগ্য অগ্রগতি প্রতিনিধিত্ব করে, যা মানুষের নাগালের বাইরে বা অনিরাপদ পরিবেশে স্বয়ংক্রিয় এবং নিরাপদ ডেটা সংগ্রহ সক্ষম করে।

চ্যালেঞ্জ বিশ্লেষণ

পাইপলাইনের মতো সীমিত স্থানে ড্রোন নেভিগেশন অনন্য চ্যালেঞ্জের মুখোমুখি হয়:

জটিল বায়ুগতিশাস্ত্র প্রভাব: দেয়ালের নৈকট্য জটিল বায়ুগতিশাস্ত্র প্রভাব তৈরি করে, সংঘর্ষের ঝুঁকি বৃদ্ধি করে
শাস্ত্রীয় পদ্ধতির সীমাবদ্ধতা: ঐতিহ্যবাহী গতি পরিকল্পনা পদ্ধতি অভিযোজনযোগ্যতার অভাব রয়েছে, অমডেল করা বায়ুগতিশাস্ত্র ঘটনা (যেমন সংকীর্ণ নালিকার মধ্যে গ্রাউন্ড ইফেক্ট) পরিচালনা করতে অসুবিধা
নিরাপত্তা-সমালোচনামূলকতা: এই পরিবেশে, সংঘর্ষ অগ্রহণযোগ্য, উচ্চ নির্ভরযোগ্য নিয়ন্ত্রণ কৌশল প্রয়োজন

গবেষণা প্রেরণা

গভীর শক্তিশালী শেখা এই চ্যালেঞ্জগুলি সমাধানের জন্য একটি শক্তিশালী প্যারাডাইম প্রদান করে, তবে অ্যালগরিদম নির্বাচন অত্যন্ত গুরুত্বপূর্ণ। মূল প্রশ্ন হল: উচ্চ নির্ভুলতা এবং নিরাপত্তা প্রয়োজন এমন কাজের জন্য, অন-পলিসি পদ্ধতির স্থিতিশীলতা কি অফ-পলিসি অ্যালগরিদমের নমুনা দক্ষতার চেয়ে বেশি গুরুত্বপূর্ণ?

মূল অবদান

সরাসরি তুলনামূলক বিশ্লেষণ: পরিপক্ক অন-পলিসি এবং অফ-পলিসি অ্যালগরিদমের সীমিত শিল্প পাইপলাইনে স্বায়ত্তশাসিত ড্রোন নেভিগেশন কাজে সরাসরি তুলনামূলক বিশ্লেষণ
অভিজ্ঞতামূলক প্রমাণ: উচ্চ-ঝুঁকি-ঘনত্ব, উচ্চ-নির্ভুলতা কাজের জন্য অভিজ্ঞতামূলক প্রমাণ প্রদান করে যে অন-পলিসি পদ্ধতির প্রশিক্ষণ স্থিতিশীলতা অফ-পলিসি পদ্ধতির নমুনা দক্ষতার চেয়ে বেশি গুরুত্বপূর্ণ
সিমুলেশন কর্মপ্রবাহ যাচাইকরণ: প্রোগ্রামগতভাবে উৎপন্ন পরিবেশ এবং উচ্চ-বিশ্বস্ততা পদার্থবিজ্ঞান ইঞ্জিন ব্যবহার করে শিল্প প্রয়োগ ড্রোন নিয়ন্ত্রণ কৌশল পরীক্ষার প্ল্যাটফর্ম হিসাবে সিমুলেশন কর্মপ্রবাহ যাচাই করা

পদ্ধতি বিস্তারিত

কাজ সংজ্ঞা

লক্ষ্য-ভিত্তিক ড্রোন নিয়ন্ত্রণ মার্কভ সিদ্ধান্ত প্রক্রিয়া (MDP) হিসাবে মডেল করা: M = (S,A,T,R,γ)

অবস্থা স্থান:

st = [prel, p̂Brel, q, vBlin, vBang, at-1] ∈ R20

যেখানে:

prel ∈ R³: পরবর্তী ওয়েপয়েন্টে ড্রোনের অবস্থান ভেক্টর
p̂Brel ∈ R³: মেশিন সমন্বয় ব্যবস্থায় ইউনিট স্বাভাবিক প্রতিনিধিত্ব
q ∈ R⁴: ইউনিট কোয়াটার্নিয়ন (বিশ্ব থেকে মেশিন)
vBlin, vBang ∈ R³: মেশিন সমন্বয় ব্যবস্থায় রৈখিক এবং কৌণিক বেগ
at-1 ∈ R⁴: পূর্ববর্তী সময়ে মোটর নির্দেশ ভেক্টর

কর্ম স্থান: ক্রমাগত কর্ম at ∈ -1,1⁴, প্রতিটি রোটার নির্দেশ প্যারামিটারাইজ করা:

ωi = (1 + 0.8 at,i) ωhover, i = 1,...,4

যেখানে ωhover = 14.47 krpm ক্যালিব্রেটেড হোভার গতি।

সিমুলেশন পরিবেশ ডিজাইন

Genesis পদার্থবিজ্ঞান ইঞ্জিন: Genesis উচ্চ-বিশ্বস্ততা পদার্থবিজ্ঞান ইঞ্জিন GPU ত্বরিত সমান্তরাল কঠোর শরীর সিমুলেশনের জন্য ব্যবহার করা হয়।

প্রোগ্রামগত পাইপলাইন প্রজন্ম:

প্রতিটি episode বিভিন্ন পাইপলাইন তৈরি করে, নিশ্চিত করে যে কৌশল শেখা বৈচিত্র্যময় এবং চ্যালেঞ্জিং পরিস্থিতি নেভিগেট করে
পাইপলাইন Ns সরল পাইপলাইন সেগমেন্ট মাথা-থেকে-লেজ সংযুক্ত নিয়ে গঠিত
সংলগ্ন পাইপলাইন সেগমেন্টের মধ্যে কৌণিক বিচ্যুতি নিয়ন্ত্রণ করতে Rodrigues ঘূর্ণন সূত্র ব্যবহার করা হয়:

v' = v cos θ + (k × v) sin θ + k(k · v)(1 - cos θ)

ড্রোন মডেল: Bitcraze Crazyflie 2 (92×92×29 mm ন্যানো চতুর্ভুজ) এর সিমুলেশন মডেল ব্যবহার করা হয়।

শেখার অ্যালগরিদম তুলনা

ন্যায্য তুলনা নিশ্চিত করতে skrl ফ্রেমওয়ার্ক ব্যবহার করা হয়, উভয় অ্যালগরিদম একই নেটওয়ার্ক আর্কিটেকচার শেয়ার করে:

নেটওয়ার্ক কাঠামো: অ্যাক্টর-সমালোচক, দুটি লুকানো স্তর (256, 128 ইউনিট, ELU সক্রিয়করণ)
PPO কনফিগারেশন: রোলআউট দিগন্ত 256, 4096 সমান্তরাল পরিবেশ, অভিযোজনযোগ্য KL লক্ষ্য 0.01, γ=0.99, λ=0.95, ε=0.2
SAC কনফিগারেশন: যমজ সমালোচক, রিপ্লে বাফার 10⁶, ব্যাচ আকার 512, τ=0.005, γ=0.99, স্বয়ংক্রিয় এন্ট্রপি সমন্বয়

পুরস্কার ফাংশন ডিজাইন

মডুলার পুরস্কার ফাংশন গ্রহণ করা হয়: Rt = Σk wk rk

তিনটি প্রধান বিভাগ:

গাইডেন্স পুরস্কার:
- Progress: পরবর্তী ওয়েপয়েন্টের দিকে গতির জন্য পুরস্কৃত করা
- Centerline Deviation: পাইপলাইন কেন্দ্ররেখা থেকে বিচ্যুতির জন্য শাস্তি
- Velocity Tracking: লক্ষ্য এগিয়ে গতি উৎসাহিত করা
স্থিতিশীলতা পুরস্কার:
- Orientation Alignment: ইয়ও/অনুভূমিক মনোভাবের জন্য পুরস্কৃত করা
- Angular Velocity Damping: ঘূর্ণন গতির জন্য শাস্তি
- Action Smoothness: হঠাৎ মোটর নির্দেশের জন্য শাস্তি
ইভেন্ট পুরস্কার:
- Waypoint Pass: ওয়েপয়েন্ট পাসের জন্য বিরল পুরস্কার
- Duct Finish: পাইপলাইন সম্পূর্ণ করার জন্য বড় টার্মিনাল পুরস্কার
- Crash Penalty: সংঘর্ষ/লঙ্ঘনের জন্য বড় শাস্তি

পরীক্ষামূলক সেটআপ

পরীক্ষামূলক পরিবেশ

প্ল্যাটফর্ম: Genesis পদার্থবিজ্ঞান ইঞ্জিন
পাইপলাইন কনফিগারেশন: প্রোগ্রামগত প্রজন্ম, Rd = 0.5m, 7টি ওয়েপয়েন্ট
প্রশিক্ষণ কনফিগারেশন: PPO এবং SAC প্রতিটি 500টি চেকপয়েন্টের জন্য প্রশিক্ষিত

মূল্যায়ন মেট্রিক্স

Average Reward: গড় পুরস্কার
Waypoints Passed: পাস করা ওয়েপয়েন্টের সংখ্যা
Collisions per Episode: প্রতি episode সংঘর্ষের সংখ্যা
Average/Maximum Deviation: গড়/সর্বাধিক বিচ্যুতি দূরত্ব

হাইপারপ্যারামিটার অপটিমাইজেশন

Weights & Biases sweep টুল ব্যবহার করে পুরস্কার ওজন অপটিমাইজ করা হয়, SAC এর জন্য প্রধান গাইডেন্স আইটেমের ওজন পরিসীমা বৃদ্ধি করা হয় এর রিপ্লে বাফার বৈশিষ্ট্যের সাথে খাপ খাইয়ে নিতে।

পরীক্ষামূলক ফলাফল

PPO প্রশিক্ষণ ফলাফল

চেকপয়েন্ট	50	75	100	150	200	300	400	500
গড় পুরস্কার	1.3k	2.7k	4.5k	6.4k	7.2k	9.9k	10.2k	9.6k
পাস করা ওয়েপয়েন্ট	1/7	2/7	4/7	5/7	6/7	7/7	7/7	7/7
সংঘর্ষ/Episode	1.00	0.70	0.30	0.00	0.00	0.00	0.00	0.00
গড় বিচ্যুতি (m)	0.123	0.113	0.084	0.065	0.094	0.064	0.063	0.094

মূল অনুসন্ধান:

300তম চেকপয়েন্টে 100% ফ্লাইট পথ সম্পূর্ণতার হার অর্জন, শূন্য সংঘর্ষ
গড় কেন্দ্ররেখা বিচ্যুতি 0.1128m থেকে 0.0636m এ হ্রাস (চেকপয়েন্ট 200-300 মধ্যে)
400তম চেকপয়েন্টে সর্বোত্তম কর্মক্ষমতা অর্জন (গড় পুরস্কার 10.2k)

SAC প্রশিক্ষণ ফলাফল

চেকপয়েন্ট	50	75	100	150	200	300
গড় পুরস্কার	2.0k	3.0k	3.6k	4.1k	5.4k	4.4k
পাস করা ওয়েপয়েন্ট	0/7	1/7	2/7	3/7	3/7	3/7
সংঘর্ষ/Episode	1.00	1.00	1.00	1.00	1.00	1.00

মূল অনুসন্ধান:

সম্পূর্ণ প্রশিক্ষণ প্রক্রিয়া জুড়ে ফ্লাইট পথ সম্পূর্ণতার হার সর্বদা 0%
প্রতি episode গড়ে 1টি সংঘর্ষ, টার্মিনাল ব্যর্থতা মান ফলাফল নির্দেশ করে
3টি ওয়েপয়েন্ট পাসের পরে সর্বাধিক ক্র্যাশ, স্থানীয় সর্বোত্তমে সংমিশ্রিত হয়

কর্মক্ষমতা তুলনা বিশ্লেষণ

PPO সাফল্যের কারণ:

অন-পলিসি আপডেট সামঞ্জস্যপূর্ণ শেখার সংকেত প্রদান করে
স্থানীয় সর্বোত্তম অতিক্রম করতে এবং শেষ থেকে শেষ কাজ সমাধান করতে সক্ষম
ক্লাসিক শেখার প্যাটার্ন প্রদর্শন করে: প্রথমে প্রধান লক্ষ্য আয়ত্ত করা, তারপর ট্র্যাজেক্টরি অপটিমাইজ করা

SAC ব্যর্থতার কারণ:

রিপ্লে বাফার প্রাথমিক সহজ সেগমেন্টের অভিজ্ঞতা দ্বারা স্যাচুরেটেড
ট্র্যাজেক্টরি শুরু অংশ পরিমার্জন করতে পক্ষপাতী, পরবর্তী চ্যালেঞ্জ উপেক্ষা করে
এই প্রসঙ্গে নমুনা দক্ষতা প্রতিকূল প্রভাব ফেলে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

স্থিতিশীলতা দক্ষতার উপর বিজয়ী: উচ্চ নির্ভুলতা, নিরাপত্তা-সমালোচনামূলক নেভিগেশন কাজের জন্য, অন-পলিসি পদ্ধতির প্রশিক্ষণ স্থিতিশীলতা অফ-পলিসি পদ্ধতির নমুনা দক্ষতার চেয়ে বেশি গুরুত্বপূর্ণ
অ্যালগরিদম নির্বাচনের গুরুত্ব: PPO শক্তিশালী সংঘর্ষ-মুক্ত কৌশল শিখতে সফল হয়েছে, যখন SAC সাব-অপটিমাল সমাধানে সংমিশ্রিত হয়েছে
রিপ্লে বাফারের সীমাবদ্ধতা: SAC এর রিপ্লে বাফার জটিল ক্রম কাজে অন্বেষণ পক্ষপাত হতে পারে

সীমাবদ্ধতা

সীমিত অ্যালগরিদম পরিসীমা: শুধুমাত্র দুটি অ্যালগরিদম তুলনা করা হয়েছে, আরও ব্যাপক অ্যালগরিদম মূল্যায়নের অভাব
অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: ব্যর্থতার কারণের বিশ্লেষণ প্রধানত অভিজ্ঞতামূলক পর্যবেক্ষণের উপর ভিত্তি করে, তাত্ত্বিক সমর্থনের অভাব
বাস্তব বিশ্ব যাচাইকরণের অভাব: সমস্ত পরীক্ষা সিমুলেশন পরিবেশে পরিচালিত হয়েছে, বাস্তব-বিশ্ব যাচাইকরণের অভাব
পুরস্কার ডিজাইন সংবেদনশীলতা: বিভিন্ন অ্যালগরিদম বিভিন্ন পুরস্কার ওজন ব্যবহার করে সিদ্ধান্তের সর্বজনীনতা প্রভাবিত করতে পারে

ভবিষ্যত দিকনির্দেশনা

সিম-টু-রিয়েল স্থানান্তর: সফল PPO কৌশল শারীরিক ড্রোন পরীক্ষা প্ল্যাটফর্মে স্থানান্তর করা
ডোমেইন র্যান্ডমাইজেশন: কৌশল শক্তিশালীতা উন্নত করতে ডোমেইন র্যান্ডমাইজেশন এবং পাঠ্যক্রম শেখা একত্রিত করা
হাইব্রিড অ্যালগরিদম: অন-পলিসি স্থিতিশীলতা এবং অফ-পলিসি ডেটা দক্ষতা একীভূত করতে পারে এমন উন্নত অ্যালগরিদম অধ্যয়ন করা

গভীর মূল্যায়ন

শক্তি

সমস্যা লক্ষ্যবস্তু শক্তিশালী: শিল্প পরিদর্শনে বাস্তব নিরাপত্তা-সমালোচনামূলক সমস্যা সমাধান করে
কঠোর পরীক্ষামূলক ডিজাইন: ন্যায্য তুলনা নিশ্চিত করতে একীভূত ফ্রেমওয়ার্ক ব্যবহার করে, প্রোগ্রামগত পরিবেশ প্রজন্ম সাধারণীকরণ বৃদ্ধি করে
স্পষ্ট শক্তিশালী সিদ্ধান্ত: অ্যালগরিদম নির্বাচনের জন্য স্পষ্ট নির্দেশনামূলক নীতি প্রদান করে
উচ্চ প্রকৌশল মূল্য: বাস্তব শিল্প প্রয়োগ ড্রোনের উন্নয়নের জন্য মূল্যবান প্রযুক্তিগত পথ প্রদান করে

দুর্বলতা

সংকীর্ণ অ্যালগরিদম কভারেজ: শুধুমাত্র দুটি অ্যালগরিদম তুলনা করা হয়েছে, আরও ব্যাপক অ্যালগরিদম মূল্যায়নের অভাব
অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: ব্যর্থতার কারণের বিশ্লেষণ প্রধানত অভিজ্ঞতামূলক পর্যবেক্ষণের উপর ভিত্তি করে
বাস্তব বিশ্ব যাচাইকরণের অভাব: সমস্ত পরীক্ষা সিমুলেশনে পরিচালিত হয়েছে, বাস্তব-বিশ্ব যাচাইকরণ অনুপস্থিত
পুরস্কার ডিজাইন সংবেদনশীলতা: বিভিন্ন অ্যালগরিদমের জন্য বিভিন্ন পুরস্কার ওজন ব্যবহার সিদ্ধান্তের সর্বজনীনতা প্রভাবিত করতে পারে

প্রভাব

একাডেমিক অবদান: নিরাপত্তা-সমালোচনামূলক কাজে DRL অ্যালগরিদম নির্বাচনের জন্য অভিজ্ঞতামূলক নির্দেশনা প্রদান করে
শিল্প মূল্য: শিল্প পরিদর্শন ড্রোন উন্নয়নের জন্য প্রযুক্তিগত রেফারেন্স প্রদান করে
পদ্ধতিগত মূল্য: DRL প্রশিক্ষণে প্রোগ্রামগত পরিবেশ প্রজন্মের কার্যকারিতা যাচাই করে

প্রযোজ্য পরিস্থিতি

উচ্চ নির্ভুলতা, নিরাপত্তা-সমালোচনামূলক ড্রোন নেভিগেশন কাজ
সীমিত স্থানে রোবোট নিয়ন্ত্রণ
নির্ভরযোগ্য সংমিশ্রণ গ্যারান্টি প্রয়োজন এমন শক্তিশালী শেখার প্রয়োগ

সংদর্ভ

গবেষণাপত্র 26টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, যা DRL মৌলিক তত্ত্ব, ড্রোন নেভিগেশন, সিমুলেশন প্রযুক্তি এবং অন্যান্য ক্ষেত্র কভার করে, গবেষণার জন্য একটি শক্তিশালী তাত্ত্বিক ভিত্তি প্রদান করে। মূল সংদর্ভগুলি PPO এবং SAC এর মূল গবেষণাপত্র, ড্রোন রেসিং এর যুগান্তকারী কাজ এবং সিম-টু-রিয়েল স্থানান্তরের গুরুত্বপূর্ণ গবেষণা অন্তর্ভুক্ত করে।