Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
Tayar, de Oliveira, Tommaselli et al.
Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.
제목: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
저자: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (상파울루 대학교)
본 논문은 환기 덕트와 같은 제한된 산업 기반시설에서 자율 무인항공기(UAV) 검사를 수행하는 문제를 연구하며, 이러한 작업은 충돌을 허용하지 않는 견고한 항법 전략을 요구합니다. 심층 강화학습(DRL)이 이러한 전략 개발을 위한 강력한 패러다임을 제공하지만, 온-폴리시(on-policy)와 오프-폴리시(off-policy) 알고리즘 간에 핵심적인 트레이드오프가 존재합니다. 오프-폴리시 방법은 높은 샘플 효율성을 약속하며, 이는 비용이 많이 들고 위험한 실제 미세 조정을 최소화하는 데 중요합니다. 반대로 온-폴리시 방법은 일반적으로 더 나은 훈련 안정성을 보여주며, 이는 고위험 밀도 환경에서의 신뢰할 수 있는 수렴에 필수적입니다. 본 논문은 고충실도 시뮬레이터에서 절차적으로 생성된 덕트에서 주요 온-폴리시 알고리즘인 PPO와 오프-폴리시 알고리즘인 SAC의 정밀한 비행 성능을 비교함으로써 이러한 트레이드오프를 직접 연구합니다. 결과는 PPO가 지속적으로 안정적이고 충돌 없는 정책을 학습하여 전체 항로를 완료하는 반면, SAC는 완전한 해결책을 찾지 못하고 초기 구간만 항법할 수 있는 차선의 정책으로 수렴함을 보여줍니다.
덕트 및 환기 덕트와 같은 산업 기반시설의 인적 검사는 복잡하고 비용이 많이 들며 시간이 소요되는 프로세스이며, 유지보수 운영의 완전성을 보장하는 데 중요합니다. 무인항공기(UAV)는 산업 검사 분야에서 인간이 접근할 수 없거나 안전하지 않은 환경에서 자동화되고 안전한 데이터 수집을 수행할 수 있게 하여 상당한 진전을 나타냅니다.
논문은 DRL 기초 이론, 무인항공기 항법, 시뮬레이션 기술 등 여러 분야를 포괄하는 26개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다. 주요 참고문헌에는 PPO 및 SAC의 원본 논문, 무인항공기 경주의 획기적 연구, 시뮬-투-리얼 전이의 중요한 연구가 포함됩니다.