2025-11-20T22:01:15.701145

Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

Tayar, de Oliveira, Tommaselli et al.

Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.

academic

제한된 공간에서의 자율 무인항공기 비행 항법: 강화학습 접근법

기본 정보

논문 ID: 2508.16807
제목: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
저자: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (상파울루 대학교)
분류: cs.RO cs.AI cs.LG cs.SY eess.SY
발표 시간: 2025년 10월 11일 (arXiv v2)
논문 링크: https://arxiv.org/abs/2508.16807

초록

본 논문은 환기 덕트와 같은 제한된 산업 기반시설에서 자율 무인항공기(UAV) 검사를 수행하는 문제를 연구하며, 이러한 작업은 충돌을 허용하지 않는 견고한 항법 전략을 요구합니다. 심층 강화학습(DRL)이 이러한 전략 개발을 위한 강력한 패러다임을 제공하지만, 온-폴리시(on-policy)와 오프-폴리시(off-policy) 알고리즘 간에 핵심적인 트레이드오프가 존재합니다. 오프-폴리시 방법은 높은 샘플 효율성을 약속하며, 이는 비용이 많이 들고 위험한 실제 미세 조정을 최소화하는 데 중요합니다. 반대로 온-폴리시 방법은 일반적으로 더 나은 훈련 안정성을 보여주며, 이는 고위험 밀도 환경에서의 신뢰할 수 있는 수렴에 필수적입니다. 본 논문은 고충실도 시뮬레이터에서 절차적으로 생성된 덕트에서 주요 온-폴리시 알고리즘인 PPO와 오프-폴리시 알고리즘인 SAC의 정밀한 비행 성능을 비교함으로써 이러한 트레이드오프를 직접 연구합니다. 결과는 PPO가 지속적으로 안정적이고 충돌 없는 정책을 학습하여 전체 항로를 완료하는 반면, SAC는 완전한 해결책을 찾지 못하고 초기 구간만 항법할 수 있는 차선의 정책으로 수렴함을 보여줍니다.

연구 배경 및 동기

문제 정의

덕트 및 환기 덕트와 같은 산업 기반시설의 인적 검사는 복잡하고 비용이 많이 들며 시간이 소요되는 프로세스이며, 유지보수 운영의 완전성을 보장하는 데 중요합니다. 무인항공기(UAV)는 산업 검사 분야에서 인간이 접근할 수 없거나 안전하지 않은 환경에서 자동화되고 안전한 데이터 수집을 수행할 수 있게 하여 상당한 진전을 나타냅니다.

과제 분석

덕트와 같은 제한된 공간에서 무인항공기를 항법하는 것은 독특한 과제를 제시합니다:

복잡한 공기역학 효과: 벽의 근접성은 복잡한 공기역학 효과를 생성하여 충돌 위험을 증가시킵니다
고전적 방법의 한계: 전통적인 운동 계획 방법은 적응성이 부족하며, 미모델링된 공기역학 현상(예: 좁은 덕트 내 지면 효과)을 처리하기 어렵습니다
안전 중요성: 이러한 환경에서 충돌은 허용되지 않으며, 고도로 신뢰할 수 있는 제어 전략이 필요합니다

연구 동기

심층 강화학습은 이러한 과제를 해결하기 위한 강력한 패러다임을 제공하지만, 알고리즘 선택이 중요합니다. 핵심 질문은: 높은 정밀도와 안전성이 필요한 작업의 경우, 온-폴리시 방법의 안정성이 오프-폴리시 알고리즘의 샘플 효율성보다 더 중요한가입니다.

핵심 기여

직접 비교 분석: 제한된 산업 덕트에서 자율 무인항공기 항법 작업에 대한 성숙한 온-폴리시 및 오프-폴리시 알고리즘의 직접 비교 분석
실증적 증거: 고위험 밀도, 고정밀 작업에 대해 온-폴리시 방법의 훈련 안정성이 오프-폴리시 방법의 샘플 효율성보다 더 중요함을 증명하는 실증적 증거 제공
시뮬레이션 워크플로우 검증: 절차적으로 생성된 환경과 고충실도 물리 엔진을 사용하여 산업 응용 무인항공기 제어 전략의 개발 및 벤치마킹 플랫폼으로서의 시뮬레이션 워크플로우 검증

방법론 상세

작업 정의

목표 지향적 무인항공기 제어를 마르코프 결정 프로세스(MDP)로 모델링: M = (S,A,T,R,γ)

상태 공간:

st = [prel, p̂Brel, q, vBlin, vBang, at-1] ∈ R20

여기서:

prel ∈ R³: 무인항공기에서 다음 웨이포인트까지의 위치 벡터
p̂Brel ∈ R³: 기체 좌표계의 단위 정규화 표현
q ∈ R⁴: 단위 사원수(월드-기체)
vBlin, vBang ∈ R³: 기체 좌표계의 선속도 및 각속도
at-1 ∈ R⁴: 이전 시간 단계의 모터 명령 벡터

동작 공간: 연속 동작 at ∈ -1,1⁴, 각 로터 명령 매개변수화:

ωi = (1 + 0.8 at,i) ωhover, i = 1,...,4

여기서 ωhover = 14.47 krpm은 보정된 호버링 속도입니다.

시뮬레이션 환경 설계

Genesis 물리 엔진: GPU 가속 병렬 강체 시뮬레이션을 위해 Genesis 고충실도 물리 엔진 사용.

절차적 덕트 생성:

각 에피소드마다 다양한 덕트를 생성하여 정책이 다양하고 도전적인 시나리오를 항법하도록 학습
덕트는 Ns개의 직선 구간으로 구성
Rodrigues 회전 공식을 사용하여 인접 덕트 구간 간의 각도 편차 제어:

v' = v cos θ + (k × v) sin θ + k(k · v)(1 - cos θ)

무인항공기 모델: Bitcraze Crazyflie 2 (92×92×29 mm 나노 쿼드로터)의 시뮬레이션 모델 사용.

학습 알고리즘 비교

공정한 비교를 보장하기 위해 skrl 프레임워크 사용, 두 알고리즘이 동일한 네트워크 아키텍처 공유:

네트워크 구조: 액터-크리틱, 두 개의 숨겨진 계층 (256, 128 단위, ELU 활성화)
PPO 구성: 롤아웃 지평선 256, 4096 병렬 환경, 적응형 KL 목표 0.01, γ=0.99, λ=0.95, ε=0.2
SAC 구성: 쌍둥이 크리틱, 리플레이 버퍼 10⁶, 배치 크기 512, τ=0.005, γ=0.99, 자동 엔트로피 조절

보상 함수 설계

모듈식 보상 함수 채택: Rt = Σk wk rk

세 가지 주요 범주:

유도 보상:
- Progress: 다음 웨이포인트 방향으로의 운동 보상
- Centerline Deviation: 덕트 중심선으로부터의 편차 페널티
- Velocity Tracking: 목표 전진 속도 장려
안정성 보상:
- Orientation Alignment: 요/수평 자세 보상
- Angular Velocity Damping: 회전 속도 페널티
- Action Smoothness: 갑작스러운 모터 명령 변화 페널티
이벤트 보상:
- Waypoint Pass: 웨이포인트 통과의 희소 보상
- Duct Finish: 덕트 완료의 큰 터미널 보상
- Crash Penalty: 충돌/위반의 큰 페널티

실험 설정

실험 환경

플랫폼: Genesis 물리 엔진
덕트 구성: 절차적으로 생성, Rd = 0.5m, 7개 웨이포인트
훈련 구성: PPO 및 SAC 각각 500개 체크포인트로 훈련

평가 지표

Average Reward: 평균 보상
Waypoints Passed: 통과한 웨이포인트 수
Collisions per Episode: 에피소드당 충돌 수
Average/Maximum Deviation: 평균/최대 편차 거리

하이퍼파라미터 최적화

Weights & Biases sweep 도구를 사용하여 보상 가중치 최적화, SAC의 리플레이 버퍼 특성에 적응하기 위해 주요 유도 항의 가중치 범위 증가.

실험 결과

PPO 훈련 결과

체크포인트	50	75	100	150	200	300	400	500
평균 보상	1.3k	2.7k	4.5k	6.4k	7.2k	9.9k	10.2k	9.6k
통과한 웨이포인트	1/7	2/7	4/7	5/7	6/7	7/7	7/7	7/7
에피소드당 충돌	1.00	0.70	0.30	0.00	0.00	0.00	0.00	0.00
평균 편차 (m)	0.123	0.113	0.084	0.065	0.094	0.064	0.063	0.094

주요 발견:

300번째 체크포인트에서 100% 항로 완료율, 0 충돌 달성
평균 중심선 편차가 0.1128m에서 0.0636m으로 감소 (체크포인트 200-300 사이)
400번째 체크포인트에서 최고 성능 달성 (평균 보상 10.2k)

SAC 훈련 결과

체크포인트	50	75	100	150	200	300
평균 보상	2.0k	3.0k	3.6k	4.1k	5.4k	4.4k
통과한 웨이포인트	0/7	1/7	2/7	3/7	3/7	3/7
에피소드당 충돌	1.00	1.00	1.00	1.00	1.00	1.00

주요 발견:

전체 훈련 과정에서 항로 완료율 0%
에피소드당 평균 1회 충돌, 터미널 실패가 표준 결과임을 나타냄
최대 3개 웨이포인트 통과 후 붕괴, 국소 최적값으로 수렴

성능 비교 분석

PPO 성공 이유:

온-폴리시 업데이트는 일관된 학습 신호 제공
국소 최적값을 극복하고 엔드-투-엔드 작업 해결 가능
고전적 학습 패턴 전시: 먼저 주요 목표 숙달, 나중에 궤적 최적화

SAC 실패 이유:

리플레이 버퍼가 초기 간단한 구간의 경험으로 포화
궤적 시작 부분 개선에 편향, 후기 도전 무시
샘플 효율성이 이 상황에서 역효과

결론 및 논의

주요 결론

안정성이 효율성을 능가: 고정밀도, 안전 중요 항법 작업의 경우, 온-폴리시 방법의 훈련 안정성이 오프-폴리시 방법의 샘플 효율성보다 더 중요
알고리즘 선택의 중요성: PPO는 견고한 무충돌 정책을 성공적으로 학습한 반면, SAC는 차선의 해결책으로 수렴
리플레이 버퍼의 한계: SAC의 리플레이 버퍼는 복잡한 순차 작업에서 탐색 편향을 초래할 수 있음

한계

제한된 알고리즘 범위: PPO와 SAC 두 가지 알고리즘만 비교
보상 공학 의존성: 성능은 정교하게 설계된 보상 함수에 크게 의존
시뮬-투-리얼 격차: 실제 물리 시스템에서 아직 검증되지 않음

향후 방향

시뮬-투-리얼 전이: 성공적인 PPO 정책을 물리 무인항공기 테스트 플랫폼으로 전이
영역 무작위화: 영역 무작위화 및 커리큘럼 학습과 결합하여 정책 견고성 향상
하이브리드 알고리즘: 온-폴리시 안정성과 오프-폴리시 데이터 효율성을 통합하는 고급 알고리즘 연구

심층 평가

장점

문제 지향성 강함: 산업 검사의 실제 안전 중요 문제 해결
엄격한 실험 설계: 통합 프레임워크를 사용하여 공정한 비교 보장, 절차적 생성 환경이 일반화 증가
명확하고 강력한 결론: 알고리즘 선택에 명확한 지침 제공
높은 공학적 가치: 실제 산업 응용을 위한 가치 있는 기술 경로 제공

부족한 점

좁은 알고리즘 범위: 두 가지 알고리즘만 비교, 더 포괄적인 알고리즘 평가 부족
불충분한 이론 분석: 실패 원인 분석이 주로 경험적 관찰에 기반, 이론적 지원 부족
실제 검증 부재: 모든 실험이 시뮬레이션 환경에서 수행, 실제 세계 검증 부족
보상 설계 민감성: 다양한 알고리즘이 다양한 보상 가중치 사용으로 결론의 보편성에 영향 가능

영향력

학술적 기여: 안전 중요 작업에서 DRL 알고리즘 선택에 실증적 지침 제공
산업적 가치: 산업 검사 무인항공기 개발에 기술적 참고 제공
방법론적 가치: DRL 훈련에서 절차적 생성 환경의 효과성 검증

적용 시나리오

고정밀도, 안전 중요 무인항공기 항법 작업
제한된 공간의 로봇 제어
신뢰할 수 있는 수렴 보장이 필요한 강화학습 응용

참고문헌

논문은 DRL 기초 이론, 무인항공기 항법, 시뮬레이션 기술 등 여러 분야를 포괄하는 26개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다. 주요 참고문헌에는 PPO 및 SAC의 원본 논문, 무인항공기 경주의 획기적 연구, 시뮬-투-리얼 전이의 중요한 연구가 포함됩니다.