2025-11-20T22:01:15.701145

Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

Tayar, de Oliveira, Tommaselli et al.

Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.

academic

Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

基本信息

论文ID: 2508.16807
标题: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
作者: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (University of São Paulo)
分类: cs.RO cs.AI cs.LG cs.SY eess.SY
发表时间: 2025年10月11日 (arXiv v2)
论文链接: https://arxiv.org/abs/2508.16807

摘要

本文研究了在受限工业基础设施（如通风管道）中进行自主无人机检查的问题，这类任务要求具备不允许碰撞的鲁棒导航策略。虽然深度强化学习（DRL）为开发此类策略提供了强大的范式，但在on-policy和off-policy算法之间存在关键权衡。Off-policy方法承诺高样本效率，这对于最小化昂贵且不安全的真实世界微调至关重要。相比之下，on-policy方法通常表现出更好的训练稳定性，这对于在高危险密度环境中的可靠收敛至关重要。本文通过在高保真度模拟器中比较领先的on-policy算法PPO与off-policy算法SAC在程序生成管道中的精确飞行性能，直接研究了这种权衡。结果表明，PPO始终学习到稳定、无碰撞的策略并完成整个航程，而SAC未能找到完整解决方案，收敛到只能导航初始段的次优策略。

研究背景与动机

问题定义

工业基础设施的人工检查（如管道和通风管道）是一个复杂、昂贵且耗时的过程，对维护运营完整性至关重要。无人机（UAV）在工业检查领域代表了重大进步，能够在人类无法到达或不安全的环境中进行自动化和安全的数据收集。

挑战分析

在管道等受限空间中导航无人机面临独特挑战：

复杂气动效应：墙壁的接近性创造了复杂的气动效应，增加了碰撞风险
经典方法局限：传统运动规划方法缺乏适应性，难以处理未建模的气动现象（如狭窄管道内的地面效应）
安全关键性：在这些环境中，碰撞是不可接受的，需要高度可靠的控制策略

研究动机

深度强化学习为解决这些挑战提供了强大的范式，但算法选择至关重要。核心问题是：对于需要高精度和安全性的任务，on-policy方法的稳定性是否比off-policy算法的样本效率更重要？

核心贡献

直接对比分析：对成熟的on-policy和off-policy算法在受限工业管道中自主无人机导航任务上进行直接比较分析
实证证据：为高危险密度、高精度任务提供实证证据，证明on-policy方法的训练稳定性比off-policy方法的样本效率更关键
仿真工作流验证：验证了使用程序生成环境和高保真物理引擎作为开发和基准测试工业应用无人机控制策略测试平台的仿真工作流

方法详解

任务定义

将目标导向的无人机控制建模为马尔可夫决策过程（MDP）：M = (S,A,T,R,γ)

状态空间：

st = [prel, p̂Brel, q, vBlin, vBang, at-1] ∈ R20

其中：

prel ∈ R³：无人机到下一航点的位置向量
p̂Brel ∈ R³：在机体坐标系中的单位归一化表示
q ∈ R⁴：单位四元数（世界到机体）
vBlin, vBang ∈ R³：机体坐标系下的线速度和角速度
at-1 ∈ R⁴：前一时刻的电机指令向量

动作空间：连续动作 at ∈ -1,1⁴，参数化每个旋翼指令：

ωi = (1 + 0.8 at,i) ωhover, i = 1,...,4

其中 ωhover = 14.47 krpm 为校准的悬停速度。

仿真环境设计

Genesis物理引擎：使用Genesis高保真物理引擎进行GPU加速的并行刚体仿真。

程序化管道生成：

每个episode生成不同的管道，确保策略学习导航多样化和具有挑战性的场景
管道由Ns个直管段首尾相连构成
使用Rodrigues旋转公式控制相邻管段间的角度偏差：

v' = v cos θ + (k × v) sin θ + k(k · v)(1 - cos θ)

无人机模型：使用Bitcraze Crazyflie 2（92×92×29 mm纳米四旋翼）的仿真模型。

学习算法对比

使用skrl框架确保公平比较，两种算法共享相同的网络架构：

网络结构：actor-critic，两个隐藏层（256, 128单元，ELU激活）
PPO配置：rollout horizon 256，4096并行环境，自适应KL目标0.01，γ=0.99，λ=0.95，ε=0.2
SAC配置：twin critics，replay buffer 10⁶，batch size 512，τ=0.005，γ=0.99，自动熵调节

奖励函数设计

采用模块化奖励函数：Rt = Σk wk rk

三大类别：

引导奖励：
- Progress：奖励朝向下一航点的运动
- Centerline Deviation：惩罚偏离管道中心线
- Velocity Tracking：鼓励目标前进速度
稳定性奖励：
- Orientation Alignment：奖励偏航/水平姿态
- Angular Velocity Damping：惩罚旋转速度
- Action Smoothness：惩罚突然的电机指令变化
事件奖励：
- Waypoint Pass：通过航点的稀疏奖励
- Duct Finish：完成管道的大终端奖励
- Crash Penalty：碰撞/违规的大惩罚

实验设置

实验环境

平台：Genesis物理引擎
管道配置：程序生成，Rd = 0.5m，7个航点
训练配置：PPO和SAC各训练500个checkpoints

评价指标

Average Reward：平均奖励
Waypoints Passed：通过的航点数量
Collisions per Episode：每episode碰撞次数
Average/Maximum Deviation：平均/最大偏离距离

超参数优化

使用Weights & Biases sweep工具优化奖励权重，针对SAC增加主要引导项的权重范围以适应其replay buffer特性。

实验结果

PPO训练结果

Checkpoint	50	75	100	150	200	300	400	500
Average Reward	1.3k	2.7k	4.5k	6.4k	7.2k	9.9k	10.2k	9.6k
Waypoints Passed	1/7	2/7	4/7	5/7	6/7	7/7	7/7	7/7
Collisions/Episode	1.00	0.70	0.30	0.00	0.00	0.00	0.00	0.00
Avg Deviation (m)	0.123	0.113	0.084	0.065	0.094	0.064	0.063	0.094