2025-11-20T22:01:15.701145

Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

Tayar, de Oliveira, Tommaselli et al.
Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.
academic

Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

基本信息

  • 论文ID: 2508.16807
  • 标题: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
  • 作者: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (University of São Paulo)
  • 分类: cs.RO cs.AI cs.LG cs.SY eess.SY
  • 发表时间: 2025年10月11日 (arXiv v2)
  • 论文链接: https://arxiv.org/abs/2508.16807

摘要

本文研究了在受限工业基础设施(如通风管道)中进行自主无人机检查的问题,这类任务要求具备不允许碰撞的鲁棒导航策略。虽然深度强化学习(DRL)为开发此类策略提供了强大的范式,但在on-policy和off-policy算法之间存在关键权衡。Off-policy方法承诺高样本效率,这对于最小化昂贵且不安全的真实世界微调至关重要。相比之下,on-policy方法通常表现出更好的训练稳定性,这对于在高危险密度环境中的可靠收敛至关重要。本文通过在高保真度模拟器中比较领先的on-policy算法PPO与off-policy算法SAC在程序生成管道中的精确飞行性能,直接研究了这种权衡。结果表明,PPO始终学习到稳定、无碰撞的策略并完成整个航程,而SAC未能找到完整解决方案,收敛到只能导航初始段的次优策略。

研究背景与动机

问题定义

工业基础设施的人工检查(如管道和通风管道)是一个复杂、昂贵且耗时的过程,对维护运营完整性至关重要。无人机(UAV)在工业检查领域代表了重大进步,能够在人类无法到达或不安全的环境中进行自动化和安全的数据收集。

挑战分析

在管道等受限空间中导航无人机面临独特挑战:

  1. 复杂气动效应:墙壁的接近性创造了复杂的气动效应,增加了碰撞风险
  2. 经典方法局限:传统运动规划方法缺乏适应性,难以处理未建模的气动现象(如狭窄管道内的地面效应)
  3. 安全关键性:在这些环境中,碰撞是不可接受的,需要高度可靠的控制策略

研究动机

深度强化学习为解决这些挑战提供了强大的范式,但算法选择至关重要。核心问题是:对于需要高精度和安全性的任务,on-policy方法的稳定性是否比off-policy算法的样本效率更重要?

核心贡献

  1. 直接对比分析:对成熟的on-policy和off-policy算法在受限工业管道中自主无人机导航任务上进行直接比较分析
  2. 实证证据:为高危险密度、高精度任务提供实证证据,证明on-policy方法的训练稳定性比off-policy方法的样本效率更关键
  3. 仿真工作流验证:验证了使用程序生成环境和高保真物理引擎作为开发和基准测试工业应用无人机控制策略测试平台的仿真工作流

方法详解

任务定义

将目标导向的无人机控制建模为马尔可夫决策过程(MDP):M = (S,A,T,R,γ)

状态空间

st = [prel, p̂Brel, q, vBlin, vBang, at-1] ∈ R20

其中:

  • prel ∈ R³:无人机到下一航点的位置向量
  • p̂Brel ∈ R³:在机体坐标系中的单位归一化表示
  • q ∈ R⁴:单位四元数(世界到机体)
  • vBlin, vBang ∈ R³:机体坐标系下的线速度和角速度
  • at-1 ∈ R⁴:前一时刻的电机指令向量

动作空间: 连续动作 at ∈ -1,1⁴,参数化每个旋翼指令:

ωi = (1 + 0.8 at,i) ωhover, i = 1,...,4

其中 ωhover = 14.47 krpm 为校准的悬停速度。

仿真环境设计

Genesis物理引擎:使用Genesis高保真物理引擎进行GPU加速的并行刚体仿真。

程序化管道生成

  • 每个episode生成不同的管道,确保策略学习导航多样化和具有挑战性的场景
  • 管道由Ns个直管段首尾相连构成
  • 使用Rodrigues旋转公式控制相邻管段间的角度偏差:
v' = v cos θ + (k × v) sin θ + k(k · v)(1 - cos θ)

无人机模型:使用Bitcraze Crazyflie 2(92×92×29 mm纳米四旋翼)的仿真模型。

学习算法对比

使用skrl框架确保公平比较,两种算法共享相同的网络架构:

  • 网络结构:actor-critic,两个隐藏层(256, 128单元,ELU激活)
  • PPO配置:rollout horizon 256,4096并行环境,自适应KL目标0.01,γ=0.99,λ=0.95,ε=0.2
  • SAC配置:twin critics,replay buffer 10⁶,batch size 512,τ=0.005,γ=0.99,自动熵调节

奖励函数设计

采用模块化奖励函数:Rt = Σk wk rk

三大类别

  1. 引导奖励
    • Progress:奖励朝向下一航点的运动
    • Centerline Deviation:惩罚偏离管道中心线
    • Velocity Tracking:鼓励目标前进速度
  2. 稳定性奖励
    • Orientation Alignment:奖励偏航/水平姿态
    • Angular Velocity Damping:惩罚旋转速度
    • Action Smoothness:惩罚突然的电机指令变化
  3. 事件奖励
    • Waypoint Pass:通过航点的稀疏奖励
    • Duct Finish:完成管道的大终端奖励
    • Crash Penalty:碰撞/违规的大惩罚

实验设置

实验环境

  • 平台:Genesis物理引擎
  • 管道配置:程序生成,Rd = 0.5m,7个航点
  • 训练配置:PPO和SAC各训练500个checkpoints

评价指标

  • Average Reward:平均奖励
  • Waypoints Passed:通过的航点数量
  • Collisions per Episode:每episode碰撞次数
  • Average/Maximum Deviation:平均/最大偏离距离

超参数优化

使用Weights & Biases sweep工具优化奖励权重,针对SAC增加主要引导项的权重范围以适应其replay buffer特性。

实验结果

PPO训练结果

Checkpoint5075100150200300400500
Average Reward1.3k2.7k4.5k6.4k7.2k9.9k10.2k9.6k
Waypoints Passed1/72/74/75/76/77/77/77/7
Collisions/Episode1.000.700.300.000.000.000.000.00
Avg Deviation (m)0.1230.1130.0840.0650.0940.0640.0630.094

关键发现

  • 第300次checkpoint时达到100%航程完成率,零碰撞
  • 平均中心线偏差从0.1128m降至0.0636m(checkpoint 200-300间)
  • 第400次checkpoint达到最佳性能(平均奖励10.2k)

SAC训练结果

Checkpoint5075100150200300
Average Reward2.0k3.0k3.6k4.1k5.4k4.4k
Waypoints Passed0/71/72/73/73/73/7
Collisions/Episode1.001.001.001.001.001.00

关键发现

  • 整个训练过程中航程完成率始终为0%
  • 每episode平均1次碰撞,表明终端失败是标准结果
  • 最多通过3个航点后崩溃,收敛到局部最优

性能对比分析

PPO成功原因

  • On-policy更新提供一致的学习信号
  • 能够克服局部最优,解决端到端任务
  • 展现经典学习模式:先掌握主要目标,后优化轨迹

SAC失败原因

  • Replay buffer被初始简单段的经验饱和
  • 偏向于完善轨迹开始部分,忽视后期挑战
  • 样本效率在此情境下适得其反

相关工作

DRL在机器人学中的应用

  • DRL通过试错交互学习复杂控制策略,适合难以精确建模的机器人任务
  • 在腿式机器人动态运动技能生成等领域取得突破

高保真仿真的重要性

  • 由于真实世界交互的高成本和安全风险,仿真成为DRL研究的重要工具
  • 领域随机化等技术对于sim-to-real转移至关重要

无人机自主导航

  • DRL在无人机竞速等高速动态任务中展现超人性能
  • 受限环境导航比开放空间导航挑战更大,需要更稳定可靠的学习算法

结论与讨论

主要结论

  1. 稳定性胜过效率:对于高精度、安全关键的导航任务,on-policy方法的训练稳定性比off-policy方法的样本效率更重要
  2. 算法选择的关键性:PPO成功学习了鲁棒的无碰撞策略,而SAC收敛到次优解
  3. Replay buffer的局限:SAC的replay buffer在复杂序列任务中可能导致探索偏差

局限性

  1. 算法范围有限:仅比较了PPO和SAC两种算法
  2. 奖励工程依赖:性能很大程度上依赖于精心设计的奖励函数
  3. 仿真到现实的差距:尚未在真实物理系统上验证

未来方向

  1. Sim-to-real转移:将成功的PPO策略转移到物理无人机测试平台
  2. 领域随机化:结合领域随机化和课程学习提高策略鲁棒性
  3. 混合算法:研究能够统一on-policy稳定性和off-policy数据效率的先进算法

深度评价

优点

  1. 问题针对性强:解决了工业检查中的实际安全关键问题
  2. 实验设计严谨:使用统一框架确保公平比较,程序生成环境增加泛化性
  3. 结论明确有力:为算法选择提供了清晰的指导原则
  4. 工程价值高:为实际工业应用提供了有价值的技术路径

不足

  1. 算法覆盖面窄:仅比较两种算法,缺乏更全面的算法评估
  2. 理论分析不足:对失败原因的分析主要基于经验观察,缺乏理论支撑
  3. 真实验证缺失:所有实验均在仿真环境中进行,缺乏真实世界验证
  4. 奖励设计敏感性:不同算法使用不同奖励权重可能影响结论的普遍性

影响力

  1. 学术贡献:为DRL算法在安全关键任务中的选择提供了实证指导
  2. 工业价值:为工业检查无人机的开发提供了技术参考
  3. 方法论价值:验证了程序生成环境在DRL训练中的有效性

适用场景

  • 高精度、安全关键的无人机导航任务
  • 受限空间中的机器人控制
  • 需要可靠收敛保证的强化学习应用

参考文献

论文引用了26篇相关文献,涵盖了DRL基础理论、无人机导航、仿真技术等多个方面,为研究提供了坚实的理论基础。关键参考文献包括PPO和SAC的原始论文、无人机竞速的突破性工作以及sim-to-real转移的重要研究。