2025-11-20T22:01:15.701145

Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

Tayar, de Oliveira, Tommaselli et al.

Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.

academic

限定空間における自律型UAV飛行ナビゲーション：強化学習アプローチ

基本情報

論文ID: 2508.16807
タイトル: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
著者: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker（サンパウロ大学）
分類: cs.RO cs.AI cs.LG cs.SY eess.SY
発表日時: 2025年10月11日（arXiv v2）
論文リンク: https://arxiv.org/abs/2508.16807

要約

本論文は、通風管などの限定された工業基盤施設における自律型無人機検査の問題を研究しており、このようなタスクは衝突を許さない堅牢なナビゲーション戦略を必要とします。深層強化学習（DRL）はこのような戦略の開発に強力なパラダイムを提供していますが、オンポリシーアルゴリズムとオフポリシーアルゴリズム間に重要なトレードオフが存在します。オフポリシー手法は高いサンプル効率を約束しており、これは費用がかかり危険な実世界での微調整を最小化するために重要です。一方、オンポリシー手法は通常、より優れた訓練安定性を示しており、これは高危険密度環境での信頼性の高い収束に不可欠です。本論文は、高忠実度シミュレータにおいて、手続き的に生成されたパイプラインでオンポリシーアルゴリズムPPOとオフポリシーアルゴリズムSACの正確な飛行性能を比較することにより、このトレードオフを直接研究しています。結果は、PPOが一貫して安定した無衝突ポリシーを学習し、全航程を完了する一方で、SACは完全なソリューションを見つけることができず、初期セグメントのみをナビゲートできる準最適ポリシーに収束することを示しています。

研究背景と動機

問題定義

工業基盤施設の人的検査（パイプラインや通風管など）は、複雑で費用がかかり時間がかかるプロセスであり、保守運用の完全性に不可欠です。無人機（UAV）は工業検査分野における重大な進歩を表しており、人間が到達できない、または危険な環境での自動化された安全なデータ収集を可能にします。

課題分析

パイプルなどの限定空間でのUAVナビゲーションは独特の課題に直面しています：

複雑な空気力学効果：壁の近接性が複雑な空気力学効果を生成し、衝突リスクを増加させる
古典的手法の限界：従来の運動計画手法は適応性に欠け、モデル化されていない空気力学現象（狭いパイプ内の地面効果など）を処理するのが困難
安全関連性：これらの環境では衝突は受け入れられず、高度に信頼性の高い制御戦略が必要

研究動機

深層強化学習はこれらの課題を解決するための強力なパラダイムを提供していますが、アルゴリズムの選択は重要です。中心的な問題は：高精度と安全性が必要なタスクでは、オンポリシー手法の安定性がオフポリシーアルゴリズムのサンプル効率より重要であるかどうかということです。

核心的貢献

直接比較分析：限定された工業パイプラインにおける自律型UAVナビゲーションタスクで、成熟したオンポリシーおよびオフポリシーアルゴリズムの直接比較分析を実施
実証的証拠：高危険密度、高精度タスクに対して、オンポリシー手法の訓練安定性がオフポリシー手法のサンプル効率より重要であることを証明する実証的証拠を提供
シミュレーションワークフロー検証：手続き的に生成された環境と高忠実度物理エンジンを使用して、工業用UAV制御戦略の開発とベンチマーク用テストプラットフォームとしてのシミュレーションワークフローを検証

方法の詳細

タスク定義

目標指向のUAV制御をマルコフ決定過程（MDP）としてモデル化：M = (S,A,T,R,γ)

状態空間：

st = [prel, p̂Brel, q, vBlin, vBang, at-1] ∈ R20

ここで：

prel ∈ R³：次のウェイポイントへのUAVの位置ベクトル
p̂Brel ∈ R³：機体座標系における単位正規化表現
q ∈ R⁴：単位四元数（ワールドから機体へ）
vBlin, vBang ∈ R³：機体座標系における線速度と角速度
at-1 ∈ R⁴：前の時刻のモータ指令ベクトル

アクション空間：連続アクション at ∈ -1,1⁴、各ロータ指令をパラメータ化：

ωi = (1 + 0.8 at,i) ωhover, i = 1,...,4

ここで ωhover = 14.47 krpm は校正されたホバリング速度です。

シミュレーション環境設計

Genesis物理エンジン：GPU加速並列剛体シミュレーション用のGenesis高忠実度物理エンジンを使用。

手続き的パイプライン生成：

各エピソードで異なるパイプラインを生成し、ポリシーが多様で挑戦的なシナリオをナビゲートすることを学習することを保証
パイプラインはNs個の直線セグメントで構成
ロドリゲス回転公式を使用して隣接パイプセグメント間の角度偏差を制御：

v' = v cos θ + (k × v) sin θ + k(k · v)(1 - cos θ)

UAVモデル：Bitcraze Crazyflie 2（92×92×29 mm ナノクアッドコプター）のシミュレーションモデルを使用。

学習アルゴリズム比較

公平な比較を確保するためにskrlフレームワークを使用し、両アルゴリズムが同じネットワークアーキテクチャを共有：

ネットワーク構造：アクター・クリティック、2つの隠れ層（256、128ユニット、ELU活性化）
PPO設定：ロールアウト地平線256、4096並列環境、適応型KL目標0.01、γ=0.99、λ=0.95、ε=0.2
SAC設定：ツインクリティック、リプレイバッファ10⁶、バッチサイズ512、τ=0.005、γ=0.99、自動エントロピー調整

報酬関数設計

モジュール式報酬関数を採用：Rt = Σk wk rk

3つの主要カテゴリ：

ガイダンス報酬：
- Progress：次のウェイポイントへの運動に対する報酬
- Centerline Deviation：パイプ中心線からの偏差にペナルティ
- Velocity Tracking：目標前進速度を奨励
安定性報酬：
- Orientation Alignment：ヨー/水平姿勢に対する報酬
- Angular Velocity Damping：回転速度にペナルティ
- Action Smoothness：急激なモータ指令変化にペナルティ
イベント報酬：
- Waypoint Pass：ウェイポイント通過のスパース報酬
- Duct Finish：パイプ完了の大きなターミナル報酬
- Crash Penalty：衝突/違反の大きなペナルティ

実験設定

実験環境

プラットフォーム：Genesis物理エンジン
パイプ構成：手続き的に生成、Rd = 0.5m、7つのウェイポイント
訓練構成：PPOおよびSACそれぞれ500チェックポイント訓練

評価指標

Average Reward：平均報酬
Waypoints Passed：通過したウェイポイント数
Collisions per Episode：エピソードあたりの衝突数
Average/Maximum Deviation：平均/最大偏差距離

ハイパーパラメータ最適化

Weights & Biases sweepツールを使用して報酬重みを最適化し、SACのリプレイバッファ特性に適応させるため主要ガイダンス項の重み範囲を増加。

実験結果

PPO訓練結果

チェックポイント	50	75	100	150	200	300	400	500
平均報酬	1.3k	2.7k	4.5k	6.4k	7.2k	9.9k	10.2k	9.6k
通過ウェイポイント	1/7	2/7	4/7	5/7	6/7	7/7	7/7	7/7
衝突/エピソード	1.00	0.70	0.30	0.00	0.00	0.00	0.00	0.00
平均偏差 (m)	0.123	0.113	0.084	0.065	0.094	0.064	0.063	0.094