Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.
論文ID : 2508.16807タイトル : Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach著者 : Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker(サンパウロ大学)分類 : cs.RO cs.AI cs.LG cs.SY eess.SY発表日時 : 2025年10月11日(arXiv v2)論文リンク : https://arxiv.org/abs/2508.16807 本論文は、通風管などの限定された工業基盤施設における自律型無人機検査の問題を研究しており、このようなタスクは衝突を許さない堅牢なナビゲーション戦略を必要とします。深層強化学習(DRL)はこのような戦略の開発に強力なパラダイムを提供していますが、オンポリシーアルゴリズムとオフポリシーアルゴリズム間に重要なトレードオフが存在します。オフポリシー手法は高いサンプル効率を約束しており、これは費用がかかり危険な実世界での微調整を最小化するために重要です。一方、オンポリシー手法は通常、より優れた訓練安定性を示しており、これは高危険密度環境での信頼性の高い収束に不可欠です。本論文は、高忠実度シミュレータにおいて、手続き的に生成されたパイプラインでオンポリシーアルゴリズムPPOとオフポリシーアルゴリズムSACの正確な飛行性能を比較することにより、このトレードオフを直接研究しています。結果は、PPOが一貫して安定した無衝突ポリシーを学習し、全航程を完了する一方で、SACは完全なソリューションを見つけることができず、初期セグメントのみをナビゲートできる準最適ポリシーに収束することを示しています。
工業基盤施設の人的検査(パイプラインや通風管など)は、複雑で費用がかかり時間がかかるプロセスであり、保守運用の完全性に不可欠です。無人機(UAV)は工業検査分野における重大な進歩を表しており、人間が到達できない、または危険な環境での自動化された安全なデータ収集を可能にします。
パイプルなどの限定空間でのUAVナビゲーションは独特の課題に直面しています:
複雑な空気力学効果 :壁の近接性が複雑な空気力学効果を生成し、衝突リスクを増加させる古典的手法の限界 :従来の運動計画手法は適応性に欠け、モデル化されていない空気力学現象(狭いパイプ内の地面効果など)を処理するのが困難安全関連性 :これらの環境では衝突は受け入れられず、高度に信頼性の高い制御戦略が必要深層強化学習はこれらの課題を解決するための強力なパラダイムを提供していますが、アルゴリズムの選択は重要です。中心的な問題は:高精度と安全性が必要なタスクでは、オンポリシー手法の安定性がオフポリシーアルゴリズムのサンプル効率より重要であるかどうかということです。
直接比較分析 :限定された工業パイプラインにおける自律型UAVナビゲーションタスクで、成熟したオンポリシーおよびオフポリシーアルゴリズムの直接比較分析を実施実証的証拠 :高危険密度、高精度タスクに対して、オンポリシー手法の訓練安定性がオフポリシー手法のサンプル効率より重要であることを証明する実証的証拠を提供シミュレーションワークフロー検証 :手続き的に生成された環境と高忠実度物理エンジンを使用して、工業用UAV制御戦略の開発とベンチマーク用テストプラットフォームとしてのシミュレーションワークフローを検証目標指向のUAV制御をマルコフ決定過程(MDP)としてモデル化:M = (S,A,T,R,γ)
状態空間 :
st = [prel, p̂Brel, q, vBlin, vBang, at-1] ∈ R20
ここで:
prel ∈ R³:次のウェイポイントへのUAVの位置ベクトル p̂Brel ∈ R³:機体座標系における単位正規化表現 q ∈ R⁴:単位四元数(ワールドから機体へ) vBlin, vBang ∈ R³:機体座標系における線速度と角速度 at-1 ∈ R⁴:前の時刻のモータ指令ベクトル アクション空間 :
連続アクション at ∈ -1,1 ⁴、各ロータ指令をパラメータ化:
ωi = (1 + 0.8 at,i) ωhover, i = 1,...,4
ここで ωhover = 14.47 krpm は校正されたホバリング速度です。
Genesis物理エンジン :GPU加速並列剛体シミュレーション用のGenesis高忠実度物理エンジンを使用。
手続き的パイプライン生成 :
各エピソードで異なるパイプラインを生成し、ポリシーが多様で挑戦的なシナリオをナビゲートすることを学習することを保証 パイプラインはNs個の直線セグメントで構成 ロドリゲス回転公式を使用して隣接パイプセグメント間の角度偏差を制御: v' = v cos θ + (k × v) sin θ + k(k · v)(1 - cos θ)
UAVモデル :Bitcraze Crazyflie 2(92×92×29 mm ナノクアッドコプター)のシミュレーションモデルを使用。
公平な比較を確保するためにskrlフレームワークを使用し、両アルゴリズムが同じネットワークアーキテクチャを共有:
ネットワーク構造 :アクター・クリティック、2つの隠れ層(256、128ユニット、ELU活性化)PPO設定 :ロールアウト地平線256、4096並列環境、適応型KL目標0.01、γ=0.99、λ=0.95、ε=0.2SAC設定 :ツインクリティック、リプレイバッファ10⁶、バッチサイズ512、τ=0.005、γ=0.99、自動エントロピー調整モジュール式報酬関数を採用:Rt = Σk wk rk
3つの主要カテゴリ :
ガイダンス報酬 :Progress:次のウェイポイントへの運動に対する報酬 Centerline Deviation:パイプ中心線からの偏差にペナルティ Velocity Tracking:目標前進速度を奨励 安定性報酬 :Orientation Alignment:ヨー/水平姿勢に対する報酬 Angular Velocity Damping:回転速度にペナルティ Action Smoothness:急激なモータ指令変化にペナルティ イベント報酬 :Waypoint Pass:ウェイポイント通過のスパース報酬 Duct Finish:パイプ完了の大きなターミナル報酬 Crash Penalty:衝突/違反の大きなペナルティ プラットフォーム :Genesis物理エンジンパイプ構成 :手続き的に生成、Rd = 0.5m、7つのウェイポイント訓練構成 :PPOおよびSACそれぞれ500チェックポイント訓練Average Reward:平均報酬 Waypoints Passed:通過したウェイポイント数 Collisions per Episode:エピソードあたりの衝突数 Average/Maximum Deviation:平均/最大偏差距離 Weights & Biases sweepツールを使用して報酬重みを最適化し、SACのリプレイバッファ特性に適応させるため主要ガイダンス項の重み範囲を増加。
チェックポイント 50 75 100 150 200 300 400 500 平均報酬 1.3k 2.7k 4.5k 6.4k 7.2k 9.9k 10.2k 9.6k 通過ウェイポイント 1/7 2/7 4/7 5/7 6/7 7/7 7/7 7/7 衝突/エピソード 1.00 0.70 0.30 0.00 0.00 0.00 0.00 0.00 平均偏差 (m) 0.123 0.113 0.084 0.065 0.094 0.064 0.063 0.094
主要な発見 :
チェックポイント300で100%航程完了率、ゼロ衝突を達成 平均中心線偏差が0.1128mから0.0636mに低下(チェックポイント200-300間) チェックポイント400で最高性能達成(平均報酬10.2k) チェックポイント 50 75 100 150 200 300 平均報酬 2.0k 3.0k 3.6k 4.1k 5.4k 4.4k 通過ウェイポイント 0/7 1/7 2/7 3/7 3/7 3/7 衝突/エピソード 1.00 1.00 1.00 1.00 1.00 1.00
主要な発見 :
訓練全体を通じて航程完了率は0% エピソードあたり平均1回の衝突、ターミナル失敗が標準結果であることを示唆 最大3つのウェイポイント通過後にクラッシュ、局所最適に収束 PPO成功の理由 :
オンポリシー更新が一貫した学習信号を提供 局所最適を克服し、エンドツーエンドタスクを解決できる 古典的な学習パターンを示す:まず主要目標を習得、その後軌跡を最適化 SAC失敗の理由 :
リプレイバッファが初期の単純セグメントの経験で飽和 軌跡の開始部分の改善に傾斜し、後期の課題を無視 サンプル効率がこの文脈では逆効果 DRLは試行錯誤相互作用を通じて複雑な制御ポリシーを学習し、ロボットタスクの正確なモデル化が困難な場合に適している 脚式ロボット動的運動スキル生成などの分野で突破口を開いた 実世界相互作用の高コストと安全リスクのため、シミュレーションはDRL研究の重要なツールとなっている ドメインランダミゼーションなどの技術はシム・ツー・リアル転移に不可欠 DRLはドローンレース等の高速動的タスクで超人的性能を示している 限定空間ナビゲーションは開放空間ナビゲーションより挑戦的であり、より安定性と信頼性の高い学習アルゴリズムが必要 安定性が効率を上回る :高精度、安全関連のナビゲーションタスクでは、オンポリシー手法の訓練安定性がオフポリシー手法のサンプル効率より重要アルゴリズム選択の重要性 :PPOは堅牢な無衝突ポリシーの学習に成功し、SACは準最適解に収束リプレイバッファの限界 :SACのリプレイバッファは複雑なシーケンスタスクで探索バイアスを引き起こす可能性アルゴリズム範囲の限定 :PPOとSACの2つのアルゴリズムのみを比較報酬エンジニアリング依存 :性能は慎重に設計された報酬関数に大きく依存シム・ツー・リアルギャップ :実物理システムでの検証がまだ実施されていないシム・ツー・リアル転移 :成功したPPOポリシーを物理UAVテストプラットフォームに転移ドメインランダミゼーション :ドメインランダミゼーションとカリキュラム学習を組み合わせてポリシーロバストネスを向上ハイブリッドアルゴリズム :オンポリシー安定性とオフポリシーデータ効率を統一できる先進アルゴリズムを研究問題指向性が強い :工業検査における実際の安全関連問題を解決実験設計が厳密 :統一フレームワークを使用して公平な比較を確保、手続き的に生成された環境が汎化性を向上結論が明確で有力 :アルゴリズム選択に明確なガイダンス原則を提供工学的価値が高い :実際の工業応用に有価値な技術パスを提供アルゴリズムカバレッジが狭い :2つのアルゴリズムのみを比較、より包括的なアルゴリズム評価が不足理論分析が不十分 :失敗原因の分析は主に経験的観察に基づき、理論的支援が不足実世界検証が欠落 :すべての実験はシミュレーション環境で実施、実世界検証が不足報酬設計感度 :異なるアルゴリズムが異なる報酬重みを使用する可能性があり、結論の普遍性に影響学術的貢献 :安全関連タスクにおけるDRLアルゴリズム選択に実証的ガイダンスを提供工業的価値 :工業検査UAVの開発に技術参考を提供方法論的価値 :DRL訓練における手続き的に生成された環境の有効性を検証高精度、安全関連のUAVナビゲーションタスク 限定空間でのロボット制御 信頼性の高い収束保証が必要な強化学習応用 論文は26の関連文献を引用しており、DRL基礎理論、UAVナビゲーション、シミュレーション技術など複数の分野をカバーし、研究に堅実な理論的基礎を提供しています。主要な参考文献にはPPOとSACの原論文、ドローンレースの革新的な研究、シム・ツー・リアル転移の重要な研究が含まれています。