Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
Tayar, de Oliveira, Tommaselli et al.
Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.
academic
Autonome UAV-Flugnavigation in beengten Räumen: Ein Reinforcement-Learning-Ansatz
Titel: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
Autoren: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (Universität São Paulo)
Klassifizierung: cs.RO cs.AI cs.LG cs.SY eess.SY
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv v2)
Dieses Papier untersucht das Problem der autonomen Drohneninspektion in beengten industriellen Infrastrukturen (wie Lüftungskanälen), wobei solche Aufgaben robuste Navigationsstrategien erfordern, die Kollisionen nicht zulassen. Obwohl tiefes Reinforcement Learning (DRL) ein starkes Paradigma für die Entwicklung solcher Strategien bietet, existieren kritische Kompromisse zwischen On-Policy- und Off-Policy-Algorithmen. Off-Policy-Methoden versprechen hohe Stichprobeneffizienz, was für die Minimierung teurer und unsicherer realer Feinabstimmungen entscheidend ist. Im Gegensatz dazu zeigen On-Policy-Methoden typischerweise bessere Trainingsstabilität, die für zuverlässige Konvergenz in hochgefährlichen Umgebungen wesentlich ist. Dieses Papier untersucht diesen Kompromiss direkt, indem es führende On-Policy-Algorithmen (PPO) mit Off-Policy-Algorithmen (SAC) in prozedural generierten Kanälen in einem hochfidelitären Simulator vergleicht. Die Ergebnisse zeigen, dass PPO konsistent stabile, kollisionsfreie Strategien erlernt und die gesamte Flugstrecke abschließt, während SAC keine vollständige Lösung findet und zu einer suboptimalen Strategie konvergiert, die nur das anfängliche Segment navigieren kann.
Die manuelle Inspektion industrieller Infrastrukturen (wie Rohre und Lüftungskanäle) ist ein komplexer, kostspieliger und zeitaufwändiger Prozess, der für die Aufrechterhaltung der Betriebsintegrität entscheidend ist. Unbemanntes Fluggerät (UAV) stellt einen bedeutenden Fortschritt im Bereich der industriellen Inspektion dar und ermöglicht automatisierte und sichere Datenerfassung in Umgebungen, die für Menschen unerreichbar oder unsicher sind.
Die Navigation von Drohnen in beengten Räumen wie Rohren stellt einzigartige Herausforderungen dar:
Komplexe aerodynamische Effekte: Die Nähe zu Wänden erzeugt komplexe aerodynamische Effekte, die das Kollisionsrisiko erhöhen
Einschränkungen klassischer Methoden: Traditionelle Bewegungsplanungsmethoden mangelt es an Adaptivität und können nicht modellierte aerodynamische Phänomene (wie Bodeneffekte in engen Kanälen) nicht bewältigen
Sicherheitskritikalität: In diesen Umgebungen sind Kollisionen inakzeptabel und erfordern hochzuverlässige Kontrollstrategien
Tiefes Reinforcement Learning bietet ein starkes Paradigma zur Bewältigung dieser Herausforderungen, aber die Algorithmenwahl ist entscheidend. Die Kernfrage lautet: Ist für Aufgaben, die hohe Präzision und Sicherheit erfordern, die Stabilität von On-Policy-Methoden wichtiger als die Stichprobeneffizienz von Off-Policy-Algorithmen?
Direkte Vergleichsanalyse: Direkte Vergleichsanalyse etablierter On-Policy- und Off-Policy-Algorithmen bei der autonomen Drohnennavigation in beengten industriellen Rohren
Empirische Evidenz: Bereitstellung empirischer Evidenz für hochgefährliche, hochpräzise Aufgaben, die zeigt, dass die Trainingsstabilität von On-Policy-Methoden kritischer ist als die Stichprobeneffizienz von Off-Policy-Methoden
Validierung des Simulationsworkflows: Validierung eines Simulationsworkflows mit prozedural generierten Umgebungen und hochfidelitären Physik-Engines als Testplattform für die Entwicklung und das Benchmarking von Drohnensteuerungsstrategien für industrielle Anwendungen
Verwendung des Weights & Biases Sweep-Tools zur Optimierung der Belohnungsgewichte, mit erhöhten Gewichtsbereichen für Hauptführungselemente bei SAC zur Anpassung an seine Replay-Buffer-Eigenschaften.
Stabilität schlägt Effizienz: Für hochpräzise, sicherheitskritische Navigationsaufgaben ist die Trainingsstabilität von On-Policy-Methoden wichtiger als die Stichprobeneffizienz von Off-Policy-Methoden
Kritikalität der Algorithmenwahl: PPO erlernte erfolgreich robuste, kollisionsfreie Strategien, während SAC zu suboptimalen Lösungen konvergierte
Einschränkungen des Replay Buffers: Der Replay Buffer von SAC kann bei komplexen Sequenzaufgaben zu Explorationsbias führen
Enge Algorithmenbandbreite: Nur zwei Algorithmen verglichen, fehlende umfassendere Algorithmenbewertung
Unzureichende theoretische Analyse: Analyse von Fehlergründen basiert hauptsächlich auf empirischen Beobachtungen, mangelnde theoretische Unterstützung
Fehlende echte Validierung: Alle Experimente in Simulationsumgebung durchgeführt, echte Weltvalidierung fehlt
Empfindlichkeit des Reward-Designs: Unterschiedliche Belohnungsgewichte für verschiedene Algorithmen können die Allgemeingültigkeit der Schlussfolgerungen beeinflussen
Das Papier zitiert 26 verwandte Arbeiten, die DRL-Grundlagentheorie, Drohnennavigation, Simulationstechnik und andere Aspekte abdecken und eine solide theoretische Grundlage für die Forschung bieten. Wichtige Referenzen umfassen Originalarbeiten zu PPO und SAC, bahnbrechende Arbeiten zur Drohnenrennfahrt sowie wichtige Forschungen zum Sim-to-Real-Transfer.