2025-11-20T22:01:15.701145

Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

Tayar, de Oliveira, Tommaselli et al.

Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.

academic

Autonome UAV-Flugnavigation in beengten Räumen: Ein Reinforcement-Learning-Ansatz

Grundlegende Informationen

Papier-ID: 2508.16807
Titel: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
Autoren: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (Universität São Paulo)
Klassifizierung: cs.RO cs.AI cs.LG cs.SY eess.SY
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv v2)
Papier-Link: https://arxiv.org/abs/2508.16807

Zusammenfassung

Dieses Papier untersucht das Problem der autonomen Drohneninspektion in beengten industriellen Infrastrukturen (wie Lüftungskanälen), wobei solche Aufgaben robuste Navigationsstrategien erfordern, die Kollisionen nicht zulassen. Obwohl tiefes Reinforcement Learning (DRL) ein starkes Paradigma für die Entwicklung solcher Strategien bietet, existieren kritische Kompromisse zwischen On-Policy- und Off-Policy-Algorithmen. Off-Policy-Methoden versprechen hohe Stichprobeneffizienz, was für die Minimierung teurer und unsicherer realer Feinabstimmungen entscheidend ist. Im Gegensatz dazu zeigen On-Policy-Methoden typischerweise bessere Trainingsstabilität, die für zuverlässige Konvergenz in hochgefährlichen Umgebungen wesentlich ist. Dieses Papier untersucht diesen Kompromiss direkt, indem es führende On-Policy-Algorithmen (PPO) mit Off-Policy-Algorithmen (SAC) in prozedural generierten Kanälen in einem hochfidelitären Simulator vergleicht. Die Ergebnisse zeigen, dass PPO konsistent stabile, kollisionsfreie Strategien erlernt und die gesamte Flugstrecke abschließt, während SAC keine vollständige Lösung findet und zu einer suboptimalen Strategie konvergiert, die nur das anfängliche Segment navigieren kann.

Forschungshintergrund und Motivation

Problemdefinition

Die manuelle Inspektion industrieller Infrastrukturen (wie Rohre und Lüftungskanäle) ist ein komplexer, kostspieliger und zeitaufwändiger Prozess, der für die Aufrechterhaltung der Betriebsintegrität entscheidend ist. Unbemanntes Fluggerät (UAV) stellt einen bedeutenden Fortschritt im Bereich der industriellen Inspektion dar und ermöglicht automatisierte und sichere Datenerfassung in Umgebungen, die für Menschen unerreichbar oder unsicher sind.

Herausforderungsanalyse

Die Navigation von Drohnen in beengten Räumen wie Rohren stellt einzigartige Herausforderungen dar:

Komplexe aerodynamische Effekte: Die Nähe zu Wänden erzeugt komplexe aerodynamische Effekte, die das Kollisionsrisiko erhöhen
Einschränkungen klassischer Methoden: Traditionelle Bewegungsplanungsmethoden mangelt es an Adaptivität und können nicht modellierte aerodynamische Phänomene (wie Bodeneffekte in engen Kanälen) nicht bewältigen
Sicherheitskritikalität: In diesen Umgebungen sind Kollisionen inakzeptabel und erfordern hochzuverlässige Kontrollstrategien

Forschungsmotivation

Tiefes Reinforcement Learning bietet ein starkes Paradigma zur Bewältigung dieser Herausforderungen, aber die Algorithmenwahl ist entscheidend. Die Kernfrage lautet: Ist für Aufgaben, die hohe Präzision und Sicherheit erfordern, die Stabilität von On-Policy-Methoden wichtiger als die Stichprobeneffizienz von Off-Policy-Algorithmen?

Kernbeiträge

Direkte Vergleichsanalyse: Direkte Vergleichsanalyse etablierter On-Policy- und Off-Policy-Algorithmen bei der autonomen Drohnennavigation in beengten industriellen Rohren
Empirische Evidenz: Bereitstellung empirischer Evidenz für hochgefährliche, hochpräzise Aufgaben, die zeigt, dass die Trainingsstabilität von On-Policy-Methoden kritischer ist als die Stichprobeneffizienz von Off-Policy-Methoden
Validierung des Simulationsworkflows: Validierung eines Simulationsworkflows mit prozedural generierten Umgebungen und hochfidelitären Physik-Engines als Testplattform für die Entwicklung und das Benchmarking von Drohnensteuerungsstrategien für industrielle Anwendungen

Methodische Details

Aufgabendefinition

Modellierung der zielgerichteten Drohnensteuerung als Markov-Entscheidungsprozess (MDP): M = (S,A,T,R,γ)

Zustandsraum:

st = [prel, p̂Brel, q, vBlin, vBang, at-1] ∈ R20

wobei:

prel ∈ R³: Positionsvektor der Drohne zum nächsten Wegpunkt
p̂Brel ∈ R³: Einheitsnormalisierte Darstellung in Körperkoordinaten
q ∈ R⁴: Einheitsquaternion (Welt zu Körper)
vBlin, vBang ∈ R³: Lineargeschwindigkeit und Winkelgeschwindigkeit in Körperkoordinaten
at-1 ∈ R⁴: Motorbefehlsvektor aus dem vorherigen Zeitschritt

Aktionsraum: Kontinuierliche Aktion at ∈ -1,1⁴, parametrisiert jeden Rotor-Befehl:

ωi = (1 + 0.8 at,i) ωhover, i = 1,...,4

wobei ωhover = 14.47 krpm die kalibrierte Schwebgeschwindigkeit ist.

Simulationsumgebungsdesign

Genesis-Physik-Engine: Verwendung der Genesis-Hochfidelitäts-Physik-Engine für GPU-beschleunigte parallele Starrkörpersimulation.

Prozedurale Kanalgeneration:

Jede Episode generiert einen anderen Kanal, um sicherzustellen, dass die Strategie vielfältige und herausfordernde Szenarien navigiert
Kanäle bestehen aus Ns geraden Kanalsegmenten, die hintereinander verbunden sind
Verwendung der Rodrigues-Rotationsformel zur Kontrolle der Winkelabweichung zwischen benachbarten Segmenten:

v' = v cos θ + (k × v) sin θ + k(k · v)(1 - cos θ)

Drohnenmodell: Simulationsmodell des Bitcraze Crazyflie 2 (92×92×29 mm Nano-Quadrotor).

Vergleich von Lernalgorithmen

Verwendung des skrl-Frameworks für faire Vergleiche, wobei beide Algorithmen die gleiche Netzwerkarchitektur teilen:

Netzwerkstruktur: Actor-Critic mit zwei verborgenen Schichten (256, 128 Einheiten, ELU-Aktivierung)
PPO-Konfiguration: Rollout-Horizont 256, 4096 parallele Umgebungen, adaptives KL-Ziel 0,01, γ=0,99, λ=0,95, ε=0,2
SAC-Konfiguration: Twin Critics, Replay Buffer 10⁶, Batch-Größe 512, τ=0,005, γ=0,99, automatische Entropie-Anpassung

Entwurf der Belohnungsfunktion

Verwendung einer modularen Belohnungsfunktion: Rt = Σk wk rk

Drei Hauptkategorien:

Führungsbelohnungen:
- Progress: Belohnung für Bewegung zum nächsten Wegpunkt
- Centerline Deviation: Bestrafung für Abweichung von der Kanalmittellinie
- Velocity Tracking: Förderung der Verfolgung der Zielvorwärtsgeschwindigkeit
Stabilitätsbelohnungen:
- Orientation Alignment: Belohnung für Gier-/Horizontalausrichtung
- Angular Velocity Damping: Bestrafung der Rotationsgeschwindigkeit
- Action Smoothness: Bestrafung plötzlicher Motorbefehlsänderungen
Ereignisbelohnungen:
- Waypoint Pass: Spärliche Belohnung für das Durchlaufen von Wegpunkten
- Duct Finish: Große Terminalbelohnung für Kanalvollendung
- Crash Penalty: Große Bestrafung für Kollisionen/Verstöße

Experimentelle Einrichtung

Experimentelle Umgebung

Plattform: Genesis-Physik-Engine
Kanalkonfiguration: Prozedural generiert, Rd = 0,5m, 7 Wegpunkte
Trainingskonfiguration: PPO und SAC jeweils über 500 Checkpoints trainiert

Bewertungsmetriken

Average Reward: Durchschnittliche Belohnung
Waypoints Passed: Anzahl der durchlaufenen Wegpunkte
Collisions per Episode: Kollisionen pro Episode
Average/Maximum Deviation: Durchschnittliche/maximale Abweichung

Hyperparameter-Optimierung

Verwendung des Weights & Biases Sweep-Tools zur Optimierung der Belohnungsgewichte, mit erhöhten Gewichtsbereichen für Hauptführungselemente bei SAC zur Anpassung an seine Replay-Buffer-Eigenschaften.

Experimentelle Ergebnisse

PPO-Trainingsergebnisse

Checkpoint	50	75	100	150	200	300	400	500
Durchschnittliche Belohnung	1,3k	2,7k	4,5k	6,4k	7,2k	9,9k	10,2k	9,6k
Wegpunkte durchlaufen	1/7	2/7	4/7	5/7	6/7	7/7	7/7	7/7
Kollisionen/Episode	1,00	0,70	0,30	0,00	0,00	0,00	0,00	0,00
Durchschn. Abweichung (m)	0,123	0,113	0,084	0,065	0,094	0,064	0,063	0,094

Wichtigste Erkenntnisse:

100% Flugstreckenabschlussrate bei Checkpoint 300 mit null Kollisionen erreicht
Durchschnittliche Mittellinienbabweichung von 0,1128m auf 0,0636m reduziert (zwischen Checkpoint 200-300)
Beste Leistung bei Checkpoint 400 erreicht (durchschnittliche Belohnung 10,2k)

SAC-Trainingsergebnisse

Checkpoint	50	75	100	150	200	300
Durchschnittliche Belohnung	2,0k	3,0k	3,6k	4,1k	5,4k	4,4k
Wegpunkte durchlaufen	0/7	1/7	2/7	3/7	3/7	3/7
Kollisionen/Episode	1,00	1,00	1,00	1,00	1,00	1,00

Wichtigste Erkenntnisse:

Flugstreckenabschlussrate während des gesamten Trainingsprozesses durchgehend 0%
Durchschnittlich 1 Kollision pro Episode, was darauf hindeutet, dass Terminalfehler das Standardergebnis ist
Maximal 3 Wegpunkte durchlaufen, bevor Absturz eintritt, konvergiert zu lokalem Optimum

Leistungsvergleichsanalyse

PPO-Erfolgsgründe:

On-Policy-Updates bieten konsistente Lernsignale
Fähigkeit, lokale Optima zu überwinden und End-to-End-Aufgaben zu lösen
Zeigt klassisches Lernmuster: Zunächst Beherrschung des Hauptziels, dann Trajektorienoptimierung

SAC-Fehlergründe:

Replay Buffer wird durch Erfahrungen aus dem einfachen anfänglichen Segment gesättigt
Bevorzugt Verfeinerung des Trajektorienstarts, ignoriert spätere Herausforderungen
Stichprobeneffizienz wirkt sich in diesem Szenario kontraproduktiv aus

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Stabilität schlägt Effizienz: Für hochpräzise, sicherheitskritische Navigationsaufgaben ist die Trainingsstabilität von On-Policy-Methoden wichtiger als die Stichprobeneffizienz von Off-Policy-Methoden
Kritikalität der Algorithmenwahl: PPO erlernte erfolgreich robuste, kollisionsfreie Strategien, während SAC zu suboptimalen Lösungen konvergierte
Einschränkungen des Replay Buffers: Der Replay Buffer von SAC kann bei komplexen Sequenzaufgaben zu Explorationsbias führen

Einschränkungen

Begrenzte Algorithmenbandbreite: Nur Vergleich von PPO und SAC
Abhängigkeit von Reward Engineering: Leistung hängt stark von sorgfältig gestalteter Belohnungsfunktion ab
Sim-to-Real-Lücke: Validierung auf echten physikalischen Systemen noch ausstehend

Zukünftige Richtungen

Sim-to-Real-Transfer: Übertragung erfolgreicher PPO-Strategien auf physische Drohnen-Testplattformen
Domänenrandomisierung: Kombination von Domänenrandomisierung und Curriculum Learning zur Verbesserung der Strategierobustheit
Hybridalgorithmen: Untersuchung fortgeschrittener Algorithmen, die On-Policy-Stabilität und Off-Policy-Dateneffizienz vereinen

Tiefgreifende Bewertung

Stärken

Starke Problembezogenheit: Löst praktisches sicherheitskritisches Problem in der industriellen Inspektion
Strenge Experimentgestaltung: Einheitliches Framework für faire Vergleiche, prozedurale Umgebungsgenerierung erhöht Generalisierbarkeit
Klare und aussagekräftige Schlussfolgerungen: Bietet klare Richtlinien für Algorithmenwahl
Hoher Ingenieurwert: Bietet wertvollen technischen Weg für praktische industrielle Anwendungen

Mängel

Enge Algorithmenbandbreite: Nur zwei Algorithmen verglichen, fehlende umfassendere Algorithmenbewertung
Unzureichende theoretische Analyse: Analyse von Fehlergründen basiert hauptsächlich auf empirischen Beobachtungen, mangelnde theoretische Unterstützung
Fehlende echte Validierung: Alle Experimente in Simulationsumgebung durchgeführt, echte Weltvalidierung fehlt
Empfindlichkeit des Reward-Designs: Unterschiedliche Belohnungsgewichte für verschiedene Algorithmen können die Allgemeingültigkeit der Schlussfolgerungen beeinflussen

Auswirkungen

Akademischer Beitrag: Bietet empirische Orientierung für DRL-Algorithmenwahl bei sicherheitskritischen Aufgaben
Industrieller Wert: Bietet technische Referenz für Entwicklung von Inspektionsdrohnen
Methodologischer Wert: Validiert Effektivität prozedural generierter Umgebungen beim DRL-Training

Anwendbare Szenarien

Hochpräzise, sicherheitskritische Drohnennavigationsaufgaben
Robotersteuerung in beengten Räumen
Reinforcement-Learning-Anwendungen, die zuverlässige Konvergenzgarantien erfordern

Literaturverzeichnis

Das Papier zitiert 26 verwandte Arbeiten, die DRL-Grundlagentheorie, Drohnennavigation, Simulationstechnik und andere Aspekte abdecken und eine solide theoretische Grundlage für die Forschung bieten. Wichtige Referenzen umfassen Originalarbeiten zu PPO und SAC, bahnbrechende Arbeiten zur Drohnenrennfahrt sowie wichtige Forschungen zum Sim-to-Real-Transfer.