2025-11-20T22:01:15.701145

Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

Tayar, de Oliveira, Tommaselli et al.
Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.
academic

Autonome UAV-Flugnavigation in beengten Räumen: Ein Reinforcement-Learning-Ansatz

Grundlegende Informationen

  • Papier-ID: 2508.16807
  • Titel: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
  • Autoren: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (Universität São Paulo)
  • Klassifizierung: cs.RO cs.AI cs.LG cs.SY eess.SY
  • Veröffentlichungsdatum: 11. Oktober 2025 (arXiv v2)
  • Papier-Link: https://arxiv.org/abs/2508.16807

Zusammenfassung

Dieses Papier untersucht das Problem der autonomen Drohneninspektion in beengten industriellen Infrastrukturen (wie Lüftungskanälen), wobei solche Aufgaben robuste Navigationsstrategien erfordern, die Kollisionen nicht zulassen. Obwohl tiefes Reinforcement Learning (DRL) ein starkes Paradigma für die Entwicklung solcher Strategien bietet, existieren kritische Kompromisse zwischen On-Policy- und Off-Policy-Algorithmen. Off-Policy-Methoden versprechen hohe Stichprobeneffizienz, was für die Minimierung teurer und unsicherer realer Feinabstimmungen entscheidend ist. Im Gegensatz dazu zeigen On-Policy-Methoden typischerweise bessere Trainingsstabilität, die für zuverlässige Konvergenz in hochgefährlichen Umgebungen wesentlich ist. Dieses Papier untersucht diesen Kompromiss direkt, indem es führende On-Policy-Algorithmen (PPO) mit Off-Policy-Algorithmen (SAC) in prozedural generierten Kanälen in einem hochfidelitären Simulator vergleicht. Die Ergebnisse zeigen, dass PPO konsistent stabile, kollisionsfreie Strategien erlernt und die gesamte Flugstrecke abschließt, während SAC keine vollständige Lösung findet und zu einer suboptimalen Strategie konvergiert, die nur das anfängliche Segment navigieren kann.

Forschungshintergrund und Motivation

Problemdefinition

Die manuelle Inspektion industrieller Infrastrukturen (wie Rohre und Lüftungskanäle) ist ein komplexer, kostspieliger und zeitaufwändiger Prozess, der für die Aufrechterhaltung der Betriebsintegrität entscheidend ist. Unbemanntes Fluggerät (UAV) stellt einen bedeutenden Fortschritt im Bereich der industriellen Inspektion dar und ermöglicht automatisierte und sichere Datenerfassung in Umgebungen, die für Menschen unerreichbar oder unsicher sind.

Herausforderungsanalyse

Die Navigation von Drohnen in beengten Räumen wie Rohren stellt einzigartige Herausforderungen dar:

  1. Komplexe aerodynamische Effekte: Die Nähe zu Wänden erzeugt komplexe aerodynamische Effekte, die das Kollisionsrisiko erhöhen
  2. Einschränkungen klassischer Methoden: Traditionelle Bewegungsplanungsmethoden mangelt es an Adaptivität und können nicht modellierte aerodynamische Phänomene (wie Bodeneffekte in engen Kanälen) nicht bewältigen
  3. Sicherheitskritikalität: In diesen Umgebungen sind Kollisionen inakzeptabel und erfordern hochzuverlässige Kontrollstrategien

Forschungsmotivation

Tiefes Reinforcement Learning bietet ein starkes Paradigma zur Bewältigung dieser Herausforderungen, aber die Algorithmenwahl ist entscheidend. Die Kernfrage lautet: Ist für Aufgaben, die hohe Präzision und Sicherheit erfordern, die Stabilität von On-Policy-Methoden wichtiger als die Stichprobeneffizienz von Off-Policy-Algorithmen?

Kernbeiträge

  1. Direkte Vergleichsanalyse: Direkte Vergleichsanalyse etablierter On-Policy- und Off-Policy-Algorithmen bei der autonomen Drohnennavigation in beengten industriellen Rohren
  2. Empirische Evidenz: Bereitstellung empirischer Evidenz für hochgefährliche, hochpräzise Aufgaben, die zeigt, dass die Trainingsstabilität von On-Policy-Methoden kritischer ist als die Stichprobeneffizienz von Off-Policy-Methoden
  3. Validierung des Simulationsworkflows: Validierung eines Simulationsworkflows mit prozedural generierten Umgebungen und hochfidelitären Physik-Engines als Testplattform für die Entwicklung und das Benchmarking von Drohnensteuerungsstrategien für industrielle Anwendungen

Methodische Details

Aufgabendefinition

Modellierung der zielgerichteten Drohnensteuerung als Markov-Entscheidungsprozess (MDP): M = (S,A,T,R,γ)

Zustandsraum:

st = [prel, p̂Brel, q, vBlin, vBang, at-1] ∈ R20

wobei:

  • prel ∈ R³: Positionsvektor der Drohne zum nächsten Wegpunkt
  • p̂Brel ∈ R³: Einheitsnormalisierte Darstellung in Körperkoordinaten
  • q ∈ R⁴: Einheitsquaternion (Welt zu Körper)
  • vBlin, vBang ∈ R³: Lineargeschwindigkeit und Winkelgeschwindigkeit in Körperkoordinaten
  • at-1 ∈ R⁴: Motorbefehlsvektor aus dem vorherigen Zeitschritt

Aktionsraum: Kontinuierliche Aktion at ∈ -1,1⁴, parametrisiert jeden Rotor-Befehl:

ωi = (1 + 0.8 at,i) ωhover, i = 1,...,4

wobei ωhover = 14.47 krpm die kalibrierte Schwebgeschwindigkeit ist.

Simulationsumgebungsdesign

Genesis-Physik-Engine: Verwendung der Genesis-Hochfidelitäts-Physik-Engine für GPU-beschleunigte parallele Starrkörpersimulation.

Prozedurale Kanalgeneration:

  • Jede Episode generiert einen anderen Kanal, um sicherzustellen, dass die Strategie vielfältige und herausfordernde Szenarien navigiert
  • Kanäle bestehen aus Ns geraden Kanalsegmenten, die hintereinander verbunden sind
  • Verwendung der Rodrigues-Rotationsformel zur Kontrolle der Winkelabweichung zwischen benachbarten Segmenten:
v' = v cos θ + (k × v) sin θ + k(k · v)(1 - cos θ)

Drohnenmodell: Simulationsmodell des Bitcraze Crazyflie 2 (92×92×29 mm Nano-Quadrotor).

Vergleich von Lernalgorithmen

Verwendung des skrl-Frameworks für faire Vergleiche, wobei beide Algorithmen die gleiche Netzwerkarchitektur teilen:

  • Netzwerkstruktur: Actor-Critic mit zwei verborgenen Schichten (256, 128 Einheiten, ELU-Aktivierung)
  • PPO-Konfiguration: Rollout-Horizont 256, 4096 parallele Umgebungen, adaptives KL-Ziel 0,01, γ=0,99, λ=0,95, ε=0,2
  • SAC-Konfiguration: Twin Critics, Replay Buffer 10⁶, Batch-Größe 512, τ=0,005, γ=0,99, automatische Entropie-Anpassung

Entwurf der Belohnungsfunktion

Verwendung einer modularen Belohnungsfunktion: Rt = Σk wk rk

Drei Hauptkategorien:

  1. Führungsbelohnungen:
    • Progress: Belohnung für Bewegung zum nächsten Wegpunkt
    • Centerline Deviation: Bestrafung für Abweichung von der Kanalmittellinie
    • Velocity Tracking: Förderung der Verfolgung der Zielvorwärtsgeschwindigkeit
  2. Stabilitätsbelohnungen:
    • Orientation Alignment: Belohnung für Gier-/Horizontalausrichtung
    • Angular Velocity Damping: Bestrafung der Rotationsgeschwindigkeit
    • Action Smoothness: Bestrafung plötzlicher Motorbefehlsänderungen
  3. Ereignisbelohnungen:
    • Waypoint Pass: Spärliche Belohnung für das Durchlaufen von Wegpunkten
    • Duct Finish: Große Terminalbelohnung für Kanalvollendung
    • Crash Penalty: Große Bestrafung für Kollisionen/Verstöße

Experimentelle Einrichtung

Experimentelle Umgebung

  • Plattform: Genesis-Physik-Engine
  • Kanalkonfiguration: Prozedural generiert, Rd = 0,5m, 7 Wegpunkte
  • Trainingskonfiguration: PPO und SAC jeweils über 500 Checkpoints trainiert

Bewertungsmetriken

  • Average Reward: Durchschnittliche Belohnung
  • Waypoints Passed: Anzahl der durchlaufenen Wegpunkte
  • Collisions per Episode: Kollisionen pro Episode
  • Average/Maximum Deviation: Durchschnittliche/maximale Abweichung

Hyperparameter-Optimierung

Verwendung des Weights & Biases Sweep-Tools zur Optimierung der Belohnungsgewichte, mit erhöhten Gewichtsbereichen für Hauptführungselemente bei SAC zur Anpassung an seine Replay-Buffer-Eigenschaften.

Experimentelle Ergebnisse

PPO-Trainingsergebnisse

Checkpoint5075100150200300400500
Durchschnittliche Belohnung1,3k2,7k4,5k6,4k7,2k9,9k10,2k9,6k
Wegpunkte durchlaufen1/72/74/75/76/77/77/77/7
Kollisionen/Episode1,000,700,300,000,000,000,000,00
Durchschn. Abweichung (m)0,1230,1130,0840,0650,0940,0640,0630,094

Wichtigste Erkenntnisse:

  • 100% Flugstreckenabschlussrate bei Checkpoint 300 mit null Kollisionen erreicht
  • Durchschnittliche Mittellinienbabweichung von 0,1128m auf 0,0636m reduziert (zwischen Checkpoint 200-300)
  • Beste Leistung bei Checkpoint 400 erreicht (durchschnittliche Belohnung 10,2k)

SAC-Trainingsergebnisse

Checkpoint5075100150200300
Durchschnittliche Belohnung2,0k3,0k3,6k4,1k5,4k4,4k
Wegpunkte durchlaufen0/71/72/73/73/73/7
Kollisionen/Episode1,001,001,001,001,001,00

Wichtigste Erkenntnisse:

  • Flugstreckenabschlussrate während des gesamten Trainingsprozesses durchgehend 0%
  • Durchschnittlich 1 Kollision pro Episode, was darauf hindeutet, dass Terminalfehler das Standardergebnis ist
  • Maximal 3 Wegpunkte durchlaufen, bevor Absturz eintritt, konvergiert zu lokalem Optimum

Leistungsvergleichsanalyse

PPO-Erfolgsgründe:

  • On-Policy-Updates bieten konsistente Lernsignale
  • Fähigkeit, lokale Optima zu überwinden und End-to-End-Aufgaben zu lösen
  • Zeigt klassisches Lernmuster: Zunächst Beherrschung des Hauptziels, dann Trajektorienoptimierung

SAC-Fehlergründe:

  • Replay Buffer wird durch Erfahrungen aus dem einfachen anfänglichen Segment gesättigt
  • Bevorzugt Verfeinerung des Trajektorienstarts, ignoriert spätere Herausforderungen
  • Stichprobeneffizienz wirkt sich in diesem Szenario kontraproduktiv aus

Verwandte Arbeiten

Anwendung von DRL in der Robotik

  • DRL erlernt komplexe Kontrollstrategien durch Versuch-und-Irrtum-Interaktion, geeignet für Roboteraufgaben, die schwer exakt zu modellieren sind
  • Durchbrüche in Bereichen wie der Erzeugung dynamischer Bewegungsfähigkeiten bei Laufrobotern

Bedeutung hochfidelitärer Simulation

  • Aufgrund hoher Kosten und Sicherheitsrisiken realer Interaktionen wird Simulation zu einem wichtigen Werkzeug für DRL-Forschung
  • Techniken wie Domänenrandomisierung sind entscheidend für Sim-to-Real-Transfer

Autonome Drohnennavigation

  • DRL zeigt übermenschliche Leistung bei hochgeschwindigkeitsynamischen Aufgaben wie Drohnenrennen
  • Navigation in beengten Umgebungen ist herausfordernder als in offenen Räumen und erfordert stabilere, zuverlässigere Lernalgorithmen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Stabilität schlägt Effizienz: Für hochpräzise, sicherheitskritische Navigationsaufgaben ist die Trainingsstabilität von On-Policy-Methoden wichtiger als die Stichprobeneffizienz von Off-Policy-Methoden
  2. Kritikalität der Algorithmenwahl: PPO erlernte erfolgreich robuste, kollisionsfreie Strategien, während SAC zu suboptimalen Lösungen konvergierte
  3. Einschränkungen des Replay Buffers: Der Replay Buffer von SAC kann bei komplexen Sequenzaufgaben zu Explorationsbias führen

Einschränkungen

  1. Begrenzte Algorithmenbandbreite: Nur Vergleich von PPO und SAC
  2. Abhängigkeit von Reward Engineering: Leistung hängt stark von sorgfältig gestalteter Belohnungsfunktion ab
  3. Sim-to-Real-Lücke: Validierung auf echten physikalischen Systemen noch ausstehend

Zukünftige Richtungen

  1. Sim-to-Real-Transfer: Übertragung erfolgreicher PPO-Strategien auf physische Drohnen-Testplattformen
  2. Domänenrandomisierung: Kombination von Domänenrandomisierung und Curriculum Learning zur Verbesserung der Strategierobustheit
  3. Hybridalgorithmen: Untersuchung fortgeschrittener Algorithmen, die On-Policy-Stabilität und Off-Policy-Dateneffizienz vereinen

Tiefgreifende Bewertung

Stärken

  1. Starke Problembezogenheit: Löst praktisches sicherheitskritisches Problem in der industriellen Inspektion
  2. Strenge Experimentgestaltung: Einheitliches Framework für faire Vergleiche, prozedurale Umgebungsgenerierung erhöht Generalisierbarkeit
  3. Klare und aussagekräftige Schlussfolgerungen: Bietet klare Richtlinien für Algorithmenwahl
  4. Hoher Ingenieurwert: Bietet wertvollen technischen Weg für praktische industrielle Anwendungen

Mängel

  1. Enge Algorithmenbandbreite: Nur zwei Algorithmen verglichen, fehlende umfassendere Algorithmenbewertung
  2. Unzureichende theoretische Analyse: Analyse von Fehlergründen basiert hauptsächlich auf empirischen Beobachtungen, mangelnde theoretische Unterstützung
  3. Fehlende echte Validierung: Alle Experimente in Simulationsumgebung durchgeführt, echte Weltvalidierung fehlt
  4. Empfindlichkeit des Reward-Designs: Unterschiedliche Belohnungsgewichte für verschiedene Algorithmen können die Allgemeingültigkeit der Schlussfolgerungen beeinflussen

Auswirkungen

  1. Akademischer Beitrag: Bietet empirische Orientierung für DRL-Algorithmenwahl bei sicherheitskritischen Aufgaben
  2. Industrieller Wert: Bietet technische Referenz für Entwicklung von Inspektionsdrohnen
  3. Methodologischer Wert: Validiert Effektivität prozedural generierter Umgebungen beim DRL-Training

Anwendbare Szenarien

  • Hochpräzise, sicherheitskritische Drohnennavigationsaufgaben
  • Robotersteuerung in beengten Räumen
  • Reinforcement-Learning-Anwendungen, die zuverlässige Konvergenzgarantien erfordern

Literaturverzeichnis

Das Papier zitiert 26 verwandte Arbeiten, die DRL-Grundlagentheorie, Drohnennavigation, Simulationstechnik und andere Aspekte abdecken und eine solide theoretische Grundlage für die Forschung bieten. Wichtige Referenzen umfassen Originalarbeiten zu PPO und SAC, bahnbrechende Arbeiten zur Drohnenrennfahrt sowie wichtige Forschungen zum Sim-to-Real-Transfer.