2025-11-20T22:01:15.701145

Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

Tayar, de Oliveira, Tommaselli et al.
Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.
academic

Navigazione Autonoma di Droni in Spazi Confinati: Un Approccio di Apprendimento per Rinforzo

Informazioni Fondamentali

  • ID Articolo: 2508.16807
  • Titolo: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
  • Autori: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (Università di São Paulo)
  • Classificazione: cs.RO cs.AI cs.LG cs.SY eess.SY
  • Data di Pubblicazione: 11 ottobre 2025 (arXiv v2)
  • Link Articolo: https://arxiv.org/abs/2508.16807

Sintesi

Questo articolo affronta il problema dell'ispezione autonoma di droni in infrastrutture industriali confinate (come condotti di ventilazione), compiti che richiedono strategie di navigazione robuste che escludono le collisioni. Sebbene l'apprendimento per rinforzo profondo (DRL) fornisca un paradigma potente per sviluppare tali strategie, esistono compromessi critici tra algoritmi on-policy e off-policy. I metodi off-policy promettono elevata efficienza campionaria, cruciale per minimizzare l'ottimizzazione costosa e pericolosa nel mondo reale. Al contrario, i metodi on-policy generalmente mostrano migliore stabilità di addestramento, essenziale per la convergenza affidabile in ambienti ad alta densità di pericoli. Questo articolo affronta direttamente questo compromesso confrontando le prestazioni di volo precise dell'algoritmo on-policy leader PPO con l'algoritmo off-policy SAC in condotti generati proceduralmente in un simulatore ad alta fedeltà. I risultati dimostrano che PPO apprende costantemente strategie stabili e prive di collisioni completando l'intero percorso, mentre SAC non riesce a trovare una soluzione completa, convergendo a una strategia subottimale che naviga solo il segmento iniziale.

Contesto di Ricerca e Motivazione

Definizione del Problema

L'ispezione manuale delle infrastrutture industriali (come condotti e tubazioni) è un processo complesso, costoso e dispendioso in termini di tempo, critico per mantenere l'integrità delle operazioni di manutenzione. I droni (UAV) rappresentano un significativo progresso nel settore dell'ispezione industriale, consentendo la raccolta dati automatizzata e sicura in ambienti inaccessibili o pericolosi per gli esseri umani.

Analisi delle Sfide

La navigazione di droni in spazi confinati come i condotti presenta sfide uniche:

  1. Effetti Aerodinamici Complessi: La vicinanza alle pareti crea effetti aerodinamici complessi, aumentando il rischio di collisione
  2. Limitazioni dei Metodi Classici: I metodi tradizionali di pianificazione del movimento mancano di adattabilità, faticando a gestire fenomeni non modellati (come l'effetto suolo in condotti stretti)
  3. Criticità della Sicurezza: In questi ambienti, le collisioni sono inaccettabili, richiedendo strategie di controllo altamente affidabili

Motivazione della Ricerca

L'apprendimento per rinforzo profondo fornisce un paradigma potente per affrontare queste sfide, ma la scelta dell'algoritmo è cruciale. La questione centrale è: per compiti che richiedono alta precisione e sicurezza, la stabilità di addestramento dei metodi on-policy è più importante dell'efficienza campionaria degli algoritmi off-policy?

Contributi Principali

  1. Analisi Comparativa Diretta: Confronto diretto tra algoritmi on-policy e off-policy maturi nel compito di navigazione autonoma di droni in condotti industriali confinati
  2. Evidenza Empirica: Fornisce evidenza empirica che per compiti ad alta densità di pericoli e alta precisione, la stabilità di addestramento dei metodi on-policy è più critica dell'efficienza campionaria dei metodi off-policy
  3. Validazione del Flusso di Simulazione: Verifica il flusso di simulazione utilizzando ambienti generati proceduralmente e motori fisici ad alta fedeltà come piattaforma di sviluppo e benchmarking per strategie di controllo di droni per applicazioni industriali

Dettagli Metodologici

Definizione del Compito

Il controllo del drone orientato agli obiettivi è modellato come Processo Decisionale di Markov (MDP): M = (S,A,T,R,γ)

Spazio degli Stati:

st = [prel, p̂Brel, q, vBlin, vBang, at-1] ∈ R20

dove:

  • prel ∈ R³: vettore di posizione relativa del drone al prossimo waypoint
  • p̂Brel ∈ R³: rappresentazione unitaria normalizzata nel sistema di coordinate del corpo
  • q ∈ R⁴: quaternione unitario (mondo a corpo)
  • vBlin, vBang ∈ R³: velocità lineare e angolare nel sistema di coordinate del corpo
  • at-1 ∈ R⁴: vettore di comando motore del passo temporale precedente

Spazio delle Azioni: Azioni continue at ∈ -1,1⁴, parametrizzando ogni comando dell'elica:

ωi = (1 + 0.8 at,i) ωhover, i = 1,...,4

dove ωhover = 14.47 krpm è la velocità di hovering calibrata.

Progettazione dell'Ambiente di Simulazione

Motore Fisico Genesis: Utilizza il motore fisico Genesis ad alta fedeltà per simulazione di corpi rigidi parallela accelerata su GPU.

Generazione Procedurale di Condotti:

  • Ogni episodio genera un condotto diverso, assicurando che la politica apprenda a navigare scenari diversificati e impegnativi
  • I condotti sono costituiti da Ns segmenti di condotto rettilineo collegati end-to-end
  • L'angolo di deviazione tra segmenti adiacenti è controllato utilizzando la formula di rotazione di Rodrigues:
v' = v cos θ + (k × v) sin θ + k(k · v)(1 - cos θ)

Modello di Drone: Utilizza il modello di simulazione del Bitcraze Crazyflie 2 (quadricottero nano 92×92×29 mm).

Confronto degli Algoritmi di Apprendimento

Utilizza il framework skrl per garantire un confronto equo, con entrambi gli algoritmi che condividono la stessa architettura di rete:

  • Struttura di Rete: actor-critic, due strati nascosti (256, 128 unità, attivazione ELU)
  • Configurazione PPO: orizzonte di rollout 256, 4096 ambienti paralleli, target KL adattivo 0.01, γ=0.99, λ=0.95, ε=0.2
  • Configurazione SAC: critic gemelli, replay buffer 10⁶, batch size 512, τ=0.005, γ=0.99, regolazione entropica automatica

Progettazione della Funzione di Ricompensa

Adotta una funzione di ricompensa modulare: Rt = Σk wk rk

Tre Categorie Principali:

  1. Ricompense di Guida:
    • Progress: ricompensa il movimento verso il prossimo waypoint
    • Centerline Deviation: penalizza la deviazione dalla linea centrale del condotto
    • Velocity Tracking: incoraggia la velocità di avanzamento target
  2. Ricompense di Stabilità:
    • Orientation Alignment: ricompensa l'allineamento di imbardata/assetto
    • Angular Velocity Damping: penalizza la velocità di rotazione
    • Action Smoothness: penalizza i cambiamenti improvvisi nei comandi motore
  3. Ricompense di Evento:
    • Waypoint Pass: ricompensa sparsa per il passaggio dei waypoint
    • Duct Finish: grande ricompensa terminale per il completamento del condotto
    • Crash Penalty: grande penalità per collisione/violazione

Configurazione Sperimentale

Ambiente Sperimentale

  • Piattaforma: Motore fisico Genesis
  • Configurazione Condotto: generato proceduralmente, Rd = 0.5m, 7 waypoint
  • Configurazione Addestramento: PPO e SAC addestrati ciascuno per 500 checkpoint

Metriche di Valutazione

  • Average Reward: ricompensa media
  • Waypoints Passed: numero di waypoint superati
  • Collisions per Episode: numero di collisioni per episodio
  • Average/Maximum Deviation: deviazione media/massima

Ottimizzazione degli Iperparametri

Utilizza lo strumento Weights & Biases sweep per ottimizzare i pesi delle ricompense, aumentando l'intervallo di peso dei termini di guida principali per SAC per adattarsi alle caratteristiche del suo replay buffer.

Risultati Sperimentali

Risultati dell'Addestramento PPO

Checkpoint5075100150200300400500
Average Reward1.3k2.7k4.5k6.4k7.2k9.9k10.2k9.6k
Waypoints Passed1/72/74/75/76/77/77/77/7
Collisions/Episode1.000.700.300.000.000.000.000.00
Avg Deviation (m)0.1230.1130.0840.0650.0940.0640.0630.094

Risultati Chiave:

  • Raggiunge il 100% di completamento del percorso con zero collisioni al checkpoint 300
  • La deviazione media dalla linea centrale diminuisce da 0.1128m a 0.0636m (tra checkpoint 200-300)
  • Raggiunge le migliori prestazioni al checkpoint 400 (ricompensa media 10.2k)

Risultati dell'Addestramento SAC

Checkpoint5075100150200300
Average Reward2.0k3.0k3.6k4.1k5.4k4.4k
Waypoints Passed0/71/72/73/73/73/7
Collisions/Episode1.001.001.001.001.001.00

Risultati Chiave:

  • Il tasso di completamento del percorso rimane dello 0% durante l'intero processo di addestramento
  • Media di 1 collisione per episodio, indicando che il fallimento terminale è il risultato standard
  • Massimo 3 waypoint superati prima del crash, convergendo a un ottimo locale

Analisi Comparativa delle Prestazioni

Motivi del Successo di PPO:

  • Gli aggiornamenti on-policy forniscono un segnale di apprendimento coerente
  • Capace di superare gli ottimi locali, risolvendo il compito end-to-end
  • Dimostra il classico modello di apprendimento: prima padroneggiare l'obiettivo principale, poi ottimizzare la traiettoria

Motivi del Fallimento di SAC:

  • Il replay buffer è saturo dall'esperienza del segmento iniziale semplice
  • Tende a perfezionare l'inizio della traiettoria, trascurando le sfide successive
  • L'efficienza campionaria in questo contesto si rivela controproducente

Lavori Correlati

Applicazioni del DRL nella Robotica

  • Il DRL apprende strategie di controllo complesse attraverso interazione per prove ed errori, adatto a compiti robotici difficili da modellare con precisione
  • Ha ottenuto progressi significativi nella generazione di abilità di movimento dinamico per robot con zampe

Importanza della Simulazione ad Alta Fedeltà

  • A causa dell'alto costo e dei rischi di sicurezza dell'interazione nel mondo reale, la simulazione è diventata uno strumento importante nella ricerca DRL
  • Tecniche come la randomizzazione del dominio sono critiche per il trasferimento sim-to-real
  • Il DRL ha dimostrato prestazioni sovrumane in compiti dinamici ad alta velocità come le gare di droni
  • La navigazione in ambienti confinati è più impegnativa della navigazione in spazi aperti, richiedendo algoritmi di apprendimento più stabili e affidabili

Conclusioni e Discussione

Conclusioni Principali

  1. La Stabilità Supera l'Efficienza: Per compiti di navigazione ad alta precisione e critici per la sicurezza, la stabilità di addestramento dei metodi on-policy è più importante dell'efficienza campionaria dei metodi off-policy
  2. Criticità della Scelta dell'Algoritmo: PPO apprende con successo strategie robuste prive di collisioni, mentre SAC converge a una soluzione subottimale
  3. Limitazioni del Replay Buffer: Il replay buffer di SAC può portare a bias nell'esplorazione in compiti di sequenza complessa

Limitazioni

  1. Copertura Algoritmica Limitata: Confronta solo due algoritmi, PPO e SAC
  2. Dipendenza dall'Ingegneria delle Ricompense: Le prestazioni dipendono fortemente dalla progettazione attenta della funzione di ricompensa
  3. Divario Simulazione-Realtà: Non ancora validato su sistemi fisici reali

Direzioni Future

  1. Trasferimento Sim-to-Real: Trasferire la strategia PPO di successo a una piattaforma di test di droni fisici
  2. Randomizzazione del Dominio: Incorporare randomizzazione del dominio e apprendimento per curriculum per migliorare la robustezza della politica
  3. Algoritmi Ibridi: Investigare algoritmi avanzati che unificano la stabilità on-policy e l'efficienza dati off-policy

Valutazione Approfondita

Punti di Forza

  1. Forte Specificità del Problema: Affronta un problema reale critico per la sicurezza nell'ispezione industriale
  2. Progettazione Sperimentale Rigorosa: Utilizza un framework unificato per garantire un confronto equo, gli ambienti generati proceduralmente aumentano la generalizzabilità
  3. Conclusioni Chiare e Convincenti: Fornisce principi guida chiari per la scelta dell'algoritmo
  4. Alto Valore Ingegneristico: Fornisce un percorso tecnologico prezioso per applicazioni industriali pratiche

Carenze

  1. Copertura Algoritmica Ristretta: Confronta solo due algoritmi, mancando una valutazione più completa
  2. Analisi Teorica Insufficiente: L'analisi delle cause di fallimento si basa principalmente su osservazioni empiriche, mancando di supporto teorico
  3. Assenza di Validazione Reale: Tutti gli esperimenti sono condotti in ambienti di simulazione, mancando di validazione nel mondo reale
  4. Sensibilità della Progettazione delle Ricompense: Diversi algoritmi utilizzano diversi pesi di ricompensa, che potrebbe influenzare l'universalità delle conclusioni

Impatto

  1. Contributo Accademico: Fornisce guida empirica per la scelta di algoritmi DRL in compiti critici per la sicurezza
  2. Valore Industriale: Fornisce riferimento tecnico per lo sviluppo di droni per ispezione industriale
  3. Valore Metodologico: Valida l'efficacia degli ambienti generati proceduralmente nell'addestramento DRL

Scenari Applicabili

  • Compiti di navigazione di droni ad alta precisione e critici per la sicurezza
  • Controllo robotico in spazi confinati
  • Applicazioni di apprendimento per rinforzo che richiedono garanzie di convergenza affidabile

Riferimenti Bibliografici

L'articolo cita 26 lavori correlati, coprendo teoria fondamentale del DRL, navigazione di droni, tecnologie di simulazione e altri aspetti, fornendo una base teorica solida per la ricerca. I riferimenti chiave includono i documenti originali di PPO e SAC, lavori rivoluzionari sulle gare di droni e ricerche importanti sul trasferimento sim-to-real.