2025-11-20T22:01:15.701145

Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

Tayar, de Oliveira, Tommaselli et al.

Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.

academic

Navigation Autonome de Drones en Espaces Confinés : Une Approche par Apprentissage par Renforcement

Informations Fondamentales

ID de l'article : 2508.16807
Titre : Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
Auteurs : Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (Université de São Paulo)
Classification : cs.RO cs.AI cs.LG cs.SY eess.SY
Date de publication : 11 octobre 2025 (arXiv v2)
Lien de l'article : https://arxiv.org/abs/2508.16807

Résumé

Cet article traite du problème de l'inspection autonome de drones dans les infrastructures industrielles confinées (telles que les conduits de ventilation), tâches qui exigent des stratégies de navigation robustes sans collision. Bien que l'apprentissage profond par renforcement (DRL) offre un paradigme puissant pour développer de telles stratégies, il existe des compromis critiques entre les algorithmes on-policy et off-policy. Les méthodes off-policy promettent une efficacité d'échantillonnage élevée, cruciale pour minimiser l'ajustement coûteux et dangereux en monde réel. En contraste, les méthodes on-policy présentent généralement une meilleure stabilité d'entraînement, essentielle pour une convergence fiable dans les environnements à haute densité de dangers. Cet article étudie directement ce compromis en comparant les performances de vol précises de l'algorithme on-policy PPO et de l'algorithme off-policy SAC dans des conduits générés procéduralement au sein d'un simulateur haute fidélité. Les résultats montrent que PPO apprend systématiquement des stratégies stables et sans collision, complétant l'intégralité du parcours, tandis que SAC échoue à trouver une solution complète, convergeant vers une stratégie sous-optimale capable de naviguer uniquement le segment initial.

Contexte de Recherche et Motivation

Définition du Problème

L'inspection manuelle des infrastructures industrielles (telles que les conduits et les gaines de ventilation) est un processus complexe, coûteux et chronophage, critique pour maintenir l'intégrité des opérations de maintenance. Les drones (UAV) représentent une avancée majeure dans le domaine de l'inspection industrielle, permettant la collecte de données automatisée et sécurisée dans les environnements inaccessibles ou dangereux pour l'homme.

Analyse des Défis

La navigation de drones dans les espaces confinés tels que les conduits présente des défis uniques :

Effets aérodynamiques complexes : La proximité des parois crée des effets aérodynamiques complexes, augmentant le risque de collision
Limitations des méthodes classiques : Les approches traditionnelles de planification de mouvement manquent d'adaptabilité et ont du mal à gérer les phénomènes aérodynamiques non modélisés (comme l'effet de sol dans les conduits étroits)
Criticité de sécurité : Dans ces environnements, les collisions sont inacceptables, nécessitant des stratégies de contrôle hautement fiables

Motivation de la Recherche

L'apprentissage profond par renforcement offre un paradigme puissant pour résoudre ces défis, mais le choix de l'algorithme est crucial. La question centrale est : pour les tâches nécessitant une haute précision et une sécurité, la stabilité des méthodes on-policy est-elle plus importante que l'efficacité d'échantillonnage des algorithmes off-policy ?

Contributions Principales

Analyse comparative directe : Comparaison directe d'algorithmes on-policy et off-policy matures sur la tâche de navigation autonome de drones dans des conduits industriels confinés
Preuves empiriques : Fourniture de preuves empiriques montrant que pour les tâches à haute densité de dangers et haute précision, la stabilité d'entraînement des méthodes on-policy est plus critique que l'efficacité d'échantillonnage des méthodes off-policy
Validation du flux de travail de simulation : Validation d'un flux de travail de simulation utilisant des environnements générés procéduralement et un moteur physique haute fidélité comme plateforme de développement et de benchmarking pour les stratégies de contrôle de drones d'applications industrielles

Détails de la Méthode

Définition de la Tâche

Modélisation du contrôle de drone orienté vers un objectif en tant que processus de décision markovien (MDP) : M = (S,A,T,R,γ)

Espace d'état :

st = [prel, p̂Brel, q, vBlin, vBang, at-1] ∈ R20

où :

prel ∈ R³ : vecteur de position du drone par rapport au prochain point de passage
p̂Brel ∈ R³ : représentation unitaire normalisée dans le système de coordonnées du corps
q ∈ R⁴ : quaternion unitaire (monde vers corps)
vBlin, vBang ∈ R³ : vitesse linéaire et angulaire dans le système de coordonnées du corps
at-1 ∈ R⁴ : vecteur de commande moteur de l'instant précédent

Espace d'action : Actions continues at ∈ -1,1⁴, paramétrisant chaque commande de rotor :

ωi = (1 + 0.8 at,i) ωhover, i = 1,...,4

où ωhover = 14.47 krpm est la vitesse de sustentation calibrée.

Conception de l'Environnement de Simulation

Moteur Physique Genesis : Utilisation du moteur physique Genesis haute fidélité pour la simulation parallèle de corps rigides accélérée par GPU.

Génération Procédurale de Conduits :

Génération de conduits différents pour chaque épisode, garantissant que la stratégie apprend à naviguer dans des scénarios diversifiés et difficiles
Les conduits sont composés de Ns segments de conduit droit connectés bout à bout
Contrôle de l'angle de déviation entre segments adjacents à l'aide de la formule de rotation de Rodrigues :

v' = v cos θ + (k × v) sin θ + k(k · v)(1 - cos θ)

Modèle de Drone : Utilisation d'un modèle de simulation du Bitcraze Crazyflie 2 (nano-quadricoptère 92×92×29 mm).

Comparaison des Algorithmes d'Apprentissage

Utilisation du framework skrl pour assurer une comparaison équitable, les deux algorithmes partageant la même architecture de réseau :

Structure du réseau : actor-critic, deux couches cachées (256, 128 unités, activation ELU)
Configuration PPO : horizon de rollout 256, 4096 environnements parallèles, objectif KL adaptatif 0.01, γ=0.99, λ=0.95, ε=0.2
Configuration SAC : twin critics, replay buffer 10⁶, batch size 512, τ=0.005, γ=0.99, ajustement automatique de l'entropie

Conception de la Fonction de Récompense

Adoption d'une fonction de récompense modulaire : Rt = Σk wk rk

Trois catégories principales :

Récompenses de guidage :
- Progress : récompense le mouvement vers le prochain point de passage
- Centerline Deviation : pénalise l'écart par rapport à la ligne centrale du conduit
- Velocity Tracking : encourage la vitesse d'avance cible
Récompenses de stabilité :
- Orientation Alignment : récompense l'alignement du lacet/tangage
- Angular Velocity Damping : pénalise la vitesse de rotation
- Action Smoothness : pénalise les changements brusques de commande moteur
Récompenses d'événement :
- Waypoint Pass : récompense éparse pour le passage de points de passage
- Duct Finish : grande récompense terminale pour la complétion du conduit
- Crash Penalty : grande pénalité pour collision/violation

Configuration Expérimentale

Environnement Expérimental

Plateforme : Moteur physique Genesis
Configuration du conduit : Génération procédurale, Rd = 0.5m, 7 points de passage
Configuration d'entraînement : PPO et SAC entraînés chacun sur 500 checkpoints

Métriques d'Évaluation

Average Reward : récompense moyenne
Waypoints Passed : nombre de points de passage franchis
Collisions per Episode : nombre de collisions par épisode
Average/Maximum Deviation : écart moyen/maximal

Optimisation des Hyperparamètres

Utilisation de l'outil Weights & Biases sweep pour optimiser les poids de récompense, avec augmentation de la plage de poids des termes de guidage principaux pour SAC afin de s'adapter aux caractéristiques de son replay buffer.

Résultats Expérimentaux

Résultats d'Entraînement PPO

Checkpoint	50	75	100	150	200	300	400	500
Récompense Moyenne	1.3k	2.7k	4.5k	6.4k	7.2k	9.9k	10.2k	9.6k
Points de Passage	1/7	2/7	4/7	5/7	6/7	7/7	7/7	7/7
Collisions/Épisode	1.00	0.70	0.30	0.00	0.00	0.00	0.00	0.00
Écart Moyen (m)	0.123	0.113	0.084	0.065	0.094	0.064	0.063	0.094

Découvertes Clés :

Atteinte d'un taux de complétion de 100% du parcours au checkpoint 300, zéro collision
Réduction de l'écart moyen par rapport à la ligne centrale de 0.1128m à 0.0636m (entre les checkpoints 200-300)
Atteinte des meilleures performances au checkpoint 400 (récompense moyenne 10.2k)

Résultats d'Entraînement SAC

Checkpoint	50	75	100	150	200	300
Récompense Moyenne	2.0k	3.0k	3.6k	4.1k	5.4k	4.4k
Points de Passage	0/7	1/7	2/7	3/7	3/7	3/7
Collisions/Épisode	1.00	1.00	1.00	1.00	1.00	1.00

Découvertes Clés :

Taux de complétion du parcours de 0% tout au long du processus d'entraînement
Moyenne d'une collision par épisode, indiquant que l'échec terminal est le résultat standard
Passage d'un maximum de 3 points de passage avant l'effondrement, convergence vers un optimum local

Analyse Comparative des Performances

Raisons du Succès de PPO :

Les mises à jour on-policy fournissent un signal d'apprentissage cohérent
Capacité à surmonter les optima locaux, résoudre les tâches de bout en bout
Démonstration d'un modèle d'apprentissage classique : maîtrise d'abord de l'objectif principal, puis optimisation de la trajectoire

Raisons de l'Échec de SAC :

Le replay buffer est saturé par l'expérience des segments initiaux simples
Tendance à affiner la trajectoire au début, négligeant les défis ultérieurs
L'efficacité d'échantillonnage s'avère contre-productive dans ce contexte

Travaux Connexes

Applications du DRL en Robotique

Le DRL apprend les stratégies de contrôle complexes par interaction essai-erreur, adapté aux tâches robotiques difficiles à modéliser précisément
Percées dans la génération de compétences de mouvement dynamique pour robots quadrupèdes

Importance de la Simulation Haute Fidélité

En raison du coût élevé et des risques de sécurité des interactions en monde réel, la simulation devient un outil important pour la recherche en DRL
Les techniques telles que la randomisation de domaine sont essentielles pour le transfert sim-to-real

Navigation Autonome de Drones

Le DRL démontre des performances surhumaines dans les tâches dynamiques à haute vitesse telles que les courses de drones
La navigation en environnement confiné présente plus de défis que la navigation en espace ouvert, nécessitant des algorithmes d'apprentissage plus stables et fiables

Conclusions et Discussion

Conclusions Principales

La stabilité prime sur l'efficacité : Pour les tâches de navigation haute précision et critiques pour la sécurité, la stabilité d'entraînement des méthodes on-policy est plus importante que l'efficacité d'échantillonnage des méthodes off-policy
Criticité du choix d'algorithme : PPO apprend avec succès une stratégie robuste sans collision, tandis que SAC converge vers une solution sous-optimale
Limitations du replay buffer : Le replay buffer de SAC peut conduire à des biais d'exploration dans les tâches de séquence complexe

Limitations

Portée d'algorithme limitée : Seule la comparaison de PPO et SAC
Dépendance à l'ingénierie de récompense : Les performances dépendent largement d'une fonction de récompense soigneusement conçue
Écart simulation-réalité : Pas encore de validation sur des systèmes physiques réels

Directions Futures

Transfert sim-to-real : Transfert de la stratégie PPO réussie vers une plateforme de test de drone physique
Randomisation de domaine : Combinaison de la randomisation de domaine et de l'apprentissage par curriculum pour améliorer la robustesse de la stratégie
Algorithmes hybrides : Exploration d'algorithmes avancés unifiant la stabilité on-policy et l'efficacité de données off-policy

Évaluation Approfondie

Points Forts

Problématique fortement ciblée : Résout un problème de sécurité critique réel dans l'inspection industrielle
Conception expérimentale rigoureuse : Utilisation d'un framework unifié pour assurer une comparaison équitable, environnements générés procéduralement augmentant la généralisation
Conclusions claires et convaincantes : Fournit des principes directeurs clairs pour le choix d'algorithme
Valeur d'ingénierie élevée : Offre une trajectoire technologique précieuse pour les applications industrielles réelles

Insuffisances

Couverture d'algorithme étroite : Seule la comparaison de deux algorithmes, manque d'évaluation d'algorithmes plus complète
Analyse théorique insuffisante : L'analyse des causes d'échec repose principalement sur des observations empiriques, manque de support théorique
Absence de validation réelle : Toutes les expériences menées en environnement de simulation, manque de validation en monde réel
Sensibilité de la conception de récompense : L'utilisation de poids de récompense différents pour les différents algorithmes peut affecter l'universalité des conclusions

Impact

Contribution académique : Fournit des conseils empiriques pour le choix d'algorithme DRL dans les tâches critiques pour la sécurité
Valeur industrielle : Offre une référence technique pour le développement de drones d'inspection industrielle
Valeur méthodologique : Valide l'efficacité des environnements générés procéduralement dans l'entraînement DRL

Scénarios Applicables

Tâches de navigation de drone haute précision et critiques pour la sécurité
Contrôle de robots en espaces confinés
Applications d'apprentissage par renforcement nécessitant des garanties de convergence fiables

Références

L'article cite 26 articles connexes, couvrant les théories fondamentales du DRL, la navigation de drones, les technologies de simulation et d'autres domaines, fournissant une base théorique solide pour la recherche. Les références clés incluent les articles originaux de PPO et SAC, les travaux révolutionnaires sur les courses de drones et les recherches importantes sur le transfert sim-to-real.