Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
Tayar, de Oliveira, Tommaselli et al.
Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.
academic
Navegación Autónoma de Drones en Espacios Confinados: Un Enfoque de Aprendizaje por Refuerzo
Título: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
Autores: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (Universidad de São Paulo)
Clasificación: cs.RO cs.AI cs.LG cs.SY eess.SY
Fecha de Publicación: 11 de octubre de 2025 (arXiv v2)
Este artículo investiga el problema de la inspección autónoma de drones en infraestructuras industriales confinadas (como conductos de ventilación), tareas que requieren estrategias de navegación robustas que no permitan colisiones. Aunque el aprendizaje profundo por refuerzo (DRL) proporciona un paradigma potente para desarrollar tales estrategias, existen compensaciones críticas entre algoritmos on-policy y off-policy. Los métodos off-policy prometen alta eficiencia de muestras, crucial para minimizar el costoso e inseguro ajuste fino en el mundo real. En contraste, los métodos on-policy típicamente exhiben mejor estabilidad de entrenamiento, esencial para convergencia confiable en entornos de alta densidad de peligro. Este artículo estudia directamente esta compensación comparando el rendimiento de vuelo preciso del algoritmo on-policy PPO frente al algoritmo off-policy SAC en conductos generados proceduralmente en un simulador de alta fidelidad. Los resultados demuestran que PPO aprende consistentemente políticas estables y sin colisiones completando todo el recorrido, mientras que SAC no encuentra una solución completa, convergiendo a una política subóptima que solo puede navegar el segmento inicial.
La inspección manual de infraestructuras industriales (como tuberías y conductos de ventilación) es un proceso complejo, costoso y que consume tiempo, crítico para mantener la integridad operativa. Los drones (UAV) representan un avance significativo en inspección industrial, permitiendo recopilación de datos automatizada y segura en entornos inaccesibles o inseguros para humanos.
La navegación de drones en espacios confinados como conductos presenta desafíos únicos:
Efectos Aerodinámicos Complejos: La proximidad de las paredes crea efectos aerodinámicos complejos, aumentando el riesgo de colisión
Limitaciones de Métodos Clásicos: Los métodos tradicionales de planificación de movimiento carecen de adaptabilidad, dificultando el manejo de fenómenos no modelados (como el efecto suelo en conductos estrechos)
Criticidad de Seguridad: En estos entornos, las colisiones son inaceptables, requiriendo estrategias de control altamente confiables
El aprendizaje profundo por refuerzo ofrece un paradigma potente para abordar estos desafíos, pero la selección del algoritmo es crítica. La pregunta central es: ¿para tareas que requieren alta precisión y seguridad, es la estabilidad de los métodos on-policy más importante que la eficiencia de muestras de los algoritmos off-policy?
Análisis Comparativo Directo: Comparación directa de algoritmos on-policy y off-policy maduros en la tarea de navegación autónoma de drones en conductos industriales confinados
Evidencia Empírica: Proporciona evidencia empírica demostrando que para tareas de alta densidad de peligro y alta precisión, la estabilidad de entrenamiento de métodos on-policy es más crítica que la eficiencia de muestras de métodos off-policy
Validación del Flujo de Simulación: Valida un flujo de simulación utilizando entornos generados proceduralmente y motores físicos de alta fidelidad como plataforma de prueba para desarrollar y comparar estrategias de control de drones para aplicaciones industriales
Se utiliza la herramienta Weights & Biases sweep para optimizar pesos de recompensa, ampliando el rango de pesos de guía principal para SAC para adaptarse a características de su buffer de repetición.
Estabilidad Supera Eficiencia: Para tareas de navegación de alta precisión y seguridad crítica, la estabilidad de entrenamiento de métodos on-policy es más importante que la eficiencia de muestras de métodos off-policy
Criticidad de la Selección de Algoritmo: PPO aprendió exitosamente políticas robustas sin colisiones, mientras que SAC convergió a soluciones subóptimas
Limitaciones del Buffer de Repetición: El buffer de repetición de SAC puede causar sesgo de exploración en tareas de secuencia compleja
El artículo cita 26 referencias relacionadas, abarcando teoría fundamental de DRL, navegación de drones, tecnología de simulación y otros aspectos, proporcionando base teórica sólida para la investigación. Las referencias clave incluyen artículos originales de PPO y SAC, trabajo de avance en carreras de drones, e investigación importante en transferencia sim-to-real.