2025-11-20T22:01:15.701145

Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

Tayar, de Oliveira, Tommaselli et al.
Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.
academic

Navegación Autónoma de Drones en Espacios Confinados: Un Enfoque de Aprendizaje por Refuerzo

Información Básica

  • ID del Artículo: 2508.16807
  • Título: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
  • Autores: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (Universidad de São Paulo)
  • Clasificación: cs.RO cs.AI cs.LG cs.SY eess.SY
  • Fecha de Publicación: 11 de octubre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2508.16807

Resumen

Este artículo investiga el problema de la inspección autónoma de drones en infraestructuras industriales confinadas (como conductos de ventilación), tareas que requieren estrategias de navegación robustas que no permitan colisiones. Aunque el aprendizaje profundo por refuerzo (DRL) proporciona un paradigma potente para desarrollar tales estrategias, existen compensaciones críticas entre algoritmos on-policy y off-policy. Los métodos off-policy prometen alta eficiencia de muestras, crucial para minimizar el costoso e inseguro ajuste fino en el mundo real. En contraste, los métodos on-policy típicamente exhiben mejor estabilidad de entrenamiento, esencial para convergencia confiable en entornos de alta densidad de peligro. Este artículo estudia directamente esta compensación comparando el rendimiento de vuelo preciso del algoritmo on-policy PPO frente al algoritmo off-policy SAC en conductos generados proceduralmente en un simulador de alta fidelidad. Los resultados demuestran que PPO aprende consistentemente políticas estables y sin colisiones completando todo el recorrido, mientras que SAC no encuentra una solución completa, convergiendo a una política subóptima que solo puede navegar el segmento inicial.

Contexto de Investigación y Motivación

Definición del Problema

La inspección manual de infraestructuras industriales (como tuberías y conductos de ventilación) es un proceso complejo, costoso y que consume tiempo, crítico para mantener la integridad operativa. Los drones (UAV) representan un avance significativo en inspección industrial, permitiendo recopilación de datos automatizada y segura en entornos inaccesibles o inseguros para humanos.

Análisis de Desafíos

La navegación de drones en espacios confinados como conductos presenta desafíos únicos:

  1. Efectos Aerodinámicos Complejos: La proximidad de las paredes crea efectos aerodinámicos complejos, aumentando el riesgo de colisión
  2. Limitaciones de Métodos Clásicos: Los métodos tradicionales de planificación de movimiento carecen de adaptabilidad, dificultando el manejo de fenómenos no modelados (como el efecto suelo en conductos estrechos)
  3. Criticidad de Seguridad: En estos entornos, las colisiones son inaceptables, requiriendo estrategias de control altamente confiables

Motivación de la Investigación

El aprendizaje profundo por refuerzo ofrece un paradigma potente para abordar estos desafíos, pero la selección del algoritmo es crítica. La pregunta central es: ¿para tareas que requieren alta precisión y seguridad, es la estabilidad de los métodos on-policy más importante que la eficiencia de muestras de los algoritmos off-policy?

Contribuciones Principales

  1. Análisis Comparativo Directo: Comparación directa de algoritmos on-policy y off-policy maduros en la tarea de navegación autónoma de drones en conductos industriales confinados
  2. Evidencia Empírica: Proporciona evidencia empírica demostrando que para tareas de alta densidad de peligro y alta precisión, la estabilidad de entrenamiento de métodos on-policy es más crítica que la eficiencia de muestras de métodos off-policy
  3. Validación del Flujo de Simulación: Valida un flujo de simulación utilizando entornos generados proceduralmente y motores físicos de alta fidelidad como plataforma de prueba para desarrollar y comparar estrategias de control de drones para aplicaciones industriales

Detalles de la Metodología

Definición de la Tarea

Se modela el control de drones orientado a objetivos como un Proceso de Decisión de Markov (MDP): M = (S,A,T,R,γ)

Espacio de Estados:

st = [prel, p̂Brel, q, vBlin, vBang, at-1] ∈ R20

Donde:

  • prel ∈ R³: vector de posición relativa del drone al siguiente punto de ruta
  • p̂Brel ∈ R³: representación unitaria normalizada en coordenadas del cuerpo
  • q ∈ R⁴: cuaternión unitario (mundo a cuerpo)
  • vBlin, vBang ∈ R³: velocidad lineal y angular en coordenadas del cuerpo
  • at-1 ∈ R⁴: vector de comandos del motor del paso anterior

Espacio de Acciones: Acciones continuas at ∈ -1,1⁴, parametrizando cada comando de rotor:

ωi = (1 + 0.8 at,i) ωhover, i = 1,...,4

Donde ωhover = 14.47 krpm es la velocidad de vuelo estacionario calibrada.

Diseño del Entorno de Simulación

Motor Físico Genesis: Utiliza el motor físico Genesis de alta fidelidad para simulación de cuerpos rígidos acelerada por GPU en paralelo.

Generación Procedural de Conductos:

  • Se genera un conducto diferente en cada episodio, asegurando que la política aprenda a navegar escenarios diversos y desafiantes
  • Los conductos se componen de Ns segmentos de conducto recto conectados secuencialmente
  • Se controla la desviación angular entre segmentos adyacentes utilizando la fórmula de rotación de Rodrigues:
v' = v cos θ + (k × v) sin θ + k(k · v)(1 - cos θ)

Modelo de Drone: Se utiliza un modelo de simulación del Bitcraze Crazyflie 2 (cuadirrotor nano de 92×92×29 mm).

Comparación de Algoritmos de Aprendizaje

Se utiliza el framework skrl para asegurar comparación justa, con ambos algoritmos compartiendo la misma arquitectura de red:

  • Estructura de Red: actor-critic, dos capas ocultas (256, 128 unidades, activación ELU)
  • Configuración PPO: horizonte de rollout 256, 4096 entornos paralelos, objetivo KL adaptativo 0.01, γ=0.99, λ=0.95, ε=0.2
  • Configuración SAC: críticos gemelos, buffer de repetición 10⁶, tamaño de lote 512, τ=0.005, γ=0.99, ajuste de entropía automático

Diseño de la Función de Recompensa

Se adopta una función de recompensa modular: Rt = Σk wk rk

Tres Categorías Principales:

  1. Recompensas de Guía:
    • Progress: recompensa el movimiento hacia el siguiente punto de ruta
    • Centerline Deviation: penaliza la desviación de la línea central del conducto
    • Velocity Tracking: alienta la velocidad de avance objetivo
  2. Recompensas de Estabilidad:
    • Orientation Alignment: recompensa la alineación de guiñada/actitud horizontal
    • Angular Velocity Damping: penaliza la velocidad de rotación
    • Action Smoothness: penaliza cambios abruptos en comandos del motor
  3. Recompensas de Eventos:
    • Waypoint Pass: recompensa dispersa por pasar puntos de ruta
    • Duct Finish: gran recompensa terminal por completar el conducto
    • Crash Penalty: gran penalización por colisión/violación

Configuración Experimental

Entorno Experimental

  • Plataforma: Motor físico Genesis
  • Configuración del Conducto: generado proceduralmente, Rd = 0.5m, 7 puntos de ruta
  • Configuración de Entrenamiento: PPO y SAC entrenados cada uno durante 500 checkpoints

Métricas de Evaluación

  • Average Reward: recompensa promedio
  • Waypoints Passed: número de puntos de ruta completados
  • Collisions per Episode: colisiones por episodio
  • Average/Maximum Deviation: desviación promedio/máxima

Optimización de Hiperparámetros

Se utiliza la herramienta Weights & Biases sweep para optimizar pesos de recompensa, ampliando el rango de pesos de guía principal para SAC para adaptarse a características de su buffer de repetición.

Resultados Experimentales

Resultados de Entrenamiento de PPO

Checkpoint5075100150200300400500
Recompensa Promedio1.3k2.7k4.5k6.4k7.2k9.9k10.2k9.6k
Puntos de Ruta Completados1/72/74/75/76/77/77/77/7
Colisiones/Episodio1.000.700.300.000.000.000.000.00
Desv. Promedio (m)0.1230.1130.0840.0650.0940.0640.0630.094

Hallazgos Clave:

  • Alcanza tasa de finalización del 100% del recorrido en checkpoint 300, cero colisiones
  • Desviación de línea central promedio disminuye de 0.1128m a 0.0636m (entre checkpoints 200-300)
  • Mejor rendimiento alcanzado en checkpoint 400 (recompensa promedio 10.2k)

Resultados de Entrenamiento de SAC

Checkpoint5075100150200300
Recompensa Promedio2.0k3.0k3.6k4.1k5.4k4.4k
Puntos de Ruta Completados0/71/72/73/73/73/7
Colisiones/Episodio1.001.001.001.001.001.00

Hallazgos Clave:

  • Tasa de finalización del recorrido consistentemente 0% durante todo el entrenamiento
  • Promedio de 1 colisión por episodio, indicando que el fallo terminal es el resultado estándar
  • Máximo de 3 puntos de ruta completados antes de colapsar, convergiendo a óptimo local

Análisis Comparativo de Rendimiento

Razones del Éxito de PPO:

  • Las actualizaciones on-policy proporcionan señal de aprendizaje consistente
  • Capaz de superar óptimos locales, resolviendo tareas de extremo a extremo
  • Exhibe patrón de aprendizaje clásico: dominar objetivo principal primero, luego optimizar trayectoria

Razones del Fracaso de SAC:

  • Buffer de repetición saturado por experiencia de segmentos iniciales simples
  • Sesgado hacia perfeccionar el comienzo de la trayectoria, ignorando desafíos posteriores
  • Eficiencia de muestras contraproducente en este contexto

Trabajo Relacionado

Aplicaciones de DRL en Robótica

  • DRL aprende políticas de control complejas mediante interacción por prueba y error, adecuado para tareas robóticas difíciles de modelar exactamente
  • Ha logrado avances en generación de habilidades de movimiento dinámico en robots con patas

Importancia de la Simulación de Alta Fidelidad

  • Debido al alto costo e riesgos de seguridad de la interacción en el mundo real, la simulación es herramienta importante para investigación en DRL
  • Técnicas como randomización de dominio son críticas para transferencia sim-to-real
  • DRL ha demostrado rendimiento sobrehumano en tareas dinámicas de alta velocidad como carreras de drones
  • La navegación en entornos confinados es más desafiante que en espacios abiertos, requiriendo algoritmos de aprendizaje más estables y confiables

Conclusiones y Discusión

Conclusiones Principales

  1. Estabilidad Supera Eficiencia: Para tareas de navegación de alta precisión y seguridad crítica, la estabilidad de entrenamiento de métodos on-policy es más importante que la eficiencia de muestras de métodos off-policy
  2. Criticidad de la Selección de Algoritmo: PPO aprendió exitosamente políticas robustas sin colisiones, mientras que SAC convergió a soluciones subóptimas
  3. Limitaciones del Buffer de Repetición: El buffer de repetición de SAC puede causar sesgo de exploración en tareas de secuencia compleja

Limitaciones

  1. Rango de Algoritmos Limitado: Solo se comparan dos algoritmos, PPO y SAC
  2. Dependencia de Ingeniería de Recompensas: El rendimiento depende en gran medida de función de recompensa cuidadosamente diseñada
  3. Brecha Simulación-Realidad: Aún no se ha validado en sistemas físicos reales

Direcciones Futuras

  1. Transferencia Sim-to-Real: Transferir política PPO exitosa a plataforma de prueba de drone físico
  2. Randomización de Dominio: Combinar randomización de dominio y aprendizaje curricular para mejorar robustez de política
  3. Algoritmos Híbridos: Investigar algoritmos avanzados que unifiquen estabilidad on-policy y eficiencia de datos off-policy

Evaluación Profunda

Fortalezas

  1. Problema Altamente Específico: Aborda problema real de seguridad crítica en inspección industrial
  2. Diseño Experimental Riguroso: Utiliza marco unificado para asegurar comparación justa, entornos generados proceduralmente aumentan generalización
  3. Conclusiones Claras y Contundentes: Proporciona principios directivos claros para selección de algoritmo
  4. Alto Valor de Ingeniería: Proporciona ruta técnica valiosa para aplicaciones industriales reales

Deficiencias

  1. Cobertura Estrecha de Algoritmos: Solo compara dos algoritmos, carece de evaluación más comprehensiva
  2. Análisis Teórico Insuficiente: Análisis de causas de fallo basado principalmente en observación empírica, carece de apoyo teórico
  3. Ausencia de Validación Real: Todos los experimentos en entorno de simulación, carece de verificación en mundo real
  4. Sensibilidad de Diseño de Recompensas: Diferentes algoritmos utilizan diferentes pesos de recompensa, puede afectar universalidad de conclusiones

Impacto

  1. Contribución Académica: Proporciona orientación empírica para selección de algoritmo DRL en tareas seguridad-crítica
  2. Valor Industrial: Proporciona referencia técnica para desarrollo de drones de inspección industrial
  3. Valor Metodológico: Valida efectividad de entornos generados proceduralmente en entrenamiento DRL

Escenarios Aplicables

  • Tareas de navegación de drones de alta precisión y seguridad crítica
  • Control de robots en espacios confinados
  • Aplicaciones de aprendizaje por refuerzo que requieren garantías de convergencia confiable

Referencias

El artículo cita 26 referencias relacionadas, abarcando teoría fundamental de DRL, navegación de drones, tecnología de simulación y otros aspectos, proporcionando base teórica sólida para la investigación. Las referencias clave incluyen artículos originales de PPO y SAC, trabajo de avance en carreras de drones, e investigación importante en transferencia sim-to-real.