2025-11-25T07:58:17.729708

OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics

Oliveira, Dyreby, Caldas et al.
The increasing number of satellites and orbital debris has made space congestion a critical issue, threatening satellite safety and sustainability. Challenges such as collision avoidance, station-keeping, and orbital maneuvering require advanced techniques to handle dynamic uncertainties and multi-agent interactions. Reinforcement learning (RL) has shown promise in this domain, enabling adaptive, autonomous policies for space operations; however, many existing RL frameworks rely on custom-built environments developed from scratch, which often use simplified models and require significant time to implement and validate the orbital dynamics, limiting their ability to fully capture real-world complexities. To address this, we introduce OrbitZoo, a versatile multi-agent RL environment built on a high-fidelity industry standard library, that enables realistic data generation, supports scenarios like collision avoidance and cooperative maneuvers, and ensures robust and accurate orbital dynamics. The environment is validated against a real satellite constellation, Starlink, achieving a Mean Absolute Percentage Error (MAPE) of 0.16% compared to real-world data. This validation ensures reliability for generating high-fidelity simulations and enabling autonomous and independent satellite operations.
academic

OrbitZoo: Entorno de Aprendizaje por Refuerzo Multi-Agente para Dinámicas Orbitales

Información Básica

  • ID del Artículo: 2504.04160
  • Título: OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics
  • Autores: Alexandre Oliveira, Katarina Dyreby, Francisco Caldas, Cláudia Soares (NOVA LINCS)
  • Clasificación: cs.LG cs.MA
  • Conferencia de Publicación: NeurIPS 2025
  • Enlace del Artículo: https://arxiv.org/abs/2504.04160v3

Resumen

Con el aumento continuo del número de satélites y escombros orbitales, la congestión espacial se ha convertido en un problema crítico que amenaza la seguridad y sostenibilidad de los satélites. Desafíos como la evitación de colisiones, el mantenimiento de posición y las maniobras orbitales requieren tecnologías avanzadas para manejar la incertidumbre dinámica y las interacciones multi-agente. El aprendizaje por refuerzo (RL) ha demostrado potencial en este campo, proporcionando estrategias adaptativas y autónomas para operaciones espaciales; sin embargo, muchos marcos RL existentes dependen de entornos personalizados construidos desde cero, frecuentemente utilizando modelos simplificados que requieren considerable tiempo para implementar y validar dinámicas orbitales, limitando su capacidad para capturar plenamente la complejidad del mundo real. Para abordar este problema, presentamos OrbitZoo, un entorno versátil multi-agente RL construido sobre bibliotecas estándar industriales de alta fidelidad, capaz de generar datos realistas, soportar escenarios de evitación de colisiones y maniobras colaborativas, y garantizar dinámicas orbitales robustas y precisas. El entorno ha sido validado con la constelación de satélites real Starlink, logrando un error porcentual absoluto medio (MAPE) de 0.16% en comparación con datos del mundo real.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema de Congestión Espacial: Desde 1957, la humanidad ha lanzado aproximadamente 20,000 satélites, y actualmente existen aproximadamente 140 millones de fragmentos de escombros en el entorno orbital, de los cuales aproximadamente 1 millón tienen un tamaño superior a 1 centímetro, suficiente para causar daños catastróficos en caso de impacto.
  2. Amenaza del Síndrome de Kessler: Las colisiones de escombros generan más escombros, formando una reacción en cadena que podría hacer que las órbitas terrestres sean inutilizables.
  3. Limitaciones de Métodos Tradicionales: Las soluciones actuales de maniobra de satélites dependen fuertemente de procesos manuales, volviéndose insostenibles a medida que aumenta continuamente el número de satélites y escombros orbitales.

Motivación de la Investigación

  1. Necesidad de Automatización: Desarrollar sistemas de toma de decisiones inteligentes autónomos más rápidos y capaces.
  2. Potencial de Aplicación de RL: RL demuestra excelente desempeño en adaptación en tiempo real a sistemas espaciales complejos, dinámicos y no lineales.
  3. Falta de Estandarización: Los marcos RL existentes carecen de estandarización, la mayoría basados en modelos simplificados que dificultan capturar la complejidad del mundo real.

Contribuciones Principales

  1. Generación de Datos de Alta Fidelidad: Construido sobre bibliotecas de dinámicas espaciales de Python y robustas, integra fuerzas reales y perturbaciones, proporcionando conjuntos de datos precisos que soportan computación paralela para propagación rápida.
  2. Soporte para Aprendizaje por Refuerzo Multi-Agente: Plataforma de investigación RL estandarizada que aprovecha la biblioteca PettingZoo para soportar procesos de decisión de Markov parcialmente observables (POMDP) multi-agente, permitiendo escalabilidad de sistemas con miles de cuerpos celestes.
  3. Marco Personalizable y Visualización: El diseño modular permite a los usuarios definir escenarios con un número arbitrario de cuerpos celestes, integrar modelos personalizados, con clara separación de capas de abstracción, proporcionando componentes de visualización 3D interactiva.
  4. Validación en el Mundo Real: Mediante validación comparativa con la constelación de satélites Starlink, logrando un MAPE de 0.16%, garantizando la confiabilidad de la simulación de alta fidelidad.

Explicación Detallada del Método

Definición de Tareas

OrbitZoo tiene como objetivo proporcionar un entorno multi-agente RL estandarizado y de alta fidelidad para dinámicas orbitales, soportando:

  • Tareas mono-agente y multi-agente
  • Escenarios cooperativos, competitivos o híbridos
  • Espacios de acción continuos y discretos
  • Entornos parcialmente observables

Arquitectura del Modelo

Diseño de Módulos Principales

  1. Clase Body: Clase base para entidades físicas
    • Contiene identificador único, masa, radio, posición y velocidad iniciales
    • Propagador numérico integrado para calcular estados futuros
    • Soporta propagación de incertidumbre
  2. Clase Satellite: Extiende la clase Body
    • Añade sistemas de propulsión y parámetros de agente
    • Soporta parametrización de empuje en coordenadas polares (T, θ, φ)
    • Incluye parámetros de masa de combustible e impulso específico
  3. Clase Interface: Visualización 3D interactiva
    • Componentes visuales personalizables
    • Actualización de estado del sistema en tiempo real
    • Perspectivas de cámara flexible
  4. Clase Environment: Interfaz de interacción de alto nivel
    • Compatible con estándar PettingZoo
    • Soporta tareas mono/multi-agente
    • Proporciona gestión de información de estado orbital

Puntos de Innovación Técnica

1. Modelado de Dinámicas de Alta Fidelidad

  • Modelado del Campo Gravitacional: Utiliza funciones armónicas esféricas Holmes-Featherstone
  • Fuerzas de Perturbación: Resistencia atmosférica, presión de radiación solar, efectos de tercer cuerpo
  • Integración Numérica: Soporta método de paso variable Dormand-Prince

2. Soporte de Sistemas de Coordenadas

  • Coordenadas Cartesianas: Cálculo numérico directo
  • Elementos Keplerianos: Descripción de geometría orbital
  • Elementos Equinocciales: Evita problemas de singularidad

3. Modelado de Empuje

Utiliza parametrización en coordenadas polares, más realista que el sistema de coordenadas RSW tradicional:

T_RSW = T(cos θ Ŝ + sin θ(cos φ R̂ + sin φ Ŵ))

4. Propagación de Incertidumbre

Utiliza aproximación analítica de matriz de transición de estado (STM) para simulaciones de Monte Carlo:

Σ_Δt = ΦΣ_0Φ^T

Configuración Experimental

Diseño de Escenarios Experimentales

1. Tareas Mono-Agente

  • Maniobra de Hohmann: Transferencia orbital clásica
  • Evitación de Colisiones: Reducción de probabilidad de colisión
  • Seguimiento de Objetivo: Seguimiento de objetivo dinámico

2. Tareas Multi-Agente

  • Coordinación de Constelación GEO: Distribución uniforme en órbita geoestacionaria
  • Aprendizaje Independiente vs Aprendizaje Federado: Comparación de diferentes estrategias de colaboración

Métricas de Evaluación

  • Precisión Orbital: Desviación respecto a la solución teórica
  • Consumo de Combustible: Eficiencia de combustible para completar tareas
  • Probabilidad de Colisión: PoC < 10^-6 como umbral de seguridad
  • Rendimiento de Convergencia: Recompensa acumulada en episodios de entrenamiento

Métodos de Comparación

  • DDPG: Referencia de control continuo
  • PPO: Método de optimización de política
  • DDQN: Espacio de acción discreto
  • Aprendizaje Independiente: Multi-agente sin comunicación
  • Aprendizaje Federado: Colaboración con parámetros compartidos

Detalles de Implementación

  • Arquitectura de Red: Dos capas ocultas, función de activación Tanh
  • Parámetros de Entrenamiento: Tasa de aprendizaje 0.0001, GAE λ=0.95
  • Configuración de Hardware: CPU Intel i3-8100, GPU GTX 1050 Ti, RAM 16GB

Resultados Experimentales

Resultados Principales

  • Grupo de RMSE Bajo: 24.14 metros (propagación de 16.6 horas)
  • Grupo de RMSE Medio: 83.75 metros
  • Grupo de RMSE Alto: 1924.90 metros
  • MAPE Total: 0.16%

2. Experimento de Maniobra de Hohmann

  • Aprendizaje exitoso de política casi óptima, coincidiendo con valores teóricos de semieje mayor
  • Capacidad de alcanzar órbita objetivo bajo perturbaciones realistas
  • Convergencia más rápida en Experimento 2 comparado con Experimento 1 (α2=0.5 vs α2=0)

3. Comparación de Evitación de Colisiones

  • Desempeño de PPO: Aplicación temprana de empuje, reducción efectiva del riesgo de colisión
  • Desempeño de DDQN: Efectivo bajo dinámicas de entrenamiento, pero capacidad de generalización deficiente
  • Ventaja del Espacio de Acción Continuo: PPO muestra mejor desempeño bajo dinámicas realistas

4. Coordinación de Constelación GEO

  • Los agentes aprenden exitosamente estrategia de distribución uniforme
  • Convergencia más rápida con aprendizaje federado
  • Buena capacidad de generalización bajo perturbaciones no vistas

Experimentos de Ablación

Impacto de Penalización de Dirección de Empuje

Los experimentos comparativos muestran que agregar penalización en dirección tangencial (α2=0.5) en la función de recompensa mejora significativamente el aprendizaje:

  • Convergencia más rápida a órbita objetivo
  • Reducción de maniobras innecesarias fuera del plano orbital
  • Mayor proximidad a maniobra de Hohmann óptima

Impacto de Complejidad de Dinámicas

  • Entrenamiento con Modelo Simplificado: Solo gravitación newtoniana
  • Evaluación Realista: Todas las fuerzas de perturbación
  • Capacidad de Generalización: Estrategias entrenadas siguen siendo efectivas bajo condiciones realistas

Análisis de Rendimiento

Rendimiento Computacional

  • Complejidad Temporal: O(n), donde n es el número de cuerpos celestes
  • Efecto de Paralelización: Patrones paralelos más rápidos bajo modelos de fuerzas complejas
  • Escalabilidad: Soporta sistemas con miles de cuerpos celestes

Trabajo Relacionado

Aplicaciones de RL en Dinámicas Orbitales

  • Métodos Tradicionales: Mayormente basados en modelos simplificados CR3BP
  • Aplicaciones de Orekit: Pocas investigaciones utilizan bibliotecas de alta fidelidad
  • Desarrollo Multi-Agente: Enfoque reciente en tareas de coordinación

Entornos de RL Multi-Agente

  • Algoritmo REDA: Utiliza Poliastro y DQN
  • Aplicación MAPPO: Planificación de observación multi-satélite
  • Vuelo en Formación: Considera solo gravitación newtoniana

Ventajas de OrbitZoo

En comparación con entornos existentes, OrbitZoo es el único que simultáneamente soporta:

  • RL multi-agente
  • Simulador estándar industrial
  • Dinámicas de alta fidelidad
  • Control continuo
  • Modelado realista de cuerpos celestes y empuje
  • Visualización interactiva
  • Disponibilidad pública

Conclusiones y Discusión

Conclusiones Principales

  1. Validación Exitosa: OrbitZoo validado con datos Starlink, MAPE solo 0.16%
  2. Funcionalidad Completa: Soporta tareas mono/multi-agente, escenarios cooperativos/competitivos
  3. Rendimiento Excelente: Estrategias entrenadas muestran buen desempeño bajo dinámicas realistas
  4. Facilidad de Uso: Diseño modular, soporta desarrollo y despliegue rápido

Limitaciones

  1. Costo Computacional: Simulación de alta fidelidad requiere más recursos computacionales
  2. Ajuste de Parámetros: Optimización limitada de hiperparámetros en experimentos
  3. Desafíos de Escalabilidad: Simulación en tiempo real de constelaciones grandes sigue siendo desafiante
  4. Dependencia de Modelo: Depende de la precisión de la biblioteca Orekit

Direcciones Futuras

  1. Optimización de Algoritmos: Explorar algoritmos RL especializados para órbitas
  2. Extensión de Aplicaciones: Soportar más tipos de tareas y restricciones
  3. Mejora de Rendimiento: Aceleración GPU y computación distribuida
  4. Avance de Estandarización: Establecer pruebas de referencia para RL orbital

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primer entorno orbital multi-agente RL basado en biblioteca estándar industrial
  2. Validación Suficiente: Validación mediante datos de satélites reales, alta credibilidad
  3. Funcionalidad Integral: Soporta múltiples escenarios y algoritmos, buena extensibilidad
  4. Alto Valor Práctico: Puede utilizarse directamente en desarrollo de tareas satelitales reales

Insuficiencias

  1. Eficiencia Computacional: Alto costo computacional de simulación de alta fidelidad
  2. Limitaciones de Algoritmos: Principalmente verifica algoritmos RL clásicos, carece de optimización especializada
  3. Cobertura de Escenarios: Escenarios experimentales relativamente limitados, posibilidad de expandir aplicaciones
  4. Análisis Teórico: Carece de garantías teóricas como convergencia

Impacto

  1. Contribución Académica: Llena el vacío de entorno estándar de RL orbital
  2. Valor Industrial: Puede utilizarse en desarrollo de control autónomo de satélites reales
  3. Significado de Código Abierto: Promueve reproducibilidad en investigación de este campo
  4. Establecimiento de Estándares: Potencial para convertirse en plataforma estándar de investigación de RL orbital

Escenarios Aplicables

  1. Control Autónomo de Satélites: Mantenimiento de órbita, planificación de maniobras
  2. Gestión de Constelaciones: Coordinación multi-satélite, vuelo en formación
  3. Evitación de Colisiones: Estrategias de evasión de escombros espaciales
  4. Planificación de Misiones: Toma de decisiones inteligente para tareas espaciales complejas
  5. Educación y Capacitación: Enseñanza de ingeniería aeroespacial y aprendizaje automático

Referencias

  1. Orekit: Biblioteca de mecánica celeste de código abierto
  2. PettingZoo: Estándar de entorno RL multi-agente
  3. Datos de efemérides Starlink: Datos de validación de órbita satelital
  4. Investigación RL orbital relacionada: Kolosa (2019), Herrera (2020), Casas (2022), etc.

Resumen: OrbitZoo es un entorno de aprendizaje por refuerzo multi-agente de código abierto con importante valor académico y práctico, que proporciona una herramienta poderosa para la investigación y desarrollo de sistemas autónomos espaciales mediante modelado de dinámicas orbitales de alta fidelidad y validación con datos reales. Este trabajo no solo avanza la aplicación de RL en el campo aeroespacial, sino que también realiza contribuciones importantes al desarrollo estandarizado de esta disciplina interdisciplinaria.