2025-11-25T07:58:17.729708

OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics

Oliveira, Dyreby, Caldas et al.

The increasing number of satellites and orbital debris has made space congestion a critical issue, threatening satellite safety and sustainability. Challenges such as collision avoidance, station-keeping, and orbital maneuvering require advanced techniques to handle dynamic uncertainties and multi-agent interactions. Reinforcement learning (RL) has shown promise in this domain, enabling adaptive, autonomous policies for space operations; however, many existing RL frameworks rely on custom-built environments developed from scratch, which often use simplified models and require significant time to implement and validate the orbital dynamics, limiting their ability to fully capture real-world complexities. To address this, we introduce OrbitZoo, a versatile multi-agent RL environment built on a high-fidelity industry standard library, that enables realistic data generation, supports scenarios like collision avoidance and cooperative maneuvers, and ensures robust and accurate orbital dynamics. The environment is validated against a real satellite constellation, Starlink, achieving a Mean Absolute Percentage Error (MAPE) of 0.16% compared to real-world data. This validation ensures reliability for generating high-fidelity simulations and enabling autonomous and independent satellite operations.

academic

OrbitZoo: Entorno de Aprendizaje por Refuerzo Multi-Agente para Dinámicas Orbitales

Información Básica

ID del Artículo: 2504.04160
Título: OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics
Autores: Alexandre Oliveira, Katarina Dyreby, Francisco Caldas, Cláudia Soares (NOVA LINCS)
Clasificación: cs.LG cs.MA
Conferencia de Publicación: NeurIPS 2025
Enlace del Artículo: https://arxiv.org/abs/2504.04160v3

Resumen

Con el aumento continuo del número de satélites y escombros orbitales, la congestión espacial se ha convertido en un problema crítico que amenaza la seguridad y sostenibilidad de los satélites. Desafíos como la evitación de colisiones, el mantenimiento de posición y las maniobras orbitales requieren tecnologías avanzadas para manejar la incertidumbre dinámica y las interacciones multi-agente. El aprendizaje por refuerzo (RL) ha demostrado potencial en este campo, proporcionando estrategias adaptativas y autónomas para operaciones espaciales; sin embargo, muchos marcos RL existentes dependen de entornos personalizados construidos desde cero, frecuentemente utilizando modelos simplificados que requieren considerable tiempo para implementar y validar dinámicas orbitales, limitando su capacidad para capturar plenamente la complejidad del mundo real. Para abordar este problema, presentamos OrbitZoo, un entorno versátil multi-agente RL construido sobre bibliotecas estándar industriales de alta fidelidad, capaz de generar datos realistas, soportar escenarios de evitación de colisiones y maniobras colaborativas, y garantizar dinámicas orbitales robustas y precisas. El entorno ha sido validado con la constelación de satélites real Starlink, logrando un error porcentual absoluto medio (MAPE) de 0.16% en comparación con datos del mundo real.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema de Congestión Espacial: Desde 1957, la humanidad ha lanzado aproximadamente 20,000 satélites, y actualmente existen aproximadamente 140 millones de fragmentos de escombros en el entorno orbital, de los cuales aproximadamente 1 millón tienen un tamaño superior a 1 centímetro, suficiente para causar daños catastróficos en caso de impacto.
Amenaza del Síndrome de Kessler: Las colisiones de escombros generan más escombros, formando una reacción en cadena que podría hacer que las órbitas terrestres sean inutilizables.
Limitaciones de Métodos Tradicionales: Las soluciones actuales de maniobra de satélites dependen fuertemente de procesos manuales, volviéndose insostenibles a medida que aumenta continuamente el número de satélites y escombros orbitales.

Motivación de la Investigación

Necesidad de Automatización: Desarrollar sistemas de toma de decisiones inteligentes autónomos más rápidos y capaces.
Potencial de Aplicación de RL: RL demuestra excelente desempeño en adaptación en tiempo real a sistemas espaciales complejos, dinámicos y no lineales.
Falta de Estandarización: Los marcos RL existentes carecen de estandarización, la mayoría basados en modelos simplificados que dificultan capturar la complejidad del mundo real.

Contribuciones Principales

Generación de Datos de Alta Fidelidad: Construido sobre bibliotecas de dinámicas espaciales de Python y robustas, integra fuerzas reales y perturbaciones, proporcionando conjuntos de datos precisos que soportan computación paralela para propagación rápida.
Soporte para Aprendizaje por Refuerzo Multi-Agente: Plataforma de investigación RL estandarizada que aprovecha la biblioteca PettingZoo para soportar procesos de decisión de Markov parcialmente observables (POMDP) multi-agente, permitiendo escalabilidad de sistemas con miles de cuerpos celestes.
Marco Personalizable y Visualización: El diseño modular permite a los usuarios definir escenarios con un número arbitrario de cuerpos celestes, integrar modelos personalizados, con clara separación de capas de abstracción, proporcionando componentes de visualización 3D interactiva.
Validación en el Mundo Real: Mediante validación comparativa con la constelación de satélites Starlink, logrando un MAPE de 0.16%, garantizando la confiabilidad de la simulación de alta fidelidad.

Explicación Detallada del Método

Definición de Tareas

OrbitZoo tiene como objetivo proporcionar un entorno multi-agente RL estandarizado y de alta fidelidad para dinámicas orbitales, soportando:

Tareas mono-agente y multi-agente
Escenarios cooperativos, competitivos o híbridos
Espacios de acción continuos y discretos
Entornos parcialmente observables

Arquitectura del Modelo

Diseño de Módulos Principales

Clase Body: Clase base para entidades físicas
- Contiene identificador único, masa, radio, posición y velocidad iniciales
- Propagador numérico integrado para calcular estados futuros
- Soporta propagación de incertidumbre
Clase Satellite: Extiende la clase Body
- Añade sistemas de propulsión y parámetros de agente
- Soporta parametrización de empuje en coordenadas polares (T, θ, φ)
- Incluye parámetros de masa de combustible e impulso específico
Clase Interface: Visualización 3D interactiva
- Componentes visuales personalizables
- Actualización de estado del sistema en tiempo real
- Perspectivas de cámara flexible
Clase Environment: Interfaz de interacción de alto nivel
- Compatible con estándar PettingZoo
- Soporta tareas mono/multi-agente
- Proporciona gestión de información de estado orbital

Puntos de Innovación Técnica

1. Modelado de Dinámicas de Alta Fidelidad

Modelado del Campo Gravitacional: Utiliza funciones armónicas esféricas Holmes-Featherstone
Fuerzas de Perturbación: Resistencia atmosférica, presión de radiación solar, efectos de tercer cuerpo
Integración Numérica: Soporta método de paso variable Dormand-Prince

2. Soporte de Sistemas de Coordenadas

Coordenadas Cartesianas: Cálculo numérico directo
Elementos Keplerianos: Descripción de geometría orbital
Elementos Equinocciales: Evita problemas de singularidad

3. Modelado de Empuje

Utiliza parametrización en coordenadas polares, más realista que el sistema de coordenadas RSW tradicional:

T_RSW = T(cos θ Ŝ + sin θ(cos φ R̂ + sin φ Ŵ))

4. Propagación de Incertidumbre

Utiliza aproximación analítica de matriz de transición de estado (STM) para simulaciones de Monte Carlo:

Σ_Δt = ΦΣ_0Φ^T

Configuración Experimental

Diseño de Escenarios Experimentales

1. Tareas Mono-Agente

Maniobra de Hohmann: Transferencia orbital clásica
Evitación de Colisiones: Reducción de probabilidad de colisión
Seguimiento de Objetivo: Seguimiento de objetivo dinámico

2. Tareas Multi-Agente

Coordinación de Constelación GEO: Distribución uniforme en órbita geoestacionaria
Aprendizaje Independiente vs Aprendizaje Federado: Comparación de diferentes estrategias de colaboración

Métricas de Evaluación

Precisión Orbital: Desviación respecto a la solución teórica
Consumo de Combustible: Eficiencia de combustible para completar tareas
Probabilidad de Colisión: PoC < 10^-6 como umbral de seguridad
Rendimiento de Convergencia: Recompensa acumulada en episodios de entrenamiento

Métodos de Comparación

DDPG: Referencia de control continuo
PPO: Método de optimización de política
DDQN: Espacio de acción discreto
Aprendizaje Independiente: Multi-agente sin comunicación
Aprendizaje Federado: Colaboración con parámetros compartidos

Detalles de Implementación

Arquitectura de Red: Dos capas ocultas, función de activación Tanh
Parámetros de Entrenamiento: Tasa de aprendizaje 0.0001, GAE λ=0.95
Configuración de Hardware: CPU Intel i3-8100, GPU GTX 1050 Ti, RAM 16GB

Resultados Experimentales

Resultados Principales

1. Resultados de Validación Starlink

Grupo de RMSE Bajo: 24.14 metros (propagación de 16.6 horas)
Grupo de RMSE Medio: 83.75 metros
Grupo de RMSE Alto: 1924.90 metros
MAPE Total: 0.16%

2. Experimento de Maniobra de Hohmann

Aprendizaje exitoso de política casi óptima, coincidiendo con valores teóricos de semieje mayor
Capacidad de alcanzar órbita objetivo bajo perturbaciones realistas
Convergencia más rápida en Experimento 2 comparado con Experimento 1 (α2=0.5 vs α2=0)

3. Comparación de Evitación de Colisiones

Desempeño de PPO: Aplicación temprana de empuje, reducción efectiva del riesgo de colisión
Desempeño de DDQN: Efectivo bajo dinámicas de entrenamiento, pero capacidad de generalización deficiente
Ventaja del Espacio de Acción Continuo: PPO muestra mejor desempeño bajo dinámicas realistas

4. Coordinación de Constelación GEO

Los agentes aprenden exitosamente estrategia de distribución uniforme
Convergencia más rápida con aprendizaje federado
Buena capacidad de generalización bajo perturbaciones no vistas

Experimentos de Ablación

Impacto de Penalización de Dirección de Empuje

Los experimentos comparativos muestran que agregar penalización en dirección tangencial (α2=0.5) en la función de recompensa mejora significativamente el aprendizaje:

Convergencia más rápida a órbita objetivo
Reducción de maniobras innecesarias fuera del plano orbital
Mayor proximidad a maniobra de Hohmann óptima

Impacto de Complejidad de Dinámicas

Entrenamiento con Modelo Simplificado: Solo gravitación newtoniana
Evaluación Realista: Todas las fuerzas de perturbación
Capacidad de Generalización: Estrategias entrenadas siguen siendo efectivas bajo condiciones realistas

Análisis de Rendimiento

Rendimiento Computacional

Complejidad Temporal: O(n), donde n es el número de cuerpos celestes
Efecto de Paralelización: Patrones paralelos más rápidos bajo modelos de fuerzas complejas
Escalabilidad: Soporta sistemas con miles de cuerpos celestes

Trabajo Relacionado

Aplicaciones de RL en Dinámicas Orbitales

Métodos Tradicionales: Mayormente basados en modelos simplificados CR3BP
Aplicaciones de Orekit: Pocas investigaciones utilizan bibliotecas de alta fidelidad
Desarrollo Multi-Agente: Enfoque reciente en tareas de coordinación

Entornos de RL Multi-Agente

Algoritmo REDA: Utiliza Poliastro y DQN
Aplicación MAPPO: Planificación de observación multi-satélite
Vuelo en Formación: Considera solo gravitación newtoniana

Ventajas de OrbitZoo

En comparación con entornos existentes, OrbitZoo es el único que simultáneamente soporta:

RL multi-agente
Simulador estándar industrial
Dinámicas de alta fidelidad
Control continuo
Modelado realista de cuerpos celestes y empuje
Visualización interactiva
Disponibilidad pública

Conclusiones y Discusión

Conclusiones Principales

Validación Exitosa: OrbitZoo validado con datos Starlink, MAPE solo 0.16%
Funcionalidad Completa: Soporta tareas mono/multi-agente, escenarios cooperativos/competitivos
Rendimiento Excelente: Estrategias entrenadas muestran buen desempeño bajo dinámicas realistas
Facilidad de Uso: Diseño modular, soporta desarrollo y despliegue rápido

Limitaciones

Costo Computacional: Simulación de alta fidelidad requiere más recursos computacionales
Ajuste de Parámetros: Optimización limitada de hiperparámetros en experimentos
Desafíos de Escalabilidad: Simulación en tiempo real de constelaciones grandes sigue siendo desafiante
Dependencia de Modelo: Depende de la precisión de la biblioteca Orekit

Direcciones Futuras

Optimización de Algoritmos: Explorar algoritmos RL especializados para órbitas
Extensión de Aplicaciones: Soportar más tipos de tareas y restricciones
Mejora de Rendimiento: Aceleración GPU y computación distribuida
Avance de Estandarización: Establecer pruebas de referencia para RL orbital

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primer entorno orbital multi-agente RL basado en biblioteca estándar industrial
Validación Suficiente: Validación mediante datos de satélites reales, alta credibilidad
Funcionalidad Integral: Soporta múltiples escenarios y algoritmos, buena extensibilidad
Alto Valor Práctico: Puede utilizarse directamente en desarrollo de tareas satelitales reales

Insuficiencias

Eficiencia Computacional: Alto costo computacional de simulación de alta fidelidad
Limitaciones de Algoritmos: Principalmente verifica algoritmos RL clásicos, carece de optimización especializada
Cobertura de Escenarios: Escenarios experimentales relativamente limitados, posibilidad de expandir aplicaciones
Análisis Teórico: Carece de garantías teóricas como convergencia

Impacto

Contribución Académica: Llena el vacío de entorno estándar de RL orbital
Valor Industrial: Puede utilizarse en desarrollo de control autónomo de satélites reales
Significado de Código Abierto: Promueve reproducibilidad en investigación de este campo
Establecimiento de Estándares: Potencial para convertirse en plataforma estándar de investigación de RL orbital

Escenarios Aplicables

Control Autónomo de Satélites: Mantenimiento de órbita, planificación de maniobras
Gestión de Constelaciones: Coordinación multi-satélite, vuelo en formación
Evitación de Colisiones: Estrategias de evasión de escombros espaciales
Planificación de Misiones: Toma de decisiones inteligente para tareas espaciales complejas
Educación y Capacitación: Enseñanza de ingeniería aeroespacial y aprendizaje automático

Referencias

Orekit: Biblioteca de mecánica celeste de código abierto
PettingZoo: Estándar de entorno RL multi-agente
Datos de efemérides Starlink: Datos de validación de órbita satelital
Investigación RL orbital relacionada: Kolosa (2019), Herrera (2020), Casas (2022), etc.

Resumen: OrbitZoo es un entorno de aprendizaje por refuerzo multi-agente de código abierto con importante valor académico y práctico, que proporciona una herramienta poderosa para la investigación y desarrollo de sistemas autónomos espaciales mediante modelado de dinámicas orbitales de alta fidelidad y validación con datos reales. Este trabajo no solo avanza la aplicación de RL en el campo aeroespacial, sino que también realiza contribuciones importantes al desarrollo estandarizado de esta disciplina interdisciplinaria.