OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics
Oliveira, Dyreby, Caldas et al.
The increasing number of satellites and orbital debris has made space congestion a critical issue, threatening satellite safety and sustainability. Challenges such as collision avoidance, station-keeping, and orbital maneuvering require advanced techniques to handle dynamic uncertainties and multi-agent interactions. Reinforcement learning (RL) has shown promise in this domain, enabling adaptive, autonomous policies for space operations; however, many existing RL frameworks rely on custom-built environments developed from scratch, which often use simplified models and require significant time to implement and validate the orbital dynamics, limiting their ability to fully capture real-world complexities. To address this, we introduce OrbitZoo, a versatile multi-agent RL environment built on a high-fidelity industry standard library, that enables realistic data generation, supports scenarios like collision avoidance and cooperative maneuvers, and ensures robust and accurate orbital dynamics. The environment is validated against a real satellite constellation, Starlink, achieving a Mean Absolute Percentage Error (MAPE) of 0.16% compared to real-world data. This validation ensures reliability for generating high-fidelity simulations and enabling autonomous and independent satellite operations.
academic
OrbitZoo: Ambiente di Apprendimento per Rinforzo Multi-Agente per la Dinamica Orbitale
Con l'aumento continuo del numero di satelliti e detriti orbitali, la congestione dello spazio è diventata una questione critica che minaccia la sicurezza e la sostenibilità dei satelliti. Sfide come l'evitamento di collisioni, il mantenimento della posizione e le manovre orbitali richiedono tecnologie avanzate per gestire l'incertezza dinamica e le interazioni multi-agente. L'apprendimento per rinforzo (RL) ha dimostrato potenziale in questo ambito, fornendo strategie adattive e autonome per le operazioni spaziali; tuttavia, molti framework RL esistenti si basano su ambienti personalizzati costruiti da zero, utilizzando frequentemente modelli semplificati che richiedono molto tempo per implementare e validare la dinamica orbitale, limitando la loro capacità di catturare pienamente la complessità del mondo reale. Per affrontare questo problema, il presente articolo introduce OrbitZoo, un ambiente RL multi-agente versatile costruito su librerie industriali standard ad alta fedeltà, che consente la generazione di dati realistici, supporta scenari di evitamento di collisioni e manovre collaborative, e garantisce una dinamica orbitale robusta e accurata. L'ambiente è stato validato confrontandolo con la costellazione satellitare reale Starlink, raggiungendo un errore percentuale assoluto medio (MAPE) dello 0,16% rispetto ai dati del mondo reale.
Problema della Congestione Spaziale: Dall'anno 1957, l'umanità ha lanciato circa 20.000 satelliti, e attualmente l'ambiente orbitale contiene circa 140 milioni di oggetti di detrito, di cui circa 1 milione di dimensioni superiori a 1 centimetro, sufficienti a causare danni catastrofici in caso di impatto.
Minaccia della Sindrome di Kessler: Le collisioni di detriti generano ulteriori detriti, creando una reazione a catena che potrebbe rendere inutilizzabili le orbite terrestri.
Limitazioni dei Metodi Tradizionali: Le attuali soluzioni di manovra satellitare dipendono fortemente da processi manuali e diventano insostenibili con la crescita continua del numero di satelliti e detriti orbitali.
Necessità di Automazione: Sviluppare sistemi decisionali intelligenti autonomi più veloci e capaci.
Potenziale Applicativo dell'RL: L'RL dimostra eccellenza nell'adattamento in tempo reale a sistemi spaziali complessi, dinamici e non lineari.
Mancanza di Standardizzazione: I framework RL esistenti mancano di standardizzazione; la maggior parte si basa su modelli semplificati, difficili da applicare alla complessità del mondo reale.
Generazione di Dati ad Alta Fedeltà: Costruita su librerie di dinamica spaziale Python robuste, integra forze realistiche e perturbazioni, fornendo dataset accurati e supportando il calcolo parallelo per la propagazione veloce.
Supporto per Apprendimento per Rinforzo Multi-Agente: Piattaforma di ricerca RL standardizzata che sfrutta la libreria PettingZoo per supportare processi decisionali di Markov parzialmente osservabili (POMDP) multi-agente, con scalabilità a sistemi di migliaia di corpi celesti.
Framework Personalizzabile e Visualizzazione: Il design modulare consente agli utenti di definire scenari con un numero arbitrario di corpi celesti, integrare modelli personalizzati, con chiara separazione dei livelli di astrazione, e fornisce componenti di visualizzazione 3D interattiva.
Validazione nel Mondo Reale: Attraverso validazione comparativa con la costellazione satellitare Starlink, raggiunge un MAPE dello 0,16%, garantendo l'affidabilità della simulazione ad alta fedeltà.
Il confronto sperimentale mostra che l'aggiunta di una penalità lungo la direzione tangenziale nella funzione di ricompensa (α2=0,5) migliora significativamente l'apprendimento:
Convergenza più veloce verso l'orbita target
Riduzione delle manovre non necessarie fuori dal piano orbitale
Maggiore vicinanza alla manovra di Hohmann ottimale
Dati di effemeridi Starlink: Dati di validazione dell'orbita satellitare
Ricerca correlata RL orbitale: Kolosa (2019), Herrera (2020), Casas (2022) e altri
Sintesi: OrbitZoo è un ambiente open-source di apprendimento per rinforzo multi-agente con significativo valore accademico e pratico, che fornisce uno strumento potente per la ricerca e lo sviluppo di sistemi autonomi spaziali attraverso la modellazione della dinamica orbitale ad alta fedeltà e la validazione con dati reali. Questo lavoro non solo promuove l'applicazione dell'RL nel settore aerospaziale, ma contribuisce anche significativamente allo sviluppo standardizzato di questa disciplina interdisciplinare.