2025-11-25T07:58:17.729708

OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics

Oliveira, Dyreby, Caldas et al.

The increasing number of satellites and orbital debris has made space congestion a critical issue, threatening satellite safety and sustainability. Challenges such as collision avoidance, station-keeping, and orbital maneuvering require advanced techniques to handle dynamic uncertainties and multi-agent interactions. Reinforcement learning (RL) has shown promise in this domain, enabling adaptive, autonomous policies for space operations; however, many existing RL frameworks rely on custom-built environments developed from scratch, which often use simplified models and require significant time to implement and validate the orbital dynamics, limiting their ability to fully capture real-world complexities. To address this, we introduce OrbitZoo, a versatile multi-agent RL environment built on a high-fidelity industry standard library, that enables realistic data generation, supports scenarios like collision avoidance and cooperative maneuvers, and ensures robust and accurate orbital dynamics. The environment is validated against a real satellite constellation, Starlink, achieving a Mean Absolute Percentage Error (MAPE) of 0.16% compared to real-world data. This validation ensures reliability for generating high-fidelity simulations and enabling autonomous and independent satellite operations.

academic

OrbitZoo: Ambiente di Apprendimento per Rinforzo Multi-Agente per la Dinamica Orbitale

Informazioni Fondamentali

ID Articolo: 2504.04160
Titolo: OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics
Autori: Alexandre Oliveira, Katarina Dyreby, Francisco Caldas, Cláudia Soares (NOVA LINCS)
Classificazione: cs.LG cs.MA
Conferenza di Pubblicazione: NeurIPS 2025
Link Articolo: https://arxiv.org/abs/2504.04160v3

Riassunto

Con l'aumento continuo del numero di satelliti e detriti orbitali, la congestione dello spazio è diventata una questione critica che minaccia la sicurezza e la sostenibilità dei satelliti. Sfide come l'evitamento di collisioni, il mantenimento della posizione e le manovre orbitali richiedono tecnologie avanzate per gestire l'incertezza dinamica e le interazioni multi-agente. L'apprendimento per rinforzo (RL) ha dimostrato potenziale in questo ambito, fornendo strategie adattive e autonome per le operazioni spaziali; tuttavia, molti framework RL esistenti si basano su ambienti personalizzati costruiti da zero, utilizzando frequentemente modelli semplificati che richiedono molto tempo per implementare e validare la dinamica orbitale, limitando la loro capacità di catturare pienamente la complessità del mondo reale. Per affrontare questo problema, il presente articolo introduce OrbitZoo, un ambiente RL multi-agente versatile costruito su librerie industriali standard ad alta fedeltà, che consente la generazione di dati realistici, supporta scenari di evitamento di collisioni e manovre collaborative, e garantisce una dinamica orbitale robusta e accurata. L'ambiente è stato validato confrontandolo con la costellazione satellitare reale Starlink, raggiungendo un errore percentuale assoluto medio (MAPE) dello 0,16% rispetto ai dati del mondo reale.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema della Congestione Spaziale: Dall'anno 1957, l'umanità ha lanciato circa 20.000 satelliti, e attualmente l'ambiente orbitale contiene circa 140 milioni di oggetti di detrito, di cui circa 1 milione di dimensioni superiori a 1 centimetro, sufficienti a causare danni catastrofici in caso di impatto.
Minaccia della Sindrome di Kessler: Le collisioni di detriti generano ulteriori detriti, creando una reazione a catena che potrebbe rendere inutilizzabili le orbite terrestri.
Limitazioni dei Metodi Tradizionali: Le attuali soluzioni di manovra satellitare dipendono fortemente da processi manuali e diventano insostenibili con la crescita continua del numero di satelliti e detriti orbitali.

Motivazione della Ricerca

Necessità di Automazione: Sviluppare sistemi decisionali intelligenti autonomi più veloci e capaci.
Potenziale Applicativo dell'RL: L'RL dimostra eccellenza nell'adattamento in tempo reale a sistemi spaziali complessi, dinamici e non lineari.
Mancanza di Standardizzazione: I framework RL esistenti mancano di standardizzazione; la maggior parte si basa su modelli semplificati, difficili da applicare alla complessità del mondo reale.

Contributi Fondamentali

Generazione di Dati ad Alta Fedeltà: Costruita su librerie di dinamica spaziale Python robuste, integra forze realistiche e perturbazioni, fornendo dataset accurati e supportando il calcolo parallelo per la propagazione veloce.
Supporto per Apprendimento per Rinforzo Multi-Agente: Piattaforma di ricerca RL standardizzata che sfrutta la libreria PettingZoo per supportare processi decisionali di Markov parzialmente osservabili (POMDP) multi-agente, con scalabilità a sistemi di migliaia di corpi celesti.
Framework Personalizzabile e Visualizzazione: Il design modulare consente agli utenti di definire scenari con un numero arbitrario di corpi celesti, integrare modelli personalizzati, con chiara separazione dei livelli di astrazione, e fornisce componenti di visualizzazione 3D interattiva.
Validazione nel Mondo Reale: Attraverso validazione comparativa con la costellazione satellitare Starlink, raggiunge un MAPE dello 0,16%, garantendo l'affidabilità della simulazione ad alta fedeltà.

Dettagli Metodologici

Definizione dei Compiti

OrbitZoo mira a fornire un ambiente multi-agente RL standardizzato e ad alta fedeltà per la dinamica orbitale, supportando:

Compiti mono-agente e multi-agente
Scenari cooperativi, competitivi o ibridi
Spazi di azione continui e discreti
Ambienti parzialmente osservabili

Architettura del Modello

Progettazione dei Moduli Fondamentali

Classe Body: Classe base per entità fisiche
- Contiene identificatore univoco, massa, raggio, posizione e velocità iniziali
- Propagatore numerico integrato per calcolare stati futuri
- Supporta propagazione dell'incertezza
Classe Satellite: Estende la classe Body
- Aggiunge sistemi di propulsione e parametri dell'agente
- Supporta parametrizzazione della spinta in coordinate polari (T, θ, φ)
- Include parametri di massa del carburante e impulso specifico
Classe Interface: Visualizzazione 3D interattiva
- Componenti visivi personalizzabili
- Aggiornamento dello stato del sistema in tempo reale
- Prospettive di telecamera flessibili
Classe Environment: Interfaccia di interazione di alto livello
- Compatibile con standard PettingZoo
- Supporta compiti mono/multi-agente
- Fornisce gestione delle informazioni sullo stato orbitale

Punti di Innovazione Tecnica

1. Modellazione della Dinamica ad Alta Fedeltà

Modellazione del Campo Gravitazionale: Utilizzo di funzioni armoniche sferiche Holmes-Featherstone
Forze di Perturbazione: Resistenza atmosferica, pressione della radiazione solare, effetti di terzi corpi
Integrazione Numerica: Supporto del metodo a passo variabile Dormand-Prince

2. Supporto dei Sistemi di Coordinate

Coordinate Cartesiane: Calcolo numerico diretto
Elementi Kepleriani: Descrizione della geometria orbitale
Elementi Equinoziali: Evita problemi di singolarità

3. Modellazione della Spinta

Utilizza parametrizzazione in coordinate polari, più realistica rispetto al tradizionale sistema di coordinate RSW:

T_RSW = T(cos θ Ŝ + sin θ(cos φ R̂ + sin φ Ŵ))

4. Propagazione dell'Incertezza

Utilizza approssimazione analitica della matrice di transizione di stato per simulazioni Monte Carlo:

Σ_Δt = ΦΣ_0Φ^T

Configurazione Sperimentale

Progettazione degli Scenari Sperimentali

1. Compiti Mono-Agente

Manovra di Hohmann: Trasferimento orbitale classico
Evitamento di Collisioni: Riduzione della probabilità di collisione
Inseguimento di Obiettivo: Tracciamento di obiettivi dinamici

2. Compiti Multi-Agente

Coordinamento della Costellazione GEO: Distribuzione uniforme in orbita geostazionaria
Apprendimento Indipendente vs Apprendimento Federato: Confronto di diverse strategie collaborative

Metriche di Valutazione

Precisione Orbitale: Deviazione dalla soluzione teorica
Consumo di Carburante: Efficienza del carburante nel completamento del compito
Probabilità di Collisione: PoC < 10^-6 come soglia di sicurezza
Prestazioni di Convergenza: Ricompensa cumulativa per episodio di addestramento

Metodi di Confronto

DDPG: Benchmark di controllo continuo
PPO: Metodo di ottimizzazione delle politiche
DDQN: Spazio di azione discreto
Apprendimento Indipendente: Multi-agente senza comunicazione
Apprendimento Federato: Collaborazione con condivisione di parametri

Dettagli di Implementazione

Architettura di Rete: Due strati nascosti, funzione di attivazione Tanh
Parametri di Addestramento: Tasso di apprendimento 0,0001, GAE λ=0,95
Configurazione Hardware: CPU Intel i3-8100, GPU GTX 1050 Ti, RAM 16GB

Risultati Sperimentali

Risultati Principali

1. Risultati di Validazione Starlink

Gruppo RMSE Basso: 24,14 metri (propagazione di 16,6 ore)
Gruppo RMSE Medio: 83,75 metri
Gruppo RMSE Alto: 1924,90 metri
MAPE Complessivo: 0,16%

2. Esperimento di Manovra di Hohmann

Apprendimento riuscito di strategie quasi-ottimali, corrispondenza con valori teorici del semiasse maggiore
Raggiungimento dell'orbita target anche in condizioni di perturbazione realistica
Convergenza più veloce nell'esperimento 2 rispetto all'esperimento 1 (α2=0,5 vs α2=0)

3. Confronto dell'Evitamento di Collisioni

Prestazioni PPO: Applicazione precoce della spinta, riduzione efficace del rischio di collisione
Prestazioni DDQN: Efficace nella dinamica di addestramento, ma scarsa capacità di generalizzazione
Vantaggi dello Spazio di Azione Continuo: PPO mostra prestazioni superiori in dinamica realistica

4. Coordinamento della Costellazione GEO

Gli agenti imparano con successo strategie di distribuzione uniforme
L'apprendimento federato converge più velocemente
Buona capacità di generalizzazione in perturbazioni non viste

Esperimenti di Ablazione

Impatto della Penalità di Direzione della Spinta

Il confronto sperimentale mostra che l'aggiunta di una penalità lungo la direzione tangenziale nella funzione di ricompensa (α2=0,5) migliora significativamente l'apprendimento:

Convergenza più veloce verso l'orbita target
Riduzione delle manovre non necessarie fuori dal piano orbitale
Maggiore vicinanza alla manovra di Hohmann ottimale

Impatto della Complessità della Dinamica

Addestramento con Modello Semplificato: Solo gravità newtoniana
Valutazione Realistica: Tutte le forze di perturbazione
Capacità di Generalizzazione: Le strategie addestrate rimangono efficaci in condizioni realistiche

Analisi delle Prestazioni

Prestazioni Computazionali

Complessità Temporale: O(n), dove n è il numero di corpi celesti
Effetto della Parallelizzazione: Modelli di forza complessi beneficiano maggiormente della parallelizzazione
Scalabilità: Supporta sistemi con migliaia di corpi celesti

Lavori Correlati

Applicazioni RL nella Dinamica Orbitale

Metodi Tradizionali: Principalmente basati su modelli semplificati CR3BP
Applicazioni Orekit: Pochi studi utilizzano librerie ad alta fedeltà
Sviluppo Multi-Agente: Recente attenzione ai compiti di coordinamento

Ambienti RL Multi-Agente

Algoritmo REDA: Utilizza Poliastro e DQN
Applicazione MAPPO: Pianificazione di osservazione multi-satellitare
Volo in Formazione: Considera solo gravità newtoniana

Vantaggi di OrbitZoo

Rispetto agli ambienti esistenti, OrbitZoo è l'unico che supporta simultaneamente:

RL multi-agente
Simulatore standard industriale
Dinamica ad alta fedeltà
Controllo continuo
Modellazione realistica di corpi celesti e spinta
Visualizzazione interattiva
Disponibilità pubblica

Conclusioni e Discussione

Conclusioni Principali

Validazione Riuscita: OrbitZoo è stato validato con dati Starlink, con MAPE di soli 0,16%
Funzionalità Completa: Supporta compiti mono/multi-agente, scenari cooperativi/competitivi
Prestazioni Eccellenti: Le strategie addestrate mostrano buone prestazioni in dinamica realistica
Forte Usabilità: Design modulare, supporta sviluppo e distribuzione rapidi

Limitazioni

Overhead Computazionale: La simulazione ad alta fedeltà richiede più risorse computazionali
Regolazione dei Parametri: Gli esperimenti non hanno condotto un'ampia ottimizzazione degli iperparametri
Sfide di Scalabilità: La simulazione in tempo reale di grandi costellazioni rimane impegnativa
Dipendenza dal Modello: Dipende dall'accuratezza della libreria Orekit

Direzioni Future

Ottimizzazione degli Algoritmi: Esplorare algoritmi RL specializzati per orbite
Estensione delle Applicazioni: Supportare più tipi di compiti e vincoli
Miglioramento delle Prestazioni: Accelerazione GPU e calcolo distribuito
Promozione della Standardizzazione: Stabilire benchmark per RL orbitale

Valutazione Approfondita

Punti di Forza

Forte Innovazione: Primo ambiente RL multi-agente orbitale basato su librerie standard industriali
Validazione Completa: Validato con dati satellitari reali, alta credibilità
Funzionalità Completa: Supporta molteplici scenari e algoritmi, buona estensibilità
Alto Valore Pratico: Applicabile direttamente allo sviluppo di compiti satellitari reali

Insufficienze

Efficienza Computazionale: Costi computazionali elevati della simulazione ad alta fedeltà
Limitazioni Algoritmiche: Principalmente verifica di algoritmi RL classici, mancanza di ottimizzazione specializzata
Copertura degli Scenari: Scenari sperimentali relativamente limitati, potenziale per più applicazioni
Analisi Teorica: Mancanza di garanzie teoriche di convergenza

Impatto

Contributo Accademico: Colma il vuoto di ambienti standardizzati per RL orbitale
Valore Industriale: Applicabile allo sviluppo di controllo autonomo satellitare reale
Significato Open Source: Promuove la riproducibilità della ricerca in questo campo
Definizione di Standard: Potenziale per diventare piattaforma standard per la ricerca RL orbitale

Scenari Applicabili

Controllo Autonomo Satellitare: Mantenimento orbitale, pianificazione di manovre
Gestione della Costellazione: Coordinamento multi-satellitare, volo in formazione
Evitamento di Collisioni: Strategie di elusione dei detriti spaziali
Pianificazione di Missioni: Decisioni intelligenti per compiti spaziali complessi
Educazione e Formazione: Insegnamento dell'ingegneria aerospaziale e dell'apprendimento automatico

Bibliografia

Orekit: Libreria open-source di meccanica celeste
PettingZoo: Standard per ambienti RL multi-agente
Dati di effemeridi Starlink: Dati di validazione dell'orbita satellitare
Ricerca correlata RL orbitale: Kolosa (2019), Herrera (2020), Casas (2022) e altri

Sintesi: OrbitZoo è un ambiente open-source di apprendimento per rinforzo multi-agente con significativo valore accademico e pratico, che fornisce uno strumento potente per la ricerca e lo sviluppo di sistemi autonomi spaziali attraverso la modellazione della dinamica orbitale ad alta fedeltà e la validazione con dati reali. Questo lavoro non solo promuove l'applicazione dell'RL nel settore aerospaziale, ma contribuisce anche significativamente allo sviluppo standardizzato di questa disciplina interdisciplinare.