2025-11-25T07:58:17.729708

OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics

Oliveira, Dyreby, Caldas et al.
The increasing number of satellites and orbital debris has made space congestion a critical issue, threatening satellite safety and sustainability. Challenges such as collision avoidance, station-keeping, and orbital maneuvering require advanced techniques to handle dynamic uncertainties and multi-agent interactions. Reinforcement learning (RL) has shown promise in this domain, enabling adaptive, autonomous policies for space operations; however, many existing RL frameworks rely on custom-built environments developed from scratch, which often use simplified models and require significant time to implement and validate the orbital dynamics, limiting their ability to fully capture real-world complexities. To address this, we introduce OrbitZoo, a versatile multi-agent RL environment built on a high-fidelity industry standard library, that enables realistic data generation, supports scenarios like collision avoidance and cooperative maneuvers, and ensures robust and accurate orbital dynamics. The environment is validated against a real satellite constellation, Starlink, achieving a Mean Absolute Percentage Error (MAPE) of 0.16% compared to real-world data. This validation ensures reliability for generating high-fidelity simulations and enabling autonomous and independent satellite operations.
academic

OrbitZoo: Ambiente di Apprendimento per Rinforzo Multi-Agente per la Dinamica Orbitale

Informazioni Fondamentali

  • ID Articolo: 2504.04160
  • Titolo: OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics
  • Autori: Alexandre Oliveira, Katarina Dyreby, Francisco Caldas, Cláudia Soares (NOVA LINCS)
  • Classificazione: cs.LG cs.MA
  • Conferenza di Pubblicazione: NeurIPS 2025
  • Link Articolo: https://arxiv.org/abs/2504.04160v3

Riassunto

Con l'aumento continuo del numero di satelliti e detriti orbitali, la congestione dello spazio è diventata una questione critica che minaccia la sicurezza e la sostenibilità dei satelliti. Sfide come l'evitamento di collisioni, il mantenimento della posizione e le manovre orbitali richiedono tecnologie avanzate per gestire l'incertezza dinamica e le interazioni multi-agente. L'apprendimento per rinforzo (RL) ha dimostrato potenziale in questo ambito, fornendo strategie adattive e autonome per le operazioni spaziali; tuttavia, molti framework RL esistenti si basano su ambienti personalizzati costruiti da zero, utilizzando frequentemente modelli semplificati che richiedono molto tempo per implementare e validare la dinamica orbitale, limitando la loro capacità di catturare pienamente la complessità del mondo reale. Per affrontare questo problema, il presente articolo introduce OrbitZoo, un ambiente RL multi-agente versatile costruito su librerie industriali standard ad alta fedeltà, che consente la generazione di dati realistici, supporta scenari di evitamento di collisioni e manovre collaborative, e garantisce una dinamica orbitale robusta e accurata. L'ambiente è stato validato confrontandolo con la costellazione satellitare reale Starlink, raggiungendo un errore percentuale assoluto medio (MAPE) dello 0,16% rispetto ai dati del mondo reale.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema della Congestione Spaziale: Dall'anno 1957, l'umanità ha lanciato circa 20.000 satelliti, e attualmente l'ambiente orbitale contiene circa 140 milioni di oggetti di detrito, di cui circa 1 milione di dimensioni superiori a 1 centimetro, sufficienti a causare danni catastrofici in caso di impatto.
  2. Minaccia della Sindrome di Kessler: Le collisioni di detriti generano ulteriori detriti, creando una reazione a catena che potrebbe rendere inutilizzabili le orbite terrestri.
  3. Limitazioni dei Metodi Tradizionali: Le attuali soluzioni di manovra satellitare dipendono fortemente da processi manuali e diventano insostenibili con la crescita continua del numero di satelliti e detriti orbitali.

Motivazione della Ricerca

  1. Necessità di Automazione: Sviluppare sistemi decisionali intelligenti autonomi più veloci e capaci.
  2. Potenziale Applicativo dell'RL: L'RL dimostra eccellenza nell'adattamento in tempo reale a sistemi spaziali complessi, dinamici e non lineari.
  3. Mancanza di Standardizzazione: I framework RL esistenti mancano di standardizzazione; la maggior parte si basa su modelli semplificati, difficili da applicare alla complessità del mondo reale.

Contributi Fondamentali

  1. Generazione di Dati ad Alta Fedeltà: Costruita su librerie di dinamica spaziale Python robuste, integra forze realistiche e perturbazioni, fornendo dataset accurati e supportando il calcolo parallelo per la propagazione veloce.
  2. Supporto per Apprendimento per Rinforzo Multi-Agente: Piattaforma di ricerca RL standardizzata che sfrutta la libreria PettingZoo per supportare processi decisionali di Markov parzialmente osservabili (POMDP) multi-agente, con scalabilità a sistemi di migliaia di corpi celesti.
  3. Framework Personalizzabile e Visualizzazione: Il design modulare consente agli utenti di definire scenari con un numero arbitrario di corpi celesti, integrare modelli personalizzati, con chiara separazione dei livelli di astrazione, e fornisce componenti di visualizzazione 3D interattiva.
  4. Validazione nel Mondo Reale: Attraverso validazione comparativa con la costellazione satellitare Starlink, raggiunge un MAPE dello 0,16%, garantendo l'affidabilità della simulazione ad alta fedeltà.

Dettagli Metodologici

Definizione dei Compiti

OrbitZoo mira a fornire un ambiente multi-agente RL standardizzato e ad alta fedeltà per la dinamica orbitale, supportando:

  • Compiti mono-agente e multi-agente
  • Scenari cooperativi, competitivi o ibridi
  • Spazi di azione continui e discreti
  • Ambienti parzialmente osservabili

Architettura del Modello

Progettazione dei Moduli Fondamentali

  1. Classe Body: Classe base per entità fisiche
    • Contiene identificatore univoco, massa, raggio, posizione e velocità iniziali
    • Propagatore numerico integrato per calcolare stati futuri
    • Supporta propagazione dell'incertezza
  2. Classe Satellite: Estende la classe Body
    • Aggiunge sistemi di propulsione e parametri dell'agente
    • Supporta parametrizzazione della spinta in coordinate polari (T, θ, φ)
    • Include parametri di massa del carburante e impulso specifico
  3. Classe Interface: Visualizzazione 3D interattiva
    • Componenti visivi personalizzabili
    • Aggiornamento dello stato del sistema in tempo reale
    • Prospettive di telecamera flessibili
  4. Classe Environment: Interfaccia di interazione di alto livello
    • Compatibile con standard PettingZoo
    • Supporta compiti mono/multi-agente
    • Fornisce gestione delle informazioni sullo stato orbitale

Punti di Innovazione Tecnica

1. Modellazione della Dinamica ad Alta Fedeltà

  • Modellazione del Campo Gravitazionale: Utilizzo di funzioni armoniche sferiche Holmes-Featherstone
  • Forze di Perturbazione: Resistenza atmosferica, pressione della radiazione solare, effetti di terzi corpi
  • Integrazione Numerica: Supporto del metodo a passo variabile Dormand-Prince

2. Supporto dei Sistemi di Coordinate

  • Coordinate Cartesiane: Calcolo numerico diretto
  • Elementi Kepleriani: Descrizione della geometria orbitale
  • Elementi Equinoziali: Evita problemi di singolarità

3. Modellazione della Spinta

Utilizza parametrizzazione in coordinate polari, più realistica rispetto al tradizionale sistema di coordinate RSW:

T_RSW = T(cos θ Ŝ + sin θ(cos φ R̂ + sin φ Ŵ))

4. Propagazione dell'Incertezza

Utilizza approssimazione analitica della matrice di transizione di stato per simulazioni Monte Carlo:

Σ_Δt = ΦΣ_0Φ^T

Configurazione Sperimentale

Progettazione degli Scenari Sperimentali

1. Compiti Mono-Agente

  • Manovra di Hohmann: Trasferimento orbitale classico
  • Evitamento di Collisioni: Riduzione della probabilità di collisione
  • Inseguimento di Obiettivo: Tracciamento di obiettivi dinamici

2. Compiti Multi-Agente

  • Coordinamento della Costellazione GEO: Distribuzione uniforme in orbita geostazionaria
  • Apprendimento Indipendente vs Apprendimento Federato: Confronto di diverse strategie collaborative

Metriche di Valutazione

  • Precisione Orbitale: Deviazione dalla soluzione teorica
  • Consumo di Carburante: Efficienza del carburante nel completamento del compito
  • Probabilità di Collisione: PoC < 10^-6 come soglia di sicurezza
  • Prestazioni di Convergenza: Ricompensa cumulativa per episodio di addestramento

Metodi di Confronto

  • DDPG: Benchmark di controllo continuo
  • PPO: Metodo di ottimizzazione delle politiche
  • DDQN: Spazio di azione discreto
  • Apprendimento Indipendente: Multi-agente senza comunicazione
  • Apprendimento Federato: Collaborazione con condivisione di parametri

Dettagli di Implementazione

  • Architettura di Rete: Due strati nascosti, funzione di attivazione Tanh
  • Parametri di Addestramento: Tasso di apprendimento 0,0001, GAE λ=0,95
  • Configurazione Hardware: CPU Intel i3-8100, GPU GTX 1050 Ti, RAM 16GB

Risultati Sperimentali

Risultati Principali

  • Gruppo RMSE Basso: 24,14 metri (propagazione di 16,6 ore)
  • Gruppo RMSE Medio: 83,75 metri
  • Gruppo RMSE Alto: 1924,90 metri
  • MAPE Complessivo: 0,16%

2. Esperimento di Manovra di Hohmann

  • Apprendimento riuscito di strategie quasi-ottimali, corrispondenza con valori teorici del semiasse maggiore
  • Raggiungimento dell'orbita target anche in condizioni di perturbazione realistica
  • Convergenza più veloce nell'esperimento 2 rispetto all'esperimento 1 (α2=0,5 vs α2=0)

3. Confronto dell'Evitamento di Collisioni

  • Prestazioni PPO: Applicazione precoce della spinta, riduzione efficace del rischio di collisione
  • Prestazioni DDQN: Efficace nella dinamica di addestramento, ma scarsa capacità di generalizzazione
  • Vantaggi dello Spazio di Azione Continuo: PPO mostra prestazioni superiori in dinamica realistica

4. Coordinamento della Costellazione GEO

  • Gli agenti imparano con successo strategie di distribuzione uniforme
  • L'apprendimento federato converge più velocemente
  • Buona capacità di generalizzazione in perturbazioni non viste

Esperimenti di Ablazione

Impatto della Penalità di Direzione della Spinta

Il confronto sperimentale mostra che l'aggiunta di una penalità lungo la direzione tangenziale nella funzione di ricompensa (α2=0,5) migliora significativamente l'apprendimento:

  • Convergenza più veloce verso l'orbita target
  • Riduzione delle manovre non necessarie fuori dal piano orbitale
  • Maggiore vicinanza alla manovra di Hohmann ottimale

Impatto della Complessità della Dinamica

  • Addestramento con Modello Semplificato: Solo gravità newtoniana
  • Valutazione Realistica: Tutte le forze di perturbazione
  • Capacità di Generalizzazione: Le strategie addestrate rimangono efficaci in condizioni realistiche

Analisi delle Prestazioni

Prestazioni Computazionali

  • Complessità Temporale: O(n), dove n è il numero di corpi celesti
  • Effetto della Parallelizzazione: Modelli di forza complessi beneficiano maggiormente della parallelizzazione
  • Scalabilità: Supporta sistemi con migliaia di corpi celesti

Lavori Correlati

Applicazioni RL nella Dinamica Orbitale

  • Metodi Tradizionali: Principalmente basati su modelli semplificati CR3BP
  • Applicazioni Orekit: Pochi studi utilizzano librerie ad alta fedeltà
  • Sviluppo Multi-Agente: Recente attenzione ai compiti di coordinamento

Ambienti RL Multi-Agente

  • Algoritmo REDA: Utilizza Poliastro e DQN
  • Applicazione MAPPO: Pianificazione di osservazione multi-satellitare
  • Volo in Formazione: Considera solo gravità newtoniana

Vantaggi di OrbitZoo

Rispetto agli ambienti esistenti, OrbitZoo è l'unico che supporta simultaneamente:

  • RL multi-agente
  • Simulatore standard industriale
  • Dinamica ad alta fedeltà
  • Controllo continuo
  • Modellazione realistica di corpi celesti e spinta
  • Visualizzazione interattiva
  • Disponibilità pubblica

Conclusioni e Discussione

Conclusioni Principali

  1. Validazione Riuscita: OrbitZoo è stato validato con dati Starlink, con MAPE di soli 0,16%
  2. Funzionalità Completa: Supporta compiti mono/multi-agente, scenari cooperativi/competitivi
  3. Prestazioni Eccellenti: Le strategie addestrate mostrano buone prestazioni in dinamica realistica
  4. Forte Usabilità: Design modulare, supporta sviluppo e distribuzione rapidi

Limitazioni

  1. Overhead Computazionale: La simulazione ad alta fedeltà richiede più risorse computazionali
  2. Regolazione dei Parametri: Gli esperimenti non hanno condotto un'ampia ottimizzazione degli iperparametri
  3. Sfide di Scalabilità: La simulazione in tempo reale di grandi costellazioni rimane impegnativa
  4. Dipendenza dal Modello: Dipende dall'accuratezza della libreria Orekit

Direzioni Future

  1. Ottimizzazione degli Algoritmi: Esplorare algoritmi RL specializzati per orbite
  2. Estensione delle Applicazioni: Supportare più tipi di compiti e vincoli
  3. Miglioramento delle Prestazioni: Accelerazione GPU e calcolo distribuito
  4. Promozione della Standardizzazione: Stabilire benchmark per RL orbitale

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione: Primo ambiente RL multi-agente orbitale basato su librerie standard industriali
  2. Validazione Completa: Validato con dati satellitari reali, alta credibilità
  3. Funzionalità Completa: Supporta molteplici scenari e algoritmi, buona estensibilità
  4. Alto Valore Pratico: Applicabile direttamente allo sviluppo di compiti satellitari reali

Insufficienze

  1. Efficienza Computazionale: Costi computazionali elevati della simulazione ad alta fedeltà
  2. Limitazioni Algoritmiche: Principalmente verifica di algoritmi RL classici, mancanza di ottimizzazione specializzata
  3. Copertura degli Scenari: Scenari sperimentali relativamente limitati, potenziale per più applicazioni
  4. Analisi Teorica: Mancanza di garanzie teoriche di convergenza

Impatto

  1. Contributo Accademico: Colma il vuoto di ambienti standardizzati per RL orbitale
  2. Valore Industriale: Applicabile allo sviluppo di controllo autonomo satellitare reale
  3. Significato Open Source: Promuove la riproducibilità della ricerca in questo campo
  4. Definizione di Standard: Potenziale per diventare piattaforma standard per la ricerca RL orbitale

Scenari Applicabili

  1. Controllo Autonomo Satellitare: Mantenimento orbitale, pianificazione di manovre
  2. Gestione della Costellazione: Coordinamento multi-satellitare, volo in formazione
  3. Evitamento di Collisioni: Strategie di elusione dei detriti spaziali
  4. Pianificazione di Missioni: Decisioni intelligenti per compiti spaziali complessi
  5. Educazione e Formazione: Insegnamento dell'ingegneria aerospaziale e dell'apprendimento automatico

Bibliografia

  1. Orekit: Libreria open-source di meccanica celeste
  2. PettingZoo: Standard per ambienti RL multi-agente
  3. Dati di effemeridi Starlink: Dati di validazione dell'orbita satellitare
  4. Ricerca correlata RL orbitale: Kolosa (2019), Herrera (2020), Casas (2022) e altri

Sintesi: OrbitZoo è un ambiente open-source di apprendimento per rinforzo multi-agente con significativo valore accademico e pratico, che fornisce uno strumento potente per la ricerca e lo sviluppo di sistemi autonomi spaziali attraverso la modellazione della dinamica orbitale ad alta fedeltà e la validazione con dati reali. Questo lavoro non solo promuove l'applicazione dell'RL nel settore aerospaziale, ma contribuisce anche significativamente allo sviluppo standardizzato di questa disciplina interdisciplinare.