2025-11-25T07:58:17.729708

OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics

Oliveira, Dyreby, Caldas et al.

The increasing number of satellites and orbital debris has made space congestion a critical issue, threatening satellite safety and sustainability. Challenges such as collision avoidance, station-keeping, and orbital maneuvering require advanced techniques to handle dynamic uncertainties and multi-agent interactions. Reinforcement learning (RL) has shown promise in this domain, enabling adaptive, autonomous policies for space operations; however, many existing RL frameworks rely on custom-built environments developed from scratch, which often use simplified models and require significant time to implement and validate the orbital dynamics, limiting their ability to fully capture real-world complexities. To address this, we introduce OrbitZoo, a versatile multi-agent RL environment built on a high-fidelity industry standard library, that enables realistic data generation, supports scenarios like collision avoidance and cooperative maneuvers, and ensures robust and accurate orbital dynamics. The environment is validated against a real satellite constellation, Starlink, achieving a Mean Absolute Percentage Error (MAPE) of 0.16% compared to real-world data. This validation ensures reliability for generating high-fidelity simulations and enabling autonomous and independent satellite operations.

academic

OrbitZoo : Environnement d'Apprentissage par Renforcement Multi-Agent pour la Dynamique Orbitale

Informations Fondamentales

ID de l'article : 2504.04160
Titre : OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics
Auteurs : Alexandre Oliveira, Katarina Dyreby, Francisco Caldas, Cláudia Soares (NOVA LINCS)
Classification : cs.LG cs.MA
Conférence de publication : NeurIPS 2025
Lien de l'article : https://arxiv.org/abs/2504.04160v3

Résumé

Avec l'augmentation croissante du nombre de satellites et de débris orbitaux, l'encombrement spatial est devenu un problème critique menaçant la sécurité et la durabilité des satellites. Les défis tels que l'évitement de collision, le maintien de position et les manœuvres orbitales nécessitent des technologies avancées pour gérer l'incertitude dynamique et les interactions multi-agents. L'apprentissage par renforcement (RL) a montré son potentiel dans ce domaine, capable de fournir des stratégies adaptatives et autonomes pour les opérations spatiales ; cependant, de nombreux cadres RL existants reposent sur des environnements personnalisés construits à partir de zéro, utilisant généralement des modèles simplifiés, nécessitant beaucoup de temps pour implémenter et valider la dynamique orbitale, ce qui limite leur capacité à capturer pleinement la complexité du monde réel. Pour résoudre ce problème, cet article introduit OrbitZoo, un environnement RL multi-agent polyvalent construit sur des bibliothèques de normes industrielles haute fidélité, capable de générer des données réalistes, supportant des scénarios d'évitement de collision et de manœuvres collaboratives, et assurant une dynamique orbitale robuste et précise. L'environnement a été validé par rapport à la constellation de satellites réelle Starlink, réalisant une erreur de pourcentage absolu moyen (MAPE) de 0,16 % par rapport aux données du monde réel.

Contexte de Recherche et Motivation

Définition du Problème

Problème d'encombrement spatial : Depuis 1957, l'humanité a lancé environ 20 000 satellites, et actuellement l'environnement orbital contient environ 140 millions d'objets débris, dont environ 1 million de plus d'un centimètre, suffisant pour causer des dommages catastrophiques lors d'une collision.
Menace du syndrome de Kessler : Les collisions de débris produisent plus de débris, créant une réaction en chaîne qui pourrait rendre les orbites terrestres inutilisables.
Limitations des approches traditionnelles : Les solutions actuelles de manœuvre de satellites dépendent fortement de processus manuels, devenant insoutenables à mesure que le nombre de satellites et de débris orbitaux augmente continuellement.

Motivation de la Recherche

Besoin d'automatisation : Nécessité de développer des systèmes de prise de décision autonomes plus rapides et plus capables.
Potentiel d'application du RL : Le RL excelle dans l'adaptation en temps réel aux systèmes spatiaux complexes, dynamiques et non linéaires.
Absence de normalisation : Les cadres RL existants manquent de normalisation, la plupart étant basés sur des modèles simplifiés, difficiles à capturer la complexité du monde réel.

Contributions Principales

Génération de données haute fidélité : Construite sur Python et des bibliothèques puissantes de dynamique spatiale, intégrant des forces réelles et des perturbations, fournissant des ensembles de données précis, supportant le calcul parallèle pour une propagation rapide.
Support de l'apprentissage par renforcement multi-agent : Plateforme de recherche RL normalisée, utilisant la bibliothèque PettingZoo pour supporter le RL multi-agent avec structure de processus de décision de Markov partiellement observable (POMDP), supportant l'extension de systèmes avec des milliers de corps célestes.
Cadre personnalisable et visualisation : La conception modulaire permet aux utilisateurs de définir des scénarios avec un nombre arbitraire de corps célestes, d'intégrer des modèles personnalisés, avec une séparation claire des niveaux d'abstraction, fournissant des composants de visualisation 3D interactifs.
Validation du monde réel : Validation par comparaison avec la constellation de satellites Starlink, réalisant une MAPE de 0,16 %, assurant la fiabilité de la simulation haute fidélité.

Détails de la Méthode

Définition des Tâches

OrbitZoo vise à fournir un environnement multi-agent normalisé et haute fidélité pour l'apprentissage par renforcement en dynamique orbitale, supportant :

Les tâches mono-agent et multi-agent
Les scénarios coopératifs, compétitifs ou hybrides
Les espaces d'action continus et discrets
Les environnements partiellement observables

Architecture du Modèle

Conception des Modules Principaux

Classe Body : Classe de base pour les entités physiques
- Contient l'identifiant unique, la masse, le rayon, la position et la vitesse initiales
- Propagateur numérique intégré pour calculer les états futurs
- Support de la propagation d'incertitude
Classe Satellite : Extension de la classe Body
- Ajoute les paramètres du système de propulsion et de l'agent
- Support de la paramétrisation de la poussée en coordonnées polaires (T, θ, φ)
- Inclut les paramètres de masse de carburant et d'impulsion spécifique
Classe Interface : Visualisation 3D interactive
- Composants visuels personnalisables
- Mise à jour en temps réel de l'état du système
- Perspectives de caméra flexibles
Classe Environment : Interface d'interaction de haut niveau
- Compatible avec la norme PettingZoo
- Support des tâches mono/multi-agent
- Gestion des informations d'état orbital

Points d'Innovation Technique

1. Modélisation de Dynamique Haute Fidélité

Modélisation du champ gravitationnel : Utilisation de fonctions harmoniques sphériques Holmes-Featherstone
Forces de perturbation : Traînée atmosphérique, pression de radiation solaire, effets des tiers corps
Intégration numérique : Support de la méthode à pas variable Dormand-Prince

2. Support des Systèmes de Coordonnées

Coordonnées cartésiennes : Calcul numérique direct
Éléments kepleriens : Description géométrique de l'orbite
Éléments équinoxiaux : Évite les problèmes de singularité

3. Modélisation de la Poussée

Utilise une paramétrisation en coordonnées polaires, plus réaliste que le système RSW traditionnel :

T_RSW = T(cos θ Ŝ + sin θ(cos φ R̂ + sin φ Ŵ))

4. Propagation d'Incertitude

Utilise la matrice de transition d'état (STM) pour approximer analytiquement les simulations de Monte-Carlo :

Σ_Δt = ΦΣ_0Φ^T

Configuration Expérimentale

Conception des Scénarios Expérimentaux

1. Tâches Mono-Agent

Manœuvre de Hohmann : Transfert orbital classique
Évitement de collision : Réduction de la probabilité de collision
Suivi de cible : Suivi de cible dynamique

2. Tâches Multi-Agent

Coordination de constellation GEO : Distribution uniforme en orbite géostationnaire
Apprentissage indépendant vs apprentissage fédéré : Comparaison de différentes stratégies de collaboration

Métriques d'Évaluation

Précision orbitale : Écart par rapport à la solution théorique
Consommation de carburant : Efficacité énergétique pour l'accomplissement de la tâche
Probabilité de collision : PoC < 10^-6 comme seuil de sécurité
Performance de convergence : Récompense cumulative des épisodes d'entraînement

Méthodes de Comparaison

DDPG : Référence de contrôle continu
PPO : Méthode d'optimisation de politique
DDQN : Espace d'action discret
Apprentissage indépendant : Multi-agent sans communication
Apprentissage fédéré : Collaboration par partage de paramètres

Détails d'Implémentation

Architecture de réseau : Deux couches cachées, fonction d'activation Tanh
Paramètres d'entraînement : Taux d'apprentissage 0,0001, GAE λ=0,95
Configuration matérielle : Processeur Intel i3-8100, GPU GTX 1050 Ti, RAM 16 Go

Résultats Expérimentaux

Résultats Principaux

1. Résultats de Validation Starlink

Groupe RMSE faible : 24,14 mètres (propagation de 16,6 heures)
Groupe RMSE moyen : 83,75 mètres
Groupe RMSE élevé : 1924,90 mètres
MAPE globale : 0,16 %

2. Expérience de Manœuvre de Hohmann

Apprentissage réussi d'une stratégie quasi-optimale, correspondant à la valeur théorique du demi-grand axe
Capacité à atteindre l'orbite cible même sous perturbations réalistes
Convergence plus rapide dans l'expérience 2 par rapport à l'expérience 1 (α2=0,5 vs α2=0)

3. Comparaison d'Évitement de Collision

Performance PPO : Application précoce de poussée, réduction efficace du risque de collision
Performance DDQN : Efficace sous la dynamique d'entraînement, mais faible capacité de généralisation
Avantage de l'espace d'action continu : PPO surpasse sous dynamique réaliste

4. Coordination de Constellation GEO

Les agents apprennent avec succès une stratégie de distribution uniforme
L'apprentissage fédéré converge plus rapidement
Bonne capacité de généralisation sous perturbations non observées

Expériences d'Ablation

Impact de la Pénalité de Direction de Poussée

Les expériences de comparaison montrent que l'ajout d'une pénalité de direction le long de l'orbite (α2=0,5) dans la fonction de récompense améliore significativement l'apprentissage :

Convergence plus rapide vers l'orbite cible
Réduction des manœuvres inutiles hors du plan orbital
Approche plus proche de la manœuvre de Hohmann optimale

Impact de la Complexité de la Dynamique

Entraînement sur modèle simplifié : Gravité newtonienne uniquement
Évaluation réaliste : Toutes les forces de perturbation
Capacité de généralisation : Les stratégies entraînées restent efficaces sous conditions réalistes

Analyse de Performance

Performance de Calcul

Complexité temporelle : O(n), n étant le nombre de corps
Effet de parallélisation : Les modèles de force complexes bénéficient davantage de la parallélisation
Extensibilité : Support de systèmes avec des milliers de corps

Travaux Connexes

Applications du RL en Dynamique Orbitale

Approches traditionnelles : Plupart basées sur des modèles simplifiés CR3BP
Applications Orekit : Peu d'études utilisant des bibliothèques haute fidélité
Développement multi-agent : Intérêt croissant récent pour les tâches de coordination

Environnements RL Multi-Agent

Algorithme REDA : Utilisation de Poliastro et DQN
Application MAPPO : Planification d'observation multi-satellite
Vol en formation : Considère uniquement la gravité newtonienne

Avantages d'OrbitZoo

Comparé aux environnements existants, OrbitZoo est le seul à supporter simultanément :

RL multi-agent
Simulateur de norme industrielle
Dynamique haute fidélité
Contrôle continu
Modélisation réaliste de corps célestes et de poussée
Visualisation interactive
Disponibilité publique

Conclusion et Discussion

Conclusions Principales

Validation réussie : OrbitZoo validé par les données Starlink, MAPE de seulement 0,16 %
Fonctionnalité complète : Support des tâches mono/multi-agent, scénarios coopératifs/compétitifs
Performance excellente : Les stratégies entraînées fonctionnent bien sous dynamique réaliste
Facilité d'utilisation : Conception modulaire, support du développement et du déploiement rapides

Limitations

Surcharge de calcul : La simulation haute fidélité nécessite plus de ressources informatiques
Ajustement des paramètres : Optimisation étendue des hyperparamètres non effectuée dans les expériences
Défis d'extension : La simulation en temps réel de grandes constellations reste un défi
Dépendance au modèle : Dépend de la précision de la bibliothèque Orekit

Directions Futures

Optimisation d'algorithme : Exploration d'algorithmes RL spécialisés pour l'orbite
Extension d'applications : Support de plus de types de tâches et de contraintes
Amélioration de performance : Accélération GPU et calcul distribué
Avancement de la normalisation : Établissement de benchmarks pour le RL orbital

Évaluation Approfondie

Points Forts

Innovation forte : Premier environnement RL orbital multi-agent basé sur des bibliothèques de norme industrielle
Validation suffisante : Validation par données de satellites réels, haute crédibilité
Fonctionnalité complète : Support de multiples scénarios et algorithmes, bonne extensibilité
Valeur pratique élevée : Utilisable directement pour le développement de tâches satellites réelles

Insuffisances

Efficacité de calcul : Coût de calcul élevé de la simulation haute fidélité
Limitations d'algorithme : Validation principale d'algorithmes RL classiques, manque d'optimisation spécialisée
Couverture de scénarios : Scénarios expérimentaux relativement limités, extensibilité possible
Analyse théorique : Manque de garanties théoriques de convergence

Impact

Contribution académique : Comble le vide des environnements RL orbitaux normalisés
Valeur industrielle : Utilisable pour le développement du contrôle autonome de satellites réels
Signification open-source : Promeut la reproductibilité de la recherche dans ce domaine
Établissement de normes : Susceptible de devenir la plateforme standard pour la recherche en RL orbital

Scénarios d'Application

Contrôle autonome de satellites : Maintien d'orbite, planification de manœuvre
Gestion de constellation : Coordination multi-satellite, vol en formation
Évitement de collision : Stratégies de contournement de débris spatiaux
Planification de mission : Prise de décision intelligente pour tâches spatiales complexes
Éducation et formation : Enseignement en ingénierie aérospatiale et apprentissage automatique

Références

Orekit : Bibliothèque open-source de mécanique céleste
PettingZoo : Norme d'environnement RL multi-agent
Données d'éphéméride Starlink : Données de validation d'orbite de satellite
Recherches connexes en RL orbital : Kolosa (2019), Herrera (2020), Casas (2022), et autres

Résumé : OrbitZoo est un environnement d'apprentissage par renforcement multi-agent open-source d'importance académique et pratique significative, fournissant un outil puissant pour la recherche et le développement de systèmes autonomes spatiaux grâce à la modélisation haute fidélité de la dynamique orbitale et à la validation par données réelles. Ce travail non seulement fait progresser l'application du RL dans le domaine aérospatial, mais contribue également de manière importante au développement normalisé de cette discipline interdisciplinaire.