OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics
Oliveira, Dyreby, Caldas et al.
The increasing number of satellites and orbital debris has made space congestion a critical issue, threatening satellite safety and sustainability. Challenges such as collision avoidance, station-keeping, and orbital maneuvering require advanced techniques to handle dynamic uncertainties and multi-agent interactions. Reinforcement learning (RL) has shown promise in this domain, enabling adaptive, autonomous policies for space operations; however, many existing RL frameworks rely on custom-built environments developed from scratch, which often use simplified models and require significant time to implement and validate the orbital dynamics, limiting their ability to fully capture real-world complexities. To address this, we introduce OrbitZoo, a versatile multi-agent RL environment built on a high-fidelity industry standard library, that enables realistic data generation, supports scenarios like collision avoidance and cooperative maneuvers, and ensures robust and accurate orbital dynamics. The environment is validated against a real satellite constellation, Starlink, achieving a Mean Absolute Percentage Error (MAPE) of 0.16% compared to real-world data. This validation ensures reliability for generating high-fidelity simulations and enabling autonomous and independent satellite operations.
academic
OrbitZoo : Environnement d'Apprentissage par Renforcement Multi-Agent pour la Dynamique Orbitale
Avec l'augmentation croissante du nombre de satellites et de débris orbitaux, l'encombrement spatial est devenu un problème critique menaçant la sécurité et la durabilité des satellites. Les défis tels que l'évitement de collision, le maintien de position et les manœuvres orbitales nécessitent des technologies avancées pour gérer l'incertitude dynamique et les interactions multi-agents. L'apprentissage par renforcement (RL) a montré son potentiel dans ce domaine, capable de fournir des stratégies adaptatives et autonomes pour les opérations spatiales ; cependant, de nombreux cadres RL existants reposent sur des environnements personnalisés construits à partir de zéro, utilisant généralement des modèles simplifiés, nécessitant beaucoup de temps pour implémenter et valider la dynamique orbitale, ce qui limite leur capacité à capturer pleinement la complexité du monde réel. Pour résoudre ce problème, cet article introduit OrbitZoo, un environnement RL multi-agent polyvalent construit sur des bibliothèques de normes industrielles haute fidélité, capable de générer des données réalistes, supportant des scénarios d'évitement de collision et de manœuvres collaboratives, et assurant une dynamique orbitale robuste et précise. L'environnement a été validé par rapport à la constellation de satellites réelle Starlink, réalisant une erreur de pourcentage absolu moyen (MAPE) de 0,16 % par rapport aux données du monde réel.
Problème d'encombrement spatial : Depuis 1957, l'humanité a lancé environ 20 000 satellites, et actuellement l'environnement orbital contient environ 140 millions d'objets débris, dont environ 1 million de plus d'un centimètre, suffisant pour causer des dommages catastrophiques lors d'une collision.
Menace du syndrome de Kessler : Les collisions de débris produisent plus de débris, créant une réaction en chaîne qui pourrait rendre les orbites terrestres inutilisables.
Limitations des approches traditionnelles : Les solutions actuelles de manœuvre de satellites dépendent fortement de processus manuels, devenant insoutenables à mesure que le nombre de satellites et de débris orbitaux augmente continuellement.
Besoin d'automatisation : Nécessité de développer des systèmes de prise de décision autonomes plus rapides et plus capables.
Potentiel d'application du RL : Le RL excelle dans l'adaptation en temps réel aux systèmes spatiaux complexes, dynamiques et non linéaires.
Absence de normalisation : Les cadres RL existants manquent de normalisation, la plupart étant basés sur des modèles simplifiés, difficiles à capturer la complexité du monde réel.
Génération de données haute fidélité : Construite sur Python et des bibliothèques puissantes de dynamique spatiale, intégrant des forces réelles et des perturbations, fournissant des ensembles de données précis, supportant le calcul parallèle pour une propagation rapide.
Support de l'apprentissage par renforcement multi-agent : Plateforme de recherche RL normalisée, utilisant la bibliothèque PettingZoo pour supporter le RL multi-agent avec structure de processus de décision de Markov partiellement observable (POMDP), supportant l'extension de systèmes avec des milliers de corps célestes.
Cadre personnalisable et visualisation : La conception modulaire permet aux utilisateurs de définir des scénarios avec un nombre arbitraire de corps célestes, d'intégrer des modèles personnalisés, avec une séparation claire des niveaux d'abstraction, fournissant des composants de visualisation 3D interactifs.
Validation du monde réel : Validation par comparaison avec la constellation de satellites Starlink, réalisant une MAPE de 0,16 %, assurant la fiabilité de la simulation haute fidélité.
OrbitZoo vise à fournir un environnement multi-agent normalisé et haute fidélité pour l'apprentissage par renforcement en dynamique orbitale, supportant :
Les tâches mono-agent et multi-agent
Les scénarios coopératifs, compétitifs ou hybrides
Les expériences de comparaison montrent que l'ajout d'une pénalité de direction le long de l'orbite (α2=0,5) dans la fonction de récompense améliore significativement l'apprentissage :
Convergence plus rapide vers l'orbite cible
Réduction des manœuvres inutiles hors du plan orbital
Approche plus proche de la manœuvre de Hohmann optimale
Orekit : Bibliothèque open-source de mécanique céleste
PettingZoo : Norme d'environnement RL multi-agent
Données d'éphéméride Starlink : Données de validation d'orbite de satellite
Recherches connexes en RL orbital : Kolosa (2019), Herrera (2020), Casas (2022), et autres
Résumé : OrbitZoo est un environnement d'apprentissage par renforcement multi-agent open-source d'importance académique et pratique significative, fournissant un outil puissant pour la recherche et le développement de systèmes autonomes spatiaux grâce à la modélisation haute fidélité de la dynamique orbitale et à la validation par données réelles. Ce travail non seulement fait progresser l'application du RL dans le domaine aérospatial, mais contribue également de manière importante au développement normalisé de cette discipline interdisciplinaire.