2025-11-25T07:58:17.729708

OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics

Oliveira, Dyreby, Caldas et al.
The increasing number of satellites and orbital debris has made space congestion a critical issue, threatening satellite safety and sustainability. Challenges such as collision avoidance, station-keeping, and orbital maneuvering require advanced techniques to handle dynamic uncertainties and multi-agent interactions. Reinforcement learning (RL) has shown promise in this domain, enabling adaptive, autonomous policies for space operations; however, many existing RL frameworks rely on custom-built environments developed from scratch, which often use simplified models and require significant time to implement and validate the orbital dynamics, limiting their ability to fully capture real-world complexities. To address this, we introduce OrbitZoo, a versatile multi-agent RL environment built on a high-fidelity industry standard library, that enables realistic data generation, supports scenarios like collision avoidance and cooperative maneuvers, and ensures robust and accurate orbital dynamics. The environment is validated against a real satellite constellation, Starlink, achieving a Mean Absolute Percentage Error (MAPE) of 0.16% compared to real-world data. This validation ensures reliability for generating high-fidelity simulations and enabling autonomous and independent satellite operations.
academic

OrbitZoo : Environnement d'Apprentissage par Renforcement Multi-Agent pour la Dynamique Orbitale

Informations Fondamentales

  • ID de l'article : 2504.04160
  • Titre : OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics
  • Auteurs : Alexandre Oliveira, Katarina Dyreby, Francisco Caldas, Cláudia Soares (NOVA LINCS)
  • Classification : cs.LG cs.MA
  • Conférence de publication : NeurIPS 2025
  • Lien de l'article : https://arxiv.org/abs/2504.04160v3

Résumé

Avec l'augmentation croissante du nombre de satellites et de débris orbitaux, l'encombrement spatial est devenu un problème critique menaçant la sécurité et la durabilité des satellites. Les défis tels que l'évitement de collision, le maintien de position et les manœuvres orbitales nécessitent des technologies avancées pour gérer l'incertitude dynamique et les interactions multi-agents. L'apprentissage par renforcement (RL) a montré son potentiel dans ce domaine, capable de fournir des stratégies adaptatives et autonomes pour les opérations spatiales ; cependant, de nombreux cadres RL existants reposent sur des environnements personnalisés construits à partir de zéro, utilisant généralement des modèles simplifiés, nécessitant beaucoup de temps pour implémenter et valider la dynamique orbitale, ce qui limite leur capacité à capturer pleinement la complexité du monde réel. Pour résoudre ce problème, cet article introduit OrbitZoo, un environnement RL multi-agent polyvalent construit sur des bibliothèques de normes industrielles haute fidélité, capable de générer des données réalistes, supportant des scénarios d'évitement de collision et de manœuvres collaboratives, et assurant une dynamique orbitale robuste et précise. L'environnement a été validé par rapport à la constellation de satellites réelle Starlink, réalisant une erreur de pourcentage absolu moyen (MAPE) de 0,16 % par rapport aux données du monde réel.

Contexte de Recherche et Motivation

Définition du Problème

  1. Problème d'encombrement spatial : Depuis 1957, l'humanité a lancé environ 20 000 satellites, et actuellement l'environnement orbital contient environ 140 millions d'objets débris, dont environ 1 million de plus d'un centimètre, suffisant pour causer des dommages catastrophiques lors d'une collision.
  2. Menace du syndrome de Kessler : Les collisions de débris produisent plus de débris, créant une réaction en chaîne qui pourrait rendre les orbites terrestres inutilisables.
  3. Limitations des approches traditionnelles : Les solutions actuelles de manœuvre de satellites dépendent fortement de processus manuels, devenant insoutenables à mesure que le nombre de satellites et de débris orbitaux augmente continuellement.

Motivation de la Recherche

  1. Besoin d'automatisation : Nécessité de développer des systèmes de prise de décision autonomes plus rapides et plus capables.
  2. Potentiel d'application du RL : Le RL excelle dans l'adaptation en temps réel aux systèmes spatiaux complexes, dynamiques et non linéaires.
  3. Absence de normalisation : Les cadres RL existants manquent de normalisation, la plupart étant basés sur des modèles simplifiés, difficiles à capturer la complexité du monde réel.

Contributions Principales

  1. Génération de données haute fidélité : Construite sur Python et des bibliothèques puissantes de dynamique spatiale, intégrant des forces réelles et des perturbations, fournissant des ensembles de données précis, supportant le calcul parallèle pour une propagation rapide.
  2. Support de l'apprentissage par renforcement multi-agent : Plateforme de recherche RL normalisée, utilisant la bibliothèque PettingZoo pour supporter le RL multi-agent avec structure de processus de décision de Markov partiellement observable (POMDP), supportant l'extension de systèmes avec des milliers de corps célestes.
  3. Cadre personnalisable et visualisation : La conception modulaire permet aux utilisateurs de définir des scénarios avec un nombre arbitraire de corps célestes, d'intégrer des modèles personnalisés, avec une séparation claire des niveaux d'abstraction, fournissant des composants de visualisation 3D interactifs.
  4. Validation du monde réel : Validation par comparaison avec la constellation de satellites Starlink, réalisant une MAPE de 0,16 %, assurant la fiabilité de la simulation haute fidélité.

Détails de la Méthode

Définition des Tâches

OrbitZoo vise à fournir un environnement multi-agent normalisé et haute fidélité pour l'apprentissage par renforcement en dynamique orbitale, supportant :

  • Les tâches mono-agent et multi-agent
  • Les scénarios coopératifs, compétitifs ou hybrides
  • Les espaces d'action continus et discrets
  • Les environnements partiellement observables

Architecture du Modèle

Conception des Modules Principaux

  1. Classe Body : Classe de base pour les entités physiques
    • Contient l'identifiant unique, la masse, le rayon, la position et la vitesse initiales
    • Propagateur numérique intégré pour calculer les états futurs
    • Support de la propagation d'incertitude
  2. Classe Satellite : Extension de la classe Body
    • Ajoute les paramètres du système de propulsion et de l'agent
    • Support de la paramétrisation de la poussée en coordonnées polaires (T, θ, φ)
    • Inclut les paramètres de masse de carburant et d'impulsion spécifique
  3. Classe Interface : Visualisation 3D interactive
    • Composants visuels personnalisables
    • Mise à jour en temps réel de l'état du système
    • Perspectives de caméra flexibles
  4. Classe Environment : Interface d'interaction de haut niveau
    • Compatible avec la norme PettingZoo
    • Support des tâches mono/multi-agent
    • Gestion des informations d'état orbital

Points d'Innovation Technique

1. Modélisation de Dynamique Haute Fidélité

  • Modélisation du champ gravitationnel : Utilisation de fonctions harmoniques sphériques Holmes-Featherstone
  • Forces de perturbation : Traînée atmosphérique, pression de radiation solaire, effets des tiers corps
  • Intégration numérique : Support de la méthode à pas variable Dormand-Prince

2. Support des Systèmes de Coordonnées

  • Coordonnées cartésiennes : Calcul numérique direct
  • Éléments kepleriens : Description géométrique de l'orbite
  • Éléments équinoxiaux : Évite les problèmes de singularité

3. Modélisation de la Poussée

Utilise une paramétrisation en coordonnées polaires, plus réaliste que le système RSW traditionnel :

T_RSW = T(cos θ Ŝ + sin θ(cos φ R̂ + sin φ Ŵ))

4. Propagation d'Incertitude

Utilise la matrice de transition d'état (STM) pour approximer analytiquement les simulations de Monte-Carlo :

Σ_Δt = ΦΣ_0Φ^T

Configuration Expérimentale

Conception des Scénarios Expérimentaux

1. Tâches Mono-Agent

  • Manœuvre de Hohmann : Transfert orbital classique
  • Évitement de collision : Réduction de la probabilité de collision
  • Suivi de cible : Suivi de cible dynamique

2. Tâches Multi-Agent

  • Coordination de constellation GEO : Distribution uniforme en orbite géostationnaire
  • Apprentissage indépendant vs apprentissage fédéré : Comparaison de différentes stratégies de collaboration

Métriques d'Évaluation

  • Précision orbitale : Écart par rapport à la solution théorique
  • Consommation de carburant : Efficacité énergétique pour l'accomplissement de la tâche
  • Probabilité de collision : PoC < 10^-6 comme seuil de sécurité
  • Performance de convergence : Récompense cumulative des épisodes d'entraînement

Méthodes de Comparaison

  • DDPG : Référence de contrôle continu
  • PPO : Méthode d'optimisation de politique
  • DDQN : Espace d'action discret
  • Apprentissage indépendant : Multi-agent sans communication
  • Apprentissage fédéré : Collaboration par partage de paramètres

Détails d'Implémentation

  • Architecture de réseau : Deux couches cachées, fonction d'activation Tanh
  • Paramètres d'entraînement : Taux d'apprentissage 0,0001, GAE λ=0,95
  • Configuration matérielle : Processeur Intel i3-8100, GPU GTX 1050 Ti, RAM 16 Go

Résultats Expérimentaux

Résultats Principaux

  • Groupe RMSE faible : 24,14 mètres (propagation de 16,6 heures)
  • Groupe RMSE moyen : 83,75 mètres
  • Groupe RMSE élevé : 1924,90 mètres
  • MAPE globale : 0,16 %

2. Expérience de Manœuvre de Hohmann

  • Apprentissage réussi d'une stratégie quasi-optimale, correspondant à la valeur théorique du demi-grand axe
  • Capacité à atteindre l'orbite cible même sous perturbations réalistes
  • Convergence plus rapide dans l'expérience 2 par rapport à l'expérience 1 (α2=0,5 vs α2=0)

3. Comparaison d'Évitement de Collision

  • Performance PPO : Application précoce de poussée, réduction efficace du risque de collision
  • Performance DDQN : Efficace sous la dynamique d'entraînement, mais faible capacité de généralisation
  • Avantage de l'espace d'action continu : PPO surpasse sous dynamique réaliste

4. Coordination de Constellation GEO

  • Les agents apprennent avec succès une stratégie de distribution uniforme
  • L'apprentissage fédéré converge plus rapidement
  • Bonne capacité de généralisation sous perturbations non observées

Expériences d'Ablation

Impact de la Pénalité de Direction de Poussée

Les expériences de comparaison montrent que l'ajout d'une pénalité de direction le long de l'orbite (α2=0,5) dans la fonction de récompense améliore significativement l'apprentissage :

  • Convergence plus rapide vers l'orbite cible
  • Réduction des manœuvres inutiles hors du plan orbital
  • Approche plus proche de la manœuvre de Hohmann optimale

Impact de la Complexité de la Dynamique

  • Entraînement sur modèle simplifié : Gravité newtonienne uniquement
  • Évaluation réaliste : Toutes les forces de perturbation
  • Capacité de généralisation : Les stratégies entraînées restent efficaces sous conditions réalistes

Analyse de Performance

Performance de Calcul

  • Complexité temporelle : O(n), n étant le nombre de corps
  • Effet de parallélisation : Les modèles de force complexes bénéficient davantage de la parallélisation
  • Extensibilité : Support de systèmes avec des milliers de corps

Travaux Connexes

Applications du RL en Dynamique Orbitale

  • Approches traditionnelles : Plupart basées sur des modèles simplifiés CR3BP
  • Applications Orekit : Peu d'études utilisant des bibliothèques haute fidélité
  • Développement multi-agent : Intérêt croissant récent pour les tâches de coordination

Environnements RL Multi-Agent

  • Algorithme REDA : Utilisation de Poliastro et DQN
  • Application MAPPO : Planification d'observation multi-satellite
  • Vol en formation : Considère uniquement la gravité newtonienne

Avantages d'OrbitZoo

Comparé aux environnements existants, OrbitZoo est le seul à supporter simultanément :

  • RL multi-agent
  • Simulateur de norme industrielle
  • Dynamique haute fidélité
  • Contrôle continu
  • Modélisation réaliste de corps célestes et de poussée
  • Visualisation interactive
  • Disponibilité publique

Conclusion et Discussion

Conclusions Principales

  1. Validation réussie : OrbitZoo validé par les données Starlink, MAPE de seulement 0,16 %
  2. Fonctionnalité complète : Support des tâches mono/multi-agent, scénarios coopératifs/compétitifs
  3. Performance excellente : Les stratégies entraînées fonctionnent bien sous dynamique réaliste
  4. Facilité d'utilisation : Conception modulaire, support du développement et du déploiement rapides

Limitations

  1. Surcharge de calcul : La simulation haute fidélité nécessite plus de ressources informatiques
  2. Ajustement des paramètres : Optimisation étendue des hyperparamètres non effectuée dans les expériences
  3. Défis d'extension : La simulation en temps réel de grandes constellations reste un défi
  4. Dépendance au modèle : Dépend de la précision de la bibliothèque Orekit

Directions Futures

  1. Optimisation d'algorithme : Exploration d'algorithmes RL spécialisés pour l'orbite
  2. Extension d'applications : Support de plus de types de tâches et de contraintes
  3. Amélioration de performance : Accélération GPU et calcul distribué
  4. Avancement de la normalisation : Établissement de benchmarks pour le RL orbital

Évaluation Approfondie

Points Forts

  1. Innovation forte : Premier environnement RL orbital multi-agent basé sur des bibliothèques de norme industrielle
  2. Validation suffisante : Validation par données de satellites réels, haute crédibilité
  3. Fonctionnalité complète : Support de multiples scénarios et algorithmes, bonne extensibilité
  4. Valeur pratique élevée : Utilisable directement pour le développement de tâches satellites réelles

Insuffisances

  1. Efficacité de calcul : Coût de calcul élevé de la simulation haute fidélité
  2. Limitations d'algorithme : Validation principale d'algorithmes RL classiques, manque d'optimisation spécialisée
  3. Couverture de scénarios : Scénarios expérimentaux relativement limités, extensibilité possible
  4. Analyse théorique : Manque de garanties théoriques de convergence

Impact

  1. Contribution académique : Comble le vide des environnements RL orbitaux normalisés
  2. Valeur industrielle : Utilisable pour le développement du contrôle autonome de satellites réels
  3. Signification open-source : Promeut la reproductibilité de la recherche dans ce domaine
  4. Établissement de normes : Susceptible de devenir la plateforme standard pour la recherche en RL orbital

Scénarios d'Application

  1. Contrôle autonome de satellites : Maintien d'orbite, planification de manœuvre
  2. Gestion de constellation : Coordination multi-satellite, vol en formation
  3. Évitement de collision : Stratégies de contournement de débris spatiaux
  4. Planification de mission : Prise de décision intelligente pour tâches spatiales complexes
  5. Éducation et formation : Enseignement en ingénierie aérospatiale et apprentissage automatique

Références

  1. Orekit : Bibliothèque open-source de mécanique céleste
  2. PettingZoo : Norme d'environnement RL multi-agent
  3. Données d'éphéméride Starlink : Données de validation d'orbite de satellite
  4. Recherches connexes en RL orbital : Kolosa (2019), Herrera (2020), Casas (2022), et autres

Résumé : OrbitZoo est un environnement d'apprentissage par renforcement multi-agent open-source d'importance académique et pratique significative, fournissant un outil puissant pour la recherche et le développement de systèmes autonomes spatiaux grâce à la modélisation haute fidélité de la dynamique orbitale et à la validation par données réelles. Ce travail non seulement fait progresser l'application du RL dans le domaine aérospatial, mais contribue également de manière importante au développement normalisé de cette discipline interdisciplinaire.