OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics
Oliveira, Dyreby, Caldas et al.
The increasing number of satellites and orbital debris has made space congestion a critical issue, threatening satellite safety and sustainability. Challenges such as collision avoidance, station-keeping, and orbital maneuvering require advanced techniques to handle dynamic uncertainties and multi-agent interactions. Reinforcement learning (RL) has shown promise in this domain, enabling adaptive, autonomous policies for space operations; however, many existing RL frameworks rely on custom-built environments developed from scratch, which often use simplified models and require significant time to implement and validate the orbital dynamics, limiting their ability to fully capture real-world complexities. To address this, we introduce OrbitZoo, a versatile multi-agent RL environment built on a high-fidelity industry standard library, that enables realistic data generation, supports scenarios like collision avoidance and cooperative maneuvers, and ensures robust and accurate orbital dynamics. The environment is validated against a real satellite constellation, Starlink, achieving a Mean Absolute Percentage Error (MAPE) of 0.16% compared to real-world data. This validation ensures reliability for generating high-fidelity simulations and enabling autonomous and independent satellite operations.
academic
OrbitZoo: Multi-Agent Reinforcement Learning Environment für Orbitalynamik
Mit der ständig wachsenden Anzahl von Satelliten und Weltraummüll ist die Weltraumüberlastung zu einem kritischen Problem für die Sicherheit und Nachhaltigkeit von Satelliten geworden. Herausforderungen wie Kollisionsvermeidung, Bahnerhaltung und Orbitalmanöver erfordern fortschrittliche Techniken zur Bewältigung dynamischer Unsicherheiten und Multi-Agent-Interaktionen. Reinforcement Learning (RL) zeigt Potenzial in diesem Bereich und kann adaptive, autonome Strategien für Weltraumoperationen bereitstellen; viele bestehende RL-Frameworks verlassen sich jedoch auf maßgeschneiderte Umgebungen, die von Grund auf neu aufgebaut werden und üblicherweise vereinfachte Modelle verwenden. Dies erfordert erhebliche Zeit für die Implementierung und Validierung von Orbitalynamiken und begrenzt die Fähigkeit, die Komplexität der realen Welt vollständig zu erfassen. Um dieses Problem zu lösen, stellen wir OrbitZoo vor – eine vielseitige Multi-Agent-RL-Umgebung, die auf hochpräzisen industriestandard-Bibliotheken aufgebaut ist und realistische Datengenerierung ermöglicht, Szenarien wie Kollisionsvermeidung und kooperative Manöver unterstützt und robuste, genaue Orbitalynamiken gewährleistet. Die Umgebung wurde durch Validierung mit der echten Satellitenkonstellation Starlink verifiziert und erreicht einen durchschnittlichen absoluten prozentualen Fehler (MAPE) von 0,16% im Vergleich zu realen Daten.
Weltraumüberlastungsproblem: Seit 1957 haben Menschen etwa 20.000 Satelliten gestartet, und derzeit existieren etwa 140 Millionen Trümmerobjekte in der Orbitalumgebung, von denen etwa 1 Million größer als 1 Zentimeter sind und bei Kollisionen katastrophale Schäden verursachen können.
Kessler-Syndrom-Bedrohung: Trümmerkollisionen erzeugen mehr Trümmer und bilden eine Kettenreaktion, die möglicherweise die Erdorbits unbrauchbar macht.
Einschränkungen traditioneller Methoden: Aktuelle Satellitenmaneuverlösungen sind stark von manuellen Prozessen abhängig und werden mit der kontinuierlich wachsenden Anzahl von Satelliten und Weltraummüll unhaltbar.
Automatisierungsbedarf: Entwicklung schnellerer und fähigerer autonomer intelligenter Entscheidungssysteme erforderlich.
RL-Anwendungspotenzial: RL zeigt Stärken bei der Echtzeitanpassung an komplexe, dynamische und nichtlineare Weltraumsysteme.
Fehlende Standardisierung: Bestehende RL-Frameworks mangelt es an Standardisierung; die meisten basieren auf vereinfachten Modellen und können die Komplexität der realen Welt schwer erfassen.
Hochpräzise Datengenerierung: Aufgebaut auf Python und leistungsstarken Weltraum-Dynamik-Bibliotheken, integriert echte Kräfte und Störungen, bietet präzise Datensätze und unterstützt Parallelberechnung für schnelle Propagation.
Multi-Agent-Reinforcement-Learning-Unterstützung: Standardisierte RL-Forschungsplattform, nutzt PettingZoo-Bibliothek zur Unterstützung von Multi-Agent-RL mit partiell beobachtbarer Markov-Entscheidungsprozess (POMDP)-Struktur, unterstützt Skalierung von Systemen mit Tausenden von Himmelskörpern.
Anpassbares Framework und Visualisierung: Modulares Design ermöglicht Benutzern, beliebig viele Himmelskörper-Szenarien zu definieren, benutzerdefinierte Modelle zu integrieren, mit klarer Abstraktionsschichtentrennung und interaktiven 3D-Visualisierungskomponenten.
Validierung in der realen Welt: Durch Vergleichsvalidierung mit der Starlink-Satellitenkonstellation wird ein MAPE von 0,16% erreicht, was die Zuverlässigkeit hochpräziser Simulationen gewährleistet.
OrbitZoo zielt darauf ab, eine standardisierte, hochpräzise Multi-Agent-Umgebung für Reinforcement Learning in der Orbitalynamik bereitzustellen, die folgende Szenarien unterstützt:
Single-Agent- und Multi-Agent-Aufgaben
Kooperative, konkurrierende oder hybride Szenarien
Zusammenfassung: OrbitZoo ist eine Open-Source-Multi-Agent-Reinforcement-Learning-Umgebung mit bedeutendem akademischen und praktischen Wert. Durch hochpräzise Orbitalynamik-Modellierung und Validierung mit echten Daten bietet sie ein leistungsstarkes Werkzeug für Forschung und Entwicklung autonomer Weltraumsysteme. Diese Arbeit fördert nicht nur die Anwendung von RL in der Raumfahrt, sondern trägt auch wesentlich zur standardisierten Entwicklung dieser interdisziplinären Forschung bei.