2025-11-25T07:58:17.729708

OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics

Oliveira, Dyreby, Caldas et al.
The increasing number of satellites and orbital debris has made space congestion a critical issue, threatening satellite safety and sustainability. Challenges such as collision avoidance, station-keeping, and orbital maneuvering require advanced techniques to handle dynamic uncertainties and multi-agent interactions. Reinforcement learning (RL) has shown promise in this domain, enabling adaptive, autonomous policies for space operations; however, many existing RL frameworks rely on custom-built environments developed from scratch, which often use simplified models and require significant time to implement and validate the orbital dynamics, limiting their ability to fully capture real-world complexities. To address this, we introduce OrbitZoo, a versatile multi-agent RL environment built on a high-fidelity industry standard library, that enables realistic data generation, supports scenarios like collision avoidance and cooperative maneuvers, and ensures robust and accurate orbital dynamics. The environment is validated against a real satellite constellation, Starlink, achieving a Mean Absolute Percentage Error (MAPE) of 0.16% compared to real-world data. This validation ensures reliability for generating high-fidelity simulations and enabling autonomous and independent satellite operations.
academic

OrbitZoo: Multi-Agent Reinforcement Learning Environment für Orbitalynamik

Grundlegende Informationen

  • Papier-ID: 2504.04160
  • Titel: OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics
  • Autoren: Alexandre Oliveira, Katarina Dyreby, Francisco Caldas, Cláudia Soares (NOVA LINCS)
  • Klassifizierung: cs.LG cs.MA
  • Konferenz: NeurIPS 2025
  • Papierlink: https://arxiv.org/abs/2504.04160v3

Zusammenfassung

Mit der ständig wachsenden Anzahl von Satelliten und Weltraummüll ist die Weltraumüberlastung zu einem kritischen Problem für die Sicherheit und Nachhaltigkeit von Satelliten geworden. Herausforderungen wie Kollisionsvermeidung, Bahnerhaltung und Orbitalmanöver erfordern fortschrittliche Techniken zur Bewältigung dynamischer Unsicherheiten und Multi-Agent-Interaktionen. Reinforcement Learning (RL) zeigt Potenzial in diesem Bereich und kann adaptive, autonome Strategien für Weltraumoperationen bereitstellen; viele bestehende RL-Frameworks verlassen sich jedoch auf maßgeschneiderte Umgebungen, die von Grund auf neu aufgebaut werden und üblicherweise vereinfachte Modelle verwenden. Dies erfordert erhebliche Zeit für die Implementierung und Validierung von Orbitalynamiken und begrenzt die Fähigkeit, die Komplexität der realen Welt vollständig zu erfassen. Um dieses Problem zu lösen, stellen wir OrbitZoo vor – eine vielseitige Multi-Agent-RL-Umgebung, die auf hochpräzisen industriestandard-Bibliotheken aufgebaut ist und realistische Datengenerierung ermöglicht, Szenarien wie Kollisionsvermeidung und kooperative Manöver unterstützt und robuste, genaue Orbitalynamiken gewährleistet. Die Umgebung wurde durch Validierung mit der echten Satellitenkonstellation Starlink verifiziert und erreicht einen durchschnittlichen absoluten prozentualen Fehler (MAPE) von 0,16% im Vergleich zu realen Daten.

Forschungshintergrund und Motivation

Problemdefinition

  1. Weltraumüberlastungsproblem: Seit 1957 haben Menschen etwa 20.000 Satelliten gestartet, und derzeit existieren etwa 140 Millionen Trümmerobjekte in der Orbitalumgebung, von denen etwa 1 Million größer als 1 Zentimeter sind und bei Kollisionen katastrophale Schäden verursachen können.
  2. Kessler-Syndrom-Bedrohung: Trümmerkollisionen erzeugen mehr Trümmer und bilden eine Kettenreaktion, die möglicherweise die Erdorbits unbrauchbar macht.
  3. Einschränkungen traditioneller Methoden: Aktuelle Satellitenmaneuverlösungen sind stark von manuellen Prozessen abhängig und werden mit der kontinuierlich wachsenden Anzahl von Satelliten und Weltraummüll unhaltbar.

Forschungsmotivation

  1. Automatisierungsbedarf: Entwicklung schnellerer und fähigerer autonomer intelligenter Entscheidungssysteme erforderlich.
  2. RL-Anwendungspotenzial: RL zeigt Stärken bei der Echtzeitanpassung an komplexe, dynamische und nichtlineare Weltraumsysteme.
  3. Fehlende Standardisierung: Bestehende RL-Frameworks mangelt es an Standardisierung; die meisten basieren auf vereinfachten Modellen und können die Komplexität der realen Welt schwer erfassen.

Kernbeiträge

  1. Hochpräzise Datengenerierung: Aufgebaut auf Python und leistungsstarken Weltraum-Dynamik-Bibliotheken, integriert echte Kräfte und Störungen, bietet präzise Datensätze und unterstützt Parallelberechnung für schnelle Propagation.
  2. Multi-Agent-Reinforcement-Learning-Unterstützung: Standardisierte RL-Forschungsplattform, nutzt PettingZoo-Bibliothek zur Unterstützung von Multi-Agent-RL mit partiell beobachtbarer Markov-Entscheidungsprozess (POMDP)-Struktur, unterstützt Skalierung von Systemen mit Tausenden von Himmelskörpern.
  3. Anpassbares Framework und Visualisierung: Modulares Design ermöglicht Benutzern, beliebig viele Himmelskörper-Szenarien zu definieren, benutzerdefinierte Modelle zu integrieren, mit klarer Abstraktionsschichtentrennung und interaktiven 3D-Visualisierungskomponenten.
  4. Validierung in der realen Welt: Durch Vergleichsvalidierung mit der Starlink-Satellitenkonstellation wird ein MAPE von 0,16% erreicht, was die Zuverlässigkeit hochpräziser Simulationen gewährleistet.

Methodische Details

Aufgabendefinition

OrbitZoo zielt darauf ab, eine standardisierte, hochpräzise Multi-Agent-Umgebung für Reinforcement Learning in der Orbitalynamik bereitzustellen, die folgende Szenarien unterstützt:

  • Single-Agent- und Multi-Agent-Aufgaben
  • Kooperative, konkurrierende oder hybride Szenarien
  • Kontinuierliche und diskrete Aktionsräume
  • Partiell beobachtbare Umgebungen

Modellarchitektur

Kernmoduldesign

  1. Body-Klasse: Basisklasse für physikalische Entitäten
    • Enthält eindeutige Kennung, Masse, Radius, Anfangsposition und Geschwindigkeit
    • Integrierter numerischer Propagator zur Berechnung zukünftiger Zustände
    • Unterstützt Unsicherheitspropagation
  2. Satellite-Klasse: Erweitert Body-Klasse
    • Fügt Antriebssystem und Agent-Parameter hinzu
    • Unterstützt Polarkoordinaten-Schubparametrisierung (T, θ, φ)
    • Enthält Treibstoffmasse und spezifische Impulsparameter
  3. Interface-Klasse: Interaktive 3D-Visualisierung
    • Anpassbare visuelle Komponenten
    • Echtzeit-Systemstatusaktualisierung
    • Flexible Kameraperspektiven
  4. Environment-Klasse: Hochrangige Interaktionsschnittstelle
    • Kompatibel mit PettingZoo-Standard
    • Unterstützt Single- und Multi-Agent-Aufgaben
    • Bietet Verwaltung von Orbitalzustandsinformationen

Technische Innovationen

1. Hochpräzise Dynamikmodellierung

  • Gravitationsfeldmodellierung: Verwendung von Holmes-Featherstone-Kugelflächenfunktionen
  • Störungskräfte: Atmosphärischer Widerstand, Sonnenstrahldruck, Drittkörpereffekte
  • Numerische Integration: Unterstützt Dormand-Prince-Verfahren mit variabler Schrittweite

2. Koordinatensystemunterstützung

  • Kartesische Koordinaten: Direkte numerische Berechnung
  • Kepler-Elemente: Orbitalgeometriebeschreibung
  • Delaunay-Elemente: Vermeidung von Singularitätsproblemen

3. Schubmodellierung

Verwendet Polarkoordinaten-Parametrisierung, realistischer als traditionelle RSW-Koordinaten:

T_RSW = T(cos θ Ŝ + sin θ(cos φ R̂ + sin φ Ŵ))

4. Unsicherheitspropagation

Verwendet Zustandsübergangmatrix (STM) zur analytischen Approximation von Monte-Carlo-Simulationen:

Σ_Δt = ΦΣ_0Φ^T

Experimentelle Einrichtung

Experimentelle Szenariogestaltung

1. Single-Agent-Aufgaben

  • Hohmann-Manöver: Klassischer Orbitalwechsel
  • Kollisionsvermeidung: Reduzierung der Kollisionswahrscheinlichkeit
  • Zielverfolgung: Dynamische Zielverfolgung

2. Multi-Agent-Aufgaben

  • GEO-Konstellationskoordination: Gleichmäßige Verteilung in geostationärer Umlaufbahn
  • Unabhängiges Lernen vs. föderales Lernen: Vergleich verschiedener Kooperationsstrategien

Bewertungsmetriken

  • Orbitalgenauigkeit: Abweichung von theoretischen Lösungen
  • Treibstoffverbrauch: Treibstoffeffizienz bei Aufgabenvollendung
  • Kollisionswahrscheinlichkeit: PoC < 10^-6 als Sicherheitsschwelle
  • Konvergenzleistung: Kumulierte Belohnung über Trainingsepisoden

Vergleichsmethoden

  • DDPG: Kontinuierliche Kontrollbaseline
  • PPO: Richtlinienoptimierungsmethode
  • DDQN: Diskreter Aktionsraum
  • Unabhängiges Lernen: Multi-Agent ohne Kommunikation
  • Föderales Lernen: Parameterteilungs-Kooperation

Implementierungsdetails

  • Netzwerkarchitektur: Zwei verborgene Schichten, Tanh-Aktivierungsfunktion
  • Trainingsparameter: Lernrate 0,0001, GAE λ=0,95
  • Hardwarekonfiguration: Intel i3-8100 CPU, GTX 1050 Ti GPU, 16GB RAM

Experimentelle Ergebnisse

Hauptergebnisse

  • Niedrige RMSE-Gruppe: 24,14 Meter (16,6 Stunden Propagation)
  • Mittlere RMSE-Gruppe: 83,75 Meter
  • Hohe RMSE-Gruppe: 1924,90 Meter
  • Gesamt-MAPE: 0,16%

2. Hohmann-Manöver-Experimente

  • Erfolgreiches Erlernen nahezu optimaler Strategien, Übereinstimmung mit theoretischen Halbachsenwerten
  • Erreicht Zielumlaufbahn auch unter realistischen Störungen
  • Experiment 2 konvergiert schneller als Experiment 1 (α2=0,5 vs α2=0)

3. Kollisionsvermeidungsvergleich

  • PPO-Leistung: Frühe Schubausübung, effektive Risikominderung
  • DDQN-Leistung: Effektiv unter Trainingsdynamik, aber schlechte Verallgemeinerung
  • Kontinuierlicher Aktionsraum-Vorteil: PPO zeigt bessere Leistung unter realistischer Dynamik

4. GEO-Konstellationskoordination

  • Agenten erlernen erfolgreich gleichmäßige Verteilungsstrategie
  • Föderales Lernen konvergiert schneller
  • Gute Verallgemeinerung unter ungesehenen Störungen

Ablationsstudien

Einfluss der Schubrichtungsbestrafung

Experimente zeigen, dass das Hinzufügen einer Bestrafung in Bahnrichtung (α2=0,5) zur Belohnungsfunktion das Lernen erheblich verbessert:

  • Schnellere Konvergenz zur Zielumlaufbahn
  • Reduzierung unnötiger Bahnebenen-Manöver
  • Näher an optimalem Hohmann-Manöver

Einfluss der Dynamikkomplexität

  • Vereinfachtes Modelltraining: Nur Newtonsche Gravitation
  • Realistische Bewertung: Alle Störungskräfte
  • Verallgemeinerungsfähigkeit: Trainierte Strategien bleiben unter realistischen Bedingungen wirksam

Leistungsanalyse

Rechnerische Leistung

  • Zeitkomplexität: O(n), n ist die Anzahl der Himmelskörper
  • Parallelisierungseffekt: Schneller im Parallelmodus bei komplexen Kraftmodellen
  • Skalierbarkeit: Unterstützt Systeme mit Tausenden von Himmelskörpern

Verwandte Arbeiten

RL-Anwendungen in der Orbitalynamik

  • Traditionelle Methoden: Meist basierend auf vereinfachtem CR3BP-Modell
  • Orekit-Anwendungen: Wenige Forschungen nutzen hochpräzise Bibliotheken
  • Multi-Agent-Entwicklung: Kürzlich verstärkte Aufmerksamkeit auf Koordinationsaufgaben

Multi-Agent-RL-Umgebungen

  • REDA-Algorithmus: Verwendung von Poliastro und DQN
  • MAPPO-Anwendung: Multi-Satelliten-Beobachtungsplanung
  • Formationsflug: Berücksichtigung nur der Newtonschen Gravitation

OrbitZoo-Vorteile

Im Vergleich zu bestehenden Umgebungen ist OrbitZoo die einzige, die gleichzeitig unterstützt:

  • Multi-Agent-RL
  • Industriestandard-Simulator
  • Hochpräzise Dynamik
  • Kontinuierliche Kontrolle
  • Realistische Himmelskörper- und Schubmodellierung
  • Interaktive Visualisierung
  • Öffentliche Verfügbarkeit

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreiche Validierung: OrbitZoo wurde durch Starlink-Daten validiert, MAPE nur 0,16%
  2. Vollständige Funktionalität: Unterstützt Single- und Multi-Agent-, kooperative und konkurrierende Szenarien
  3. Ausgezeichnete Leistung: Trainierte Strategien zeigen gute Leistung unter realistischer Dynamik
  4. Hohe Benutzerfreundlichkeit: Modulares Design unterstützt schnelle Entwicklung und Bereitstellung

Einschränkungen

  1. Rechnerischer Aufwand: Hochpräzise Simulation erfordert mehr Rechenressourcen
  2. Parameteroptimierung: Umfassende Hyperparameter-Optimierung in Experimenten nicht durchgeführt
  3. Skalierungsherausforderungen: Echtzeit-Simulation großer Konstellationen bleibt herausfordernd
  4. Modellabhängigkeit: Abhängig von der Genauigkeit der Orekit-Bibliothek

Zukünftige Richtungen

  1. Algorithmusoptimierung: Erforschung spezialisierter Orbital-RL-Algorithmen
  2. Erweiterte Anwendungen: Unterstützung weiterer Aufgabentypen und Einschränkungen
  3. Leistungsverbesserung: GPU-Beschleunigung und verteilte Berechnung
  4. Standardisierungsförderung: Etablierung von Orbital-RL-Benchmarks

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erste Multi-Agent-Orbital-RL-Umgebung basierend auf Industriestandard-Bibliotheken
  2. Umfassende Validierung: Validierung durch echte Satellitendaten, hohe Glaubwürdigkeit
  3. Umfassende Funktionalität: Unterstützt verschiedene Szenarien und Algorithmen, gute Erweiterbarkeit
  4. Hoher praktischer Wert: Direkt anwendbar auf tatsächliche Satellitenaufgabenentwicklung

Mängel

  1. Rechnerische Effizienz: Hochpräzise Simulation hat hohe Rechenkosten
  2. Algorithmuseinschränkungen: Hauptsächlich Validierung klassischer RL-Algorithmen, fehlende spezialisierte Optimierung
  3. Szenarioabdeckung: Experimentelle Szenarien relativ begrenzt, weitere Anwendungen möglich
  4. Theoretische Analyse: Fehlende Konvergenzgarantien und theoretische Analysen

Auswirkungen

  1. Akademischer Beitrag: Füllt Lücke bei standardisierten Orbital-RL-Umgebungen
  2. Industrieller Wert: Anwendbar auf tatsächliche autonome Satellitensteuerungsentwicklung
  3. Open-Source-Bedeutung: Fördert Reproduzierbarkeit in diesem Forschungsbereich
  4. Standardsetzung: Könnte zur Standard-Plattform für Orbital-RL-Forschung werden

Anwendungsszenarien

  1. Satellitenautonom-Steuerung: Bahnerhaltung, Manöverplanung
  2. Konstellationsverwaltung: Multi-Satelliten-Koordination, Formationsflug
  3. Kollisionsvermeidung: Weltraummüll-Ausweichstrategien
  4. Missionsplanung: Intelligente Entscheidungsfindung für komplexe Weltraumaufgaben
  5. Bildung und Training: Lehre in Luft- und Raumfahrttechnik und maschinellem Lernen

Literaturverzeichnis

  1. Orekit: Open-Source-Himmelsmechanik-Bibliothek
  2. PettingZoo: Multi-Agent-RL-Umgebungsstandard
  3. Starlink-Ephemeris-Daten: Satellitenumlaufbahn-Validierungsdaten
  4. Verwandte Orbital-RL-Forschung: Kolosa (2019), Herrera (2020), Casas (2022) u.a.

Zusammenfassung: OrbitZoo ist eine Open-Source-Multi-Agent-Reinforcement-Learning-Umgebung mit bedeutendem akademischen und praktischen Wert. Durch hochpräzise Orbitalynamik-Modellierung und Validierung mit echten Daten bietet sie ein leistungsstarkes Werkzeug für Forschung und Entwicklung autonomer Weltraumsysteme. Diese Arbeit fördert nicht nur die Anwendung von RL in der Raumfahrt, sondern trägt auch wesentlich zur standardisierten Entwicklung dieser interdisziplinären Forschung bei.