OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics
Oliveira, Dyreby, Caldas et al.
The increasing number of satellites and orbital debris has made space congestion a critical issue, threatening satellite safety and sustainability. Challenges such as collision avoidance, station-keeping, and orbital maneuvering require advanced techniques to handle dynamic uncertainties and multi-agent interactions. Reinforcement learning (RL) has shown promise in this domain, enabling adaptive, autonomous policies for space operations; however, many existing RL frameworks rely on custom-built environments developed from scratch, which often use simplified models and require significant time to implement and validate the orbital dynamics, limiting their ability to fully capture real-world complexities. To address this, we introduce OrbitZoo, a versatile multi-agent RL environment built on a high-fidelity industry standard library, that enables realistic data generation, supports scenarios like collision avoidance and cooperative maneuvers, and ensures robust and accurate orbital dynamics. The environment is validated against a real satellite constellation, Starlink, achieving a Mean Absolute Percentage Error (MAPE) of 0.16% compared to real-world data. This validation ensures reliability for generating high-fidelity simulations and enabling autonomous and independent satellite operations.
academic
OrbitZoo: कक्षीय गतिविज्ञान के लिए बहु-एजेंट सुदृढ़ीकरण शिक्षण पर्यावरण
उपग्रहों और कक्षीय मलबे की संख्या में निरंतर वृद्धि के साथ, अंतरिक्ष भीड़ उपग्रह सुरक्षा और स्थायित्व के लिए एक महत्वपूर्ण खतरा बन गई है। टकराव से बचाव, स्थिति रखरखाव और कक्षीय युद्धाभ्यास जैसी चुनौतियों के लिए गतिशील अनिश्चितता और बहु-एजेंट इंटरैक्शन को संभालने के लिए उन्नत तकनीकों की आवश्यकता है। सुदृढ़ीकरण शिक्षा (RL) इस क्षेत्र में संभावना दिखाती है, अंतरिक्ष संचालन के लिए अनुकूली, स्वायत्त नीतियां प्रदान कर सकती है; हालांकि, कई मौजूदा RL ढांचे शून्य से निर्मित कस्टम पर्यावरणों पर निर्भर करते हैं, आमतौर पर सरलीकृत मॉडल का उपयोग करते हैं, कक्षीय गतिविज्ञान को लागू करने और सत्यापित करने में बहुत समय लगता है, जो वास्तविक दुनिया की जटिलता को पूरी तरह से कैप्चर करने की क्षमता को सीमित करता है। इस समस्या को हल करने के लिए, यह पेपर OrbitZoo प्रस्तुत करता है, जो उच्च निष्ठा औद्योगिक मानक पुस्तकालयों पर निर्मित एक बहुमुखी बहु-एजेंट RL पर्यावरण है, जो वास्तविक डेटा पीढ़ी को सक्षम करता है, टकराव से बचाव और सहयोगी युद्धाभ्यास जैसे परिदृश्यों का समर्थन करता है, और मजबूत सटीक कक्षीय गतिविज्ञान सुनिश्चित करता है। पर्यावरण को वास्तविक Starlink उपग्रह नक्षत्र के साथ सत्यापित किया गया है, वास्तविक दुनिया के डेटा की तुलना में 0.16% की औसत निरपेक्ष प्रतिशत त्रुटि (MAPE) प्राप्त की गई है।
अंतरिक्ष भीड़ समस्या: 1957 के बाद से, मानवता ने लगभग 20,000 उपग्रह लॉन्च किए हैं, वर्तमान में कक्षीय वातावरण में लगभग 1.4 अरब मलबे की वस्तुएं हैं, जिनमें से लगभग 10 लाख 1 सेंटीमीटर से बड़ी हैं, जो प्रभाव पर विनाशकारी नुकसान पहुंचाने के लिए पर्याप्त हैं।
केसलर सिंड्रोम खतरा: मलबे की टक्कर अधिक मलबा पैदा करती है, एक श्रृंखला प्रतिक्रिया बनाती है, जो पृथ्वी की कक्षा को अनुपयोगी बना सकती है।
पारंपरिक विधियों की सीमाएं: वर्तमान उपग्रह युद्धाभ्यास समाधान मानव प्रक्रियाओं पर बहुत अधिक निर्भर हैं, उपग्रहों और कक्षीय मलबे की संख्या में निरंतर वृद्धि के साथ, पारंपरिक विधियां अस्थिर हो गई हैं।
उच्च निष्ठा डेटा पीढ़ी: Python और शक्तिशाली अंतरिक्ष गतिविज्ञान पुस्तकालयों पर निर्मित, वास्तविक बलों और विक्षोभों को एकीकृत करता है, सटीक डेटासेट प्रदान करता है, समानांतर कंप्यूटिंग के लिए तेजी से प्रसार समर्थन करता है।
बहु-एजेंट सुदृढ़ीकरण शिक्षा समर्थन: मानकीकृत RL अनुसंधान मंच, PettingZoo पुस्तकालय का उपयोग करके आंशिक रूप से अवलोकनीय मार्कोव निर्णय प्रक्रिया (POMDP) संरचना के बहु-एजेंट RL का समर्थन करता है, हजारों खगोलीय पिंडों की प्रणाली स्केलिंग का समर्थन करता है।
अनुकूलन योग्य ढांचा और दृश्य: मॉड्यूलर डिजाइन उपयोगकर्ताओं को मनमानी संख्या में खगोलीय पिंड परिदृश्य परिभाषित करने की अनुमति देता है, कस्टम मॉडल को एकीकृत करता है, स्पष्ट अमूर्तता परत पृथक्करण के साथ, इंटरैक्टिव 3D दृश्य घटक प्रदान करता है।
वास्तविक दुनिया सत्यापन: Starlink उपग्रह नक्षत्र के साथ तुलना सत्यापन के माध्यम से, 0.16% की MAPE प्राप्त की गई है, उच्च निष्ठा सिमुलेशन की विश्वसनीयता सुनिश्चित करता है।
Starlink ephemeris data: उपग्रह कक्षीय सत्यापन डेटा
संबंधित कक्षीय RL अनुसंधान: Kolosa (2019), Herrera (2020), Casas (2022) आदि
सारांश: OrbitZoo महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य का एक खुला स्रोत बहु-एजेंट सुदृढ़ीकरण शिक्षण पर्यावरण है, जो उच्च निष्ठा कक्षीय गतिविज्ञान मॉडलिंग और वास्तविक डेटा सत्यापन के माध्यम से, अंतरिक्ष स्वायत्त प्रणालियों के अनुसंधान और विकास के लिए एक शक्तिशाली उपकरण प्रदान करता है। यह कार्य न केवल एयरोस्पेस क्षेत्र में RL के अनुप्रयोग को आगे बढ़ाता है, बल्कि इस अंतःविषय के मानकीकृत विकास में भी महत्वपूर्ण योगदान देता है।