2025-11-25T07:58:17.729708

OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics

Oliveira, Dyreby, Caldas et al.
The increasing number of satellites and orbital debris has made space congestion a critical issue, threatening satellite safety and sustainability. Challenges such as collision avoidance, station-keeping, and orbital maneuvering require advanced techniques to handle dynamic uncertainties and multi-agent interactions. Reinforcement learning (RL) has shown promise in this domain, enabling adaptive, autonomous policies for space operations; however, many existing RL frameworks rely on custom-built environments developed from scratch, which often use simplified models and require significant time to implement and validate the orbital dynamics, limiting their ability to fully capture real-world complexities. To address this, we introduce OrbitZoo, a versatile multi-agent RL environment built on a high-fidelity industry standard library, that enables realistic data generation, supports scenarios like collision avoidance and cooperative maneuvers, and ensures robust and accurate orbital dynamics. The environment is validated against a real satellite constellation, Starlink, achieving a Mean Absolute Percentage Error (MAPE) of 0.16% compared to real-world data. This validation ensures reliability for generating high-fidelity simulations and enabling autonomous and independent satellite operations.
academic

OrbitZoo: कक्षीय गतिविज्ञान के लिए बहु-एजेंट सुदृढ़ीकरण शिक्षण पर्यावरण

मूल जानकारी

  • पेपर ID: 2504.04160
  • शीर्षक: OrbitZoo: कक्षीय गतिविज्ञान के लिए बहु-एजेंट सुदृढ़ीकरण शिक्षण पर्यावरण
  • लेखक: Alexandre Oliveira, Katarina Dyreby, Francisco Caldas, Cláudia Soares (NOVA LINCS)
  • वर्गीकरण: cs.LG cs.MA
  • प्रकाशन सम्मेलन: NeurIPS 2025
  • पेपर लिंक: https://arxiv.org/abs/2504.04160v3

सारांश

उपग्रहों और कक्षीय मलबे की संख्या में निरंतर वृद्धि के साथ, अंतरिक्ष भीड़ उपग्रह सुरक्षा और स्थायित्व के लिए एक महत्वपूर्ण खतरा बन गई है। टकराव से बचाव, स्थिति रखरखाव और कक्षीय युद्धाभ्यास जैसी चुनौतियों के लिए गतिशील अनिश्चितता और बहु-एजेंट इंटरैक्शन को संभालने के लिए उन्नत तकनीकों की आवश्यकता है। सुदृढ़ीकरण शिक्षा (RL) इस क्षेत्र में संभावना दिखाती है, अंतरिक्ष संचालन के लिए अनुकूली, स्वायत्त नीतियां प्रदान कर सकती है; हालांकि, कई मौजूदा RL ढांचे शून्य से निर्मित कस्टम पर्यावरणों पर निर्भर करते हैं, आमतौर पर सरलीकृत मॉडल का उपयोग करते हैं, कक्षीय गतिविज्ञान को लागू करने और सत्यापित करने में बहुत समय लगता है, जो वास्तविक दुनिया की जटिलता को पूरी तरह से कैप्चर करने की क्षमता को सीमित करता है। इस समस्या को हल करने के लिए, यह पेपर OrbitZoo प्रस्तुत करता है, जो उच्च निष्ठा औद्योगिक मानक पुस्तकालयों पर निर्मित एक बहुमुखी बहु-एजेंट RL पर्यावरण है, जो वास्तविक डेटा पीढ़ी को सक्षम करता है, टकराव से बचाव और सहयोगी युद्धाभ्यास जैसे परिदृश्यों का समर्थन करता है, और मजबूत सटीक कक्षीय गतिविज्ञान सुनिश्चित करता है। पर्यावरण को वास्तविक Starlink उपग्रह नक्षत्र के साथ सत्यापित किया गया है, वास्तविक दुनिया के डेटा की तुलना में 0.16% की औसत निरपेक्ष प्रतिशत त्रुटि (MAPE) प्राप्त की गई है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. अंतरिक्ष भीड़ समस्या: 1957 के बाद से, मानवता ने लगभग 20,000 उपग्रह लॉन्च किए हैं, वर्तमान में कक्षीय वातावरण में लगभग 1.4 अरब मलबे की वस्तुएं हैं, जिनमें से लगभग 10 लाख 1 सेंटीमीटर से बड़ी हैं, जो प्रभाव पर विनाशकारी नुकसान पहुंचाने के लिए पर्याप्त हैं।
  2. केसलर सिंड्रोम खतरा: मलबे की टक्कर अधिक मलबा पैदा करती है, एक श्रृंखला प्रतिक्रिया बनाती है, जो पृथ्वी की कक्षा को अनुपयोगी बना सकती है।
  3. पारंपरिक विधियों की सीमाएं: वर्तमान उपग्रह युद्धाभ्यास समाधान मानव प्रक्रियाओं पर बहुत अधिक निर्भर हैं, उपग्रहों और कक्षीय मलबे की संख्या में निरंतर वृद्धि के साथ, पारंपरिक विधियां अस्थिर हो गई हैं।

अनुसंधान प्रेरणा

  1. स्वचालन की आवश्यकता: तेजी से, अधिक सक्षम स्वायत्त बुद्धिमान निर्णय प्रणालियों को विकसित करने की आवश्यकता।
  2. RL अनुप्रयोग की संभावना: RL वास्तविक समय अनुकूलन जटिल, गतिशील और अरैखिक अंतरिक्ष प्रणालियों में उत्कृष्ट प्रदर्शन करता है।
  3. मानकीकरण की कमी: मौजूदा RL ढांचे मानकीकृत नहीं हैं, अधिकांश सरलीकृत मॉडल पर आधारित हैं, वास्तविक दुनिया की जटिलता को कैप्चर करना मुश्किल है।

मुख्य योगदान

  1. उच्च निष्ठा डेटा पीढ़ी: Python और शक्तिशाली अंतरिक्ष गतिविज्ञान पुस्तकालयों पर निर्मित, वास्तविक बलों और विक्षोभों को एकीकृत करता है, सटीक डेटासेट प्रदान करता है, समानांतर कंप्यूटिंग के लिए तेजी से प्रसार समर्थन करता है।
  2. बहु-एजेंट सुदृढ़ीकरण शिक्षा समर्थन: मानकीकृत RL अनुसंधान मंच, PettingZoo पुस्तकालय का उपयोग करके आंशिक रूप से अवलोकनीय मार्कोव निर्णय प्रक्रिया (POMDP) संरचना के बहु-एजेंट RL का समर्थन करता है, हजारों खगोलीय पिंडों की प्रणाली स्केलिंग का समर्थन करता है।
  3. अनुकूलन योग्य ढांचा और दृश्य: मॉड्यूलर डिजाइन उपयोगकर्ताओं को मनमानी संख्या में खगोलीय पिंड परिदृश्य परिभाषित करने की अनुमति देता है, कस्टम मॉडल को एकीकृत करता है, स्पष्ट अमूर्तता परत पृथक्करण के साथ, इंटरैक्टिव 3D दृश्य घटक प्रदान करता है।
  4. वास्तविक दुनिया सत्यापन: Starlink उपग्रह नक्षत्र के साथ तुलना सत्यापन के माध्यम से, 0.16% की MAPE प्राप्त की गई है, उच्च निष्ठा सिमुलेशन की विश्वसनीयता सुनिश्चित करता है।

विधि विवरण

कार्य परिभाषा

OrbitZoo का उद्देश्य कक्षीय गतिविज्ञान में सुदृढ़ीकरण शिक्षा के लिए एक मानकीकृत, उच्च निष्ठा बहु-एजेंट पर्यावरण प्रदान करना है, जो समर्थन करता है:

  • एकल-एजेंट और बहु-एजेंट कार्य
  • सहयोगी, प्रतिस्पर्धी या मिश्रित परिदृश्य
  • निरंतर और असतत कार्य स्थान
  • आंशिक रूप से अवलोकनीय पर्यावरण

मॉडल आर्किटेक्चर

मुख्य मॉड्यूल डिजाइन

  1. Body वर्ग: भौतिक इकाई का आधार वर्ग
    • अद्वितीय पहचानकर्ता, द्रव्यमान, त्रिज्या, प्रारंभिक स्थिति और वेग शामिल
    • भविष्य की स्थिति की गणना के लिए अंतर्निहित संख्यात्मक प्रसारक
    • अनिश्चितता प्रसार समर्थन
  2. Satellite वर्ग: Body वर्ग का विस्तार
    • प्रणोदन प्रणाली और एजेंट पैरामीटर जोड़ता है
    • ध्रुवीय निर्देशांक थ्रस्ट पैरामीटराइजेशन समर्थन (T, θ, φ)
    • ईंधन द्रव्यमान और विशिष्ट आवेग पैरामीटर शामिल
  3. Interface वर्ग: इंटरैक्टिव 3D दृश्य
    • अनुकूलन योग्य दृश्य घटक
    • वास्तविक समय प्रणाली स्थिति अपडेट
    • लचीला कैमरा दृष्टिकोण
  4. Environment वर्ग: उच्च-स्तरीय इंटरैक्शन इंटरफेस
    • PettingZoo मानक के साथ संगत
    • एकल/बहु-एजेंट कार्य समर्थन
    • कक्षीय स्थिति जानकारी प्रबंधन प्रदान करता है

तकनीकी नवाचार

1. उच्च निष्ठा गतिविज्ञान मॉडलिंग

  • गुरुत्वाकर्षण क्षेत्र मॉडलिंग: Holmes-Featherstone गोलीय हार्मोनिक्स का उपयोग
  • विक्षोभ बल: वायुमंडलीय ड्रैग, सौर विकिरण दबाव, तीसरे पिंड प्रभाव
  • संख्यात्मक एकीकरण: Dormand-Prince परिवर्तनशील चरण विधि समर्थन

2. समन्वय प्रणाली समर्थन

  • कार्टेशियन निर्देशांक: प्रत्यक्ष संख्यात्मक गणना
  • केपलर तत्व: कक्षीय ज्यामिति विवरण
  • समविषुव तत्व: विलक्षणता बिंदु समस्या से बचाव

3. थ्रस्ट मॉडलिंग

ध्रुवीय निर्देशांक पैरामीटराइजेशन का उपयोग, पारंपरिक RSW समन्वय प्रणाली की तुलना में अधिक यथार्थवादी:

T_RSW = T(cos θ Ŝ + sin θ(cos φ R̂ + sin φ Ŵ))

4. अनिश्चितता प्रसार

मोंटे कार्लो सिमुलेशन की अपेक्षित अनिश्चितता को विश्लेषणात्मक रूप से अनुमानित करने के लिए राज्य संक्रमण मैट्रिक्स (STM) का उपयोग:

Σ_Δt = ΦΣ_0Φ^T

प्रायोगिक सेटअप

प्रायोगिक परिदृश्य डिजाइन

1. एकल-एजेंट कार्य

  • Hohmann युद्धाभ्यास: शास्त्रीय कक्षीय स्थानांतरण
  • टकराव से बचाव: टकराव संभावना में कमी
  • लक्ष्य ट्रैकिंग: गतिशील लक्ष्य ट्रैकिंग

2. बहु-एजेंट कार्य

  • GEO नक्षत्र समन्वय: भू-स्थिर कक्षा समान वितरण
  • स्वतंत्र शिक्षा बनाम संघीय शिक्षा: विभिन्न सहयोग रणनीतियों की तुलना

मूल्यांकन मेट्रिक्स

  • कक्षीय सटीकता: सैद्धांतिक समाधान से विचलन
  • ईंधन खपत: कार्य पूरा करने की ईंधन दक्षता
  • टकराव संभावना: PoC < 10^-6 सुरक्षा सीमा के रूप में
  • अभिसरण प्रदर्शन: प्रशिक्षण एपिसोड का संचयी पुरस्कार

तुलना विधियां

  • DDPG: निरंतर नियंत्रण आधारभूत
  • PPO: नीति अनुकूलन विधि
  • DDQN: असतत कार्य स्थान
  • स्वतंत्र शिक्षा: संचार रहित बहु-एजेंट
  • संघीय शिक्षा: पैरामीटर साझाकरण सहयोग

कार्यान्वयन विवरण

  • नेटवर्क आर्किटेक्चर: दो छिपी परतें, Tanh सक्रियण फ़ंक्शन
  • प्रशिक्षण पैरामीटर: सीखने की दर 0.0001, GAE λ=0.95
  • हार्डवेयर कॉन्फ़िगरेशन: Intel i3-8100 CPU, GTX 1050 Ti GPU, 16GB RAM

प्रायोगिक परिणाम

मुख्य परिणाम

  • कम RMSE समूह: 24.14 मीटर (16.6 घंटे प्रसार)
  • मध्य RMSE समूह: 83.75 मीटर
  • उच्च RMSE समूह: 1924.90 मीटर
  • कुल MAPE: 0.16%

2. Hohmann युद्धाभ्यास प्रयोग

  • सफलतापूर्वक निकट-इष्टतम नीति सीखा, सैद्धांतिक अर्ध-प्रमुख अक्ष मान से मेल खाता है
  • वास्तविक विक्षोभ के तहत भी लक्ष्य कक्षा तक पहुंचने में सक्षम
  • प्रयोग 2 प्रयोग 1 की तुलना में तेजी से अभिसरण (α2=0.5 बनाम α2=0)

3. टकराव से बचाव तुलना

  • PPO प्रदर्शन: प्रारंभिक थ्रस्ट लागू करता है, टकराव जोखिम को प्रभावी ढंग से कम करता है
  • DDQN प्रदर्शन: प्रशिक्षण गतिविज्ञान के तहत प्रभावी, लेकिन सामान्यीकरण क्षमता कमजोर
  • निरंतर कार्य स्थान लाभ: PPO वास्तविक गतिविज्ञान के तहत बेहतर प्रदर्शन करता है

4. GEO नक्षत्र समन्वय

  • एजेंट सफलतापूर्वक समान वितरण रणनीति सीखते हैं
  • संघीय शिक्षा तेजी से अभिसरण करती है
  • अदेखे विक्षोभ के तहत अच्छी सामान्यीकरण क्षमता

विलोपन प्रयोग

थ्रस्ट दिशा दंड प्रभाव

प्रयोग दिखाते हैं कि पुरस्कार फ़ंक्शन में कक्षीय दिशा दंड जोड़ना (α2=0.5) शिक्षा को महत्वपूर्ण रूप से सुधार सकता है:

  • लक्ष्य कक्षा में तेजी से अभिसरण
  • अनावश्यक कक्षीय समतल बाहर युद्धाभ्यास में कमी
  • इष्टतम Hohmann युद्धाभ्यास के करीब

गतिविज्ञान जटिलता प्रभाव

  • सरलीकृत मॉडल प्रशिक्षण: केवल न्यूटोनियन गुरुत्वाकर्षण
  • वास्तविक मूल्यांकन: सभी विक्षोभ बल
  • सामान्यीकरण क्षमता: प्रशिक्षण नीति वास्तविक परिस्थितियों में भी प्रभावी है

प्रदर्शन विश्लेषण

कंप्यूटिंग प्रदर्शन

  • समय जटिलता: O(n), n खगोलीय पिंडों की संख्या है
  • समानांतर प्रभाव: जटिल बल मॉडल के तहत समानांतर पैटर्न तेजी से है
  • स्केलेबिलिटी: हजारों खगोलीय पिंड प्रणाली समर्थन करता है

संबंधित कार्य

कक्षीय गतिविज्ञान RL अनुप्रयोग

  • पारंपरिक विधियां: अधिकांश CR3BP सरलीकृत मॉडल पर आधारित
  • Orekit अनुप्रयोग: कुछ अनुसंधान उच्च निष्ठा पुस्तकालयों का उपयोग करते हैं
  • बहु-एजेंट विकास: हाल ही में समन्वय कार्यों पर ध्यान केंद्रित करना शुरू किया

बहु-एजेंट RL पर्यावरण

  • REDA एल्गोरिथ्म: Poliastro और DQN का उपयोग
  • MAPPO अनुप्रयोग: बहु-उपग्रह अवलोकन योजना
  • संरचना संपादन उड़ान: केवल न्यूटोनियन गुरुत्वाकर्षण पर विचार

OrbitZoo लाभ

मौजूदा पर्यावरणों की तुलना में, OrbitZoo एकमात्र है जो एक साथ समर्थन करता है:

  • बहु-एजेंट RL
  • औद्योगिक मानक सिमुलेटर
  • उच्च निष्ठा गतिविज्ञान
  • निरंतर नियंत्रण
  • वास्तविक खगोलीय पिंड और थ्रस्ट मॉडलिंग
  • इंटरैक्टिव दृश्य
  • सार्वजनिक रूप से उपलब्ध

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. सत्यापन सफल: OrbitZoo ने Starlink डेटा के माध्यम से सत्यापन किया, MAPE केवल 0.16%
  2. कार्य पूर्ण: एकल/बहु-एजेंट, सहयोगी/प्रतिस्पर्धी परिदृश्य समर्थन करता है
  3. प्रदर्शन उत्कृष्ट: प्रशिक्षण नीति वास्तविक गतिविज्ञान के तहत अच्छा प्रदर्शन करती है
  4. उपयोग में आसानी: मॉड्यूलर डिजाइन, तेजी से विकास और तैनाती समर्थन करता है

सीमाएं

  1. कंप्यूटिंग ओवरहेड: उच्च निष्ठा सिमुलेशन को अधिक कंप्यूटिंग संसाधनों की आवश्यकता है
  2. पैरामीटर ट्यूनिंग: प्रयोगों में व्यापक हाइपरपैरामीटर अनुकूलन नहीं किया गया
  3. स्केलिंग चुनौती: बड़े नक्षत्रों का वास्तविक समय सिमुलेशन अभी भी चुनौतीपूर्ण है
  4. मॉडल निर्भरता: Orekit पुस्तकालय की सटीकता पर निर्भर

भविष्य की दिशा

  1. एल्गोरिथ्म अनुकूलन: विशेष कक्षीय RL एल्गोरिथ्म का अन्वेषण
  2. अनुप्रयोग विस्तार: अधिक कार्य प्रकार और बाधाएं समर्थन करता है
  3. प्रदर्शन सुधार: GPU त्वरण और वितरित कंप्यूटिंग
  4. मानकीकरण प्रचार: कक्षीय RL बेंचमार्क परीक्षण स्थापित करता है

गहन मूल्यांकन

लाभ

  1. मजबूत नवाचार: औद्योगिक मानक पुस्तकालयों पर आधारित पहला बहु-एजेंट कक्षीय RL पर्यावरण
  2. पर्याप्त सत्यापन: वास्तविक उपग्रह डेटा के माध्यम से सत्यापित, उच्च विश्वसनीयता
  3. व्यापक कार्य: विभिन्न परिदृश्य और एल्गोरिथ्म समर्थन करता है, अच्छी विस्तारशीलता
  4. उच्च व्यावहारिक मूल्य: वास्तविक उपग्रह कार्य विकास के लिए सीधे उपयोग किया जा सकता है

कमियां

  1. कंप्यूटिंग दक्षता: उच्च निष्ठा सिमुलेशन की कंप्यूटिंग लागत अधिक है
  2. एल्गोरिथ्म सीमा: मुख्य रूप से शास्त्रीय RL एल्गोरिथ्म सत्यापित करता है, विशेष अनुकूलन की कमी
  3. परिदृश्य कवरेज: प्रायोगिक परिदृश्य अपेक्षाकृत सीमित हैं, अधिक अनुप्रयोग विस्तार कर सकते हैं
  4. सैद्धांतिक विश्लेषण: अभिसरण आदि के सैद्धांतिक गारंटी की कमी

प्रभाव

  1. शैक्षणिक योगदान: कक्षीय RL मानकीकृत पर्यावरण की खाई को भरता है
  2. औद्योगिक मूल्य: वास्तविक उपग्रह स्वायत्त नियंत्रण विकास के लिए उपयोग किया जा सकता है
  3. खुला स्रोत महत्व: इस क्षेत्र के अनुसंधान की पुनरुत्पादनीयता को बढ़ावा देता है
  4. मानक निर्धारण: कक्षीय RL अनुसंधान के लिए मानक मंच बनने की संभावना

लागू परिदृश्य

  1. उपग्रह स्वायत्त नियंत्रण: कक्षीय रखरखाव, युद्धाभ्यास योजना
  2. नक्षत्र प्रबंधन: बहु-उपग्रह समन्वय, संरचना उड़ान
  3. टकराव से बचाव: अंतरिक्ष मलबा परिहार रणनीति
  4. कार्य योजना: जटिल अंतरिक्ष कार्यों की बुद्धिमान निर्णय
  5. शिक्षा प्रशिक्षण: एयरोस्पेस इंजीनियरिंग और मशीन लर्निंग शिक्षण

संदर्भ

  1. Orekit: खुला स्रोत खगोलीय यांत्रिकी पुस्तकालय
  2. PettingZoo: बहु-एजेंट RL पर्यावरण मानक
  3. Starlink ephemeris data: उपग्रह कक्षीय सत्यापन डेटा
  4. संबंधित कक्षीय RL अनुसंधान: Kolosa (2019), Herrera (2020), Casas (2022) आदि

सारांश: OrbitZoo महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य का एक खुला स्रोत बहु-एजेंट सुदृढ़ीकरण शिक्षण पर्यावरण है, जो उच्च निष्ठा कक्षीय गतिविज्ञान मॉडलिंग और वास्तविक डेटा सत्यापन के माध्यम से, अंतरिक्ष स्वायत्त प्रणालियों के अनुसंधान और विकास के लिए एक शक्तिशाली उपकरण प्रदान करता है। यह कार्य न केवल एयरोस्पेस क्षेत्र में RL के अनुप्रयोग को आगे बढ़ाता है, बल्कि इस अंतःविषय के मानकीकृत विकास में भी महत्वपूर्ण योगदान देता है।