2025-11-24T22:58:17.201528

ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

Mousist
This paper presents ASTREA, the first agentic system executed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations, with on-orbit operation aboard the International Space Station (ISS). Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility of combining semantic reasoning with adaptive control under hardware constraints. On-orbit validation aboard the ISS initially faced challenges due to inference latency misaligned with the rapid thermal cycles of Low Earth Orbit (LEO) satellites. Synchronization with the orbit length successfully surpassed the baseline with reduced violations, extended episode durations, and improved CPU utilization. These findings demonstrate the potential for scalable agentic supervision architectures in future autonomous spacecraft.
academic

ASTREA: कक्षीय तापीय स्वायत्तता के लिए एजेंटिक बुद्धिमत्ता का परिचय

मूल जानकारी

  • पेपर ID: 2509.13380
  • शीर्षक: ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy
  • लेखक: Alejandro D. Mousist (थेल्स एलेनिया स्पेस, ट्रेस कैंटोस, स्पेन)
  • वर्गीकरण: cs.RO cs.AI cs.LG cs.MA cs.SY eess.SY
  • प्रकाशन समय: 11 अक्टूबर 2025 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2509.13380

सारांश

यह पेपर ASTREA प्रस्तुत करता है, जो उड़ान-स्तरीय हार्डवेयर (TRL 9) पर निष्पादित होने वाली पहली एजेंट प्रणाली है, जिसका उपयोग अंतरिक्ष यान की स्वायत्त संचालन के लिए किया जाता है, और अंतर्राष्ट्रीय अंतरिक्ष स्टेशन (ISS) पर कक्षीय सत्यापन किया गया है। तापीय नियंत्रण को प्रतिनिधि उपयोग मामले के रूप में लेते हुए, यह प्रणाली संसाधन-सीमित बड़े भाषा मॉडल (LLM) एजेंट को सुदृढ़ीकरण सीखने वाले नियंत्रक के साथ अंतरिक्ष-स्तरीय प्लेटफॉर्म के लिए अनुकूलित एक अतुल्यकालिक आर्किटेक्चर में एकीकृत करता है। जमीन पर प्रयोगों से पता चलता है कि LLM-निर्देशित निरीक्षण ने तापीय स्थिरता में सुधार किया और उल्लंघनों को कम किया, जो हार्डवेयर बाधाओं के तहत शब्दार्थ तर्क और अनुकूली नियंत्रण को जोड़ने की व्यवहार्यता की पुष्टि करता है। ISS पर कक्षीय सत्यापन शुरुआत में तर्क विलंब और निम्न पृथ्वी कक्षा (LEO) उपग्रहों के तीव्र तापीय चक्र के बीच असमानता की चुनौतियों का सामना करता है। कक्षीय लंबाई के साथ सिंक्रोनाइज़ेशन के बाद, यह आधारभूत को सफलतापूर्वक पार करता है, उल्लंघनों को कम करता है, संचालन समय को बढ़ाता है, और CPU उपयोग में सुधार करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. अंतरिक्ष स्वायत्त संचालन की आवश्यकता: चंद्र मिशन और पृथ्वी कक्षा मिशन के विकास के साथ, ऐसी अंतरिक्ष प्रणालियों की आवश्यकता है जो न्यूनतम मानवीय हस्तक्षेप के साथ संचालित हो सकें, विशेष रूप से उन वातावरणों में जहां संचार विलंब सीधी जमीन निगरानी में बाधा डालता है।
  2. तापीय नियंत्रण की जटिलता: तापीय नियंत्रण एक महत्वपूर्ण उप-प्रणाली है जिसे सभी इलेक्ट्रॉनिक घटकों की परिचालन अखंडता को बनाए रखते हुए सीमित कम्प्यूटेशनल संसाधनों को वास्तविक समय में प्रबंधित करना चाहिए। पारंपरिक विधियां पूर्व-प्रोग्राम किए गए नियमों और जमीन निगरानी पर निर्भर करती हैं, जो गतिशील तापीय भार का सामना करने के लिए लचीलापन की कमी करती हैं।
  3. हार्डवेयर संसाधन बाधाएं: बड़े भाषा मॉडलों को बड़ी मात्रा में हार्डवेयर संसाधनों की आवश्यकता होती है, जो विकिरण-सहिष्णु होने और शक्ति, आकार और तापमान की कठोर बाधाओं के तहत संचालित होने वाले एम्बेडेड वातावरण के साथ संघर्ष करता है।

अनुसंधान का महत्व

  • तकनीकी सफलता: वास्तविक उड़ान वातावरण में LLM-आधारित एजेंट निरीक्षण प्रणाली का पहला तैनाती
  • व्यावहारिक मूल्य: भविष्य की स्वायत्त अंतरिक्ष यान के लिए स्केलेबल एजेंट निरीक्षण आर्किटेक्चर स्थापित करना
  • सैद्धांतिक योगदान: अंतरिक्ष-बाधित वातावरणों में शब्दार्थ तर्क और अनुकूली नियंत्रण के संयोजन की खोज

मौजूदा विधियों की सीमाएं

  1. Space Llama: एजेंट व्यवहार की कमी, केवल अंतरिक्ष यात्रियों के मानवीय उपयोग के लिए
  2. LLMSat और AI Space Cortex: मुख्य रूप से जमीन सिमुलेशन वातावरण में सत्यापित, वास्तविक उड़ान सत्यापन से रहित
  3. पारंपरिक तापीय नियंत्रण: पूर्वनिर्धारित नियमों पर निर्भर, संदर्भ व्याख्या और अनुकूलनशीलता की कमी

मुख्य योगदान

  1. पहली उड़ान-स्तरीय एजेंट प्रणाली: TRL 9 हार्डवेयर पर पहली LLM-आधारित एजेंट निरीक्षण प्रणाली को लागू किया और ISS पर सत्यापित किया
  2. हाइब्रिड अतुल्यकालिक आर्किटेक्चर: सुदृढ़ीकरण सीखने की दक्षता को भाषा मॉडल की व्याख्यात्मकता के साथ जोड़ने वाला एक हाइब्रिड डिज़ाइन प्रस्तावित किया
  3. कक्षीय सिंक्रोनाइज़ेशन रणनीति: खोजा और सत्यापित किया कि कक्षीय अवधि के साथ सिंक्रोनाइज़ किए गए तर्क विंडो विलंब सीमाओं को दूर कर सकते हैं
  4. वास्तविक प्रदर्शन सुधार: जमीन प्रयोगों में संचालन समय में 67.2% वृद्धि और तापीय उल्लंघनों में 58.5% कमी प्राप्त की
  5. अंतरिक्ष AI डिज़ाइन दिशानिर्देश: भविष्य के LEO स्वायत्त प्रणालियों के लिए व्यावहारिक डिज़ाइन सिद्धांत प्रदान किए

विधि विवरण

कार्य परिभाषा

इनपुट: ऑनबोर्ड तापमान सेंसर डेटा, CPU उपयोग स्थिति, तापीय ढाल जानकारी आउटपुट: गतिशील रूप से समायोजित एंट्रॉपी गुणांक (α) सिफारिशें, सुदृढ़ीकरण सीखने वाले एजेंट के अन्वेषण-शोषण संतुलन को अनुकूलित करने के लिए बाधा शर्तें:

  • तापमान थ्रेसहोल्ड सीमाएं (जमीन 60°C, कक्षीय 57°C)
  • एकल-कोर कम्प्यूटेशनल संसाधन (कोर 0 एजेंट प्रणाली के लिए समर्पित)
  • तर्क विलंब (40 सेकंड से 8 मिनट तक)

मॉडल आर्किटेक्चर

समग्र प्रणाली डिज़ाइन

ASTREA एक दोहरी-एजेंट अतुल्यकालिक आर्किटेक्चर अपनाता है:

  1. RL एजेंट (वास्तविक समय परत):
    • Soft Actor-Critic (SAC) एल्गोरिदम पर आधारित
    • ऑनबोर्ड तापमान की निरंतर निगरानी
    • 15 CPU कोर के संसाधन उपलब्धता को वास्तविक समय में समायोजित करता है
    • कोर आवृत्ति और विद्युत स्थिति प्रबंधित करता है
  2. LLM एजेंट (निरीक्षण परत):
    • परिमाणित Qwen2.5 मॉडल का उपयोग (1.54 बिलियन पैरामीटर, 4-बिट परिमाणीकरण)
    • Llama.cpp के माध्यम से डिवाइस-पर तर्क
    • शब्दार्थ तर्क और संदर्भ-जागरूक पैरामीटर समायोजन सिफारिशें प्रदान करता है

संचार तंत्र

RL एजेंट → अतुल्यकालिक कतार → LLM एजेंट
         ↓
    संचालन सारांश (पुनरावृत्ति संख्या, खतरे क्षेत्र चरण, औसत तापीय ढाल)
         ↓
LLM एजेंट → अतुल्यकालिक कतार → RL एजेंट  
         ↓
    α गुणांक सिफारिशें (उपकरण कॉल के माध्यम से उत्पन्न)

मुख्य तकनीकी घटक

1. सुदृढ़ीकरण सीखने वाला एजेंट

  • स्थिति स्थान: तापमान सेंसर रीडिंग, CPU आवृत्ति, खतरे अनुपात
  • कार्य स्थान: 15 कोर की आवृत्ति और विद्युत स्थिति समायोजन
  • पुरस्कार फ़ंक्शन: आधार जीवन पुरस्कार + तापीय सुरक्षा पुरस्कार
  • नई अवलोकन विशेषताएं: खतरे अनुपात (10% थ्रेसहोल्ड के भीतर सेंसर अनुपात)

2. LLM एजेंट उपकरण सेट

  • increase_exploration: α ∈ 0.4, 0.8
  • moderate_exploration: α ∈ 0.2, 0.4
  • decrease_exploration: α ∈ 0.05, 0.2
  • keep_alpha: वर्तमान मान बनाए रखें
  • reset_alpha: डिफ़ॉल्ट मान पर रीसेट करें (0.2)

तकनीकी नवाचार बिंदु

  1. अतुल्यकालिक विघटन डिज़ाइन: LLM तर्क विलंब को वास्तविक समय नियंत्रण को प्रभावित करने से रोकता है, प्रणाली सुरक्षा सुनिश्चित करता है
  2. शब्दार्थ पैरामीटर ट्यूनिंग: RL एजेंट के अन्वेषण रणनीति को अनुकूलित करने के लिए LLM की संदर्भ समझ का उपयोग करता है
  3. कक्षीय अवधि संरेखण: LEO वातावरण की आवधिक विशेषताओं को खोजता है और एजेंट सिंक्रोनाइज़ेशन के लिए उपयोग करता है
  4. किनारे कम्प्यूटिंग अनुकूलन: अंतरिक्ष-स्तरीय हार्डवेयर बाधाओं के लिए मॉडल परिमाणीकरण और तर्क रणनीति को अनुकूलित करता है

प्रयोगात्मक सेटअप

प्रयोगात्मक वातावरण

1. जमीन प्रयोगशाला

  • सक्रिय पंखे शीतलन के साथ छोटी रैक कॉन्फ़िगरेशन
  • दिन में 10 घंटे तापमान नियंत्रण, रात में प्राकृतिक तापमान उतार-चढ़ाव
  • 60 मिनट की समय विंडो में संचालन सारांश संग्रह

2. ISS कक्षीय तैनाती

  • कोलंबस मॉड्यूल बाहरी पेलोड प्लेटफॉर्म
  • 90 मिनट की कक्षीय अवधि (45 मिनट दिन + 45 मिनट छाया)
  • निष्क्रिय तापीय पाइप विकिरण, कोई सक्रिय शीतलन नहीं
  • दो कॉन्फ़िगरेशन: 15 मिनट की छोटी अवधि बनाम 90 मिनट की कक्षीय अवधि

हार्डवेयर प्लेटफॉर्म

  • प्रोसेसर: 64-बिट ARM आर्किटेक्चर, 16-कोर Cortex-A72
  • मेमोरी: 16GB LPDDR4
  • आवृत्ति श्रेणी: 1.0-2.0 GHz गतिशील समायोजन
  • बाधाएं: कोई समर्पित हार्डवेयर त्वरक नहीं, कोर 0 ASTREA के लिए समर्पित

मूल्यांकन मेट्रिक्स

  1. तापीय उल्लंघन संख्या: तापमान थ्रेसहोल्ड से अधिक उदाहरणों की गणना
  2. औसत संचालन समय: तापीय नियंत्रण संचालन की औसत अवधि (समय चरण)
  3. CPU उपयोग दक्षता: आवृत्ति स्केलिंग को ध्यान में रखते हुए शेष कम्प्यूटेशनल क्षमता का व्युत्क्रम

तुलना विधियां

आधारभूत प्रणाली: Stable Baselines3 डिफ़ॉल्ट अनुकूली α शेड्यूलिंग के साथ शुद्ध SAC एजेंट, कोई बाहरी हस्तक्षेप या प्रदर्शन प्रतिक्रिया नहीं।

प्रयोगात्मक परिणाम

जमीन प्रयोग मुख्य परिणाम

मेट्रिकसमय अवधिआधारभूत प्रणालीASTREA प्रणाली
औसत संचालन समयपहले 4 घंटे47.17±18.1578.83±11.33 (+67.2%)
24 घंटे135.24±32.94142.29±8.06 (+5.2%)
तापीय उल्लंघन संख्यापहले 4 घंटे39.33±9.2916.33±2.08 (-58.5%)
24 घंटे88.67±20.5051.33±4.04 (-42.1%)
औसत CPU उपयोगपहले 4 घंटे25.81±5.00%26.30±2.56% (+1.9%)
24 घंटे16.49±5.57%16.24±4.46% (-1.5%)

कक्षीय प्रयोग परिणाम

छोटी अवधि प्रयोग (15 मिनट विंडो)

मेट्रिकआधारभूत प्रणालीASTREA प्रणाली
औसत संचालन समय449.77±295.69363.76±190.23 (-19.1%)
तापीय उल्लंघन संख्या66±24.2582±32.74 (+24.2%)
औसत CPU उपयोग40.17±17.70%22.86±3.05% (-43.1%)

कक्षीय अवधि प्रयोग (90 मिनट विंडो)

मेट्रिकआधारभूत प्रणालीASTREA प्रणाली
औसत संचालन समय449.77±295.691555.09±823.57 (+245.8%)
तापीय उल्लंघन संख्या66±24.2522.33±9.07 (-66.2%)
औसत CPU उपयोग40.17±17.70%48.27±11.49% (+20.1%)

मुख्य निष्कर्ष

  1. समय सिंक्रोनाइज़ेशन का महत्व: जब तर्क अवधि पर्यावरणीय गतिशीलता से मेल नहीं खाती है, तो प्रदर्शन में उल्लेखनीय गिरावट आती है
  2. कक्षीय संरेखण रणनीति: 90 मिनट की विंडो ISS कक्षा के साथ सिंक्रोनाइज़ करके सर्वोत्तम प्रदर्शन प्राप्त करता है
  3. तर्क विलंब प्रभाव: LLM प्रतिक्रिया समय 40 सेकंड से 8 मिनट तक, वास्तविक समय नियंत्रण लूप के लिए अनुपयुक्त साबित करता है
  4. प्रारंभिक लाभ प्रभाव: LLM-निर्देशित प्रारंभिक अवधि में महत्वपूर्ण सुधार प्रदान करता है, दीर्घकालिक स्थिर लाभ बनाए रखता है

संबंधित कार्य

अंतरिक्ष LLM अनुप्रयोग

  • Space Llama: ISS पर तैनात पहला खुला स्रोत LLM, लेकिन स्वायत्त नियंत्रण क्षमता की कमी
  • LLMSat: अंतरिक्ष यान उच्च-स्तरीय नियंत्रण प्रणाली के रूप में LLM का प्रस्ताव, केवल सिमुलेशन वातावरण में सत्यापित
  • AI Space Cortex: चरम वातावरण के लिए व्याख्यात्मक स्वायत्त ढांचा, जमीन परीक्षण प्लेटफॉर्म में सत्यापित

LLM-RL हाइब्रिड प्रणाली

Schoepp और अन्य के वर्गीकरण के अनुसार, RL में LLM की तीन भूमिकाएं:

  1. एजेंट: LLM सीधे नीति के रूप में निर्णय लेता है
  2. योजनाकार: LLM जटिल कार्यों को उप-कार्यों में विभाजित करता है
  3. पुरस्कार मॉडल: LLM पुरस्कार संकेत उत्पन्न या मूल्यांकन करता है

ASTREA एक चौथा मोड अपनाता है: निरीक्षक, LLM पैरामीटर समायोजन सिफारिशें प्रदान करता है जबकि RL एजेंट परिचालन स्वतंत्रता बनाए रखता है।

तकनीकी भेदभाव

  • सुरक्षा विचार: महत्वपूर्ण निर्णयों को प्रभावित करने वाले LLM भ्रम से बचना
  • हार्डवेयर अनुकूलन: अंतरिक्ष-स्तरीय बाधाओं के लिए अनुकूलित परिमाणित मॉडल
  • वास्तविक समय गारंटी: अतुल्यकालिक आर्किटेक्चर नियंत्रण प्रणाली प्रतिक्रियाशीलता सुनिश्चित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. तकनीकी व्यवहार्यता: उड़ान-स्तरीय हार्डवेयर पर एजेंट प्रणाली तैनाती की व्यवहार्यता की पुष्टि की
  2. प्रदर्शन सुधार: उचित कॉन्फ़िगरेशन के तहत तापीय नियंत्रण प्रदर्शन में महत्वपूर्ण सुधार प्राप्त कर सकता है
  3. समय मिलान सिद्धांत: LLM तर्क अवधि को पर्यावरणीय गतिशीलता समय पैमाने से मेल खाना चाहिए
  4. आर्किटेक्चर डिज़ाइन सिद्धांत: अतुल्यकालिक विघटन अंतरिक्ष अनुप्रयोगों में LLM-RL एकीकरण के लिए महत्वपूर्ण है

सीमाएं

  1. हार्डवेयर बाधाएं: वर्तमान उड़ान-स्तरीय हार्डवेयर सबसे शक्तिशाली भाषा मॉडलों का समर्थन नहीं कर सकता
  2. तर्क विलंब: एकल-कोर कम्प्यूटेशन सीमा महत्वपूर्ण प्रतिक्रिया विलंब का कारण बनती है
  3. संदर्भ सीमाएं: छोटी संदर्भ लंबाई और संरचित संकेत बनाए रखने की आवश्यकता
  4. बहु-एजेंट विस्तार: एकल LLM एजेंट का विलंब बहु-एजेंट कॉन्फ़िगरेशन में बाधा बन सकता है

भविष्य की दिशाएं

  1. हार्डवेयर त्वरण: अंतरिक्ष-स्तरीय त्वरक प्रदर्शन को मौलिक रूप से बदल सकते हैं
  2. डोमेन-विशिष्ट मॉडल: तापीय प्रबंधन विशिष्ट मॉडल संदर्भ समझ को बढ़ा सकते हैं
  3. पैरामीटर विस्तार: α गुणांक के अलावा अन्य नियंत्रण पैरामीटर या अनुकूली पुरस्कार आकार
  4. बहु-एजेंट सहयोग: कई LLM एजेंटों की सहयोगी निरीक्षण आर्किटेक्चर की खोज

गहन मूल्यांकन

शक्तियां

  1. अग्रणी महत्व: वास्तविक उड़ान वातावरण में एजेंट प्रणाली का पहला सत्यापन, मील का पत्थर मूल्य
  2. इंजीनियरिंग व्यावहारिकता: हार्डवेयर बाधाओं पर पूर्ण विचार, तैनाती योग्य समाधान प्रदान करता है
  3. प्रयोगात्मक पूर्णता: जमीन और कक्षीय दोहरी सत्यापन, कई कॉन्फ़िगरेशन तुलनात्मक विश्लेषण
  4. सैद्धांतिक योगदान: LLM तर्क अवधि और पर्यावरणीय गतिशीलता मिलान के डिज़ाइन सिद्धांत स्थापित करता है
  5. तकनीकी नवाचार: अतुल्यकालिक आर्किटेक्चर विलंब और सुरक्षा के विरोधाभास को चतुराई से हल करता है

कमियां

  1. नमूना आकार: प्रयोग अवधि अपेक्षाकृत छोटी है, दीर्घकालिक स्थिरता सत्यापन की प्रतीक्षा में है
  2. वातावरण एकरूपता: केवल तापीय नियंत्रण परिदृश्य में सत्यापित, अन्य उप-प्रणालियों की प्रयोज्यता अज्ञात
  3. मॉडल सीमाएं: परिमाणित मॉडल की तर्क क्षमता पूर्ण मॉडल की तुलना में सीमित
  4. लागत-लाभ: पारंपरिक विधियों की तुलना में कम्प्यूटेशनल ओवरहेड और जटिलता में वृद्धि

प्रभाव

  1. शैक्षणिक मूल्य: अंतरिक्ष AI अनुप्रयोगों के लिए महत्वपूर्ण अनुभवजन्य आधार प्रदान करता है
  2. औद्योगिक महत्व: अंतरिक्ष उद्योग के स्वायत्तकरण विकास के लिए तकनीकी पथ प्रदान करता है
  3. पुनरुत्पादनशीलता: विस्तृत कार्यान्वयन विवरण और खुला स्रोत उपकरण समर्थन पुनरुत्पादन करता है
  4. विस्तार क्षमता: आर्किटेक्चर डिज़ाइन अच्छी स्केलेबिलिटी और अनुकूलनशीलता है

लागू परिदृश्य

  1. गहरी अंतरिक्ष अन्वेषण: संचार विलंब वातावरण में स्वायत्त निर्णय समर्थन
  2. छोटे उपग्रह नक्षत्र: संसाधन-सीमित वातावरण में बुद्धिमान निरीक्षण
  3. मानवयुक्त अंतरिक्ष उड़ान: अंतरिक्ष यात्रियों के लिए बुद्धिमान सहायता प्रणाली प्रदान करना
  4. जमीन किनारे कम्प्यूटिंग: संसाधन-बाधित वातावरण में हाइब्रिड बुद्धिमान प्रणाली

संदर्भ

  1. Callejo, E., et al. (2023). Imagin-e: The first step towards extending the cloud into space.
  2. Booz Allen Hamilton and Meta (2025). Booz allen and meta launch space llama.
  3. Maranto, D. (2024). Llmsat: A large language model-based goal-oriented agent for autonomous space exploration.
  4. Touma, T., et al. (2025). Ai space cortex: An experimental system for future era space exploration.
  5. Yang, A., et al. (2024). Qwen2 technical report.

समग्र मूल्यांकन: यह पेपर अंतरिक्ष AI अनुप्रयोग क्षेत्र में महत्वपूर्ण अग्रणी महत्व रखता है। कठोर प्रयोगात्मक डिज़ाइन और पर्याप्त सत्यापन के माध्यम से, यह भविष्य की बुद्धिमान अंतरिक्ष यान के विकास के लिए एक ठोस आधार स्थापित करता है। यद्यपि कुछ तकनीकी सीमाएं हैं, लेकिन इसका इंजीनियरिंग मूल्य और शैक्षणिक योगदान महत्वपूर्ण है, गहन अनुसंधान और आगे के विकास के योग्य है।