এই পেপারটি ASTREA উপস্থাপন করে, যা ফ্লাইট-গ্রেড হার্ডওয়্যার (TRL 9) এ সম্পাদিত প্রথম এজেন্ট সিস্টেম যা মহাকাশযানের স্বায়ত্তশাসিত অপারেশনের জন্য এবং আন্তর্জাতিক মহাকাশ স্টেশন (ISS) এ কক্ষপথীয় যাচাইকরণের মাধ্যমে। তাপীয় নিয়ন্ত্রণকে প্রতিনিধিত্বমূলক ব্যবহারের ক্ষেত্র হিসাবে ব্যবহার করে, এই সিস্টেমটি সম্পদ-সীমিত বড় ভাষা মডেল (LLM) এজেন্টকে শক্তিশালী শিক্ষা নিয়ন্ত্রকের সাথে একীভূত করে যা মহাকাশ-স্তরের প্ল্যাটফর্মের জন্য কাস্টমাইজড অ্যাসিঙ্ক্রোনাস আর্কিটেকচারে। স্থল পরীক্ষায় দেখা গেছে যে LLM-নির্দেশিত তদারকি তাপীয় স্থিতিশীলতা উন্নত করেছে এবং লঙ্ঘন হ্রাস করেছে, যা হার্ডওয়্যার সীমাবদ্ধতার অধীনে শব্দার্থগত যুক্তি এবং অভিযোজিত নিয়ন্ত্রণের সমন্বয়ের সম্ভাব্যতা নিশ্চিত করে। ISS এ কক্ষপথীয় যাচাইকরণ প্রাথমিকভাবে অনুমান বিলম্ব এবং নিম্ন পৃথিবী কক্ষপথ (LEO) স্যাটেলাইটের দ্রুত তাপীয় চক্রের মধ্যে অমিলের চ্যালেঞ্জের সম্মুখীন হয়েছিল। কক্ষপথীয় দৈর্ঘ্যের সাথে সিঙ্ক্রোনাইজেশনের পরে সফলভাবে ভিত্তিরেখা অতিক্রম করেছে, লঙ্ঘন হ্রাস করেছে, অপারেটিং সময় বৃদ্ধি করেছে এবং CPU ব্যবহারের দক্ষতা উন্নত করেছে।
১. মহাকাশ স্বায়ত্তশাসিত অপারেশনের প্রয়োজনীয়তা: চন্দ্র মিশন এবং পৃথিবী কক্ষপথ মিশনের বিকাশের সাথে, ন্যূনতম মানব হস্তক্ষেপের অধীনে চলতে সক্ষম মহাকাশ সিস্টেমের প্রয়োজন রয়েছে, বিশেষত যেখানে যোগাযোগ বিলম্ব সরাসরি স্থল তদারকিতে বাধা দেয়।
२. তাপীয় নিয়ন্ত্রণের জটিলতা: তাপীয় নিয়ন্ত্রণ একটি গুরুত্বপূর্ণ উপ-সিস্টেম যা সীমিত গণনা সম্পদ বাস্তব সময়ে পরিচালনা করার সময় সমস্ত ইলেকট্রনিক উপাদানের অপারেটিং অখণ্ডতা বজায় রাখতে হবে। ঐতিহ্যবাহী পদ্ধতি পূর্ব-প্রোগ্রাম করা নিয়ম এবং স্থল তদারকির উপর নির্ভর করে, গতিশীল তাপীয় লোডের প্রতিক্রিয়ায় নমনীয়তার অভাব রয়েছে।
३. হার্ডওয়্যার সম্পদ সীমাবদ্ধতা: বড় ভাষা মডেলগুলির জন্য বিশাল হার্ডওয়্যার সম্পদ প্রয়োজন, যা বিকিরণ সহনশীলতা বজায় রাখতে হবে এবং শক্তি খরচ, আকার এবং তাপমাত্রার কঠোর সীমাবদ্ধতার অধীনে চলতে হবে এমন এম্বেডেড পরিবেশের সাথে সংঘর্ষ করে।
१. Space Llama: এজেন্ট আচরণের অভাব, শুধুমাত্র নভোচারীদের দ্বারা ম্যানুয়াল ব্যবহারের জন্য २. LLMSat এবং AI Space Cortex: প্রধানত স্থল সিমুলেশন পরিবেশে যাচাই করা হয়েছে, প্রকৃত ফ্লাইট যাচাইকরণ ছাড়াই ३. ঐতিহ্যবাহী তাপীয় নিয়ন্ত্রণ: পূর্ব-নির্ধারিত নিয়মের উপর নির্ভর করে, প্রসঙ্গ ব্যাখ্যা এবং অভিযোজনযোগ্যতার অভাব রয়েছে
१. প্রথম ফ্লাইট-গ্রেড এজেন্ট সিস্টেম: TRL 9 হার্ডওয়্যারে প্রথম LLM-ভিত্তিক এজেন্ট তদারকি সিস্টেম বাস্তবায়ন এবং ISS এ যাচাইকরণ २. হাইব্রিড অ্যাসিঙ্ক্রোনাস আর্কিটেকচার: শক্তিশালী শিক্ষার দক্ষতা এবং ভাষা মডেলের ব্যাখ্যাযোগ্যতা একত্রিত করে এমন হাইব্রিড ডিজাইন প্রস্তাব করা ३. কক্ষপথীয় সিঙ্ক্রোনাইজেশন কৌশল: আবিষ্কার এবং যাচাই করা যে কক্ষপথীয় সময়কালের সাথে সিঙ্ক্রোনাইজড অনুমান উইন্ডো বিলম্ব সীমাবদ্ধতা অতিক্রম করতে পারে ४. প্রকৃত কর্মক্ষমতা উন্নতি: স্থল পরীক্ষায় ৬৭.२% অপারেটিং সময় বৃদ্ধি এবং ৫८.५% তাপীয় লঙ্ঘন হ্রাস অর্জন করা ५. মহাকাশ AI ডিজাইন নির্দেশিকা: ভবিষ্যত LEO স্বায়ত্তশাসিত সিস্টেমের জন্য ব্যবহারিক ডিজাইন নীতি প্রদান করা
ইনপুট: অনবোর্ড তাপমাত্রা সেন্সর ডেটা, CPU ব্যবহারের অবস্থা, তাপীয় গ্রেডিয়েন্ট তথ্য আউটপুট: গতিশীলভাবে সামঞ্জস্যকৃত এন্ট্রপি সহগ (α) সুপারিশ, শক্তিশালী শিক্ষা এজেন্টের অন্বেষণ-শোষণ ভারসাম্য অপ্টিমাইজ করার জন্য সীমাবদ্ধতা শর্তাবলী:
ASTREA দ্বি-এজেন্ট অ্যাসিঙ্ক্রোনাস আর্কিটেকচার গ্রহণ করে:
१. RL এজেন্ট (রিয়েল-টাইম স্তর):
२. LLM এজেন্ট (তদারকি স্তর):
RL এজেন্ট → অ্যাসিঙ্ক্রোনাস সারি → LLM এজেন্ট
↓
চলমান সারসংক্ষেপ (পুনরাবৃত্তি সংখ্যা, ঝুঁকিপূর্ণ অঞ্চল পদক্ষেপ, গড় তাপীয় গ্রেডিয়েন্ট)
↓
LLM এজেন্ট → অ্যাসিঙ্ক্রোনাস সারি → RL এজেন্ট
↓
α সহগ সুপারিশ (সরঞ্জাম আহ্বানের মাধ্যমে উৎপন্ন)
१. শক্তিশালী শিক্ষা এজেন্ট
२. LLM এজেন্ট সরঞ্জাম সেট
increase_exploration: α ∈ ०.४, ०.८moderate_exploration: α ∈ ०.२, ०.४decrease_exploration: α ∈ ०.०५, ०.२keep_alpha: বর্তমান মান বজায় রাখুনreset_alpha: ডিফল্ট মানে পুনরায় সেট করুন (०.२)१. অ্যাসিঙ্ক্রোনাস ডিকাপলিং ডিজাইন: LLM অনুমান বিলম্য় রিয়েল-টাইম নিয়ন্ত্রণকে প্রভাবিত করা এড়ায়, সিস্টেম নিরাপত্তা নিশ্চিত করে २. শব্দার্থগত প্যারামিটার টিউনিং: RL এজেন্টের অন্বেষণ কৌশল অপ্টিমাইজ করতে LLM এর প্রসঙ্গ বোঝার ক্ষমতা ব্যবহার করে ३. কক্ষপথীয় চক্র সারিবদ্ধকরণ: LEO পরিবেশের পর্যায়ক্রমিক বৈশিষ্ট্য আবিষ্কার এবং এজেন্ট সিঙ্ক্রোনাইজেশনের জন্য ব্যবহার করে ४. প্রান্ত গণনা অভিযোজন: মহাকাশ-স্তরের হার্ডওয়্যার সীমাবদ্ধতার জন্য মডেল পরিমাণ এবং অনুমান কৌশল অপ্টিমাইজ করা
१. স্থল পরীক্ষাগার
२. ISS কক্ষপথীয় স্থাপনা
१. তাপীয় লঙ্ঘন সংখ্যা: তাপমাত্রা থ্রেশহোল্ড অতিক্রম করা উদাহরণ গণনা २. গড় অপারেটিং সময়: তাপীয় নিয়ন্ত্রণ চলমান গড় স্থায়িত্ব (সময় পদক্ষেপ) ३. CPU ব্যবহারের দক্ষতা: ফ্রিকোয়েন্সি স্কেলিং বিবেচনা করে অবশিষ্ট গণনা ক্ষমতা বিপরীত
ভিত্তিরেখা সিস্টেম: Stable Baselines३ ডিফল্ট অভিযোজিত α সময়সূচী সহ বিশুদ্ধ SAC এজেন্ট, কোন বাহ্যিক হস্তক্ষেপ বা কর্মক্ষমতা প্রতিক্রিয়া ছাড়াই।
| মেট্রিক | সময়কাল | ভিত্তিরেখা সিস্টেম | ASTREA সিস্টেম |
|---|---|---|---|
| গড় অপারেটিং সময় | প্রথম ४ ঘন্টা | ४७.१७±१८.१५ | ७८.८३±११.३३ (+६७.२%) |
| २४ ঘন্টা | १३५.२४±३२.९४ | १४२.२९±८.०६ (+५.२%) | |
| তাপীয় লঙ্ঘন সংখ্যা | প্রথম ४ ঘন্টা | ३९.३३±९.२९ | १६.३३±२.०८ (-५८.५%) |
| २४ ঘন্টা | ८८.६७±२०.५० | ५१.३३±४.०४ (-४२.१%) | |
| গড় CPU ব্যবহার | প্রথম ४ ঘন্টা | २५.८१±५.०० % | २६.३०±२.५६% (+१.९%) |
| २४ ঘন্টা | १६.४९±५.५७% | १६.२४±४.४६% (-१.५%) |
সংক্ষিপ্ত চক্র পরীক্ষা (१५ মিনিটের উইন্ডো)
| মেট্রিক | ভিত্তিরেখা সিস্টেম | ASTREA সিস্টেম |
|---|---|---|
| গড় অপারেটিং সময় | ४४९.७७±२९५.६९ | ३६३.७६±१९०.२३ (-१९.१%) |
| তাপীয় লঙ্ঘন সংখ্যা | ६६±२४.२५ | ८२±३२.७४ (+२४.२%) |
| গড় CPU ব্যবহার | ४०.१७±१७.७०% | २२.८६±३.०५% (-४३.१%) |
কক্ষপথীয় চক্র পরীক্ষা (९० মিনিটের উইন্ডো)
| মেট্রিক | ভিত্তিরেখা সিস্টেম | ASTREA সিস্টেম |
|---|---|---|
| গড় অপারেটিং সময় | ४४९.७७±२९५.६९ | १५५५.०९±८२३.५७ (+२४५.८%) |
| তাপীয় লঙ্ঘন সংখ্যা | ६६±२४.२५ | २२.३३±९.०७ (-६६.२%) |
| গড় CPU ব্যবহার | ४०.१७±१७.७०% | ४८.२७±११.४९% (+२०.१%) |
१. সময় সিঙ্ক্রোনাইজেশনের গুরুত্ব: যখন অনুমান চক্র পরিবেশগত গতিশীলতার সাথে মিলে না যায় তখন কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস পায় २. কক্ষপথ সারিবদ্ধকরণ কৌশল: ९० মিনিটের উইন্ডো ISS কক্ষপথের সাথে সিঙ্ক্রোনাইজ করা সর্বোত্তম কর্মক্ষমতা অর্জন করে ३. অনুমান বিলম্য় প্রভাব: LLM প্রতিক্রিয়া সময় ४० সেকেন্ড থেকে ८ মিনিট পর্যন্ত, রিয়েল-টাইম নিয়ন্ত্রণ লুপের জন্য অনুপযুক্ত নিশ্চিত করে ४. প্রাথমিক সুবিধা প্রভাব: LLM-নির্দেশিত তদারকি প্রাথমিক পর্যায়ে উল্লেখযোগ্য উন্নতি প্রদান করে, দীর্ঘমেয়াদী স্থিতিশীল সুবিধা বজায় রাখে
Schoepp এবং অন্যদের শ্রেণীবিভাগ অনুযায়ী, RL এ LLM এর তিনটি ভূমিকা: १. এজেন্ট: LLM সরাসরি নীতি হিসাবে সিদ্ধান্ত নেয় २. পরিকল্পক: LLM জটিল কাজকে উপ-কাজে বিভক্ত করে ३. পুরস্কার মডেল: LLM পুরস্কার সংকেত উৎপন্ন বা মূল্যায়ন করে
ASTREA চতুর্থ মোড গ্রহণ করে: তদারকি, LLM প্যারামিটার সমন্বয় সুপারিশ প্রদান করে যখন RL এজেন্ট অপারেশনাল স্বাধীনতা বজায় রাখে।
१. প্রযুক্তিগত সম্ভাব্যতা: ফ্লাইট-গ্রেড হার্ডওয়্যারে এজেন্ট সিস্টেম স্থাপনের সম্ভাব্যতা প্রমাণিত করেছে २. কর্মক্ষমতা উন্নতি: উপযুক্ত কনফিগারেশনে তাপীয় নিয়ন্ত্রণ কর্মক্ষমতায় উল্লেখযোগ্য উন্নতি অর্জন করতে পারে ३. সময় মিলান নীতি: LLM অনুমান চক্র পরিবেশগত গতিশীলতা সময় স্কেলের সাথে মিলতে হবে ४. আর্কিটেকচার ডিজাইন নীতি: অ্যাসিঙ্ক্রোনাস ডিকাপলিং মহাকাশ প্রয়োগে LLM-RL একীকরণের চাবিকাঠি
१. হার্ডওয়্যার সীমাবদ্ধতা: বর্তমান ফ্লাইট-গ্রেড হার্ডওয়্যার সবচেয়ে শক্তিশালী ভাষা মডেল সমর্থন করতে পারে না २. অনুমান বিলম্য়: একক-কোর গণনা সীমাবদ্ধতা উল্লেখযোগ্য প্রতিক্রিয়া বিলম্য় সৃষ্টি করে ३. প্রসঙ্গ সীমাবদ্ধতা: সংক্ষিপ্ত প্রসঙ্গ দৈর্ঘ্য এবং কাঠামোগত প্রম্পট বজায় রাখা প্রয়োজন ४. বহু-এজেন্ট সম্প্রসারণ: একক LLM এজেন্টের বিলম্য় বহু-এজেন্ট কনফিগারেশনে বাধা হতে পারে
१. হার্ডওয়্যার ত্বরণ: মহাকাশ-স্তরের ত্বরক মৌলিকভাবে কর্মক্ষমতা পরিবর্তন করতে পারে २. ডোমেইন-নির্দিষ্ট মডেল: তাপ ব্যবস্থাপনা-নির্দিষ্ট মডেল প্রসঙ্গ বোঝা উন্নত করতে পারে ३. প্যারামিটার সম্প্রসারণ: α সহগ ছাড়াও অন্যান্য নিয়ন্ত্রণ প্যারামিটার বা অভিযোজিত পুরস্কার গঠন ४. বহু-এজেন্ট সহযোগিতা: একাধিক LLM এজেন্টের সহযোগী তদারকি আর্কিটেকচার অন্বেষণ করা
१. অগ্রগামী তাৎপর্য: প্রকৃত ফ্লাইট পরিবেশে এজেন্ট সিস্টেম যাচাইকরণের প্রথম উদাহরণ, মাইলফলক মূল্য রয়েছে २. প্রকৌশল ব্যবহারিকতা: হার্ডওয়্যার সীমাবদ্ধতা সম্পূর্ণভাবে বিবেচনা করে, স্থাপনাযোগ্য সমাধান প্রদান করে ३. পরীক্ষামূলক সম্পূর্ণতা: স্থল এবং কক্ষপথীয় দ্বিগুণ যাচাইকরণ, একাধিক কনফিগারেশন তুলনা বিশ্লেষণ ४. তাত্ত্বিক অবদান: LLM অনুমান চক্র এবং পরিবেশগত গতিশীলতা মিলানোর ডিজাইন নীতি প্রতিষ্ঠা করেছে ५. প্রযুক্তিগত উদ্ভাবন: অ্যাসিঙ্ক্রোনাস আর্কিটেকচার চতুরতার সাথে বিলম্য় এবং নিরাপত্তার দ্বন্দ্ব সমাধান করে
१. নমুনা আকার: পরীক্ষামূলক সময়কাল অপেক্ষাকৃত সংক্ষিপ্ত, দীর্ঘমেয়াদী স্থিতিশীলতা যাচাইকরণ অপেক্ষা করছে २. পরিবেশ একক: শুধুমাত্র তাপীয় নিয়ন্ত্রণ পরিস্থিতিতে যাচাই করা হয়েছে, অন্যান্য উপ-সিস্টেম প্রযোজ্যতা অজানা ३. মডেল সীমাবদ্ধতা: পরিমাণিত মডেলের অনুমান ক্ষমতা সম্পূর্ণ মডেলের তুলনায় সীমিত ४. খরচ-সুবিধা: ঐতিহ্যবাহী পদ্ধতির তুলনায় গণনা ওভারহেড এবং জটিলতা বৃদ্ধি
१. একাডেমিক মূল্য: মহাকাশ AI প্রয়োগের জন্য গুরুত্বপূর্ণ অভিজ্ঞতামূলক ভিত্তি প্রদান করেছে २. শিল্প তাৎপর্য: মহাকাশ শিল্পের স্বায়ত্তশাসিত উন্নয়নের জন্য প্রযুক্তি পথ প্রদান করেছে ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং ওপেন-সোর্স সরঞ্জাম সমর্থন পুনরুৎপাদন সক্ষম করে ४. সম্প্রসারণ সম্ভাবনা: আর্কিটেকচার ডিজাইন ভাল স্কেলেবিলিটি এবং অভিযোজনযোগ্যতা রয়েছে
१. গভীর মহাকাশ অন্বেষণ: যোগাযোগ বিলম্য় পরিবেশে স্বায়ত্তশাসিত সিদ্ধান্ত সমর্থন २. ছোট স্যাটেলাইট নক্ষত্রপুঞ্জ: সম্পদ-সীমিত পরিবেশে বুদ্ধিমান তদারকি ३. মানব মহাকাশ অভিযান: নভোচারীদের জন্য বুদ্ধিমান সহায়তা সিস্টেম প্রদান করা ४. স্থল প্রান্ত গণনা: সম্পদ সীমাবদ্ধ পরিবেশে হাইব্রিড বুদ্ধিমান সিস্টেম
१. Callejo, E., et al. (२०२३). Imagin-e: The first step towards extending the cloud into space. २. Booz Allen Hamilton and Meta (२०२५). Booz allen and meta launch space llama. ३. Maranto, D. (२०२४). Llmsat: A large language model-based goal-oriented agent for autonomous space exploration. ४. Touma, T., et al. (२०२५). Ai space cortex: An experimental system for future era space exploration. ५. Yang, A., et al. (२०२४). Qwen२ technical report.
সামগ্রিক মূল্যায়ন: এই পেপারটি মহাকাশ AI প্রয়োগ ক্ষেত্রে গুরুত্বপূর্ণ অগ্রগামী তাৎপর্য রয়েছে, কঠোর পরীক্ষামূলক ডিজাইন এবং ব্যাপক যাচাইকরণের মাধ্যমে ভবিষ্যত বুদ্ধিমান মহাকাশযানের উন্নয়নের জন্য একটি দৃঢ় ভিত্তি স্থাপন করেছে। কিছু প্রযুক্তিগত সীমাবদ্ধতা থাকলেও, এর প্রকৌশল মূল্য এবং একাডেমিক অবদান উল্লেখযোগ্য, গভীর গবেষণা এবং আরও উন্নয়নের যোগ্য।