ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy
Mousist
This paper presents ASTREA, the first agentic system executed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations, with on-orbit operation aboard the International Space Station (ISS). Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility of combining semantic reasoning with adaptive control under hardware constraints. On-orbit validation aboard the ISS initially faced challenges due to inference latency misaligned with the rapid thermal cycles of Low Earth Orbit (LEO) satellites. Synchronization with the orbit length successfully surpassed the baseline with reduced violations, extended episode durations, and improved CPU utilization. These findings demonstrate the potential for scalable agentic supervision architectures in future autonomous spacecraft.
academic
ASTREA: Einführung von Agentenintelligenzen für orbitale thermische Autonomie
In diesem Artikel wird ASTREA vorgestellt, das erste Agentensystem, das auf flugqualifizierter Hardware (TRL 9) ausgeführt wird und für autonome Raumfahrzeugoperationen bestimmt ist, mit In-Orbit-Validierung auf der Internationalen Raumstation (ISS). Mit thermischer Kontrolle als repräsentativer Anwendungsfall integriert das System einen ressourcenbeschränkten Large Language Model (LLM)-Agenten mit einem Reinforcement-Learning-Regler in einer asynchronen Architektur, die für weltraumbezogene Plattformen angepasst ist. Bodenexperimente zeigen, dass die LLM-gesteuerte Überwachung die thermische Stabilität verbessert und Verstöße reduziert, was die Machbarkeit der Kombination von semantischem Denken mit adaptiver Kontrolle unter Hardwarebeschränkungen bestätigt. Die In-Orbit-Validierung auf der ISS war zunächst mit Herausforderungen konfrontiert, die sich aus Inferenzverzögerungen und dem Missverhältnis zu schnellen thermischen Zyklen in niedrigen Erdumlaufbahnen (LEO) ergaben. Nach Synchronisierung mit der Orbitalperiode wurde die Baseline erfolgreich übertroffen, mit reduzierten Verstößen, verlängerter Betriebsdauer und verbesserter CPU-Auslastung.
Bedarf an autonomen Raumfahrtoperationen: Mit der Entwicklung von Mond- und Erdorbit-Missionen besteht die Notwendigkeit von Raumsystemen, die mit minimaler menschlicher Einmischung funktionieren, besonders in Umgebungen, in denen Kommunikationsverzögerungen direkte Bodenüberwachung behindern.
Komplexität der Thermalkontrolle: Thermalkontrolle ist ein kritisches Subsystem, das die Betriebsintegrität aller elektronischen Komponenten aufrechterhalten muss, während gleichzeitig begrenzte Rechenressourcen in Echtzeit verwaltet werden. Traditionelle Ansätze verlassen sich auf vorprogrammierte Regeln und Bodenüberwachung und mangelt es an Flexibilität bei der Reaktion auf dynamische Wärmelasten.
Hardwareressourcenbeschränkungen: Große Sprachmodelle erfordern erhebliche Hardwareressourcen, was mit eingebetteten Umgebungen kollidiert, die strahlungsresistent sein müssen und unter strikten Beschränkungen bei Stromverbrauch, Größe und Temperatur betrieben werden.
Erstes flugqualifiziertes Agentensystem: Implementierung und ISS-Validierung des ersten LLM-basierten Agenten-Überwachungssystems auf TRL-9-Hardware
Hybrid-asynchrone Architektur: Vorschlag eines hybriden Designs, das die Effizienz von Reinforcement Learning mit der Interpretierbarkeit von Sprachmodellen kombiniert
Orbitalzyklus-Synchronisierungsstrategie: Entdeckung und Validierung, dass Inferenzfenster, die mit der Orbitalperiode synchronisiert sind, Verzögerungsbeschränkungen überwinden können
Tatsächliche Leistungsverbesserungen: Erreichung einer 67,2%igen Steigerung der Betriebsdauer und einer 58,5%igen Reduktion von Thermverstößen in Bodenexperimenten
Designrichtlinien für Weltraum-KI: Bereitstellung praktischer Designprinzipien für zukünftige LEO-Autonomiesysteme
Asynchrones Entkopplungsdesign: Vermeidung von LLM-Inferenzverzögerungen, die die Echtzeitsteuerung beeinflussen, und Gewährleistung der Systemsicherheit
Semantische Parameteroptimierung: Nutzung der Kontextverstehungsfähigkeit des LLM zur Optimierung der Explorationsstrategie des RL-Agenten
Orbitalperioden-Ausrichtung: Entdeckung und Nutzung periodischer Merkmale der LEO-Umgebung für Agentensynchronisierung
Edge-Computing-Anpassung: Optimierung der Modellquantisierung und Inferenzstrategie für weltraumbezogene Hardwarebeschränkungen
Nach der Klassifizierung von Schoepp et al. gibt es drei Rollen von LLM in RL:
Agent: LLM fungiert direkt als Richtlinie für Entscheidungsfindung
Planer: LLM zerlegt komplexe Aufgaben in Teilaufgaben
Belohnungsmodell: LLM generiert oder bewertet Belohnungssignale
ASTREA nutzt einen vierten Modus: Überwacher, wobei das LLM Parameteranpassungsempfehlungen bereitstellt, während der RL-Agent operative Unabhängigkeit behält.
Callejo, E., et al. (2023). Imagin-e: The first step towards extending the cloud into space.
Booz Allen Hamilton and Meta (2025). Booz allen and meta launch space llama.
Maranto, D. (2024). Llmsat: A large language model-based goal-oriented agent for autonomous space exploration.
Touma, T., et al. (2025). Ai space cortex: An experimental system for future era space exploration.
Yang, A., et al. (2024). Qwen2 technical report.
Gesamtbewertung: Dieser Artikel hat bahnbrechende Bedeutung im Bereich der Weltraum-KI-Anwendungen. Durch strenge experimentelle Gestaltung und umfassende Validierung legt er eine solide Grundlage für die Entwicklung zukünftiger intelligenter Raumfahrzeuge. Trotz einiger technischer Einschränkungen sind sein technischer Wert und akademischer Beitrag erheblich und verdienen tiefere Forschung und weitere Entwicklung.