2025-11-24T22:58:17.201528

ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

Mousist

This paper presents ASTREA, the first agentic system executed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations, with on-orbit operation aboard the International Space Station (ISS). Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility of combining semantic reasoning with adaptive control under hardware constraints. On-orbit validation aboard the ISS initially faced challenges due to inference latency misaligned with the rapid thermal cycles of Low Earth Orbit (LEO) satellites. Synchronization with the orbit length successfully surpassed the baseline with reduced violations, extended episode durations, and improved CPU utilization. These findings demonstrate the potential for scalable agentic supervision architectures in future autonomous spacecraft.

academic

ASTREA: Einführung von Agentenintelligenzen für orbitale thermische Autonomie

Grundinformationen

Paper-ID: 2509.13380
Titel: ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy
Autor: Alejandro D. Mousist (Thales Alenia Space, Tres Cantos, Spanien)
Klassifizierung: cs.RO cs.AI cs.LG cs.MA cs.SY eess.SY
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2509.13380

Zusammenfassung

In diesem Artikel wird ASTREA vorgestellt, das erste Agentensystem, das auf flugqualifizierter Hardware (TRL 9) ausgeführt wird und für autonome Raumfahrzeugoperationen bestimmt ist, mit In-Orbit-Validierung auf der Internationalen Raumstation (ISS). Mit thermischer Kontrolle als repräsentativer Anwendungsfall integriert das System einen ressourcenbeschränkten Large Language Model (LLM)-Agenten mit einem Reinforcement-Learning-Regler in einer asynchronen Architektur, die für weltraumbezogene Plattformen angepasst ist. Bodenexperimente zeigen, dass die LLM-gesteuerte Überwachung die thermische Stabilität verbessert und Verstöße reduziert, was die Machbarkeit der Kombination von semantischem Denken mit adaptiver Kontrolle unter Hardwarebeschränkungen bestätigt. Die In-Orbit-Validierung auf der ISS war zunächst mit Herausforderungen konfrontiert, die sich aus Inferenzverzögerungen und dem Missverhältnis zu schnellen thermischen Zyklen in niedrigen Erdumlaufbahnen (LEO) ergaben. Nach Synchronisierung mit der Orbitalperiode wurde die Baseline erfolgreich übertroffen, mit reduzierten Verstößen, verlängerter Betriebsdauer und verbesserter CPU-Auslastung.

Forschungshintergrund und Motivation

Problemdefinition

Bedarf an autonomen Raumfahrtoperationen: Mit der Entwicklung von Mond- und Erdorbit-Missionen besteht die Notwendigkeit von Raumsystemen, die mit minimaler menschlicher Einmischung funktionieren, besonders in Umgebungen, in denen Kommunikationsverzögerungen direkte Bodenüberwachung behindern.
Komplexität der Thermalkontrolle: Thermalkontrolle ist ein kritisches Subsystem, das die Betriebsintegrität aller elektronischen Komponenten aufrechterhalten muss, während gleichzeitig begrenzte Rechenressourcen in Echtzeit verwaltet werden. Traditionelle Ansätze verlassen sich auf vorprogrammierte Regeln und Bodenüberwachung und mangelt es an Flexibilität bei der Reaktion auf dynamische Wärmelasten.
Hardwareressourcenbeschränkungen: Große Sprachmodelle erfordern erhebliche Hardwareressourcen, was mit eingebetteten Umgebungen kollidiert, die strahlungsresistent sein müssen und unter strikten Beschränkungen bei Stromverbrauch, Größe und Temperatur betrieben werden.

Forschungsbedeutung

Technischer Durchbruch: Erste Bereitstellung eines LLM-basierten Agenten-Überwachungssystems in einer echten Flugumgebung
Praktischer Wert: Etablierung einer skalierbaren Agenten-Überwachungsarchitektur für zukünftige autonome Raumfahrzeuge
Theoretischer Beitrag: Erforschung der Kombination von semantischem Denken und adaptiver Kontrolle in raumfahrtbezogenen Umgebungen mit Beschränkungen

Einschränkungen bestehender Methoden

Space Llama: Mangelndes Agentenverhalten, nur für manuelle Verwendung durch Astronauten
LLMSat und AI Space Cortex: Hauptsächlich in Bodensimuationsumgebungen validiert, keine echte Flugvalidierung
Traditionelle Thermalkontrolle: Abhängig von vordefinierten Regeln, mangelnde kontextuelle Erklärung und Anpassungsfähigkeit

Kernbeiträge

Erstes flugqualifiziertes Agentensystem: Implementierung und ISS-Validierung des ersten LLM-basierten Agenten-Überwachungssystems auf TRL-9-Hardware
Hybrid-asynchrone Architektur: Vorschlag eines hybriden Designs, das die Effizienz von Reinforcement Learning mit der Interpretierbarkeit von Sprachmodellen kombiniert
Orbitalzyklus-Synchronisierungsstrategie: Entdeckung und Validierung, dass Inferenzfenster, die mit der Orbitalperiode synchronisiert sind, Verzögerungsbeschränkungen überwinden können
Tatsächliche Leistungsverbesserungen: Erreichung einer 67,2%igen Steigerung der Betriebsdauer und einer 58,5%igen Reduktion von Thermverstößen in Bodenexperimenten
Designrichtlinien für Weltraum-KI: Bereitstellung praktischer Designprinzipien für zukünftige LEO-Autonomiesysteme

Methodische Details

Aufgabendefinition

Eingaben: Bordtemperatursensordaten, CPU-Auslastungsstatus, Thermalgradienteninformationen Ausgaben: Dynamisch angepasste Entropie-Koeffizientenempfehlungen (α) zur Optimierung des Explorations-Exploitations-Gleichgewichts des RL-Agenten Einschränkungen:

Temperaturschwellenwertgrenzen (Boden 60°C, In-Orbit 57°C)
Einzelkern-Rechenressourcen (Kern 0 für Agentensystem reserviert)
Inferenzverzögerung (40 Sekunden bis 8 Minuten variabel)

Modellarchitektur

Gesamtsystemdesign

ASTREA nutzt eine Dual-Agenten-asynchrone Architektur:

RL-Agent (Echtzeitschicht):
- Basierend auf dem Soft Actor-Critic (SAC)-Algorithmus
- Kontinuierliche Überwachung der Bordtemperatur
- Echtzeitanpassung der Ressourcenverfügbarkeit von 15 CPU-Kernen
- Verwaltung von Kernfrequenz und Stromzuständen
LLM-Agent (Überwachungsschicht):
- Verwendung des quantisierten Qwen2.5-Modells (1,54 Milliarden Parameter, 4-Bit-Quantisierung)
- On-Device-Inferenz über Llama.cpp
- Bereitstellung von semantischem Denken und kontextbewussten Parameteranpassungsempfehlungen

Kommunikationsmechanismus

RL-Agent → Asynchrone Warteschlange → LLM-Agent
         ↓
    Laufzusammenfassung (Iterationen, Schritte in Gefahrenzone, durchschnittlicher Thermalgradient)
         ↓
LLM-Agent → Asynchrone Warteschlange → RL-Agent  
         ↓
    α-Koeffizientenempfehlung (über Tool-Aufrufe generiert)

Wichtige technische Komponenten

1. Reinforcement-Learning-Agent

Zustandsraum: Temperatursensoreabtastungen, CPU-Frequenz, Gefahrenquote
Aktionsraum: Frequenz- und Stromzustandsanpassungen für 15 Kerne
Belohnungsfunktion: Basis-Überlebensprämie + Thermale Sicherheitsprämie
Neue Beobachtungsmerkmale: Gefahrenquote (Anteil der Sensoren innerhalb 10%-Schwelle)

2. LLM-Agent-Toolset

increase_exploration: α ∈ 0,4, 0,8
moderate_exploration: α ∈ 0,2, 0,4
decrease_exploration: α ∈ 0,05, 0,2
keep_alpha: Aktuellen Wert beibehalten
reset_alpha: Auf Standardwert zurücksetzen (0,2)

Technische Innovationen

Asynchrones Entkopplungsdesign: Vermeidung von LLM-Inferenzverzögerungen, die die Echtzeitsteuerung beeinflussen, und Gewährleistung der Systemsicherheit
Semantische Parameteroptimierung: Nutzung der Kontextverstehungsfähigkeit des LLM zur Optimierung der Explorationsstrategie des RL-Agenten
Orbitalperioden-Ausrichtung: Entdeckung und Nutzung periodischer Merkmale der LEO-Umgebung für Agentensynchronisierung
Edge-Computing-Anpassung: Optimierung der Modellquantisierung und Inferenzstrategie für weltraumbezogene Hardwarebeschränkungen

Experimentelle Einrichtung

Experimentelle Umgebung

1. Bodengestütztes Labor

Kleine Rack-Konfiguration mit aktiver Lüfterkühlung
10-stündige Tagesklimaanlage, nächtliche natürliche Temperaturschwankungen
60-Minuten-Fenster für Laufzusammenfassungserfassung

2. ISS-In-Orbit-Bereitstellung

Columbus-Außenlastplattform
90-Minuten-Orbitalperiode (45 Minuten Tageslicht + 45 Minuten Schatten)
Passive Wärmerohr-Wärmeableitung, keine aktive Kühlung
Zwei Konfigurationen: 15-Minuten-Kurzperiode vs. 90-Minuten-Orbitalperiode

Hardwareplattform

Prozessor: 64-Bit-ARM-Architektur, 16-Kern Cortex-A72
Speicher: 16GB LPDDR4
Frequenzbereich: 1,0-2,0 GHz dynamische Anpassung
Einschränkungen: Keine dedizierten Hardwarebeschleuniger, Kern 0 für ASTREA reserviert

Bewertungsmetriken

Thermverstöße: Anzahl der Instanzen, die den Temperaturschwellenwert überschreiten
Durchschnittliche Betriebsdauer: Durchschnittliche Dauer der Thermalkontrollausführung (Zeitschritte)
CPU-Auslastungseffizienz: Kehrwert der verbleibenden Rechenkapazität unter Berücksichtigung der Frequenzskalierung

Vergleichsmethoden

Baseline-System: Reiner SAC-Agent mit adaptiver α-Planung nach Stable Baselines3-Standard ohne externe Eingriffe oder Leistungsrückmeldung.

Experimentelle Ergebnisse

Hauptergebnisse der Bodenexperimente

Metrik	Zeitraum	Baseline-System	ASTREA-System
Durchschnittliche Betriebsdauer	Erste 4 Stunden	47,17±18,15	78,83±11,33 (+67,2%)
	24 Stunden	135,24±32,94	142,29±8,06 (+5,2%)
Thermverstöße	Erste 4 Stunden	39,33±9,29	16,33±2,08 (-58,5%)
	24 Stunden	88,67±20,50	51,33±4,04 (-42,1%)
Durchschnittliche CPU-Auslastung	Erste 4 Stunden	25,81±5,00%	26,30±2,56% (+1,9%)
	24 Stunden	16,49±5,57%	16,24±4,46% (-1,5%)

In-Orbit-Experimentelle Ergebnisse

Kurzperioden-Experiment (15-Minuten-Fenster)

Metrik	Baseline-System	ASTREA-System
Durchschnittliche Betriebsdauer	449,77±295,69	363,76±190,23 (-19,1%)
Thermverstöße	66±24,25	82±32,74 (+24,2%)
Durchschnittliche CPU-Auslastung	40,17±17,70%	22,86±3,05% (-43,1%)

Orbitalperioden-Experiment (90-Minuten-Fenster)

Metrik	Baseline-System	ASTREA-System
Durchschnittliche Betriebsdauer	449,77±295,69	1555,09±823,57 (+245,8%)
Thermverstöße	66±24,25	22,33±9,07 (-66,2%)
Durchschnittliche CPU-Auslastung	40,17±17,70%	48,27±11,49% (+20,1%)

Wichtigste Erkenntnisse

Bedeutung der Zeitsynchronisierung: Erhebliche Leistungsabnahme, wenn die Inferenzperiode nicht mit der Umgebungsdynamik übereinstimmt
Orbitalausrichtungsstrategie: 90-Minuten-Fenster mit ISS-Orbitalperiode synchronisiert erreicht optimale Leistung
Auswirkungen der Inferenzverzögerung: LLM-Antwortzeiten von 40 Sekunden bis 8 Minuten bestätigen Ungeeignetheit für Echtzeitkontrollschleifen
Früher Vorteilseffekt: LLM-Führung bietet anfangs erhebliche Verbesserungen und behält langfristig stabilen Vorteil

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Technische Machbarkeit: Bestätigung der Machbarkeit der Bereitstellung von Agentensystemen auf flugqualifizierter Hardware
Leistungsverbesserung: Unter angemessener Konfiguration können erhebliche Verbesserungen der Thermalkontrollleistung erreicht werden
Zeitsynchronisierungsprinzip: LLM-Inferenzperiode muss mit Umgebungsdynamik-Zeitskala übereinstimmen
Architektur-Designrichtlinien: Asynchrone Entkopplung ist Schlüssel zur LLM-RL-Integration in Weltraumanwendungen

Einschränkungen

Hardwarebeschränkungen: Aktuelle flugqualifizierte Hardware kann die leistungsstärksten Sprachmodelle nicht unterstützen
Inferenzverzögerung: Einzelkern-Rechenressourcen führen zu erheblicher Reaktionsverzögerung
Kontextbeschränkung: Notwendigkeit, kurze Kontextlänge und strukturierte Prompts beizubehalten
Multi-Agent-Skalierung: Verzögerung einzelner LLM-Agenten könnte in Multi-Agent-Konfigurationen zum Engpass werden

Zukünftige Richtungen

Hardwarebeschleunigung: Weltraumbezogene Beschleuniger könnten Leistung grundlegend verändern
Domänenspezifische Modelle: Thermomanagement-spezialisierte Modelle könnten Kontextverstehen verbessern
Parameterexpansion: Andere Kontrollparameter neben α-Koeffizient oder adaptive Belohnungsgestaltung
Multi-Agent-Zusammenarbeit: Erforschung kooperativer Überwachungsarchitekturen mehrerer LLM-Agenten

Tiefgreifende Bewertung

Stärken

Bahnbrechende Bedeutung: Erste Validierung von Agentensystemen in echter Flugumgebung mit Meilenstein-Wert
Technische Praktikabilität: Umfassende Berücksichtigung von Hardwarebeschränkungen mit bereitstellbarer Lösung
Experimentelle Vollständigkeit: Doppelte Validierung durch Boden- und In-Orbit-Experimente mit Mehrfach-Konfigurationsvergleich
Theoretischer Beitrag: Etablierung von Designprinzipien für LLM-Inferenzperioden-Umgebungsdynamik-Matching
Technische Innovation: Asynchrone Architektur löst elegant den Widerspruch zwischen Verzögerung und Sicherheit

Mängel

Stichprobengröße: Experimentelle Perioden relativ kurz, Langzeitstabilität erfordert weitere Validierung
Umgebungseinheitlichkeit: Nur in Thermalkontroll-Szenario validiert, Anwendbarkeit auf andere Subsysteme unklar
Modellbeschränkungen: Quantisierte Modelle zeigen reduzierte Inferenzfähigkeit im Vergleich zu vollständigen Modellen
Kosten-Nutzen-Verhältnis: Erhöhter Rechenaufwand und Komplexität im Vergleich zu traditionellen Methoden

Einflussfähigkeit

Akademischer Wert: Bietet wichtige empirische Grundlagen für Weltraum-KI-Anwendungen
Industrielle Bedeutung: Bietet technologischen Weg für Autonomisierung der Raumfahrtindustrie
Reproduzierbarkeit: Detaillierte Implementierungsdetails und Open-Source-Tool-Unterstützung ermöglichen Reproduktion
Erweiterungspotenzial: Architektur-Design zeigt gute Skalierbarkeit und Anpassungsfähigkeit

Anwendungsszenarien

Tiefraumerkundung: Autonome Entscheidungsunterstützung in Umgebungen mit Kommunikationsverzögerung
Kleine Satellitenkonstellationen: Intelligente Überwachung in ressourcenbeschränkten Umgebungen
Bemannte Raumfahrt: Intelligente Assistenzsysteme für Astronauten
Bodengestützte Edge-Computing: Hybrid-Intelligentsysteme in ressourcenbeschränkten Umgebungen

Literaturverzeichnis

Callejo, E., et al. (2023). Imagin-e: The first step towards extending the cloud into space.
Booz Allen Hamilton and Meta (2025). Booz allen and meta launch space llama.
Maranto, D. (2024). Llmsat: A large language model-based goal-oriented agent for autonomous space exploration.
Touma, T., et al. (2025). Ai space cortex: An experimental system for future era space exploration.
Yang, A., et al. (2024). Qwen2 technical report.

Gesamtbewertung: Dieser Artikel hat bahnbrechende Bedeutung im Bereich der Weltraum-KI-Anwendungen. Durch strenge experimentelle Gestaltung und umfassende Validierung legt er eine solide Grundlage für die Entwicklung zukünftiger intelligenter Raumfahrzeuge. Trotz einiger technischer Einschränkungen sind sein technischer Wert und akademischer Beitrag erheblich und verdienen tiefere Forschung und weitere Entwicklung.