2025-11-24T22:58:17.201528

ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

Mousist
This paper presents ASTREA, the first agentic system executed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations, with on-orbit operation aboard the International Space Station (ISS). Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility of combining semantic reasoning with adaptive control under hardware constraints. On-orbit validation aboard the ISS initially faced challenges due to inference latency misaligned with the rapid thermal cycles of Low Earth Orbit (LEO) satellites. Synchronization with the orbit length successfully surpassed the baseline with reduced violations, extended episode durations, and improved CPU utilization. These findings demonstrate the potential for scalable agentic supervision architectures in future autonomous spacecraft.
academic

ASTREA: Einführung von Agentenintelligenzen für orbitale thermische Autonomie

Grundinformationen

  • Paper-ID: 2509.13380
  • Titel: ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy
  • Autor: Alejandro D. Mousist (Thales Alenia Space, Tres Cantos, Spanien)
  • Klassifizierung: cs.RO cs.AI cs.LG cs.MA cs.SY eess.SY
  • Veröffentlichungsdatum: 11. Oktober 2025 (arXiv v2)
  • Paper-Link: https://arxiv.org/abs/2509.13380

Zusammenfassung

In diesem Artikel wird ASTREA vorgestellt, das erste Agentensystem, das auf flugqualifizierter Hardware (TRL 9) ausgeführt wird und für autonome Raumfahrzeugoperationen bestimmt ist, mit In-Orbit-Validierung auf der Internationalen Raumstation (ISS). Mit thermischer Kontrolle als repräsentativer Anwendungsfall integriert das System einen ressourcenbeschränkten Large Language Model (LLM)-Agenten mit einem Reinforcement-Learning-Regler in einer asynchronen Architektur, die für weltraumbezogene Plattformen angepasst ist. Bodenexperimente zeigen, dass die LLM-gesteuerte Überwachung die thermische Stabilität verbessert und Verstöße reduziert, was die Machbarkeit der Kombination von semantischem Denken mit adaptiver Kontrolle unter Hardwarebeschränkungen bestätigt. Die In-Orbit-Validierung auf der ISS war zunächst mit Herausforderungen konfrontiert, die sich aus Inferenzverzögerungen und dem Missverhältnis zu schnellen thermischen Zyklen in niedrigen Erdumlaufbahnen (LEO) ergaben. Nach Synchronisierung mit der Orbitalperiode wurde die Baseline erfolgreich übertroffen, mit reduzierten Verstößen, verlängerter Betriebsdauer und verbesserter CPU-Auslastung.

Forschungshintergrund und Motivation

Problemdefinition

  1. Bedarf an autonomen Raumfahrtoperationen: Mit der Entwicklung von Mond- und Erdorbit-Missionen besteht die Notwendigkeit von Raumsystemen, die mit minimaler menschlicher Einmischung funktionieren, besonders in Umgebungen, in denen Kommunikationsverzögerungen direkte Bodenüberwachung behindern.
  2. Komplexität der Thermalkontrolle: Thermalkontrolle ist ein kritisches Subsystem, das die Betriebsintegrität aller elektronischen Komponenten aufrechterhalten muss, während gleichzeitig begrenzte Rechenressourcen in Echtzeit verwaltet werden. Traditionelle Ansätze verlassen sich auf vorprogrammierte Regeln und Bodenüberwachung und mangelt es an Flexibilität bei der Reaktion auf dynamische Wärmelasten.
  3. Hardwareressourcenbeschränkungen: Große Sprachmodelle erfordern erhebliche Hardwareressourcen, was mit eingebetteten Umgebungen kollidiert, die strahlungsresistent sein müssen und unter strikten Beschränkungen bei Stromverbrauch, Größe und Temperatur betrieben werden.

Forschungsbedeutung

  • Technischer Durchbruch: Erste Bereitstellung eines LLM-basierten Agenten-Überwachungssystems in einer echten Flugumgebung
  • Praktischer Wert: Etablierung einer skalierbaren Agenten-Überwachungsarchitektur für zukünftige autonome Raumfahrzeuge
  • Theoretischer Beitrag: Erforschung der Kombination von semantischem Denken und adaptiver Kontrolle in raumfahrtbezogenen Umgebungen mit Beschränkungen

Einschränkungen bestehender Methoden

  1. Space Llama: Mangelndes Agentenverhalten, nur für manuelle Verwendung durch Astronauten
  2. LLMSat und AI Space Cortex: Hauptsächlich in Bodensimuationsumgebungen validiert, keine echte Flugvalidierung
  3. Traditionelle Thermalkontrolle: Abhängig von vordefinierten Regeln, mangelnde kontextuelle Erklärung und Anpassungsfähigkeit

Kernbeiträge

  1. Erstes flugqualifiziertes Agentensystem: Implementierung und ISS-Validierung des ersten LLM-basierten Agenten-Überwachungssystems auf TRL-9-Hardware
  2. Hybrid-asynchrone Architektur: Vorschlag eines hybriden Designs, das die Effizienz von Reinforcement Learning mit der Interpretierbarkeit von Sprachmodellen kombiniert
  3. Orbitalzyklus-Synchronisierungsstrategie: Entdeckung und Validierung, dass Inferenzfenster, die mit der Orbitalperiode synchronisiert sind, Verzögerungsbeschränkungen überwinden können
  4. Tatsächliche Leistungsverbesserungen: Erreichung einer 67,2%igen Steigerung der Betriebsdauer und einer 58,5%igen Reduktion von Thermverstößen in Bodenexperimenten
  5. Designrichtlinien für Weltraum-KI: Bereitstellung praktischer Designprinzipien für zukünftige LEO-Autonomiesysteme

Methodische Details

Aufgabendefinition

Eingaben: Bordtemperatursensordaten, CPU-Auslastungsstatus, Thermalgradienteninformationen Ausgaben: Dynamisch angepasste Entropie-Koeffizientenempfehlungen (α) zur Optimierung des Explorations-Exploitations-Gleichgewichts des RL-Agenten Einschränkungen:

  • Temperaturschwellenwertgrenzen (Boden 60°C, In-Orbit 57°C)
  • Einzelkern-Rechenressourcen (Kern 0 für Agentensystem reserviert)
  • Inferenzverzögerung (40 Sekunden bis 8 Minuten variabel)

Modellarchitektur

Gesamtsystemdesign

ASTREA nutzt eine Dual-Agenten-asynchrone Architektur:

  1. RL-Agent (Echtzeitschicht):
    • Basierend auf dem Soft Actor-Critic (SAC)-Algorithmus
    • Kontinuierliche Überwachung der Bordtemperatur
    • Echtzeitanpassung der Ressourcenverfügbarkeit von 15 CPU-Kernen
    • Verwaltung von Kernfrequenz und Stromzuständen
  2. LLM-Agent (Überwachungsschicht):
    • Verwendung des quantisierten Qwen2.5-Modells (1,54 Milliarden Parameter, 4-Bit-Quantisierung)
    • On-Device-Inferenz über Llama.cpp
    • Bereitstellung von semantischem Denken und kontextbewussten Parameteranpassungsempfehlungen

Kommunikationsmechanismus

RL-Agent → Asynchrone Warteschlange → LLM-Agent
         ↓
    Laufzusammenfassung (Iterationen, Schritte in Gefahrenzone, durchschnittlicher Thermalgradient)
         ↓
LLM-Agent → Asynchrone Warteschlange → RL-Agent  
         ↓
    α-Koeffizientenempfehlung (über Tool-Aufrufe generiert)

Wichtige technische Komponenten

1. Reinforcement-Learning-Agent

  • Zustandsraum: Temperatursensoreabtastungen, CPU-Frequenz, Gefahrenquote
  • Aktionsraum: Frequenz- und Stromzustandsanpassungen für 15 Kerne
  • Belohnungsfunktion: Basis-Überlebensprämie + Thermale Sicherheitsprämie
  • Neue Beobachtungsmerkmale: Gefahrenquote (Anteil der Sensoren innerhalb 10%-Schwelle)

2. LLM-Agent-Toolset

  • increase_exploration: α ∈ 0,4, 0,8
  • moderate_exploration: α ∈ 0,2, 0,4
  • decrease_exploration: α ∈ 0,05, 0,2
  • keep_alpha: Aktuellen Wert beibehalten
  • reset_alpha: Auf Standardwert zurücksetzen (0,2)

Technische Innovationen

  1. Asynchrones Entkopplungsdesign: Vermeidung von LLM-Inferenzverzögerungen, die die Echtzeitsteuerung beeinflussen, und Gewährleistung der Systemsicherheit
  2. Semantische Parameteroptimierung: Nutzung der Kontextverstehungsfähigkeit des LLM zur Optimierung der Explorationsstrategie des RL-Agenten
  3. Orbitalperioden-Ausrichtung: Entdeckung und Nutzung periodischer Merkmale der LEO-Umgebung für Agentensynchronisierung
  4. Edge-Computing-Anpassung: Optimierung der Modellquantisierung und Inferenzstrategie für weltraumbezogene Hardwarebeschränkungen

Experimentelle Einrichtung

Experimentelle Umgebung

1. Bodengestütztes Labor

  • Kleine Rack-Konfiguration mit aktiver Lüfterkühlung
  • 10-stündige Tagesklimaanlage, nächtliche natürliche Temperaturschwankungen
  • 60-Minuten-Fenster für Laufzusammenfassungserfassung

2. ISS-In-Orbit-Bereitstellung

  • Columbus-Außenlastplattform
  • 90-Minuten-Orbitalperiode (45 Minuten Tageslicht + 45 Minuten Schatten)
  • Passive Wärmerohr-Wärmeableitung, keine aktive Kühlung
  • Zwei Konfigurationen: 15-Minuten-Kurzperiode vs. 90-Minuten-Orbitalperiode

Hardwareplattform

  • Prozessor: 64-Bit-ARM-Architektur, 16-Kern Cortex-A72
  • Speicher: 16GB LPDDR4
  • Frequenzbereich: 1,0-2,0 GHz dynamische Anpassung
  • Einschränkungen: Keine dedizierten Hardwarebeschleuniger, Kern 0 für ASTREA reserviert

Bewertungsmetriken

  1. Thermverstöße: Anzahl der Instanzen, die den Temperaturschwellenwert überschreiten
  2. Durchschnittliche Betriebsdauer: Durchschnittliche Dauer der Thermalkontrollausführung (Zeitschritte)
  3. CPU-Auslastungseffizienz: Kehrwert der verbleibenden Rechenkapazität unter Berücksichtigung der Frequenzskalierung

Vergleichsmethoden

Baseline-System: Reiner SAC-Agent mit adaptiver α-Planung nach Stable Baselines3-Standard ohne externe Eingriffe oder Leistungsrückmeldung.

Experimentelle Ergebnisse

Hauptergebnisse der Bodenexperimente

MetrikZeitraumBaseline-SystemASTREA-System
Durchschnittliche BetriebsdauerErste 4 Stunden47,17±18,1578,83±11,33 (+67,2%)
24 Stunden135,24±32,94142,29±8,06 (+5,2%)
ThermverstößeErste 4 Stunden39,33±9,2916,33±2,08 (-58,5%)
24 Stunden88,67±20,5051,33±4,04 (-42,1%)
Durchschnittliche CPU-AuslastungErste 4 Stunden25,81±5,00%26,30±2,56% (+1,9%)
24 Stunden16,49±5,57%16,24±4,46% (-1,5%)

In-Orbit-Experimentelle Ergebnisse

Kurzperioden-Experiment (15-Minuten-Fenster)

MetrikBaseline-SystemASTREA-System
Durchschnittliche Betriebsdauer449,77±295,69363,76±190,23 (-19,1%)
Thermverstöße66±24,2582±32,74 (+24,2%)
Durchschnittliche CPU-Auslastung40,17±17,70%22,86±3,05% (-43,1%)

Orbitalperioden-Experiment (90-Minuten-Fenster)

MetrikBaseline-SystemASTREA-System
Durchschnittliche Betriebsdauer449,77±295,691555,09±823,57 (+245,8%)
Thermverstöße66±24,2522,33±9,07 (-66,2%)
Durchschnittliche CPU-Auslastung40,17±17,70%48,27±11,49% (+20,1%)

Wichtigste Erkenntnisse

  1. Bedeutung der Zeitsynchronisierung: Erhebliche Leistungsabnahme, wenn die Inferenzperiode nicht mit der Umgebungsdynamik übereinstimmt
  2. Orbitalausrichtungsstrategie: 90-Minuten-Fenster mit ISS-Orbitalperiode synchronisiert erreicht optimale Leistung
  3. Auswirkungen der Inferenzverzögerung: LLM-Antwortzeiten von 40 Sekunden bis 8 Minuten bestätigen Ungeeignetheit für Echtzeitkontrollschleifen
  4. Früher Vorteilseffekt: LLM-Führung bietet anfangs erhebliche Verbesserungen und behält langfristig stabilen Vorteil

Verwandte Arbeiten

Weltraum-LLM-Anwendungen

  • Space Llama: Erstes auf der ISS bereitgestelltes Open-Source-LLM, aber mangelnde autonome Kontrollmöglichkeiten
  • LLMSat: Schlägt LLM als hochrangiges Raumfahrzeugkontrollsystem vor, nur in Simulationsumgebung validiert
  • AI Space Cortex: Interpretierbares autonomes Framework für extreme Umgebungen, in Bodentest-Plattform validiert

LLM-RL-Hybridsysteme

Nach der Klassifizierung von Schoepp et al. gibt es drei Rollen von LLM in RL:

  1. Agent: LLM fungiert direkt als Richtlinie für Entscheidungsfindung
  2. Planer: LLM zerlegt komplexe Aufgaben in Teilaufgaben
  3. Belohnungsmodell: LLM generiert oder bewertet Belohnungssignale

ASTREA nutzt einen vierten Modus: Überwacher, wobei das LLM Parameteranpassungsempfehlungen bereitstellt, während der RL-Agent operative Unabhängigkeit behält.

Technische Differenzierung

  • Sicherheitsüberlegungen: Vermeidung von LLM-Halluzinationen, die kritische Entscheidungen beeinflussen
  • Hardwareanpassung: Quantisierte Modelle optimiert für weltraumbezogene Beschränkungen
  • Echtzeitgarantie: Asynchrone Architektur gewährleistet Reaktionsfähigkeit des Kontrollsystems

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Technische Machbarkeit: Bestätigung der Machbarkeit der Bereitstellung von Agentensystemen auf flugqualifizierter Hardware
  2. Leistungsverbesserung: Unter angemessener Konfiguration können erhebliche Verbesserungen der Thermalkontrollleistung erreicht werden
  3. Zeitsynchronisierungsprinzip: LLM-Inferenzperiode muss mit Umgebungsdynamik-Zeitskala übereinstimmen
  4. Architektur-Designrichtlinien: Asynchrone Entkopplung ist Schlüssel zur LLM-RL-Integration in Weltraumanwendungen

Einschränkungen

  1. Hardwarebeschränkungen: Aktuelle flugqualifizierte Hardware kann die leistungsstärksten Sprachmodelle nicht unterstützen
  2. Inferenzverzögerung: Einzelkern-Rechenressourcen führen zu erheblicher Reaktionsverzögerung
  3. Kontextbeschränkung: Notwendigkeit, kurze Kontextlänge und strukturierte Prompts beizubehalten
  4. Multi-Agent-Skalierung: Verzögerung einzelner LLM-Agenten könnte in Multi-Agent-Konfigurationen zum Engpass werden

Zukünftige Richtungen

  1. Hardwarebeschleunigung: Weltraumbezogene Beschleuniger könnten Leistung grundlegend verändern
  2. Domänenspezifische Modelle: Thermomanagement-spezialisierte Modelle könnten Kontextverstehen verbessern
  3. Parameterexpansion: Andere Kontrollparameter neben α-Koeffizient oder adaptive Belohnungsgestaltung
  4. Multi-Agent-Zusammenarbeit: Erforschung kooperativer Überwachungsarchitekturen mehrerer LLM-Agenten

Tiefgreifende Bewertung

Stärken

  1. Bahnbrechende Bedeutung: Erste Validierung von Agentensystemen in echter Flugumgebung mit Meilenstein-Wert
  2. Technische Praktikabilität: Umfassende Berücksichtigung von Hardwarebeschränkungen mit bereitstellbarer Lösung
  3. Experimentelle Vollständigkeit: Doppelte Validierung durch Boden- und In-Orbit-Experimente mit Mehrfach-Konfigurationsvergleich
  4. Theoretischer Beitrag: Etablierung von Designprinzipien für LLM-Inferenzperioden-Umgebungsdynamik-Matching
  5. Technische Innovation: Asynchrone Architektur löst elegant den Widerspruch zwischen Verzögerung und Sicherheit

Mängel

  1. Stichprobengröße: Experimentelle Perioden relativ kurz, Langzeitstabilität erfordert weitere Validierung
  2. Umgebungseinheitlichkeit: Nur in Thermalkontroll-Szenario validiert, Anwendbarkeit auf andere Subsysteme unklar
  3. Modellbeschränkungen: Quantisierte Modelle zeigen reduzierte Inferenzfähigkeit im Vergleich zu vollständigen Modellen
  4. Kosten-Nutzen-Verhältnis: Erhöhter Rechenaufwand und Komplexität im Vergleich zu traditionellen Methoden

Einflussfähigkeit

  1. Akademischer Wert: Bietet wichtige empirische Grundlagen für Weltraum-KI-Anwendungen
  2. Industrielle Bedeutung: Bietet technologischen Weg für Autonomisierung der Raumfahrtindustrie
  3. Reproduzierbarkeit: Detaillierte Implementierungsdetails und Open-Source-Tool-Unterstützung ermöglichen Reproduktion
  4. Erweiterungspotenzial: Architektur-Design zeigt gute Skalierbarkeit und Anpassungsfähigkeit

Anwendungsszenarien

  1. Tiefraumerkundung: Autonome Entscheidungsunterstützung in Umgebungen mit Kommunikationsverzögerung
  2. Kleine Satellitenkonstellationen: Intelligente Überwachung in ressourcenbeschränkten Umgebungen
  3. Bemannte Raumfahrt: Intelligente Assistenzsysteme für Astronauten
  4. Bodengestützte Edge-Computing: Hybrid-Intelligentsysteme in ressourcenbeschränkten Umgebungen

Literaturverzeichnis

  1. Callejo, E., et al. (2023). Imagin-e: The first step towards extending the cloud into space.
  2. Booz Allen Hamilton and Meta (2025). Booz allen and meta launch space llama.
  3. Maranto, D. (2024). Llmsat: A large language model-based goal-oriented agent for autonomous space exploration.
  4. Touma, T., et al. (2025). Ai space cortex: An experimental system for future era space exploration.
  5. Yang, A., et al. (2024). Qwen2 technical report.

Gesamtbewertung: Dieser Artikel hat bahnbrechende Bedeutung im Bereich der Weltraum-KI-Anwendungen. Durch strenge experimentelle Gestaltung und umfassende Validierung legt er eine solide Grundlage für die Entwicklung zukünftiger intelligenter Raumfahrzeuge. Trotz einiger technischer Einschränkungen sind sein technischer Wert und akademischer Beitrag erheblich und verdienen tiefere Forschung und weitere Entwicklung.