ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy
Mousist
This paper presents ASTREA, the first agentic system executed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations, with on-orbit operation aboard the International Space Station (ISS). Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility of combining semantic reasoning with adaptive control under hardware constraints. On-orbit validation aboard the ISS initially faced challenges due to inference latency misaligned with the rapid thermal cycles of Low Earth Orbit (LEO) satellites. Synchronization with the orbit length successfully surpassed the baseline with reduced violations, extended episode durations, and improved CPU utilization. These findings demonstrate the potential for scalable agentic supervision architectures in future autonomous spacecraft.
academic
ASTREA: Introduzione dell'Intelligenza Agenziale per l'Autonomia Termica Orbitale
Questo articolo presenta ASTREA, il primo sistema agenziale eseguito su hardware di livello di volo (TRL 9) per operazioni autonome di veicoli spaziali, con verifica in orbita sulla Stazione Spaziale Internazionale (ISS). Utilizzando il controllo termico come caso d'uso rappresentativo, il sistema integra un agente basato su modello linguistico di grandi dimensioni (LLM) con risorse limitate con un controllore di apprendimento per rinforzo in un'architettura asincrona personalizzata per piattaforme di livello spaziale. Gli esperimenti di laboratorio dimostrano che la supervisione guidata da LLM migliora la stabilità termica e riduce le violazioni, confermando la fattibilità di combinare il ragionamento semantico con il controllo adattivo sotto vincoli hardware. La verifica in orbita sull'ISS ha inizialmente affrontato sfide dovute alla mancata corrispondenza tra i ritardi di inferenza e i cicli termici rapidi dei satelliti in orbita bassa (LEO). Dopo la sincronizzazione con la lunghezza orbitale, il sistema ha superato con successo il baseline, riducendo le violazioni, prolungando i tempi di esecuzione e migliorando l'utilizzo della CPU.
Necessità di Autonomia Spaziale: Con lo sviluppo di missioni lunari e orbitali terrestri, è necessario disporre di sistemi spaziali in grado di operare con minimo intervento umano, in particolare in ambienti dove i ritardi di comunicazione ostacolano la supervisione diretta da terra.
Complessità del Controllo Termico: Il controllo termico è un sottosistema critico che deve mantenere l'integrità operativa di tutti i componenti elettronici mentre gestisce in tempo reale risorse di calcolo limitate. Gli approcci tradizionali si basano su regole preimpostate e supervisione da terra, mancando della flessibilità necessaria per affrontare carichi termici dinamici.
Vincoli di Risorse Hardware: I modelli linguistici di grandi dimensioni richiedono risorse hardware significative, in conflitto con gli ambienti embedded che devono mantenere la tolleranza alle radiazioni e operare sotto rigidi vincoli di potenza, dimensioni e temperatura.
Primo Sistema Agenziale di Livello di Volo: Implementazione e verifica su hardware TRL 9 del primo sistema di supervisione agenziale basato su LLM sull'ISS
Architettura Ibrida Asincrona: Proposta di un design ibrido che combina l'efficienza dell'apprendimento per rinforzo con l'interpretabilità dei modelli linguistici
Strategia di Sincronizzazione Orbitale: Scoperta e verifica che le finestre di inferenza sincronizzate con il periodo orbitale possono superare i limiti di latenza
Miglioramenti di Prestazioni Reali: Aumento del 67,2% nel tempo di esecuzione e riduzione del 58,5% delle violazioni termiche negli esperimenti di laboratorio
Linee Guida di Progettazione per l'IA Spaziale: Fornisce principi di progettazione pratica per futuri sistemi autonomi LEO
Input: Dati dei sensori di temperatura a bordo, stato di utilizzo della CPU, informazioni sul gradiente termico
Output: Raccomandazioni dinamiche del coefficiente di entropia (α) per ottimizzare l'equilibrio esplorazione-sfruttamento dell'agente di apprendimento per rinforzo
Vincoli:
Limiti di soglia di temperatura (60°C a terra, 57°C in orbita)
Risorse di calcolo a singolo core (core 0 dedicato al sistema ASTREA)
Progettazione Asincrona Disaccoppiata: Evita che la latenza di inferenza dell'LLM influisca sul controllo in tempo reale, garantendo la sicurezza del sistema
Ottimizzazione Semantica dei Parametri: Sfrutta la capacità di comprensione contestuale dell'LLM per ottimizzare la strategia di esplorazione dell'agente RL
Allineamento del Periodo Orbitale: Scopre e sfrutta le caratteristiche periodiche dell'ambiente LEO per la sincronizzazione dell'agente
Adattamento al Calcolo Edge: Ottimizza la quantizzazione del modello e la strategia di inferenza per i vincoli dell'hardware di livello spaziale
Importanza della Sincronizzazione Temporale: Le prestazioni diminuiscono significativamente quando il periodo di inferenza non corrisponde alla dinamica ambientale
Strategia di Allineamento Orbitale: La finestra di 90 minuti sincronizzata con l'orbita dell'ISS raggiunge le migliori prestazioni
Impatto della Latenza di Inferenza: Il tempo di risposta dell'LLM da 40 secondi a 8 minuti conferma l'inadeguatezza per i loop di controllo in tempo reale
Effetto di Vantaggio Iniziale: La guida dell'LLM fornisce miglioramenti significativi nella fase iniziale, mantenendo un vantaggio stabile nel lungo termine
Secondo la classificazione di Schoepp et al., tre ruoli dell'LLM nell'RL:
Agente: L'LLM agisce direttamente come politica per il processo decisionale
Pianificatore: L'LLM scompone compiti complessi in sottocompiti
Modello di Ricompensa: L'LLM genera o valuta segnali di ricompensa
ASTREA adotta una quarta modalità: Supervisore, dove l'LLM fornisce raccomandazioni di regolazione dei parametri mentre l'agente RL mantiene l'indipendenza operativa.
Fattibilità Tecnica: Conferma la fattibilità dell'implementazione di sistemi agenziali su hardware di livello di volo
Miglioramento delle Prestazioni: Sotto configurazione appropriata, è possibile ottenere miglioramenti significativi delle prestazioni del controllo termico
Principio di Corrispondenza Temporale: Il periodo di inferenza dell'LLM deve corrispondere alla scala temporale della dinamica ambientale
Linee Guida di Progettazione dell'Architettura: Il disaccoppiamento asincrono è fondamentale per l'integrazione LLM-RL nelle applicazioni spaziali
Callejo, E., et al. (2023). Imagin-e: The first step towards extending the cloud into space.
Booz Allen Hamilton and Meta (2025). Booz allen and meta launch space llama.
Maranto, D. (2024). Llmsat: A large language model-based goal-oriented agent for autonomous space exploration.
Touma, T., et al. (2025). Ai space cortex: An experimental system for future era space exploration.
Yang, A., et al. (2024). Qwen2 technical report.
Valutazione Complessiva: Questo articolo possiede un significato pioneristico importante nel campo delle applicazioni dell'IA spaziale. Attraverso un rigorous design sperimentale e una verifica completa, pone una base solida per lo sviluppo di futuri veicoli spaziali intelligenti. Nonostante alcuni limiti tecnici, il suo valore ingegneristico e il contributo accademico sono significativi e meritano ulteriore ricerca e sviluppo.