2025-11-24T22:58:17.201528

ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

Mousist

This paper presents ASTREA, the first agentic system executed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations, with on-orbit operation aboard the International Space Station (ISS). Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility of combining semantic reasoning with adaptive control under hardware constraints. On-orbit validation aboard the ISS initially faced challenges due to inference latency misaligned with the rapid thermal cycles of Low Earth Orbit (LEO) satellites. Synchronization with the orbit length successfully surpassed the baseline with reduced violations, extended episode durations, and improved CPU utilization. These findings demonstrate the potential for scalable agentic supervision architectures in future autonomous spacecraft.

academic

ASTREA: Introduzione dell'Intelligenza Agenziale per l'Autonomia Termica Orbitale

Informazioni Fondamentali

ID Articolo: 2509.13380
Titolo: ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy
Autore: Alejandro D. Mousist (Thales Alenia Space, Tres Cantos, Spagna)
Classificazione: cs.RO cs.AI cs.LG cs.MA cs.SY eess.SY
Data di Pubblicazione: 11 ottobre 2025 (arXiv v2)
Link Articolo: https://arxiv.org/abs/2509.13380

Riassunto

Questo articolo presenta ASTREA, il primo sistema agenziale eseguito su hardware di livello di volo (TRL 9) per operazioni autonome di veicoli spaziali, con verifica in orbita sulla Stazione Spaziale Internazionale (ISS). Utilizzando il controllo termico come caso d'uso rappresentativo, il sistema integra un agente basato su modello linguistico di grandi dimensioni (LLM) con risorse limitate con un controllore di apprendimento per rinforzo in un'architettura asincrona personalizzata per piattaforme di livello spaziale. Gli esperimenti di laboratorio dimostrano che la supervisione guidata da LLM migliora la stabilità termica e riduce le violazioni, confermando la fattibilità di combinare il ragionamento semantico con il controllo adattivo sotto vincoli hardware. La verifica in orbita sull'ISS ha inizialmente affrontato sfide dovute alla mancata corrispondenza tra i ritardi di inferenza e i cicli termici rapidi dei satelliti in orbita bassa (LEO). Dopo la sincronizzazione con la lunghezza orbitale, il sistema ha superato con successo il baseline, riducendo le violazioni, prolungando i tempi di esecuzione e migliorando l'utilizzo della CPU.

Contesto di Ricerca e Motivazione

Definizione del Problema

Necessità di Autonomia Spaziale: Con lo sviluppo di missioni lunari e orbitali terrestri, è necessario disporre di sistemi spaziali in grado di operare con minimo intervento umano, in particolare in ambienti dove i ritardi di comunicazione ostacolano la supervisione diretta da terra.
Complessità del Controllo Termico: Il controllo termico è un sottosistema critico che deve mantenere l'integrità operativa di tutti i componenti elettronici mentre gestisce in tempo reale risorse di calcolo limitate. Gli approcci tradizionali si basano su regole preimpostate e supervisione da terra, mancando della flessibilità necessaria per affrontare carichi termici dinamici.
Vincoli di Risorse Hardware: I modelli linguistici di grandi dimensioni richiedono risorse hardware significative, in conflitto con gli ambienti embedded che devono mantenere la tolleranza alle radiazioni e operare sotto rigidi vincoli di potenza, dimensioni e temperatura.

Significato della Ricerca

Avanzamento Tecnologico: Prima implementazione di un sistema di supervisione agenziale basato su LLM in un ambiente di volo reale
Valore Pratico: Stabilire un'architettura di supervisione agenziale scalabile per futuri veicoli spaziali autonomi
Contributo Teorico: Esplorare l'integrazione del ragionamento semantico con il controllo adattivo in ambienti con vincoli spaziali

Limitazioni degli Approcci Esistenti

Space Llama: Manca di comportamento agenziale, utilizzato solo manualmente dagli astronauti
LLMSat e AI Space Cortex: Verificati principalmente in ambienti di simulazione terrestre, senza verifica di volo reale
Controllo Termico Tradizionale: Dipende da regole preimpostate, manca di spiegazione contestuale e adattabilità

Contributi Principali

Primo Sistema Agenziale di Livello di Volo: Implementazione e verifica su hardware TRL 9 del primo sistema di supervisione agenziale basato su LLM sull'ISS
Architettura Ibrida Asincrona: Proposta di un design ibrido che combina l'efficienza dell'apprendimento per rinforzo con l'interpretabilità dei modelli linguistici
Strategia di Sincronizzazione Orbitale: Scoperta e verifica che le finestre di inferenza sincronizzate con il periodo orbitale possono superare i limiti di latenza
Miglioramenti di Prestazioni Reali: Aumento del 67,2% nel tempo di esecuzione e riduzione del 58,5% delle violazioni termiche negli esperimenti di laboratorio
Linee Guida di Progettazione per l'IA Spaziale: Fornisce principi di progettazione pratica per futuri sistemi autonomi LEO

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Dati dei sensori di temperatura a bordo, stato di utilizzo della CPU, informazioni sul gradiente termico Output: Raccomandazioni dinamiche del coefficiente di entropia (α) per ottimizzare l'equilibrio esplorazione-sfruttamento dell'agente di apprendimento per rinforzo Vincoli:

Limiti di soglia di temperatura (60°C a terra, 57°C in orbita)
Risorse di calcolo a singolo core (core 0 dedicato al sistema ASTREA)
Latenza di inferenza (da 40 secondi a 8 minuti)

Architettura del Modello

Progettazione Complessiva del Sistema

ASTREA adotta un'architettura asincrona a doppio agente:

Agente RL (Livello in Tempo Reale):
- Basato sull'algoritmo Soft Actor-Critic (SAC)
- Monitoraggio continuo della temperatura a bordo
- Regolazione in tempo reale della disponibilità di risorse dei 15 core della CPU
- Gestione della frequenza del core e dello stato di alimentazione
Agente LLM (Livello di Supervisione):
- Utilizza il modello Qwen2.5 quantizzato (1,54 miliardi di parametri, quantizzazione a 4 bit)
- Inferenza on-device tramite Llama.cpp
- Fornisce ragionamento semantico e raccomandazioni di regolazione dei parametri consapevoli del contesto

Meccanismo di Comunicazione

Agente RL → Coda Asincrona → Agente LLM
         ↓
    Riassunto dell'Esecuzione (iterazioni, step in zona di pericolo, gradiente termico medio)
         ↓
Agente LLM → Coda Asincrona → Agente RL  
         ↓
    Raccomandazione Coefficiente α (generata tramite tool calling)

Componenti Tecnici Chiave

1. Agente di Apprendimento per Rinforzo

Spazio degli Stati: Letture dei sensori di temperatura, frequenza della CPU, rapporto di pericolo
Spazio delle Azioni: Regolazioni della frequenza e dello stato di alimentazione dei 15 core
Funzione di Ricompensa: Ricompensa di sopravvivenza di base + ricompensa di sicurezza termica
Caratteristiche di Osservazione Nuove: Rapporto di pericolo (proporzione di sensori entro soglia del 10%)

2. Set di Strumenti dell'Agente LLM

increase_exploration: α ∈ 0,4, 0,8
moderate_exploration: α ∈ 0,2, 0,4
decrease_exploration: α ∈ 0,05, 0,2
keep_alpha: Mantieni il valore attuale
reset_alpha: Ripristina al valore predefinito (0,2)

Punti di Innovazione Tecnica

Progettazione Asincrona Disaccoppiata: Evita che la latenza di inferenza dell'LLM influisca sul controllo in tempo reale, garantendo la sicurezza del sistema
Ottimizzazione Semantica dei Parametri: Sfrutta la capacità di comprensione contestuale dell'LLM per ottimizzare la strategia di esplorazione dell'agente RL
Allineamento del Periodo Orbitale: Scopre e sfrutta le caratteristiche periodiche dell'ambiente LEO per la sincronizzazione dell'agente
Adattamento al Calcolo Edge: Ottimizza la quantizzazione del modello e la strategia di inferenza per i vincoli dell'hardware di livello spaziale

Configurazione Sperimentale

Ambiente Sperimentale

1. Laboratorio Terrestre

Configurazione di piccolo rack con raffreddamento a ventola attiva
Controllo termico diurno di 10 ore, fluttuazioni di temperatura naturale notturna
Finestra temporale di 60 minuti per la raccolta dei riassunti di esecuzione

2. Implementazione in Orbita sull'ISS

Piattaforma di carico esterno del modulo Columbus
Periodo orbitale di 90 minuti (45 minuti di illuminazione solare + 45 minuti di ombra)
Dissipazione tramite heat pipe passivo, nessun raffreddamento attivo
Due configurazioni: ciclo breve di 15 minuti vs periodo orbitale di 90 minuti

Piattaforma Hardware

Processore: Architettura ARM a 64 bit, 16 core Cortex-A72
Memoria: 16GB LPDDR4
Intervallo di Frequenza: Regolazione dinamica 1,0-2,0 GHz
Vincoli: Nessun acceleratore hardware dedicato, core 0 dedicato ad ASTREA

Metriche di Valutazione

Numero di Violazioni Termiche: Conteggio delle istanze che superano la soglia di temperatura
Tempo di Esecuzione Medio: Durata media continua dell'esecuzione del controllo termico (time step)
Efficienza dell'Utilizzo della CPU: Inverso della capacità di calcolo residua considerando il ridimensionamento della frequenza

Metodi di Confronto

Sistema Baseline: Agente SAC puro con pianificazione α adattiva predefinita di Stable Baselines3, senza intervento esterno o feedback di prestazioni.

Risultati Sperimentali

Risultati Principali degli Esperimenti di Laboratorio

Metrica	Periodo Temporale	Sistema Baseline	Sistema ASTREA
Tempo di Esecuzione Medio	Prime 4 ore	47,17±18,15	78,83±11,33 (+67,2%)
	24 ore	135,24±32,94	142,29±8,06 (+5,2%)
Numero di Violazioni Termiche	Prime 4 ore	39,33±9,29	16,33±2,08 (-58,5%)
	24 ore	88,67±20,50	51,33±4,04 (-42,1%)
Utilizzo Medio della CPU	Prime 4 ore	25,81±5,00%	26,30±2,56% (+1,9%)
	24 ore	16,49±5,57%	16,24±4,46% (-1,5%)

Risultati degli Esperimenti in Orbita

Esperimento a Ciclo Breve (Finestra di 15 minuti)

Metrica	Sistema Baseline	Sistema ASTREA
Tempo di Esecuzione Medio	449,77±295,69	363,76±190,23 (-19,1%)
Numero di Violazioni Termiche	66±24,25	82±32,74 (+24,2%)
Utilizzo Medio della CPU	40,17±17,70%	22,86±3,05% (-43,1%)

Esperimento a Periodo Orbitale (Finestra di 90 minuti)

Metrica	Sistema Baseline	Sistema ASTREA
Tempo di Esecuzione Medio	449,77±295,69	1555,09±823,57 (+245,8%)
Numero di Violazioni Termiche	66±24,25	22,33±9,07 (-66,2%)
Utilizzo Medio della CPU	40,17±17,70%	48,27±11,49% (+20,1%)

Scoperte Chiave

Importanza della Sincronizzazione Temporale: Le prestazioni diminuiscono significativamente quando il periodo di inferenza non corrisponde alla dinamica ambientale
Strategia di Allineamento Orbitale: La finestra di 90 minuti sincronizzata con l'orbita dell'ISS raggiunge le migliori prestazioni
Impatto della Latenza di Inferenza: Il tempo di risposta dell'LLM da 40 secondi a 8 minuti conferma l'inadeguatezza per i loop di controllo in tempo reale
Effetto di Vantaggio Iniziale: La guida dell'LLM fornisce miglioramenti significativi nella fase iniziale, mantenendo un vantaggio stabile nel lungo termine

Lavori Correlati

Applicazioni LLM Spaziali

Space Llama: Primo LLM open-source implementato sull'ISS, ma manca di capacità di controllo autonomo
LLMSat: Propone LLM come sistema di controllo di alto livello per veicoli spaziali, verificato solo in ambienti di simulazione
AI Space Cortex: Framework autonomo interpretabile per ambienti estremi, verificato su piattaforme di test terrestri

Sistemi Ibridi LLM-RL

Secondo la classificazione di Schoepp et al., tre ruoli dell'LLM nell'RL:

Agente: L'LLM agisce direttamente come politica per il processo decisionale
Pianificatore: L'LLM scompone compiti complessi in sottocompiti
Modello di Ricompensa: L'LLM genera o valuta segnali di ricompensa

ASTREA adotta una quarta modalità: Supervisore, dove l'LLM fornisce raccomandazioni di regolazione dei parametri mentre l'agente RL mantiene l'indipendenza operativa.

Differenziazione Tecnica

Considerazioni di Sicurezza: Evita che le allucinazioni dell'LLM influiscano sulle decisioni critiche
Adattamento Hardware: Modello quantizzato ottimizzato per i vincoli di livello spaziale
Garanzia di Tempo Reale: L'architettura asincrona assicura la reattività del sistema di controllo

Conclusioni e Discussione

Conclusioni Principali

Fattibilità Tecnica: Conferma la fattibilità dell'implementazione di sistemi agenziali su hardware di livello di volo
Miglioramento delle Prestazioni: Sotto configurazione appropriata, è possibile ottenere miglioramenti significativi delle prestazioni del controllo termico
Principio di Corrispondenza Temporale: Il periodo di inferenza dell'LLM deve corrispondere alla scala temporale della dinamica ambientale
Linee Guida di Progettazione dell'Architettura: Il disaccoppiamento asincrono è fondamentale per l'integrazione LLM-RL nelle applicazioni spaziali

Limitazioni

Vincoli Hardware: L'attuale hardware di livello di volo non può supportare i modelli linguistici più potenti
Latenza di Inferenza: I limiti di calcolo a singolo core causano ritardi di risposta significativi
Limitazioni di Contesto: Necessità di mantenere lunghezze di contesto brevi e prompt strutturati
Estensione Multi-Agente: La latenza di un singolo agente LLM potrebbe diventare un collo di bottiglia in configurazioni multi-agente

Direzioni Future

Accelerazione Hardware: Gli acceleratori di livello spaziale potrebbero modificare fondamentalmente le prestazioni
Modelli Specializzati per Dominio: Modelli specializzati nella gestione termica potrebbero migliorare la comprensione contestuale
Estensione dei Parametri: Oltre al coefficiente α, altri parametri di controllo o modellamento adattivo delle ricompense
Collaborazione Multi-Agente: Esplorazione di architetture di supervisione cooperativa con più agenti LLM

Valutazione Approfondita

Punti di Forza

Significato Pioneristico: Prima verifica di un sistema agenziale in ambiente di volo reale, con valore di pietra miliare
Praticità Ingegneristica: Considerazione completa dei vincoli hardware, fornisce una soluzione implementabile
Completezza Sperimentale: Verifica doppia terrestre e in orbita, analisi comparativa di molteplici configurazioni
Contributo Teorico: Stabilisce il principio di progettazione della corrispondenza tra il periodo di inferenza dell'LLM e la dinamica ambientale
Innovazione Tecnica: L'architettura asincrona risolve elegantemente il conflitto tra latenza e sicurezza

Insufficienze

Scala Campionaria: I periodi sperimentali sono relativamente brevi, la stabilità a lungo termine rimane da verificare
Singolarità Ambientale: Verificato solo nello scenario di controllo termico, l'applicabilità ad altri sottosistemi è sconosciuta
Limitazioni del Modello: Le capacità di inferenza del modello quantizzato sono inferiori rispetto al modello completo
Rapporto Costo-Beneficio: L'aumento del carico computazionale e della complessità rispetto ai metodi tradizionali

Impatto

Valore Accademico: Fornisce una base empirica importante per le applicazioni dell'IA spaziale
Significato Industriale: Fornisce un percorso tecnologico per lo sviluppo dell'autonomia nell'industria aerospaziale
Riproducibilità: Dettagli di implementazione dettagliati e supporto di strumenti open-source facilitano la riproduzione
Potenziale di Estensione: Il design dell'architettura possiede buona scalabilità e adattabilità

Scenari Applicabili

Esplorazione dello Spazio Profondo: Supporto alle decisioni autonome in ambienti con ritardo di comunicazione
Costellazioni di Piccoli Satelliti: Supervisione intelligente in ambienti con risorse limitate
Astronautica Umana: Sistemi di assistenza intelligente per gli astronauti
Calcolo Edge Terrestre: Sistemi intelligenti ibridi in ambienti con risorse limitate

Bibliografia

Callejo, E., et al. (2023). Imagin-e: The first step towards extending the cloud into space.
Booz Allen Hamilton and Meta (2025). Booz allen and meta launch space llama.
Maranto, D. (2024). Llmsat: A large language model-based goal-oriented agent for autonomous space exploration.
Touma, T., et al. (2025). Ai space cortex: An experimental system for future era space exploration.
Yang, A., et al. (2024). Qwen2 technical report.

Valutazione Complessiva: Questo articolo possiede un significato pioneristico importante nel campo delle applicazioni dell'IA spaziale. Attraverso un rigorous design sperimentale e una verifica completa, pone una base solida per lo sviluppo di futuri veicoli spaziali intelligenti. Nonostante alcuni limiti tecnici, il suo valore ingegneristico e il contributo accademico sono significativi e meritano ulteriore ricerca e sviluppo.