2025-11-24T22:58:17.201528

ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

Mousist
This paper presents ASTREA, the first agentic system executed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations, with on-orbit operation aboard the International Space Station (ISS). Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility of combining semantic reasoning with adaptive control under hardware constraints. On-orbit validation aboard the ISS initially faced challenges due to inference latency misaligned with the rapid thermal cycles of Low Earth Orbit (LEO) satellites. Synchronization with the orbit length successfully surpassed the baseline with reduced violations, extended episode durations, and improved CPU utilization. These findings demonstrate the potential for scalable agentic supervision architectures in future autonomous spacecraft.
academic

ASTREA: Introduzione dell'Intelligenza Agenziale per l'Autonomia Termica Orbitale

Informazioni Fondamentali

  • ID Articolo: 2509.13380
  • Titolo: ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy
  • Autore: Alejandro D. Mousist (Thales Alenia Space, Tres Cantos, Spagna)
  • Classificazione: cs.RO cs.AI cs.LG cs.MA cs.SY eess.SY
  • Data di Pubblicazione: 11 ottobre 2025 (arXiv v2)
  • Link Articolo: https://arxiv.org/abs/2509.13380

Riassunto

Questo articolo presenta ASTREA, il primo sistema agenziale eseguito su hardware di livello di volo (TRL 9) per operazioni autonome di veicoli spaziali, con verifica in orbita sulla Stazione Spaziale Internazionale (ISS). Utilizzando il controllo termico come caso d'uso rappresentativo, il sistema integra un agente basato su modello linguistico di grandi dimensioni (LLM) con risorse limitate con un controllore di apprendimento per rinforzo in un'architettura asincrona personalizzata per piattaforme di livello spaziale. Gli esperimenti di laboratorio dimostrano che la supervisione guidata da LLM migliora la stabilità termica e riduce le violazioni, confermando la fattibilità di combinare il ragionamento semantico con il controllo adattivo sotto vincoli hardware. La verifica in orbita sull'ISS ha inizialmente affrontato sfide dovute alla mancata corrispondenza tra i ritardi di inferenza e i cicli termici rapidi dei satelliti in orbita bassa (LEO). Dopo la sincronizzazione con la lunghezza orbitale, il sistema ha superato con successo il baseline, riducendo le violazioni, prolungando i tempi di esecuzione e migliorando l'utilizzo della CPU.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Necessità di Autonomia Spaziale: Con lo sviluppo di missioni lunari e orbitali terrestri, è necessario disporre di sistemi spaziali in grado di operare con minimo intervento umano, in particolare in ambienti dove i ritardi di comunicazione ostacolano la supervisione diretta da terra.
  2. Complessità del Controllo Termico: Il controllo termico è un sottosistema critico che deve mantenere l'integrità operativa di tutti i componenti elettronici mentre gestisce in tempo reale risorse di calcolo limitate. Gli approcci tradizionali si basano su regole preimpostate e supervisione da terra, mancando della flessibilità necessaria per affrontare carichi termici dinamici.
  3. Vincoli di Risorse Hardware: I modelli linguistici di grandi dimensioni richiedono risorse hardware significative, in conflitto con gli ambienti embedded che devono mantenere la tolleranza alle radiazioni e operare sotto rigidi vincoli di potenza, dimensioni e temperatura.

Significato della Ricerca

  • Avanzamento Tecnologico: Prima implementazione di un sistema di supervisione agenziale basato su LLM in un ambiente di volo reale
  • Valore Pratico: Stabilire un'architettura di supervisione agenziale scalabile per futuri veicoli spaziali autonomi
  • Contributo Teorico: Esplorare l'integrazione del ragionamento semantico con il controllo adattivo in ambienti con vincoli spaziali

Limitazioni degli Approcci Esistenti

  1. Space Llama: Manca di comportamento agenziale, utilizzato solo manualmente dagli astronauti
  2. LLMSat e AI Space Cortex: Verificati principalmente in ambienti di simulazione terrestre, senza verifica di volo reale
  3. Controllo Termico Tradizionale: Dipende da regole preimpostate, manca di spiegazione contestuale e adattabilità

Contributi Principali

  1. Primo Sistema Agenziale di Livello di Volo: Implementazione e verifica su hardware TRL 9 del primo sistema di supervisione agenziale basato su LLM sull'ISS
  2. Architettura Ibrida Asincrona: Proposta di un design ibrido che combina l'efficienza dell'apprendimento per rinforzo con l'interpretabilità dei modelli linguistici
  3. Strategia di Sincronizzazione Orbitale: Scoperta e verifica che le finestre di inferenza sincronizzate con il periodo orbitale possono superare i limiti di latenza
  4. Miglioramenti di Prestazioni Reali: Aumento del 67,2% nel tempo di esecuzione e riduzione del 58,5% delle violazioni termiche negli esperimenti di laboratorio
  5. Linee Guida di Progettazione per l'IA Spaziale: Fornisce principi di progettazione pratica per futuri sistemi autonomi LEO

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Dati dei sensori di temperatura a bordo, stato di utilizzo della CPU, informazioni sul gradiente termico Output: Raccomandazioni dinamiche del coefficiente di entropia (α) per ottimizzare l'equilibrio esplorazione-sfruttamento dell'agente di apprendimento per rinforzo Vincoli:

  • Limiti di soglia di temperatura (60°C a terra, 57°C in orbita)
  • Risorse di calcolo a singolo core (core 0 dedicato al sistema ASTREA)
  • Latenza di inferenza (da 40 secondi a 8 minuti)

Architettura del Modello

Progettazione Complessiva del Sistema

ASTREA adotta un'architettura asincrona a doppio agente:

  1. Agente RL (Livello in Tempo Reale):
    • Basato sull'algoritmo Soft Actor-Critic (SAC)
    • Monitoraggio continuo della temperatura a bordo
    • Regolazione in tempo reale della disponibilità di risorse dei 15 core della CPU
    • Gestione della frequenza del core e dello stato di alimentazione
  2. Agente LLM (Livello di Supervisione):
    • Utilizza il modello Qwen2.5 quantizzato (1,54 miliardi di parametri, quantizzazione a 4 bit)
    • Inferenza on-device tramite Llama.cpp
    • Fornisce ragionamento semantico e raccomandazioni di regolazione dei parametri consapevoli del contesto

Meccanismo di Comunicazione

Agente RL → Coda Asincrona → Agente LLM
         ↓
    Riassunto dell'Esecuzione (iterazioni, step in zona di pericolo, gradiente termico medio)
         ↓
Agente LLM → Coda Asincrona → Agente RL  
         ↓
    Raccomandazione Coefficiente α (generata tramite tool calling)

Componenti Tecnici Chiave

1. Agente di Apprendimento per Rinforzo

  • Spazio degli Stati: Letture dei sensori di temperatura, frequenza della CPU, rapporto di pericolo
  • Spazio delle Azioni: Regolazioni della frequenza e dello stato di alimentazione dei 15 core
  • Funzione di Ricompensa: Ricompensa di sopravvivenza di base + ricompensa di sicurezza termica
  • Caratteristiche di Osservazione Nuove: Rapporto di pericolo (proporzione di sensori entro soglia del 10%)

2. Set di Strumenti dell'Agente LLM

  • increase_exploration: α ∈ 0,4, 0,8
  • moderate_exploration: α ∈ 0,2, 0,4
  • decrease_exploration: α ∈ 0,05, 0,2
  • keep_alpha: Mantieni il valore attuale
  • reset_alpha: Ripristina al valore predefinito (0,2)

Punti di Innovazione Tecnica

  1. Progettazione Asincrona Disaccoppiata: Evita che la latenza di inferenza dell'LLM influisca sul controllo in tempo reale, garantendo la sicurezza del sistema
  2. Ottimizzazione Semantica dei Parametri: Sfrutta la capacità di comprensione contestuale dell'LLM per ottimizzare la strategia di esplorazione dell'agente RL
  3. Allineamento del Periodo Orbitale: Scopre e sfrutta le caratteristiche periodiche dell'ambiente LEO per la sincronizzazione dell'agente
  4. Adattamento al Calcolo Edge: Ottimizza la quantizzazione del modello e la strategia di inferenza per i vincoli dell'hardware di livello spaziale

Configurazione Sperimentale

Ambiente Sperimentale

1. Laboratorio Terrestre

  • Configurazione di piccolo rack con raffreddamento a ventola attiva
  • Controllo termico diurno di 10 ore, fluttuazioni di temperatura naturale notturna
  • Finestra temporale di 60 minuti per la raccolta dei riassunti di esecuzione

2. Implementazione in Orbita sull'ISS

  • Piattaforma di carico esterno del modulo Columbus
  • Periodo orbitale di 90 minuti (45 minuti di illuminazione solare + 45 minuti di ombra)
  • Dissipazione tramite heat pipe passivo, nessun raffreddamento attivo
  • Due configurazioni: ciclo breve di 15 minuti vs periodo orbitale di 90 minuti

Piattaforma Hardware

  • Processore: Architettura ARM a 64 bit, 16 core Cortex-A72
  • Memoria: 16GB LPDDR4
  • Intervallo di Frequenza: Regolazione dinamica 1,0-2,0 GHz
  • Vincoli: Nessun acceleratore hardware dedicato, core 0 dedicato ad ASTREA

Metriche di Valutazione

  1. Numero di Violazioni Termiche: Conteggio delle istanze che superano la soglia di temperatura
  2. Tempo di Esecuzione Medio: Durata media continua dell'esecuzione del controllo termico (time step)
  3. Efficienza dell'Utilizzo della CPU: Inverso della capacità di calcolo residua considerando il ridimensionamento della frequenza

Metodi di Confronto

Sistema Baseline: Agente SAC puro con pianificazione α adattiva predefinita di Stable Baselines3, senza intervento esterno o feedback di prestazioni.

Risultati Sperimentali

Risultati Principali degli Esperimenti di Laboratorio

MetricaPeriodo TemporaleSistema BaselineSistema ASTREA
Tempo di Esecuzione MedioPrime 4 ore47,17±18,1578,83±11,33 (+67,2%)
24 ore135,24±32,94142,29±8,06 (+5,2%)
Numero di Violazioni TermichePrime 4 ore39,33±9,2916,33±2,08 (-58,5%)
24 ore88,67±20,5051,33±4,04 (-42,1%)
Utilizzo Medio della CPUPrime 4 ore25,81±5,00%26,30±2,56% (+1,9%)
24 ore16,49±5,57%16,24±4,46% (-1,5%)

Risultati degli Esperimenti in Orbita

Esperimento a Ciclo Breve (Finestra di 15 minuti)

MetricaSistema BaselineSistema ASTREA
Tempo di Esecuzione Medio449,77±295,69363,76±190,23 (-19,1%)
Numero di Violazioni Termiche66±24,2582±32,74 (+24,2%)
Utilizzo Medio della CPU40,17±17,70%22,86±3,05% (-43,1%)

Esperimento a Periodo Orbitale (Finestra di 90 minuti)

MetricaSistema BaselineSistema ASTREA
Tempo di Esecuzione Medio449,77±295,691555,09±823,57 (+245,8%)
Numero di Violazioni Termiche66±24,2522,33±9,07 (-66,2%)
Utilizzo Medio della CPU40,17±17,70%48,27±11,49% (+20,1%)

Scoperte Chiave

  1. Importanza della Sincronizzazione Temporale: Le prestazioni diminuiscono significativamente quando il periodo di inferenza non corrisponde alla dinamica ambientale
  2. Strategia di Allineamento Orbitale: La finestra di 90 minuti sincronizzata con l'orbita dell'ISS raggiunge le migliori prestazioni
  3. Impatto della Latenza di Inferenza: Il tempo di risposta dell'LLM da 40 secondi a 8 minuti conferma l'inadeguatezza per i loop di controllo in tempo reale
  4. Effetto di Vantaggio Iniziale: La guida dell'LLM fornisce miglioramenti significativi nella fase iniziale, mantenendo un vantaggio stabile nel lungo termine

Lavori Correlati

Applicazioni LLM Spaziali

  • Space Llama: Primo LLM open-source implementato sull'ISS, ma manca di capacità di controllo autonomo
  • LLMSat: Propone LLM come sistema di controllo di alto livello per veicoli spaziali, verificato solo in ambienti di simulazione
  • AI Space Cortex: Framework autonomo interpretabile per ambienti estremi, verificato su piattaforme di test terrestri

Sistemi Ibridi LLM-RL

Secondo la classificazione di Schoepp et al., tre ruoli dell'LLM nell'RL:

  1. Agente: L'LLM agisce direttamente come politica per il processo decisionale
  2. Pianificatore: L'LLM scompone compiti complessi in sottocompiti
  3. Modello di Ricompensa: L'LLM genera o valuta segnali di ricompensa

ASTREA adotta una quarta modalità: Supervisore, dove l'LLM fornisce raccomandazioni di regolazione dei parametri mentre l'agente RL mantiene l'indipendenza operativa.

Differenziazione Tecnica

  • Considerazioni di Sicurezza: Evita che le allucinazioni dell'LLM influiscano sulle decisioni critiche
  • Adattamento Hardware: Modello quantizzato ottimizzato per i vincoli di livello spaziale
  • Garanzia di Tempo Reale: L'architettura asincrona assicura la reattività del sistema di controllo

Conclusioni e Discussione

Conclusioni Principali

  1. Fattibilità Tecnica: Conferma la fattibilità dell'implementazione di sistemi agenziali su hardware di livello di volo
  2. Miglioramento delle Prestazioni: Sotto configurazione appropriata, è possibile ottenere miglioramenti significativi delle prestazioni del controllo termico
  3. Principio di Corrispondenza Temporale: Il periodo di inferenza dell'LLM deve corrispondere alla scala temporale della dinamica ambientale
  4. Linee Guida di Progettazione dell'Architettura: Il disaccoppiamento asincrono è fondamentale per l'integrazione LLM-RL nelle applicazioni spaziali

Limitazioni

  1. Vincoli Hardware: L'attuale hardware di livello di volo non può supportare i modelli linguistici più potenti
  2. Latenza di Inferenza: I limiti di calcolo a singolo core causano ritardi di risposta significativi
  3. Limitazioni di Contesto: Necessità di mantenere lunghezze di contesto brevi e prompt strutturati
  4. Estensione Multi-Agente: La latenza di un singolo agente LLM potrebbe diventare un collo di bottiglia in configurazioni multi-agente

Direzioni Future

  1. Accelerazione Hardware: Gli acceleratori di livello spaziale potrebbero modificare fondamentalmente le prestazioni
  2. Modelli Specializzati per Dominio: Modelli specializzati nella gestione termica potrebbero migliorare la comprensione contestuale
  3. Estensione dei Parametri: Oltre al coefficiente α, altri parametri di controllo o modellamento adattivo delle ricompense
  4. Collaborazione Multi-Agente: Esplorazione di architetture di supervisione cooperativa con più agenti LLM

Valutazione Approfondita

Punti di Forza

  1. Significato Pioneristico: Prima verifica di un sistema agenziale in ambiente di volo reale, con valore di pietra miliare
  2. Praticità Ingegneristica: Considerazione completa dei vincoli hardware, fornisce una soluzione implementabile
  3. Completezza Sperimentale: Verifica doppia terrestre e in orbita, analisi comparativa di molteplici configurazioni
  4. Contributo Teorico: Stabilisce il principio di progettazione della corrispondenza tra il periodo di inferenza dell'LLM e la dinamica ambientale
  5. Innovazione Tecnica: L'architettura asincrona risolve elegantemente il conflitto tra latenza e sicurezza

Insufficienze

  1. Scala Campionaria: I periodi sperimentali sono relativamente brevi, la stabilità a lungo termine rimane da verificare
  2. Singolarità Ambientale: Verificato solo nello scenario di controllo termico, l'applicabilità ad altri sottosistemi è sconosciuta
  3. Limitazioni del Modello: Le capacità di inferenza del modello quantizzato sono inferiori rispetto al modello completo
  4. Rapporto Costo-Beneficio: L'aumento del carico computazionale e della complessità rispetto ai metodi tradizionali

Impatto

  1. Valore Accademico: Fornisce una base empirica importante per le applicazioni dell'IA spaziale
  2. Significato Industriale: Fornisce un percorso tecnologico per lo sviluppo dell'autonomia nell'industria aerospaziale
  3. Riproducibilità: Dettagli di implementazione dettagliati e supporto di strumenti open-source facilitano la riproduzione
  4. Potenziale di Estensione: Il design dell'architettura possiede buona scalabilità e adattabilità

Scenari Applicabili

  1. Esplorazione dello Spazio Profondo: Supporto alle decisioni autonome in ambienti con ritardo di comunicazione
  2. Costellazioni di Piccoli Satelliti: Supervisione intelligente in ambienti con risorse limitate
  3. Astronautica Umana: Sistemi di assistenza intelligente per gli astronauti
  4. Calcolo Edge Terrestre: Sistemi intelligenti ibridi in ambienti con risorse limitate

Bibliografia

  1. Callejo, E., et al. (2023). Imagin-e: The first step towards extending the cloud into space.
  2. Booz Allen Hamilton and Meta (2025). Booz allen and meta launch space llama.
  3. Maranto, D. (2024). Llmsat: A large language model-based goal-oriented agent for autonomous space exploration.
  4. Touma, T., et al. (2025). Ai space cortex: An experimental system for future era space exploration.
  5. Yang, A., et al. (2024). Qwen2 technical report.

Valutazione Complessiva: Questo articolo possiede un significato pioneristico importante nel campo delle applicazioni dell'IA spaziale. Attraverso un rigorous design sperimentale e una verifica completa, pone una base solida per lo sviluppo di futuri veicoli spaziali intelligenti. Nonostante alcuni limiti tecnici, il suo valore ingegneristico e il contributo accademico sono significativi e meritano ulteriore ricerca e sviluppo.