ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy
Mousist
This paper presents ASTREA, the first agentic system executed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations, with on-orbit operation aboard the International Space Station (ISS). Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility of combining semantic reasoning with adaptive control under hardware constraints. On-orbit validation aboard the ISS initially faced challenges due to inference latency misaligned with the rapid thermal cycles of Low Earth Orbit (LEO) satellites. Synchronization with the orbit length successfully surpassed the baseline with reduced violations, extended episode durations, and improved CPU utilization. These findings demonstrate the potential for scalable agentic supervision architectures in future autonomous spacecraft.
academic
ASTREA : Introduction de l'Intelligence Agentive pour l'Autonomie Thermique Orbitale
Cet article présente ASTREA, le premier système agentif exécuté sur matériel de niveau vol (TRL 9) pour l'exploitation autonome d'engins spatiaux, avec validation en orbite à bord de la Station spatiale internationale (ISS). En utilisant le contrôle thermique comme cas d'usage représentatif, le système intègre des agents de modèles de langage de grande taille (LLM) à ressources limitées avec des contrôleurs d'apprentissage par renforcement dans une architecture asynchrone adaptée aux plateformes de niveau spatial. Les expériences au sol démontrent que la supervision guidée par LLM améliore la stabilité thermique et réduit les violations, confirmant la faisabilité de combiner le raisonnement sémantique avec le contrôle adaptatif sous contraintes matérielles. La validation en orbite à bord de l'ISS a initialement fait face à des défis de latence d'inférence incompatibles avec les cycles thermiques rapides des satellites en orbite terrestre basse (LEO). Après synchronisation avec la période orbitale, le système a dépassé la ligne de base, réduisant les violations, prolongeant la durée d'exécution et améliorant l'utilisation du processeur.
Besoin d'exploitation autonome spatiale : Avec le développement des missions lunaires et des missions en orbite terrestre, il existe un besoin de systèmes spatiaux capables de fonctionner avec une intervention humaine minimale, particulièrement dans les environnements où les délais de communication entravent la surveillance directe depuis le sol.
Complexité du contrôle thermique : Le contrôle thermique est un sous-système critique qui doit maintenir l'intégrité opérationnelle de tous les composants électroniques tout en gérant en temps réel les ressources informatiques limitées. Les approches traditionnelles reposent sur des règles préprogrammées et la surveillance au sol, manquant de flexibilité pour répondre aux charges thermiques dynamiques.
Contraintes de ressources matérielles : Les modèles de langage de grande taille nécessitent des ressources matérielles considérables, ce qui entre en conflit avec les environnements embarqués qui doivent maintenir la tolérance aux radiations et fonctionner sous des contraintes strictes de consommation d'énergie, de taille et de température.
Premier système agentif de niveau vol : Implémentation et validation sur matériel TRL 9 du premier système de supervision agentif basé sur LLM en orbite à bord de l'ISS
Architecture hybride asynchrone : Proposition d'une conception hybride combinant l'efficacité de l'apprentissage par renforcement avec l'interprétabilité des modèles de langage
Stratégie de synchronisation orbitale : Découverte et validation que les fenêtres d'inférence synchronisées avec la période orbitale peuvent surmonter les limitations de latence
Amélioration des performances réelles : Réalisation d'une augmentation de 67,2 % de la durée d'exécution et d'une réduction de 58,5 % des violations thermiques dans les expériences au sol
Principes directeurs pour l'IA spatiale : Fourniture de directives de conception pratiques pour les futurs systèmes autonomes LEO
Entrées : Données des capteurs de température embarqués, état d'utilisation du processeur, informations de gradient thermique
Sorties : Recommandations dynamiquement ajustées du coefficient d'entropie (α) pour optimiser l'équilibre exploration-exploitation de l'agent d'apprentissage par renforcement
Contraintes :
Limites de seuil de température (60°C au sol, 57°C en orbite)
Ressources informatiques monocœur (cœur 0 dédié au système agentif)
Conception asynchrone découplée : Évite que la latence d'inférence du LLM n'affecte le contrôle en temps réel, garantissant la sécurité du système
Optimisation sémantique des paramètres : Exploitation de la capacité de compréhension contextuelle du LLM pour optimiser la stratégie d'exploration de l'agent RL
Alignement avec la période orbitale : Découverte et exploitation des caractéristiques périodiques de l'environnement LEO pour la synchronisation des agents
Adaptation au calcul périphérique : Optimisation de la quantification du modèle et de la stratégie d'inférence pour les contraintes du matériel spatial
Système de base : Agent SAC pur utilisant l'ordonnancement adaptatif α par défaut de Stable Baselines3, sans intervention externe ni retour de performance.
Importance de la synchronisation temporelle : Les performances se dégradent significativement lorsque la période d'inférence ne correspond pas aux dynamiques environnementales
Stratégie d'alignement orbital : La fenêtre de 90 minutes synchronisée avec l'orbite de l'ISS réalise les meilleures performances
Impact de la latence d'inférence : Le temps de réponse du LLM varie de 40 secondes à 8 minutes, confirmant son inadéquation pour les boucles de contrôle en temps réel
Effet d'avantage précoce : La supervision guidée par LLM fournit des améliorations significatives en phase initiale, maintenant un avantage stable à long terme
Selon la classification de Schoepp et al., trois rôles des LLM dans le RL :
Agent : Le LLM agit directement comme politique de décision
Planificateur : Le LLM décompose les tâches complexes en sous-tâches
Modèle de récompense : Le LLM génère ou évalue les signaux de récompense
ASTREA adopte un quatrième mode : Superviseur, où le LLM fournit des recommandations d'ajustement de paramètres tandis que l'agent RL maintient son indépendance opérationnelle.
Signification pionnière : Premier test en environnement de vol réel d'un système agentif, d'une valeur historique
Utilité d'ingénierie : Prise en compte complète des contraintes matérielles, fourniture d'une solution déployable
Suffisance expérimentale : Double validation au sol et en orbite, analyse comparative de multiples configurations
Contribution théorique : Établissement de principes de conception pour l'appariement entre la période d'inférence du LLM et les dynamiques environnementales
Innovation technique : Architecture asynchrone résolvant élégamment la contradiction entre latence et sécurité
Callejo, E., et al. (2023). Imagin-e: The first step towards extending the cloud into space.
Booz Allen Hamilton and Meta (2025). Booz allen and meta launch space llama.
Maranto, D. (2024). Llmsat: A large language model-based goal-oriented agent for autonomous space exploration.
Touma, T., et al. (2025). Ai space cortex: An experimental system for future era space exploration.
Yang, A., et al. (2024). Qwen2 technical report.
Évaluation Globale : Cet article revêt une importance pionnière significative dans le domaine des applications d'IA spatiale. Par une conception expérimentale rigoureuse et une validation complète, il établit une base solide pour le développement futur d'engins spatiaux intelligents. Malgré certaines limitations techniques, sa valeur d'ingénierie et ses contributions académiques sont remarquables, justifiant une recherche approfondie et un développement ultérieur.