2025-11-24T22:58:17.201528

ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

Mousist

This paper presents ASTREA, the first agentic system executed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations, with on-orbit operation aboard the International Space Station (ISS). Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility of combining semantic reasoning with adaptive control under hardware constraints. On-orbit validation aboard the ISS initially faced challenges due to inference latency misaligned with the rapid thermal cycles of Low Earth Orbit (LEO) satellites. Synchronization with the orbit length successfully surpassed the baseline with reduced violations, extended episode durations, and improved CPU utilization. These findings demonstrate the potential for scalable agentic supervision architectures in future autonomous spacecraft.

academic

ASTREA : Introduction de l'Intelligence Agentive pour l'Autonomie Thermique Orbitale

Informations Fondamentales

ID de l'article : 2509.13380
Titre : ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy
Auteur : Alejandro D. Mousist (Thales Alenia Space, Tres Cantos, Espagne)
Classification : cs.RO cs.AI cs.LG cs.MA cs.SY eess.SY
Date de publication : 11 octobre 2025 (arXiv v2)
Lien de l'article : https://arxiv.org/abs/2509.13380

Résumé

Cet article présente ASTREA, le premier système agentif exécuté sur matériel de niveau vol (TRL 9) pour l'exploitation autonome d'engins spatiaux, avec validation en orbite à bord de la Station spatiale internationale (ISS). En utilisant le contrôle thermique comme cas d'usage représentatif, le système intègre des agents de modèles de langage de grande taille (LLM) à ressources limitées avec des contrôleurs d'apprentissage par renforcement dans une architecture asynchrone adaptée aux plateformes de niveau spatial. Les expériences au sol démontrent que la supervision guidée par LLM améliore la stabilité thermique et réduit les violations, confirmant la faisabilité de combiner le raisonnement sémantique avec le contrôle adaptatif sous contraintes matérielles. La validation en orbite à bord de l'ISS a initialement fait face à des défis de latence d'inférence incompatibles avec les cycles thermiques rapides des satellites en orbite terrestre basse (LEO). Après synchronisation avec la période orbitale, le système a dépassé la ligne de base, réduisant les violations, prolongeant la durée d'exécution et améliorant l'utilisation du processeur.

Contexte de Recherche et Motivation

Définition du Problème

Besoin d'exploitation autonome spatiale : Avec le développement des missions lunaires et des missions en orbite terrestre, il existe un besoin de systèmes spatiaux capables de fonctionner avec une intervention humaine minimale, particulièrement dans les environnements où les délais de communication entravent la surveillance directe depuis le sol.
Complexité du contrôle thermique : Le contrôle thermique est un sous-système critique qui doit maintenir l'intégrité opérationnelle de tous les composants électroniques tout en gérant en temps réel les ressources informatiques limitées. Les approches traditionnelles reposent sur des règles préprogrammées et la surveillance au sol, manquant de flexibilité pour répondre aux charges thermiques dynamiques.
Contraintes de ressources matérielles : Les modèles de langage de grande taille nécessitent des ressources matérielles considérables, ce qui entre en conflit avec les environnements embarqués qui doivent maintenir la tolérance aux radiations et fonctionner sous des contraintes strictes de consommation d'énergie, de taille et de température.

Signification de la Recherche

Percée technologique : Premier déploiement d'un système de supervision agentif basé sur LLM dans un environnement de vol réel
Valeur pratique : Établissement d'une architecture de supervision agentive évolutive pour les futurs engins spatiaux autonomes
Contribution théorique : Exploration de la combinaison du raisonnement sémantique et du contrôle adaptatif dans des environnements spatiaux contraints

Limitations des Approches Existantes

Space Llama : Manque de comportement agentif, utilisé uniquement manuellement par les astronautes
LLMSat et AI Space Cortex : Principalement validés en environnements de simulation au sol, sans vérification en vol réel
Contrôle thermique traditionnel : Dépend de règles prédéfinies, manquant d'explication contextuelle et d'adaptabilité

Contributions Principales

Premier système agentif de niveau vol : Implémentation et validation sur matériel TRL 9 du premier système de supervision agentif basé sur LLM en orbite à bord de l'ISS
Architecture hybride asynchrone : Proposition d'une conception hybride combinant l'efficacité de l'apprentissage par renforcement avec l'interprétabilité des modèles de langage
Stratégie de synchronisation orbitale : Découverte et validation que les fenêtres d'inférence synchronisées avec la période orbitale peuvent surmonter les limitations de latence
Amélioration des performances réelles : Réalisation d'une augmentation de 67,2 % de la durée d'exécution et d'une réduction de 58,5 % des violations thermiques dans les expériences au sol
Principes directeurs pour l'IA spatiale : Fourniture de directives de conception pratiques pour les futurs systèmes autonomes LEO

Explication Détaillée de la Méthode

Définition de la Tâche

Entrées : Données des capteurs de température embarqués, état d'utilisation du processeur, informations de gradient thermique Sorties : Recommandations dynamiquement ajustées du coefficient d'entropie (α) pour optimiser l'équilibre exploration-exploitation de l'agent d'apprentissage par renforcement Contraintes :

Limites de seuil de température (60°C au sol, 57°C en orbite)
Ressources informatiques monocœur (cœur 0 dédié au système agentif)
Latence d'inférence (40 secondes à 8 minutes)

Architecture du Modèle

Conception Globale du Système

ASTREA adopte une architecture asynchrone à deux agents :

Agent RL (couche temps réel) :
- Basé sur l'algorithme Soft Actor-Critic (SAC)
- Surveillance continue de la température embarquée
- Ajustement en temps réel de la disponibilité des ressources des 15 cœurs du processeur
- Gestion de la fréquence des cœurs et des états d'alimentation
Agent LLM (couche supervision) :
- Utilisation du modèle Qwen2.5 quantifié (1,54 milliard de paramètres, quantification 4 bits)
- Inférence sur appareil via Llama.cpp
- Fourniture de raisonnement sémantique et recommandations d'ajustement de paramètres conscientes du contexte

Mécanisme de Communication

Agent RL → File d'attente asynchrone → Agent LLM
         ↓
    Résumé d'exécution (itérations, étapes en zone dangereuse, gradient thermique moyen)
         ↓
Agent LLM → File d'attente asynchrone → Agent RL  
         ↓
    Recommandations de coefficient α (générées via appels d'outils)

Composants Techniques Clés

1. Agent d'Apprentissage par Renforcement

Espace d'état : Lectures des capteurs de température, fréquence du processeur, ratio de danger
Espace d'action : Ajustements de fréquence et d'état d'alimentation des 15 cœurs
Fonction de récompense : Récompense de survie de base + récompense de sécurité thermique
Caractéristiques d'observation nouvelles : Ratio de danger (proportion de capteurs dans les 10 % du seuil)

2. Ensemble d'Outils de l'Agent LLM

increase_exploration : α ∈ 0,4, 0,8
moderate_exploration : α ∈ 0,2, 0,4
decrease_exploration : α ∈ 0,05, 0,2
keep_alpha : Conservation de la valeur actuelle
reset_alpha : Réinitialisation à la valeur par défaut (0,2)

Points d'Innovation Technique

Conception asynchrone découplée : Évite que la latence d'inférence du LLM n'affecte le contrôle en temps réel, garantissant la sécurité du système
Optimisation sémantique des paramètres : Exploitation de la capacité de compréhension contextuelle du LLM pour optimiser la stratégie d'exploration de l'agent RL
Alignement avec la période orbitale : Découverte et exploitation des caractéristiques périodiques de l'environnement LEO pour la synchronisation des agents
Adaptation au calcul périphérique : Optimisation de la quantification du modèle et de la stratégie d'inférence pour les contraintes du matériel spatial

Configuration Expérimentale

Environnement Expérimental

1. Laboratoire au Sol

Configuration de petit rack équipée d'un refroidissement actif par ventilateur
Contrôle thermique 10 heures le jour, fluctuations de température naturelles la nuit
Fenêtre temporelle de 60 minutes pour la collecte des résumés d'exécution

2. Déploiement en Orbite à Bord de l'ISS

Plateforme de charge utile externe du module Columbus
Période orbitale de 90 minutes (45 minutes d'ensoleillement + 45 minutes d'ombre)
Dissipation thermique par caloduc passif, sans refroidissement actif
Deux configurations : cycle court de 15 minutes vs période orbitale de 90 minutes

Plateforme Matérielle

Processeur : Architecture ARM 64 bits, 16 cœurs Cortex-A72
Mémoire : 16 Go LPDDR4
Plage de fréquence : Ajustement dynamique 1,0-2,0 GHz
Contraintes : Pas d'accélérateur matériel dédié, cœur 0 dédié à ASTREA

Métriques d'Évaluation

Nombre de violations thermiques : Comptage des instances dépassant le seuil de température
Durée d'exécution moyenne : Durée moyenne continue de fonctionnement du contrôle thermique (pas de temps)
Efficacité d'utilisation du processeur : Inverse de la capacité informatique résiduelle tenant compte de la mise à l'échelle de la fréquence

Méthodes de Comparaison

Système de base : Agent SAC pur utilisant l'ordonnancement adaptatif α par défaut de Stable Baselines3, sans intervention externe ni retour de performance.

Résultats Expérimentaux

Résultats Principaux des Expériences au Sol

Métrique	Période	Système de Base	Système ASTREA
Durée d'exécution moyenne	4 premières heures	47,17±18,15	78,83±11,33 (+67,2%)
	24 heures	135,24±32,94	142,29±8,06 (+5,2%)
Nombre de violations thermiques	4 premières heures	39,33±9,29	16,33±2,08 (-58,5%)
	24 heures	88,67±20,50	51,33±4,04 (-42,1%)
Utilisation moyenne du processeur	4 premières heures	25,81±5,00%	26,30±2,56% (+1,9%)
	24 heures	16,49±5,57%	16,24±4,46% (-1,5%)

Résultats des Expériences en Orbite

Expérience à Cycle Court (fenêtre de 15 minutes)

Métrique	Système de Base	Système ASTREA
Durée d'exécution moyenne	449,77±295,69	363,76±190,23 (-19,1%)
Nombre de violations thermiques	66±24,25	82±32,74 (+24,2%)
Utilisation moyenne du processeur	40,17±17,70%	22,86±3,05% (-43,1%)

Expérience à Période Orbitale (fenêtre de 90 minutes)

Métrique	Système de Base	Système ASTREA
Durée d'exécution moyenne	449,77±295,69	1555,09±823,57 (+245,8%)
Nombre de violations thermiques	66±24,25	22,33±9,07 (-66,2%)
Utilisation moyenne du processeur	40,17±17,70%	48,27±11,49% (+20,1%)

Découvertes Clés

Importance de la synchronisation temporelle : Les performances se dégradent significativement lorsque la période d'inférence ne correspond pas aux dynamiques environnementales
Stratégie d'alignement orbital : La fenêtre de 90 minutes synchronisée avec l'orbite de l'ISS réalise les meilleures performances
Impact de la latence d'inférence : Le temps de réponse du LLM varie de 40 secondes à 8 minutes, confirmant son inadéquation pour les boucles de contrôle en temps réel
Effet d'avantage précoce : La supervision guidée par LLM fournit des améliorations significatives en phase initiale, maintenant un avantage stable à long terme

Travaux Connexes

Applications LLM Spatiales

Space Llama : Premier LLM open-source déployé à bord de l'ISS, mais manquant de capacités de contrôle autonome
LLMSat : Proposition du LLM comme système de contrôle haut niveau d'engin spatial, validé uniquement en environnement de simulation
AI Space Cortex : Cadre d'autonomie interprétable pour environnements extrêmes, validé sur plateforme de test au sol

Systèmes Hybrides LLM-RL

Selon la classification de Schoepp et al., trois rôles des LLM dans le RL :

Agent : Le LLM agit directement comme politique de décision
Planificateur : Le LLM décompose les tâches complexes en sous-tâches
Modèle de récompense : Le LLM génère ou évalue les signaux de récompense

ASTREA adopte un quatrième mode : Superviseur, où le LLM fournit des recommandations d'ajustement de paramètres tandis que l'agent RL maintient son indépendance opérationnelle.

Différenciation Technique

Considérations de sécurité : Évite que les hallucinations du LLM n'affectent les décisions critiques
Adaptation matérielle : Modèles quantifiés optimisés pour les contraintes de niveau spatial
Garantie de temps réel : Architecture asynchrone assurant la réactivité du système de contrôle

Conclusion et Discussion

Conclusions Principales

Faisabilité technique : Confirmation de la faisabilité du déploiement de systèmes agentifs sur matériel de niveau vol
Amélioration des performances : Réalisation d'améliorations significatives du contrôle thermique avec une configuration appropriée
Principe d'appariement temporel : La période d'inférence du LLM doit correspondre à l'échelle de temps des dynamiques environnementales
Principes de conception architecturale : Le découplage asynchrone est essentiel pour l'intégration LLM-RL dans les applications spatiales

Limitations

Contraintes matérielles : Le matériel de niveau vol actuel ne peut pas supporter les modèles de langage les plus puissants
Latence d'inférence : Les limitations de calcul monocœur entraînent une latence de réponse significative
Limitations contextuelles : Nécessité de maintenir une longueur de contexte courte et des invites structurées
Extension multi-agents : La latence d'un seul agent LLM peut devenir un goulot d'étranglement dans les configurations multi-agents

Directions Futures

Accélération matérielle : Les accélérateurs de niveau spatial pourraient fondamentalement transformer les performances
Modèles spécialisés par domaine : Les modèles dédiés à la gestion thermique pourraient améliorer la compréhension contextuelle
Extension paramétrique : Au-delà du coefficient α, d'autres paramètres de contrôle ou façonnage adaptatif des récompenses
Collaboration multi-agents : Exploration d'architectures de supervision coopérative avec plusieurs agents LLM

Évaluation Approfondie

Points Forts

Signification pionnière : Premier test en environnement de vol réel d'un système agentif, d'une valeur historique
Utilité d'ingénierie : Prise en compte complète des contraintes matérielles, fourniture d'une solution déployable
Suffisance expérimentale : Double validation au sol et en orbite, analyse comparative de multiples configurations
Contribution théorique : Établissement de principes de conception pour l'appariement entre la période d'inférence du LLM et les dynamiques environnementales
Innovation technique : Architecture asynchrone résolvant élégamment la contradiction entre latence et sécurité

Insuffisances

Taille des échantillons : Périodes expérimentales relativement courtes, stabilité à long terme à vérifier
Unicité environnementale : Validation uniquement dans le scénario de contrôle thermique, applicabilité à d'autres sous-systèmes inconnue
Limitations du modèle : Les capacités d'inférence du modèle quantifié sont réduites par rapport au modèle complet
Rapport coût-bénéfice : Augmentation de la charge informatique et de la complexité par rapport aux méthodes traditionnelles

Impact

Valeur académique : Fourniture d'une base empirique importante pour les applications d'IA spatiale
Signification industrielle : Fourniture d'une trajectoire technologique pour l'autonomisation de l'industrie aérospatiale
Reproductibilité : Détails d'implémentation détaillés et support d'outils open-source facilitant la reproduction
Potentiel d'extension : Conception architecturale présentant une bonne évolutivité et adaptabilité

Scénarios d'Application

Exploration spatiale lointaine : Support de prise de décision autonome dans les environnements à délai de communication
Constellations de petits satellites : Supervision intelligente dans les environnements à ressources limitées
Astronautique habitée : Fourniture de systèmes d'assistance intelligente aux astronautes
Informatique périphérique au sol : Systèmes intelligents hybrides dans les environnements à ressources contraintes

Références

Callejo, E., et al. (2023). Imagin-e: The first step towards extending the cloud into space.
Booz Allen Hamilton and Meta (2025). Booz allen and meta launch space llama.
Maranto, D. (2024). Llmsat: A large language model-based goal-oriented agent for autonomous space exploration.
Touma, T., et al. (2025). Ai space cortex: An experimental system for future era space exploration.
Yang, A., et al. (2024). Qwen2 technical report.

Évaluation Globale : Cet article revêt une importance pionnière significative dans le domaine des applications d'IA spatiale. Par une conception expérimentale rigoureuse et une validation complète, il établit une base solide pour le développement futur d'engins spatiaux intelligents. Malgré certaines limitations techniques, sa valeur d'ingénierie et ses contributions académiques sont remarquables, justifiant une recherche approfondie et un développement ultérieur.