2025-11-24T22:58:17.201528

ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

Mousist
This paper presents ASTREA, the first agentic system executed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations, with on-orbit operation aboard the International Space Station (ISS). Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility of combining semantic reasoning with adaptive control under hardware constraints. On-orbit validation aboard the ISS initially faced challenges due to inference latency misaligned with the rapid thermal cycles of Low Earth Orbit (LEO) satellites. Synchronization with the orbit length successfully surpassed the baseline with reduced violations, extended episode durations, and improved CPU utilization. These findings demonstrate the potential for scalable agentic supervision architectures in future autonomous spacecraft.
academic

ASTREA : Introduction de l'Intelligence Agentive pour l'Autonomie Thermique Orbitale

Informations Fondamentales

  • ID de l'article : 2509.13380
  • Titre : ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy
  • Auteur : Alejandro D. Mousist (Thales Alenia Space, Tres Cantos, Espagne)
  • Classification : cs.RO cs.AI cs.LG cs.MA cs.SY eess.SY
  • Date de publication : 11 octobre 2025 (arXiv v2)
  • Lien de l'article : https://arxiv.org/abs/2509.13380

Résumé

Cet article présente ASTREA, le premier système agentif exécuté sur matériel de niveau vol (TRL 9) pour l'exploitation autonome d'engins spatiaux, avec validation en orbite à bord de la Station spatiale internationale (ISS). En utilisant le contrôle thermique comme cas d'usage représentatif, le système intègre des agents de modèles de langage de grande taille (LLM) à ressources limitées avec des contrôleurs d'apprentissage par renforcement dans une architecture asynchrone adaptée aux plateformes de niveau spatial. Les expériences au sol démontrent que la supervision guidée par LLM améliore la stabilité thermique et réduit les violations, confirmant la faisabilité de combiner le raisonnement sémantique avec le contrôle adaptatif sous contraintes matérielles. La validation en orbite à bord de l'ISS a initialement fait face à des défis de latence d'inférence incompatibles avec les cycles thermiques rapides des satellites en orbite terrestre basse (LEO). Après synchronisation avec la période orbitale, le système a dépassé la ligne de base, réduisant les violations, prolongeant la durée d'exécution et améliorant l'utilisation du processeur.

Contexte de Recherche et Motivation

Définition du Problème

  1. Besoin d'exploitation autonome spatiale : Avec le développement des missions lunaires et des missions en orbite terrestre, il existe un besoin de systèmes spatiaux capables de fonctionner avec une intervention humaine minimale, particulièrement dans les environnements où les délais de communication entravent la surveillance directe depuis le sol.
  2. Complexité du contrôle thermique : Le contrôle thermique est un sous-système critique qui doit maintenir l'intégrité opérationnelle de tous les composants électroniques tout en gérant en temps réel les ressources informatiques limitées. Les approches traditionnelles reposent sur des règles préprogrammées et la surveillance au sol, manquant de flexibilité pour répondre aux charges thermiques dynamiques.
  3. Contraintes de ressources matérielles : Les modèles de langage de grande taille nécessitent des ressources matérielles considérables, ce qui entre en conflit avec les environnements embarqués qui doivent maintenir la tolérance aux radiations et fonctionner sous des contraintes strictes de consommation d'énergie, de taille et de température.

Signification de la Recherche

  • Percée technologique : Premier déploiement d'un système de supervision agentif basé sur LLM dans un environnement de vol réel
  • Valeur pratique : Établissement d'une architecture de supervision agentive évolutive pour les futurs engins spatiaux autonomes
  • Contribution théorique : Exploration de la combinaison du raisonnement sémantique et du contrôle adaptatif dans des environnements spatiaux contraints

Limitations des Approches Existantes

  1. Space Llama : Manque de comportement agentif, utilisé uniquement manuellement par les astronautes
  2. LLMSat et AI Space Cortex : Principalement validés en environnements de simulation au sol, sans vérification en vol réel
  3. Contrôle thermique traditionnel : Dépend de règles prédéfinies, manquant d'explication contextuelle et d'adaptabilité

Contributions Principales

  1. Premier système agentif de niveau vol : Implémentation et validation sur matériel TRL 9 du premier système de supervision agentif basé sur LLM en orbite à bord de l'ISS
  2. Architecture hybride asynchrone : Proposition d'une conception hybride combinant l'efficacité de l'apprentissage par renforcement avec l'interprétabilité des modèles de langage
  3. Stratégie de synchronisation orbitale : Découverte et validation que les fenêtres d'inférence synchronisées avec la période orbitale peuvent surmonter les limitations de latence
  4. Amélioration des performances réelles : Réalisation d'une augmentation de 67,2 % de la durée d'exécution et d'une réduction de 58,5 % des violations thermiques dans les expériences au sol
  5. Principes directeurs pour l'IA spatiale : Fourniture de directives de conception pratiques pour les futurs systèmes autonomes LEO

Explication Détaillée de la Méthode

Définition de la Tâche

Entrées : Données des capteurs de température embarqués, état d'utilisation du processeur, informations de gradient thermique Sorties : Recommandations dynamiquement ajustées du coefficient d'entropie (α) pour optimiser l'équilibre exploration-exploitation de l'agent d'apprentissage par renforcement Contraintes :

  • Limites de seuil de température (60°C au sol, 57°C en orbite)
  • Ressources informatiques monocœur (cœur 0 dédié au système agentif)
  • Latence d'inférence (40 secondes à 8 minutes)

Architecture du Modèle

Conception Globale du Système

ASTREA adopte une architecture asynchrone à deux agents :

  1. Agent RL (couche temps réel) :
    • Basé sur l'algorithme Soft Actor-Critic (SAC)
    • Surveillance continue de la température embarquée
    • Ajustement en temps réel de la disponibilité des ressources des 15 cœurs du processeur
    • Gestion de la fréquence des cœurs et des états d'alimentation
  2. Agent LLM (couche supervision) :
    • Utilisation du modèle Qwen2.5 quantifié (1,54 milliard de paramètres, quantification 4 bits)
    • Inférence sur appareil via Llama.cpp
    • Fourniture de raisonnement sémantique et recommandations d'ajustement de paramètres conscientes du contexte

Mécanisme de Communication

Agent RL → File d'attente asynchrone → Agent LLM
         ↓
    Résumé d'exécution (itérations, étapes en zone dangereuse, gradient thermique moyen)
         ↓
Agent LLM → File d'attente asynchrone → Agent RL  
         ↓
    Recommandations de coefficient α (générées via appels d'outils)

Composants Techniques Clés

1. Agent d'Apprentissage par Renforcement

  • Espace d'état : Lectures des capteurs de température, fréquence du processeur, ratio de danger
  • Espace d'action : Ajustements de fréquence et d'état d'alimentation des 15 cœurs
  • Fonction de récompense : Récompense de survie de base + récompense de sécurité thermique
  • Caractéristiques d'observation nouvelles : Ratio de danger (proportion de capteurs dans les 10 % du seuil)

2. Ensemble d'Outils de l'Agent LLM

  • increase_exploration : α ∈ 0,4, 0,8
  • moderate_exploration : α ∈ 0,2, 0,4
  • decrease_exploration : α ∈ 0,05, 0,2
  • keep_alpha : Conservation de la valeur actuelle
  • reset_alpha : Réinitialisation à la valeur par défaut (0,2)

Points d'Innovation Technique

  1. Conception asynchrone découplée : Évite que la latence d'inférence du LLM n'affecte le contrôle en temps réel, garantissant la sécurité du système
  2. Optimisation sémantique des paramètres : Exploitation de la capacité de compréhension contextuelle du LLM pour optimiser la stratégie d'exploration de l'agent RL
  3. Alignement avec la période orbitale : Découverte et exploitation des caractéristiques périodiques de l'environnement LEO pour la synchronisation des agents
  4. Adaptation au calcul périphérique : Optimisation de la quantification du modèle et de la stratégie d'inférence pour les contraintes du matériel spatial

Configuration Expérimentale

Environnement Expérimental

1. Laboratoire au Sol

  • Configuration de petit rack équipée d'un refroidissement actif par ventilateur
  • Contrôle thermique 10 heures le jour, fluctuations de température naturelles la nuit
  • Fenêtre temporelle de 60 minutes pour la collecte des résumés d'exécution

2. Déploiement en Orbite à Bord de l'ISS

  • Plateforme de charge utile externe du module Columbus
  • Période orbitale de 90 minutes (45 minutes d'ensoleillement + 45 minutes d'ombre)
  • Dissipation thermique par caloduc passif, sans refroidissement actif
  • Deux configurations : cycle court de 15 minutes vs période orbitale de 90 minutes

Plateforme Matérielle

  • Processeur : Architecture ARM 64 bits, 16 cœurs Cortex-A72
  • Mémoire : 16 Go LPDDR4
  • Plage de fréquence : Ajustement dynamique 1,0-2,0 GHz
  • Contraintes : Pas d'accélérateur matériel dédié, cœur 0 dédié à ASTREA

Métriques d'Évaluation

  1. Nombre de violations thermiques : Comptage des instances dépassant le seuil de température
  2. Durée d'exécution moyenne : Durée moyenne continue de fonctionnement du contrôle thermique (pas de temps)
  3. Efficacité d'utilisation du processeur : Inverse de la capacité informatique résiduelle tenant compte de la mise à l'échelle de la fréquence

Méthodes de Comparaison

Système de base : Agent SAC pur utilisant l'ordonnancement adaptatif α par défaut de Stable Baselines3, sans intervention externe ni retour de performance.

Résultats Expérimentaux

Résultats Principaux des Expériences au Sol

MétriquePériodeSystème de BaseSystème ASTREA
Durée d'exécution moyenne4 premières heures47,17±18,1578,83±11,33 (+67,2%)
24 heures135,24±32,94142,29±8,06 (+5,2%)
Nombre de violations thermiques4 premières heures39,33±9,2916,33±2,08 (-58,5%)
24 heures88,67±20,5051,33±4,04 (-42,1%)
Utilisation moyenne du processeur4 premières heures25,81±5,00%26,30±2,56% (+1,9%)
24 heures16,49±5,57%16,24±4,46% (-1,5%)

Résultats des Expériences en Orbite

Expérience à Cycle Court (fenêtre de 15 minutes)

MétriqueSystème de BaseSystème ASTREA
Durée d'exécution moyenne449,77±295,69363,76±190,23 (-19,1%)
Nombre de violations thermiques66±24,2582±32,74 (+24,2%)
Utilisation moyenne du processeur40,17±17,70%22,86±3,05% (-43,1%)

Expérience à Période Orbitale (fenêtre de 90 minutes)

MétriqueSystème de BaseSystème ASTREA
Durée d'exécution moyenne449,77±295,691555,09±823,57 (+245,8%)
Nombre de violations thermiques66±24,2522,33±9,07 (-66,2%)
Utilisation moyenne du processeur40,17±17,70%48,27±11,49% (+20,1%)

Découvertes Clés

  1. Importance de la synchronisation temporelle : Les performances se dégradent significativement lorsque la période d'inférence ne correspond pas aux dynamiques environnementales
  2. Stratégie d'alignement orbital : La fenêtre de 90 minutes synchronisée avec l'orbite de l'ISS réalise les meilleures performances
  3. Impact de la latence d'inférence : Le temps de réponse du LLM varie de 40 secondes à 8 minutes, confirmant son inadéquation pour les boucles de contrôle en temps réel
  4. Effet d'avantage précoce : La supervision guidée par LLM fournit des améliorations significatives en phase initiale, maintenant un avantage stable à long terme

Travaux Connexes

Applications LLM Spatiales

  • Space Llama : Premier LLM open-source déployé à bord de l'ISS, mais manquant de capacités de contrôle autonome
  • LLMSat : Proposition du LLM comme système de contrôle haut niveau d'engin spatial, validé uniquement en environnement de simulation
  • AI Space Cortex : Cadre d'autonomie interprétable pour environnements extrêmes, validé sur plateforme de test au sol

Systèmes Hybrides LLM-RL

Selon la classification de Schoepp et al., trois rôles des LLM dans le RL :

  1. Agent : Le LLM agit directement comme politique de décision
  2. Planificateur : Le LLM décompose les tâches complexes en sous-tâches
  3. Modèle de récompense : Le LLM génère ou évalue les signaux de récompense

ASTREA adopte un quatrième mode : Superviseur, où le LLM fournit des recommandations d'ajustement de paramètres tandis que l'agent RL maintient son indépendance opérationnelle.

Différenciation Technique

  • Considérations de sécurité : Évite que les hallucinations du LLM n'affectent les décisions critiques
  • Adaptation matérielle : Modèles quantifiés optimisés pour les contraintes de niveau spatial
  • Garantie de temps réel : Architecture asynchrone assurant la réactivité du système de contrôle

Conclusion et Discussion

Conclusions Principales

  1. Faisabilité technique : Confirmation de la faisabilité du déploiement de systèmes agentifs sur matériel de niveau vol
  2. Amélioration des performances : Réalisation d'améliorations significatives du contrôle thermique avec une configuration appropriée
  3. Principe d'appariement temporel : La période d'inférence du LLM doit correspondre à l'échelle de temps des dynamiques environnementales
  4. Principes de conception architecturale : Le découplage asynchrone est essentiel pour l'intégration LLM-RL dans les applications spatiales

Limitations

  1. Contraintes matérielles : Le matériel de niveau vol actuel ne peut pas supporter les modèles de langage les plus puissants
  2. Latence d'inférence : Les limitations de calcul monocœur entraînent une latence de réponse significative
  3. Limitations contextuelles : Nécessité de maintenir une longueur de contexte courte et des invites structurées
  4. Extension multi-agents : La latence d'un seul agent LLM peut devenir un goulot d'étranglement dans les configurations multi-agents

Directions Futures

  1. Accélération matérielle : Les accélérateurs de niveau spatial pourraient fondamentalement transformer les performances
  2. Modèles spécialisés par domaine : Les modèles dédiés à la gestion thermique pourraient améliorer la compréhension contextuelle
  3. Extension paramétrique : Au-delà du coefficient α, d'autres paramètres de contrôle ou façonnage adaptatif des récompenses
  4. Collaboration multi-agents : Exploration d'architectures de supervision coopérative avec plusieurs agents LLM

Évaluation Approfondie

Points Forts

  1. Signification pionnière : Premier test en environnement de vol réel d'un système agentif, d'une valeur historique
  2. Utilité d'ingénierie : Prise en compte complète des contraintes matérielles, fourniture d'une solution déployable
  3. Suffisance expérimentale : Double validation au sol et en orbite, analyse comparative de multiples configurations
  4. Contribution théorique : Établissement de principes de conception pour l'appariement entre la période d'inférence du LLM et les dynamiques environnementales
  5. Innovation technique : Architecture asynchrone résolvant élégamment la contradiction entre latence et sécurité

Insuffisances

  1. Taille des échantillons : Périodes expérimentales relativement courtes, stabilité à long terme à vérifier
  2. Unicité environnementale : Validation uniquement dans le scénario de contrôle thermique, applicabilité à d'autres sous-systèmes inconnue
  3. Limitations du modèle : Les capacités d'inférence du modèle quantifié sont réduites par rapport au modèle complet
  4. Rapport coût-bénéfice : Augmentation de la charge informatique et de la complexité par rapport aux méthodes traditionnelles

Impact

  1. Valeur académique : Fourniture d'une base empirique importante pour les applications d'IA spatiale
  2. Signification industrielle : Fourniture d'une trajectoire technologique pour l'autonomisation de l'industrie aérospatiale
  3. Reproductibilité : Détails d'implémentation détaillés et support d'outils open-source facilitant la reproduction
  4. Potentiel d'extension : Conception architecturale présentant une bonne évolutivité et adaptabilité

Scénarios d'Application

  1. Exploration spatiale lointaine : Support de prise de décision autonome dans les environnements à délai de communication
  2. Constellations de petits satellites : Supervision intelligente dans les environnements à ressources limitées
  3. Astronautique habitée : Fourniture de systèmes d'assistance intelligente aux astronautes
  4. Informatique périphérique au sol : Systèmes intelligents hybrides dans les environnements à ressources contraintes

Références

  1. Callejo, E., et al. (2023). Imagin-e: The first step towards extending the cloud into space.
  2. Booz Allen Hamilton and Meta (2025). Booz allen and meta launch space llama.
  3. Maranto, D. (2024). Llmsat: A large language model-based goal-oriented agent for autonomous space exploration.
  4. Touma, T., et al. (2025). Ai space cortex: An experimental system for future era space exploration.
  5. Yang, A., et al. (2024). Qwen2 technical report.

Évaluation Globale : Cet article revêt une importance pionnière significative dans le domaine des applications d'IA spatiale. Par une conception expérimentale rigoureuse et une validation complète, il établit une base solide pour le développement futur d'engins spatiaux intelligents. Malgré certaines limitations techniques, sa valeur d'ingénierie et ses contributions académiques sont remarquables, justifiant une recherche approfondie et un développement ultérieur.