ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy
Mousist
This paper presents ASTREA, the first agentic system executed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations, with on-orbit operation aboard the International Space Station (ISS). Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility of combining semantic reasoning with adaptive control under hardware constraints. On-orbit validation aboard the ISS initially faced challenges due to inference latency misaligned with the rapid thermal cycles of Low Earth Orbit (LEO) satellites. Synchronization with the orbit length successfully surpassed the baseline with reduced violations, extended episode durations, and improved CPU utilization. These findings demonstrate the potential for scalable agentic supervision architectures in future autonomous spacecraft.
academic
ASTREA: Introducción de Inteligencia Agéntica para la Autonomía Térmica Orbital
Este artículo presenta ASTREA, el primer sistema agéntico ejecutado en hardware de nivel de vuelo (TRL 9) para operaciones autónomas de naves espaciales, con verificación en órbita en la Estación Espacial Internacional (ISS). Utilizando el control térmico como caso de uso representativo, el sistema integra un agente de modelo de lenguaje grande (LLM) con recursos limitados con un controlador de aprendizaje por refuerzo en una arquitectura asincrónica personalizada para plataformas de nivel espacial. Los experimentos en tierra demuestran que la supervisión guiada por LLM mejora la estabilidad térmica y reduce las violaciones, confirmando la viabilidad de combinar razonamiento semántico con control adaptativo bajo restricciones de hardware. La verificación en órbita en la ISS enfrentó inicialmente desafíos de latencia de inferencia desajustada con ciclos térmicos rápidos de satélites en órbita terrestre baja (LEO). Tras la sincronización con la duración orbital, se superó exitosamente la línea base, reduciendo violaciones, extendiendo el tiempo de operación y mejorando la utilización de CPU.
Necesidad de Operaciones Autónomas Espaciales: Con el desarrollo de misiones lunares y de órbita terrestre, existe la necesidad de sistemas espaciales que funcionen con mínima intervención humana, particularmente en entornos donde la latencia de comunicación impide la supervisión directa desde tierra.
Complejidad del Control Térmico: El control térmico es un subsistema crítico que debe mantener la integridad operativa de todos los componentes electrónicos mientras gestiona en tiempo real recursos computacionales limitados. Los métodos tradicionales dependen de reglas preprogramadas y supervisión desde tierra, careciendo de flexibilidad para responder a cargas térmicas dinámicas.
Restricciones de Recursos de Hardware: Los modelos de lenguaje grande requieren recursos de hardware sustanciales, lo que entra en conflicto con entornos embebidos que deben mantener tolerancia a radiación y operar bajo restricciones severas de potencia, tamaño y temperatura.
Primer Sistema Agéntico de Nivel de Vuelo: Implementación y verificación en ISS del primer sistema de supervisión basado en LLM en hardware TRL 9
Arquitectura Híbrida Asincrónica: Diseño híbrido que combina la eficiencia del aprendizaje por refuerzo con la interpretabilidad de modelos de lenguaje
Estrategia de Sincronización Orbital: Descubrimiento y verificación de que ventanas de inferencia sincronizadas con el período orbital superan limitaciones de latencia
Mejoras de Rendimiento Real: Aumento del 67.2% en tiempo de operación y reducción del 58.5% en violaciones térmicas en experimentos en tierra
Directrices de Diseño de IA Espacial: Proporciona principios de diseño prácticos para futuros sistemas autónomos LEO
Entrada: Datos de sensores de temperatura a bordo, estado de utilización de CPU, información de gradientes térmicos
Salida: Recomendaciones dinámicamente ajustadas del coeficiente de entropía (α) para optimizar el equilibrio exploración-explotación del agente de aprendizaje por refuerzo
Restricciones:
Límites de umbral de temperatura (60°C en tierra, 57°C en órbita)
Recursos computacionales de un solo núcleo (núcleo 0 dedicado al sistema ASTREA)
Agente RL → Cola Asincrónica → Agente LLM
↓
Resumen de Ejecución (iteraciones, pasos en zona de peligro, gradiente térmico promedio)
↓
Agente LLM → Cola Asincrónica → Agente RL
↓
Recomendación de Coeficiente α (generada mediante invocación de herramientas)
Sistema de Línea Base: Agente SAC puro con programación de α adaptativo predeterminado de Stable Baselines3, sin intervención externa o retroalimentación de rendimiento.
Importancia de la Sincronización Temporal: El rendimiento se degrada significativamente cuando el período de inferencia no coincide con la dinámica ambiental
Estrategia de Alineación Orbital: La ventana de 90 minutos sincronizada con la órbita de la ISS logra el mejor rendimiento
Impacto de la Latencia de Inferencia: El tiempo de respuesta del LLM de 40 segundos a 8 minutos confirma que no es adecuado para bucles de control en tiempo real
Efecto de Ventaja Temprana: La guía del LLM proporciona mejoras significativas en la fase inicial, manteniendo una ventaja estable a largo plazo
Según la clasificación de Schoepp et al., tres roles del LLM en RL:
Agente: LLM actúa directamente como política para toma de decisiones
Planificador: LLM descompone tareas complejas en subtareas
Modelo de Recompensa: LLM genera o evalúa señales de recompensa
ASTREA adopta un cuarto modo: Supervisor, donde el LLM proporciona recomendaciones de ajuste de parámetros mientras el agente RL mantiene independencia operativa.
Callejo, E., et al. (2023). Imagin-e: The first step towards extending the cloud into space.
Booz Allen Hamilton and Meta (2025). Booz allen and meta launch space llama.
Maranto, D. (2024). Llmsat: A large language model-based goal-oriented agent for autonomous space exploration.
Touma, T., et al. (2025). Ai space cortex: An experimental system for future era space exploration.
Yang, A., et al. (2024). Qwen2 technical report.
Evaluación General: Este artículo posee significado pionero importante en el campo de aplicaciones de IA espacial. A través de diseño experimental riguroso y verificación suficiente, establece una base sólida para el desarrollo futuro de naves espaciales inteligentes. Aunque existen algunas limitaciones técnicas, su valor de ingeniería y contribución académica son significativos, mereciendo investigación profunda y desarrollo adicional.