2025-11-24T22:58:17.201528

ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

Mousist

This paper presents ASTREA, the first agentic system executed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations, with on-orbit operation aboard the International Space Station (ISS). Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility of combining semantic reasoning with adaptive control under hardware constraints. On-orbit validation aboard the ISS initially faced challenges due to inference latency misaligned with the rapid thermal cycles of Low Earth Orbit (LEO) satellites. Synchronization with the orbit length successfully surpassed the baseline with reduced violations, extended episode durations, and improved CPU utilization. These findings demonstrate the potential for scalable agentic supervision architectures in future autonomous spacecraft.

academic

ASTREA: Introducción de Inteligencia Agéntica para la Autonomía Térmica Orbital

Información Básica

ID del Artículo: 2509.13380
Título: ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy
Autor: Alejandro D. Mousist (Thales Alenia Space, Tres Cantos, España)
Clasificación: cs.RO cs.AI cs.LG cs.MA cs.SY eess.SY
Fecha de Publicación: 11 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2509.13380

Resumen

Este artículo presenta ASTREA, el primer sistema agéntico ejecutado en hardware de nivel de vuelo (TRL 9) para operaciones autónomas de naves espaciales, con verificación en órbita en la Estación Espacial Internacional (ISS). Utilizando el control térmico como caso de uso representativo, el sistema integra un agente de modelo de lenguaje grande (LLM) con recursos limitados con un controlador de aprendizaje por refuerzo en una arquitectura asincrónica personalizada para plataformas de nivel espacial. Los experimentos en tierra demuestran que la supervisión guiada por LLM mejora la estabilidad térmica y reduce las violaciones, confirmando la viabilidad de combinar razonamiento semántico con control adaptativo bajo restricciones de hardware. La verificación en órbita en la ISS enfrentó inicialmente desafíos de latencia de inferencia desajustada con ciclos térmicos rápidos de satélites en órbita terrestre baja (LEO). Tras la sincronización con la duración orbital, se superó exitosamente la línea base, reduciendo violaciones, extendiendo el tiempo de operación y mejorando la utilización de CPU.

Contexto de Investigación y Motivación

Definición del Problema

Necesidad de Operaciones Autónomas Espaciales: Con el desarrollo de misiones lunares y de órbita terrestre, existe la necesidad de sistemas espaciales que funcionen con mínima intervención humana, particularmente en entornos donde la latencia de comunicación impide la supervisión directa desde tierra.
Complejidad del Control Térmico: El control térmico es un subsistema crítico que debe mantener la integridad operativa de todos los componentes electrónicos mientras gestiona en tiempo real recursos computacionales limitados. Los métodos tradicionales dependen de reglas preprogramadas y supervisión desde tierra, careciendo de flexibilidad para responder a cargas térmicas dinámicas.
Restricciones de Recursos de Hardware: Los modelos de lenguaje grande requieren recursos de hardware sustanciales, lo que entra en conflicto con entornos embebidos que deben mantener tolerancia a radiación y operar bajo restricciones severas de potencia, tamaño y temperatura.

Significado de la Investigación

Avance Tecnológico: Primera implementación de un sistema de supervisión basado en LLM en un entorno de vuelo real
Valor Práctico: Establece una arquitectura de supervisión agéntica escalable para futuras naves espaciales autónomas
Contribución Teórica: Explora la combinación de razonamiento semántico con control adaptativo en entornos con restricciones espaciales

Limitaciones de Métodos Existentes

Space Llama: Carece de comportamiento agéntico, utilizado únicamente para uso manual de astronautas
LLMSat y AI Space Cortex: Principalmente verificados en entornos de simulación en tierra, sin verificación de vuelo real
Control Térmico Tradicional: Depende de reglas preestablecidas, carece de explicación contextual y adaptabilidad

Contribuciones Principales

Primer Sistema Agéntico de Nivel de Vuelo: Implementación y verificación en ISS del primer sistema de supervisión basado en LLM en hardware TRL 9
Arquitectura Híbrida Asincrónica: Diseño híbrido que combina la eficiencia del aprendizaje por refuerzo con la interpretabilidad de modelos de lenguaje
Estrategia de Sincronización Orbital: Descubrimiento y verificación de que ventanas de inferencia sincronizadas con el período orbital superan limitaciones de latencia
Mejoras de Rendimiento Real: Aumento del 67.2% en tiempo de operación y reducción del 58.5% en violaciones térmicas en experimentos en tierra
Directrices de Diseño de IA Espacial: Proporciona principios de diseño prácticos para futuros sistemas autónomos LEO

Explicación Detallada del Método

Definición de la Tarea

Entrada: Datos de sensores de temperatura a bordo, estado de utilización de CPU, información de gradientes térmicos Salida: Recomendaciones dinámicamente ajustadas del coeficiente de entropía (α) para optimizar el equilibrio exploración-explotación del agente de aprendizaje por refuerzo Restricciones:

Límites de umbral de temperatura (60°C en tierra, 57°C en órbita)
Recursos computacionales de un solo núcleo (núcleo 0 dedicado al sistema ASTREA)
Latencia de inferencia (40 segundos a 8 minutos)

Arquitectura del Modelo

Diseño General del Sistema

ASTREA adopta una arquitectura de doble agente asincrónica:

Agente RL (Capa en Tiempo Real):
- Basado en el algoritmo Soft Actor-Critic (SAC)
- Monitoreo continuo de temperatura a bordo
- Ajuste en tiempo real de disponibilidad de recursos en 15 núcleos de CPU
- Gestión de frecuencia de núcleo y estados de energía
Agente LLM (Capa de Supervisión):
- Utiliza modelo Qwen2.5 cuantizado (1.54 mil millones de parámetros, cuantización de 4 bits)
- Inferencia en dispositivo a través de Llama.cpp
- Proporciona razonamiento semántico y ajustes de parámetros conscientes del contexto

Mecanismo de Comunicación

Agente RL → Cola Asincrónica → Agente LLM
         ↓
    Resumen de Ejecución (iteraciones, pasos en zona de peligro, gradiente térmico promedio)
         ↓
Agente LLM → Cola Asincrónica → Agente RL  
         ↓
    Recomendación de Coeficiente α (generada mediante invocación de herramientas)

Componentes Técnicos Clave

1. Agente de Aprendizaje por Refuerzo

Espacio de Estados: Lecturas de sensores de temperatura, frecuencia de CPU, relación de peligro
Espacio de Acciones: Ajustes de frecuencia y estado de energía de 15 núcleos
Función de Recompensa: Recompensa de supervivencia base + recompensa de seguridad térmica
Características de Observación Nuevas: Relación de peligro (proporción de sensores dentro del umbral del 10%)

2. Conjunto de Herramientas del Agente LLM

increase_exploration: α ∈ 0.4, 0.8
moderate_exploration: α ∈ 0.2, 0.4
decrease_exploration: α ∈ 0.05, 0.2
keep_alpha: Mantener valor actual
reset_alpha: Restablecer a valor predeterminado (0.2)

Puntos de Innovación Técnica

Diseño Desacoplado Asincrónico: Evita que la latencia de inferencia del LLM afecte el control en tiempo real, garantizando seguridad del sistema
Ajuste Semántico de Parámetros: Aprovecha la capacidad de comprensión contextual del LLM para optimizar la estrategia de exploración del agente RL
Alineación de Período Orbital: Descubre y utiliza características periódicas del entorno LEO para sincronización de agentes
Adaptación de Computación de Borde: Optimiza cuantización de modelos y estrategia de inferencia para restricciones de hardware de nivel espacial

Configuración Experimental

Entorno Experimental

1. Laboratorio en Tierra

Configuración de bastidor pequeño equipado con enfriamiento activo por ventilador
Control de temperatura de 10 horas durante el día, fluctuación de temperatura natural durante la noche
Ventana de tiempo de 60 minutos para recopilar resúmenes de ejecución

2. Implementación en Órbita en la ISS

Plataforma de carga útil externa del módulo Columbus
Período orbital de 90 minutos (45 minutos de luz solar + 45 minutos de sombra)
Disipación de calor por tuberías térmicas pasivas, sin enfriamiento activo
Dos configuraciones: ciclo corto de 15 minutos vs período orbital de 90 minutos

Plataforma de Hardware

Procesador: Arquitectura ARM de 64 bits, 16 núcleos Cortex-A72
Memoria: 16GB LPDDR4
Rango de Frecuencia: Ajuste dinámico de 1.0-2.0 GHz
Restricciones: Sin aceleradores de hardware dedicados, núcleo 0 dedicado a ASTREA

Métricas de Evaluación

Número de Violaciones Térmicas: Recuento de instancias que exceden el umbral de temperatura
Tiempo de Operación Promedio: Duración promedio de funcionamiento del control térmico (pasos de tiempo)
Eficiencia de Utilización de CPU: Inversa de capacidad computacional restante considerando escalado de frecuencia

Métodos de Comparación

Sistema de Línea Base: Agente SAC puro con programación de α adaptativo predeterminado de Stable Baselines3, sin intervención externa o retroalimentación de rendimiento.

Resultados Experimentales

Resultados Principales de Experimentos en Tierra

Métrica	Período de Tiempo	Sistema de Línea Base	Sistema ASTREA
Tiempo de Operación Promedio	Primeras 4 horas	47.17±18.15	78.83±11.33 (+67.2%)
	24 horas	135.24±32.94	142.29±8.06 (+5.2%)
Número de Violaciones Térmicas	Primeras 4 horas	39.33±9.29	16.33±2.08 (-58.5%)
	24 horas	88.67±20.50	51.33±4.04 (-42.1%)
Utilización Promedio de CPU	Primeras 4 horas	25.81±5.00%	26.30±2.56% (+1.9%)
	24 horas	16.49±5.57%	16.24±4.46% (-1.5%)

Resultados de Experimentos en Órbita

Experimento de Ciclo Corto (Ventana de 15 minutos)

Métrica	Sistema de Línea Base	Sistema ASTREA
Tiempo de Operación Promedio	449.77±295.69	363.76±190.23 (-19.1%)
Número de Violaciones Térmicas	66±24.25	82±32.74 (+24.2%)
Utilización Promedio de CPU	40.17±17.70%	22.86±3.05% (-43.1%)

Experimento de Período Orbital (Ventana de 90 minutos)

Métrica	Sistema de Línea Base	Sistema ASTREA
Tiempo de Operación Promedio	449.77±295.69	1555.09±823.57 (+245.8%)
Número de Violaciones Térmicas	66±24.25	22.33±9.07 (-66.2%)
Utilización Promedio de CPU	40.17±17.70%	48.27±11.49% (+20.1%)

Hallazgos Clave

Importancia de la Sincronización Temporal: El rendimiento se degrada significativamente cuando el período de inferencia no coincide con la dinámica ambiental
Estrategia de Alineación Orbital: La ventana de 90 minutos sincronizada con la órbita de la ISS logra el mejor rendimiento
Impacto de la Latencia de Inferencia: El tiempo de respuesta del LLM de 40 segundos a 8 minutos confirma que no es adecuado para bucles de control en tiempo real
Efecto de Ventaja Temprana: La guía del LLM proporciona mejoras significativas en la fase inicial, manteniendo una ventaja estable a largo plazo

Trabajo Relacionado

Aplicaciones de LLM en Espacio

Space Llama: Primer LLM de código abierto implementado en la ISS, pero carece de capacidades de control autónomo
LLMSat: Propone LLM como sistema de control de alto nivel para naves espaciales, verificado únicamente en entorno de simulación
AI Space Cortex: Marco autónomo interpretable para entornos extremos, verificado en plataforma de pruebas en tierra

Sistemas Híbridos LLM-RL

Según la clasificación de Schoepp et al., tres roles del LLM en RL:

Agente: LLM actúa directamente como política para toma de decisiones
Planificador: LLM descompone tareas complejas en subtareas
Modelo de Recompensa: LLM genera o evalúa señales de recompensa

ASTREA adopta un cuarto modo: Supervisor, donde el LLM proporciona recomendaciones de ajuste de parámetros mientras el agente RL mantiene independencia operativa.

Diferenciación Técnica

Consideraciones de Seguridad: Evita que alucinaciones del LLM afecten decisiones críticas
Adaptación de Hardware: Modelo cuantizado optimizado para restricciones de nivel espacial
Garantía de Tiempo Real: Arquitectura asincrónica asegura capacidad de respuesta del sistema de control

Conclusiones y Discusión

Conclusiones Principales

Viabilidad Técnica: Confirma la viabilidad de implementar sistemas agénticos en hardware de nivel de vuelo
Mejora de Rendimiento: Bajo configuración apropiada, se pueden lograr mejoras significativas en rendimiento de control térmico
Principio de Coincidencia Temporal: El período de inferencia del LLM debe coincidir con la escala de tiempo de dinámica ambiental
Directrices de Diseño de Arquitectura: El desacoplamiento asincrónico es clave para la integración LLM-RL en aplicaciones espaciales

Limitaciones

Restricciones de Hardware: El hardware de vuelo actual no puede soportar los modelos de lenguaje más potentes
Latencia de Inferencia: Las limitaciones de computación de un solo núcleo resultan en latencia de respuesta significativa
Limitaciones de Contexto: Requiere mantener longitud de contexto corta y prompts estructurados
Escalado Multi-Agente: La latencia de un único agente LLM puede convertirse en cuello de botella en configuraciones multi-agente

Direcciones Futuras

Aceleración de Hardware: Los aceleradores de nivel espacial podrían cambiar fundamentalmente el rendimiento
Modelos Específicos de Dominio: Modelos especializados en gestión térmica podrían mejorar comprensión contextual
Expansión de Parámetros: Más allá del coeficiente α, otros parámetros de control o modelado de recompensas adaptativo
Colaboración Multi-Agente: Explorar arquitecturas de supervisión cooperativa de múltiples agentes LLM

Evaluación Profunda

Fortalezas

Significado Pionero: Primera verificación de sistema agéntico en entorno de vuelo real, con valor de hito
Practicidad de Ingeniería: Considera completamente restricciones de hardware, proporciona solución implementable
Suficiencia Experimental: Verificación dual en tierra y en órbita, análisis comparativo de múltiples configuraciones
Contribución Teórica: Establece principios de diseño para coincidencia entre período de inferencia del LLM y dinámica ambiental
Innovación Técnica: Arquitectura asincrónica resuelve ingeniosamente la contradicción entre latencia y seguridad

Deficiencias

Escala de Muestra: Períodos experimentales relativamente cortos, estabilidad a largo plazo requiere verificación adicional
Homogeneidad Ambiental: Verificado únicamente en escenario de control térmico, aplicabilidad a otros subsistemas desconocida
Limitaciones de Modelo: Capacidad de razonamiento del modelo cuantizado limitada comparada con modelo completo
Costo-Beneficio: Mayor complejidad y costo computacional comparado con métodos tradicionales

Impacto

Valor Académico: Proporciona base empírica importante para aplicaciones de IA espacial
Significado Industrial: Proporciona ruta tecnológica para desarrollo de autonomía en industria aeroespacial
Reproducibilidad: Detalles de implementación detallados y soporte de herramientas de código abierto facilitan reproducción
Potencial de Extensión: Diseño de arquitectura con buena escalabilidad y adaptabilidad

Escenarios Aplicables

Exploración del Espacio Profundo: Soporte de toma de decisiones autónoma en entornos con latencia de comunicación
Constelaciones de Satélites Pequeños: Supervisión inteligente en entornos con recursos limitados
Astronáutica Tripulada: Proporciona sistemas de asistencia inteligente para astronautas
Computación de Borde en Tierra: Sistemas de inteligencia híbrida en entornos con restricciones de recursos

Referencias

Callejo, E., et al. (2023). Imagin-e: The first step towards extending the cloud into space.
Booz Allen Hamilton and Meta (2025). Booz allen and meta launch space llama.
Maranto, D. (2024). Llmsat: A large language model-based goal-oriented agent for autonomous space exploration.
Touma, T., et al. (2025). Ai space cortex: An experimental system for future era space exploration.
Yang, A., et al. (2024). Qwen2 technical report.

Evaluación General: Este artículo posee significado pionero importante en el campo de aplicaciones de IA espacial. A través de diseño experimental riguroso y verificación suficiente, establece una base sólida para el desarrollo futuro de naves espaciales inteligentes. Aunque existen algunas limitaciones técnicas, su valor de ingeniería y contribución académica son significativos, mereciendo investigación profunda y desarrollo adicional.