2025-11-24T22:58:17.201528

ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

Mousist
This paper presents ASTREA, the first agentic system executed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations, with on-orbit operation aboard the International Space Station (ISS). Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility of combining semantic reasoning with adaptive control under hardware constraints. On-orbit validation aboard the ISS initially faced challenges due to inference latency misaligned with the rapid thermal cycles of Low Earth Orbit (LEO) satellites. Synchronization with the orbit length successfully surpassed the baseline with reduced violations, extended episode durations, and improved CPU utilization. These findings demonstrate the potential for scalable agentic supervision architectures in future autonomous spacecraft.
academic

ASTREA: Introducción de Inteligencia Agéntica para la Autonomía Térmica Orbital

Información Básica

  • ID del Artículo: 2509.13380
  • Título: ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy
  • Autor: Alejandro D. Mousist (Thales Alenia Space, Tres Cantos, España)
  • Clasificación: cs.RO cs.AI cs.LG cs.MA cs.SY eess.SY
  • Fecha de Publicación: 11 de octubre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2509.13380

Resumen

Este artículo presenta ASTREA, el primer sistema agéntico ejecutado en hardware de nivel de vuelo (TRL 9) para operaciones autónomas de naves espaciales, con verificación en órbita en la Estación Espacial Internacional (ISS). Utilizando el control térmico como caso de uso representativo, el sistema integra un agente de modelo de lenguaje grande (LLM) con recursos limitados con un controlador de aprendizaje por refuerzo en una arquitectura asincrónica personalizada para plataformas de nivel espacial. Los experimentos en tierra demuestran que la supervisión guiada por LLM mejora la estabilidad térmica y reduce las violaciones, confirmando la viabilidad de combinar razonamiento semántico con control adaptativo bajo restricciones de hardware. La verificación en órbita en la ISS enfrentó inicialmente desafíos de latencia de inferencia desajustada con ciclos térmicos rápidos de satélites en órbita terrestre baja (LEO). Tras la sincronización con la duración orbital, se superó exitosamente la línea base, reduciendo violaciones, extendiendo el tiempo de operación y mejorando la utilización de CPU.

Contexto de Investigación y Motivación

Definición del Problema

  1. Necesidad de Operaciones Autónomas Espaciales: Con el desarrollo de misiones lunares y de órbita terrestre, existe la necesidad de sistemas espaciales que funcionen con mínima intervención humana, particularmente en entornos donde la latencia de comunicación impide la supervisión directa desde tierra.
  2. Complejidad del Control Térmico: El control térmico es un subsistema crítico que debe mantener la integridad operativa de todos los componentes electrónicos mientras gestiona en tiempo real recursos computacionales limitados. Los métodos tradicionales dependen de reglas preprogramadas y supervisión desde tierra, careciendo de flexibilidad para responder a cargas térmicas dinámicas.
  3. Restricciones de Recursos de Hardware: Los modelos de lenguaje grande requieren recursos de hardware sustanciales, lo que entra en conflicto con entornos embebidos que deben mantener tolerancia a radiación y operar bajo restricciones severas de potencia, tamaño y temperatura.

Significado de la Investigación

  • Avance Tecnológico: Primera implementación de un sistema de supervisión basado en LLM en un entorno de vuelo real
  • Valor Práctico: Establece una arquitectura de supervisión agéntica escalable para futuras naves espaciales autónomas
  • Contribución Teórica: Explora la combinación de razonamiento semántico con control adaptativo en entornos con restricciones espaciales

Limitaciones de Métodos Existentes

  1. Space Llama: Carece de comportamiento agéntico, utilizado únicamente para uso manual de astronautas
  2. LLMSat y AI Space Cortex: Principalmente verificados en entornos de simulación en tierra, sin verificación de vuelo real
  3. Control Térmico Tradicional: Depende de reglas preestablecidas, carece de explicación contextual y adaptabilidad

Contribuciones Principales

  1. Primer Sistema Agéntico de Nivel de Vuelo: Implementación y verificación en ISS del primer sistema de supervisión basado en LLM en hardware TRL 9
  2. Arquitectura Híbrida Asincrónica: Diseño híbrido que combina la eficiencia del aprendizaje por refuerzo con la interpretabilidad de modelos de lenguaje
  3. Estrategia de Sincronización Orbital: Descubrimiento y verificación de que ventanas de inferencia sincronizadas con el período orbital superan limitaciones de latencia
  4. Mejoras de Rendimiento Real: Aumento del 67.2% en tiempo de operación y reducción del 58.5% en violaciones térmicas en experimentos en tierra
  5. Directrices de Diseño de IA Espacial: Proporciona principios de diseño prácticos para futuros sistemas autónomos LEO

Explicación Detallada del Método

Definición de la Tarea

Entrada: Datos de sensores de temperatura a bordo, estado de utilización de CPU, información de gradientes térmicos Salida: Recomendaciones dinámicamente ajustadas del coeficiente de entropía (α) para optimizar el equilibrio exploración-explotación del agente de aprendizaje por refuerzo Restricciones:

  • Límites de umbral de temperatura (60°C en tierra, 57°C en órbita)
  • Recursos computacionales de un solo núcleo (núcleo 0 dedicado al sistema ASTREA)
  • Latencia de inferencia (40 segundos a 8 minutos)

Arquitectura del Modelo

Diseño General del Sistema

ASTREA adopta una arquitectura de doble agente asincrónica:

  1. Agente RL (Capa en Tiempo Real):
    • Basado en el algoritmo Soft Actor-Critic (SAC)
    • Monitoreo continuo de temperatura a bordo
    • Ajuste en tiempo real de disponibilidad de recursos en 15 núcleos de CPU
    • Gestión de frecuencia de núcleo y estados de energía
  2. Agente LLM (Capa de Supervisión):
    • Utiliza modelo Qwen2.5 cuantizado (1.54 mil millones de parámetros, cuantización de 4 bits)
    • Inferencia en dispositivo a través de Llama.cpp
    • Proporciona razonamiento semántico y ajustes de parámetros conscientes del contexto

Mecanismo de Comunicación

Agente RL → Cola Asincrónica → Agente LLM
         ↓
    Resumen de Ejecución (iteraciones, pasos en zona de peligro, gradiente térmico promedio)
         ↓
Agente LLM → Cola Asincrónica → Agente RL  
         ↓
    Recomendación de Coeficiente α (generada mediante invocación de herramientas)

Componentes Técnicos Clave

1. Agente de Aprendizaje por Refuerzo

  • Espacio de Estados: Lecturas de sensores de temperatura, frecuencia de CPU, relación de peligro
  • Espacio de Acciones: Ajustes de frecuencia y estado de energía de 15 núcleos
  • Función de Recompensa: Recompensa de supervivencia base + recompensa de seguridad térmica
  • Características de Observación Nuevas: Relación de peligro (proporción de sensores dentro del umbral del 10%)

2. Conjunto de Herramientas del Agente LLM

  • increase_exploration: α ∈ 0.4, 0.8
  • moderate_exploration: α ∈ 0.2, 0.4
  • decrease_exploration: α ∈ 0.05, 0.2
  • keep_alpha: Mantener valor actual
  • reset_alpha: Restablecer a valor predeterminado (0.2)

Puntos de Innovación Técnica

  1. Diseño Desacoplado Asincrónico: Evita que la latencia de inferencia del LLM afecte el control en tiempo real, garantizando seguridad del sistema
  2. Ajuste Semántico de Parámetros: Aprovecha la capacidad de comprensión contextual del LLM para optimizar la estrategia de exploración del agente RL
  3. Alineación de Período Orbital: Descubre y utiliza características periódicas del entorno LEO para sincronización de agentes
  4. Adaptación de Computación de Borde: Optimiza cuantización de modelos y estrategia de inferencia para restricciones de hardware de nivel espacial

Configuración Experimental

Entorno Experimental

1. Laboratorio en Tierra

  • Configuración de bastidor pequeño equipado con enfriamiento activo por ventilador
  • Control de temperatura de 10 horas durante el día, fluctuación de temperatura natural durante la noche
  • Ventana de tiempo de 60 minutos para recopilar resúmenes de ejecución

2. Implementación en Órbita en la ISS

  • Plataforma de carga útil externa del módulo Columbus
  • Período orbital de 90 minutos (45 minutos de luz solar + 45 minutos de sombra)
  • Disipación de calor por tuberías térmicas pasivas, sin enfriamiento activo
  • Dos configuraciones: ciclo corto de 15 minutos vs período orbital de 90 minutos

Plataforma de Hardware

  • Procesador: Arquitectura ARM de 64 bits, 16 núcleos Cortex-A72
  • Memoria: 16GB LPDDR4
  • Rango de Frecuencia: Ajuste dinámico de 1.0-2.0 GHz
  • Restricciones: Sin aceleradores de hardware dedicados, núcleo 0 dedicado a ASTREA

Métricas de Evaluación

  1. Número de Violaciones Térmicas: Recuento de instancias que exceden el umbral de temperatura
  2. Tiempo de Operación Promedio: Duración promedio de funcionamiento del control térmico (pasos de tiempo)
  3. Eficiencia de Utilización de CPU: Inversa de capacidad computacional restante considerando escalado de frecuencia

Métodos de Comparación

Sistema de Línea Base: Agente SAC puro con programación de α adaptativo predeterminado de Stable Baselines3, sin intervención externa o retroalimentación de rendimiento.

Resultados Experimentales

Resultados Principales de Experimentos en Tierra

MétricaPeríodo de TiempoSistema de Línea BaseSistema ASTREA
Tiempo de Operación PromedioPrimeras 4 horas47.17±18.1578.83±11.33 (+67.2%)
24 horas135.24±32.94142.29±8.06 (+5.2%)
Número de Violaciones TérmicasPrimeras 4 horas39.33±9.2916.33±2.08 (-58.5%)
24 horas88.67±20.5051.33±4.04 (-42.1%)
Utilización Promedio de CPUPrimeras 4 horas25.81±5.00%26.30±2.56% (+1.9%)
24 horas16.49±5.57%16.24±4.46% (-1.5%)

Resultados de Experimentos en Órbita

Experimento de Ciclo Corto (Ventana de 15 minutos)

MétricaSistema de Línea BaseSistema ASTREA
Tiempo de Operación Promedio449.77±295.69363.76±190.23 (-19.1%)
Número de Violaciones Térmicas66±24.2582±32.74 (+24.2%)
Utilización Promedio de CPU40.17±17.70%22.86±3.05% (-43.1%)

Experimento de Período Orbital (Ventana de 90 minutos)

MétricaSistema de Línea BaseSistema ASTREA
Tiempo de Operación Promedio449.77±295.691555.09±823.57 (+245.8%)
Número de Violaciones Térmicas66±24.2522.33±9.07 (-66.2%)
Utilización Promedio de CPU40.17±17.70%48.27±11.49% (+20.1%)

Hallazgos Clave

  1. Importancia de la Sincronización Temporal: El rendimiento se degrada significativamente cuando el período de inferencia no coincide con la dinámica ambiental
  2. Estrategia de Alineación Orbital: La ventana de 90 minutos sincronizada con la órbita de la ISS logra el mejor rendimiento
  3. Impacto de la Latencia de Inferencia: El tiempo de respuesta del LLM de 40 segundos a 8 minutos confirma que no es adecuado para bucles de control en tiempo real
  4. Efecto de Ventaja Temprana: La guía del LLM proporciona mejoras significativas en la fase inicial, manteniendo una ventaja estable a largo plazo

Trabajo Relacionado

Aplicaciones de LLM en Espacio

  • Space Llama: Primer LLM de código abierto implementado en la ISS, pero carece de capacidades de control autónomo
  • LLMSat: Propone LLM como sistema de control de alto nivel para naves espaciales, verificado únicamente en entorno de simulación
  • AI Space Cortex: Marco autónomo interpretable para entornos extremos, verificado en plataforma de pruebas en tierra

Sistemas Híbridos LLM-RL

Según la clasificación de Schoepp et al., tres roles del LLM en RL:

  1. Agente: LLM actúa directamente como política para toma de decisiones
  2. Planificador: LLM descompone tareas complejas en subtareas
  3. Modelo de Recompensa: LLM genera o evalúa señales de recompensa

ASTREA adopta un cuarto modo: Supervisor, donde el LLM proporciona recomendaciones de ajuste de parámetros mientras el agente RL mantiene independencia operativa.

Diferenciación Técnica

  • Consideraciones de Seguridad: Evita que alucinaciones del LLM afecten decisiones críticas
  • Adaptación de Hardware: Modelo cuantizado optimizado para restricciones de nivel espacial
  • Garantía de Tiempo Real: Arquitectura asincrónica asegura capacidad de respuesta del sistema de control

Conclusiones y Discusión

Conclusiones Principales

  1. Viabilidad Técnica: Confirma la viabilidad de implementar sistemas agénticos en hardware de nivel de vuelo
  2. Mejora de Rendimiento: Bajo configuración apropiada, se pueden lograr mejoras significativas en rendimiento de control térmico
  3. Principio de Coincidencia Temporal: El período de inferencia del LLM debe coincidir con la escala de tiempo de dinámica ambiental
  4. Directrices de Diseño de Arquitectura: El desacoplamiento asincrónico es clave para la integración LLM-RL en aplicaciones espaciales

Limitaciones

  1. Restricciones de Hardware: El hardware de vuelo actual no puede soportar los modelos de lenguaje más potentes
  2. Latencia de Inferencia: Las limitaciones de computación de un solo núcleo resultan en latencia de respuesta significativa
  3. Limitaciones de Contexto: Requiere mantener longitud de contexto corta y prompts estructurados
  4. Escalado Multi-Agente: La latencia de un único agente LLM puede convertirse en cuello de botella en configuraciones multi-agente

Direcciones Futuras

  1. Aceleración de Hardware: Los aceleradores de nivel espacial podrían cambiar fundamentalmente el rendimiento
  2. Modelos Específicos de Dominio: Modelos especializados en gestión térmica podrían mejorar comprensión contextual
  3. Expansión de Parámetros: Más allá del coeficiente α, otros parámetros de control o modelado de recompensas adaptativo
  4. Colaboración Multi-Agente: Explorar arquitecturas de supervisión cooperativa de múltiples agentes LLM

Evaluación Profunda

Fortalezas

  1. Significado Pionero: Primera verificación de sistema agéntico en entorno de vuelo real, con valor de hito
  2. Practicidad de Ingeniería: Considera completamente restricciones de hardware, proporciona solución implementable
  3. Suficiencia Experimental: Verificación dual en tierra y en órbita, análisis comparativo de múltiples configuraciones
  4. Contribución Teórica: Establece principios de diseño para coincidencia entre período de inferencia del LLM y dinámica ambiental
  5. Innovación Técnica: Arquitectura asincrónica resuelve ingeniosamente la contradicción entre latencia y seguridad

Deficiencias

  1. Escala de Muestra: Períodos experimentales relativamente cortos, estabilidad a largo plazo requiere verificación adicional
  2. Homogeneidad Ambiental: Verificado únicamente en escenario de control térmico, aplicabilidad a otros subsistemas desconocida
  3. Limitaciones de Modelo: Capacidad de razonamiento del modelo cuantizado limitada comparada con modelo completo
  4. Costo-Beneficio: Mayor complejidad y costo computacional comparado con métodos tradicionales

Impacto

  1. Valor Académico: Proporciona base empírica importante para aplicaciones de IA espacial
  2. Significado Industrial: Proporciona ruta tecnológica para desarrollo de autonomía en industria aeroespacial
  3. Reproducibilidad: Detalles de implementación detallados y soporte de herramientas de código abierto facilitan reproducción
  4. Potencial de Extensión: Diseño de arquitectura con buena escalabilidad y adaptabilidad

Escenarios Aplicables

  1. Exploración del Espacio Profundo: Soporte de toma de decisiones autónoma en entornos con latencia de comunicación
  2. Constelaciones de Satélites Pequeños: Supervisión inteligente en entornos con recursos limitados
  3. Astronáutica Tripulada: Proporciona sistemas de asistencia inteligente para astronautas
  4. Computación de Borde en Tierra: Sistemas de inteligencia híbrida en entornos con restricciones de recursos

Referencias

  1. Callejo, E., et al. (2023). Imagin-e: The first step towards extending the cloud into space.
  2. Booz Allen Hamilton and Meta (2025). Booz allen and meta launch space llama.
  3. Maranto, D. (2024). Llmsat: A large language model-based goal-oriented agent for autonomous space exploration.
  4. Touma, T., et al. (2025). Ai space cortex: An experimental system for future era space exploration.
  5. Yang, A., et al. (2024). Qwen2 technical report.

Evaluación General: Este artículo posee significado pionero importante en el campo de aplicaciones de IA espacial. A través de diseño experimental riguroso y verificación suficiente, establece una base sólida para el desarrollo futuro de naves espaciales inteligentes. Aunque existen algunas limitaciones técnicas, su valor de ingeniería y contribución académica son significativos, mereciendo investigación profunda y desarrollo adicional.