2025-11-24T22:58:17.201528

ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

Mousist

This paper presents ASTREA, the first agentic system executed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations, with on-orbit operation aboard the International Space Station (ISS). Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility of combining semantic reasoning with adaptive control under hardware constraints. On-orbit validation aboard the ISS initially faced challenges due to inference latency misaligned with the rapid thermal cycles of Low Earth Orbit (LEO) satellites. Synchronization with the orbit length successfully surpassed the baseline with reduced violations, extended episode durations, and improved CPU utilization. These findings demonstrate the potential for scalable agentic supervision architectures in future autonomous spacecraft.

academic

ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

基本信息

论文ID: 2509.13380
标题: ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy
作者: Alejandro D. Mousist (Thales Alenia Space, Tres Cantos, Spain)
分类: cs.RO cs.AI cs.LG cs.MA cs.SY eess.SY
发表时间: 2025年10月11日 (arXiv v2)
论文链接: https://arxiv.org/abs/2509.13380

摘要

本文提出了ASTREA，这是首个在飞行级硬件(TRL 9)上执行的智能体系统，用于航天器自主操作，并在国际空间站(ISS)上进行了在轨运行验证。以热控制作为代表性用例，该系统将资源受限的大语言模型(LLM)智能体与强化学习控制器集成在针对空间级平台定制的异步架构中。地面实验表明，LLM引导的监督改善了热稳定性并减少了违规行为，证实了在硬件约束下结合语义推理与自适应控制的可行性。在ISS上的在轨验证最初面临推理延迟与低地球轨道(LEO)卫星快速热循环不匹配的挑战。与轨道长度同步后成功超越了基线，减少了违规次数，延长了运行时长，并改善了CPU利用率。

研究背景与动机

问题定义

空间自主操作的需求：随着月球任务和地球轨道任务的发展，需要能够在最少人工干预下运行的空间系统，特别是在通信延迟阻碍直接地面监督的环境中。
热控制的复杂性：热控制是关键子系统，必须在实时管理有限计算资源的同时维持所有电子组件的运行完整性。传统方法依赖预编程规则和地面监督，缺乏应对动态热负载的灵活性。
硬件资源约束：大语言模型需要大量硬件资源，这与必须保持辐射容忍性并在功耗、尺寸和温度严格约束下运行的嵌入式环境相冲突。

研究意义

技术突破：首次在真实飞行环境中部署基于LLM的智能体监督系统
实用价值：为未来自主航天器建立可扩展的智能体监督架构
理论贡献：探索语义推理与自适应控制在空间约束环境下的结合

现有方法局限性

Space Llama：缺乏智能体行为，仅用于宇航员的人工使用
LLMSat和AI Space Cortex：主要在地面仿真环境中验证，未经过真实飞行验证
传统热控制：依赖预设规则，缺乏上下文解释和适应性

核心贡献

首个飞行级智能体系统：在TRL 9硬件上实现并在ISS上验证了首个基于LLM的智能体监督系统
混合异步架构：提出了结合强化学习效率与语言模型可解释性的混合设计
轨道同步策略：发现并验证了与轨道周期同步的推理窗口可以克服延迟限制
实际性能提升：在地面实验中实现67.2%的运行时长增加和58.5%的热违规减少
空间AI设计准则：为未来LEO自主系统提供了实用的设计指导原则

方法详解

任务定义

输入：板载温度传感器数据、CPU利用率状态、热梯度信息输出：动态调整的熵系数(α)建议，用于优化强化学习智能体的探索-利用平衡 约束条件：

温度阈值限制（地面60°C，在轨57°C）
单核计算资源（核心0专用于智能体系统）
推理延迟（40秒到8分钟不等）

模型架构

整体系统设计

ASTREA采用双智能体异步架构：

RL智能体（实时层）：
- 基于Soft Actor-Critic (SAC)算法
- 连续监控板载温度
- 实时调整15个CPU核心的资源可用性
- 管理核心频率和电源状态
LLM智能体（监督层）：
- 使用量化的Qwen2.5模型（15.4亿参数，4位量化）
- 通过Llama.cpp进行设备端推理
- 提供语义推理和上下文感知的参数调整建议

通信机制

RL智能体 → 异步队列 → LLM智能体
         ↓
    运行摘要（迭代次数、危险区域步数、平均热梯度）
         ↓
LLM智能体 → 异步队列 → RL智能体  
         ↓
    α系数建议（通过工具调用生成）

关键技术组件

1. 强化学习智能体

状态空间：温度传感器读数、CPU频率、危险比率
动作空间：15个核心的频率和电源状态调整
奖励函数：基础生存奖励 + 热安全奖励
新增观测特征：危险比率（10%阈值内传感器比例）

2. LLM智能体工具集

increase_exploration: α ∈ 0.4, 0.8
moderate_exploration: α ∈ 0.2, 0.4
decrease_exploration: α ∈ 0.05, 0.2
keep_alpha: 保持当前值
reset_alpha: 重置为默认值(0.2)

技术创新点

异步解耦设计：避免LLM推理延迟影响实时控制，保证系统安全性
语义参数调优：利用LLM的上下文理解能力优化RL智能体的探索策略
轨道周期对齐：发现并利用LEO环境的周期性特征进行智能体同步
边缘计算适配：针对空间级硬件约束优化模型量化和推理策略

实验设置

实验环境

1. 地面实验室

小型机架配置，配备主动风扇冷却
白天10小时温控，夜间自然温度波动
60分钟时间窗口收集运行摘要

2. ISS在轨部署

哥伦布舱外载荷平台
90分钟轨道周期（45分钟日照 + 45分钟阴影）
被动热管散热，无主动冷却
两种配置：15分钟短周期 vs 90分钟轨道周期

硬件平台

处理器：64位ARM架构，16核Cortex-A72
内存：16GB LPDDR4
频率范围：1.0-2.0 GHz动态调节
约束：无专用硬件加速器，核心0专用于ASTREA

评价指标

热违规次数：超过温度阈值的实例计数
平均运行时长：热控制运行的平均持续时间（时间步）
CPU利用率效率：考虑频率缩放的剩余计算能力倒数

对比方法

基线系统：采用Stable Baselines3默认自适应α调度的纯SAC智能体，无外部干预或性能反馈。

实验结果

地面实验主要结果

指标	时间段	基线系统	ASTREA系统
平均运行时长	前4小时	47.17±18.15	78.83±11.33 (+67.2%)
	24小时	135.24±32.94	142.29±8.06 (+5.2%)
热违规次数	前4小时	39.33±9.29	16.33±2.08 (-58.5%)
	24小时	88.67±20.50	51.33±4.04 (-42.1%)
平均CPU使用率	前4小时	25.81±5.00%	26.30±2.56% (+1.9%)
	24小时	16.49±5.57%	16.24±4.46% (-1.5%)

在轨实验结果

短周期实验（15分钟窗口）

指标	基线系统	ASTREA系统
平均运行时长	449.77±295.69	363.76±190.23 (-19.1%)
热违规次数	66±24.25	82±32.74 (+24.2%)
平均CPU使用率	40.17±17.70%	22.86±3.05% (-43.1%)

轨道周期实验（90分钟窗口）

指标	基线系统	ASTREA系统
平均运行时长	449.77±295.69	1555.09±823.57 (+245.8%)
热违规次数	66±24.25	22.33±9.07 (-66.2%)
平均CPU使用率	40.17±17.70%	48.27±11.49% (+20.1%)

关键发现

时间同步的重要性：当推理周期与环境动态不匹配时，性能显著下降
轨道对齐策略：90分钟窗口与ISS轨道同步实现了最佳性能
推理延迟影响：LLM响应时间40秒至8分钟，证实不适合实时控制回路
早期优势效应：LLM引导在初期提供显著改进，长期保持稳定优势

结论与讨论

主要结论

技术可行性：证实了在飞行级硬件上部署智能体系统的可行性
性能提升：适当配置下可实现显著的热控制性能改进
时序匹配原则：LLM推理周期必须与环境动态时间尺度匹配
架构设计准则：异步解耦是空间应用中LLM-RL集成的关键

局限性

硬件约束：当前飞行级硬件无法支持最强大的语言模型
推理延迟：单核计算限制导致显著的响应延迟
上下文限制：需要保持短上下文长度和结构化提示
多智能体扩展：单一LLM智能体的延迟在多智能体配置中可能成为瓶颈

未来方向

硬件加速：空间级加速器可能根本性改变性能表现
领域专用模型：热管理专用模型可能增强上下文理解
参数扩展：除α系数外的其他控制参数或自适应奖励塑形
多智能体协作：探索多个LLM智能体的协同监督架构

深度评价

优点

开创性意义：首次在真实飞行环境验证智能体系统，具有里程碑价值
工程实用性：充分考虑硬件约束，提供可部署的解决方案
实验充分性：地面和在轨双重验证，多种配置对比分析
理论贡献：建立了LLM推理周期与环境动态匹配的设计原则
技术创新：异步架构巧妙解决了延迟与安全性的矛盾

不足

样本规模：实验周期相对较短，长期稳定性有待验证
环境单一性：仅在热控制场景验证，其他子系统适用性未知
模型局限性：量化模型的推理能力相比完整模型有所限制
成本效益：相比传统方法的计算开销和复杂性增加

影响力

学术价值：为空间AI应用提供了重要的实证基础
工业意义：为航天工业的自主化发展提供技术路径
可复现性：详细的实现细节和开源工具支持复现
扩展潜力：架构设计具有良好的可扩展性和适应性

适用场景

深空探测：通信延迟环境下的自主决策支持
小卫星星座：资源受限环境下的智能监督
载人航天：为宇航员提供智能辅助系统
地面边缘计算：资源约束环境下的混合智能系统

参考文献

Callejo, E., et al. (2023). Imagin-e: The first step towards extending the cloud into space.
Booz Allen Hamilton and Meta (2025). Booz allen and meta launch space llama.
Maranto, D. (2024). Llmsat: A large language model-based goal-oriented agent for autonomous space exploration.
Touma, T., et al. (2025). Ai space cortex: An experimental system for future era space exploration.
Yang, A., et al. (2024). Qwen2 technical report.

总体评价：本文在空间AI应用领域具有重要的开创性意义，通过严谨的实验设计和充分的验证，为未来智能航天器的发展奠定了坚实基础。尽管存在一些技术限制，但其工程价值和学术贡献显著，值得深入研究和进一步发展。

ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

基本信息

摘要

研究背景与动机

问题定义

研究意义

现有方法局限性

核心贡献

方法详解

任务定义

模型架构

整体系统设计

通信机制

关键技术组件

技术创新点

实验设置

实验环境

硬件平台

评价指标

对比方法

实验结果

地面实验主要结果

在轨实验结果

关键发现

相关工作

空间LLM应用

LLM-RL混合系统

技术差异化

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献