随着卫星和轨道碎片数量的不断增加,空间拥堵已成为威胁卫星安全和可持续性的关键问题。碰撞避免、位置保持和轨道机动等挑战需要先进技术来处理动态不确定性和多智能体交互。强化学习(RL)在该领域显示出潜力,能够为空间操作提供自适应、自主的策略;然而,许多现有的RL框架依赖于从零开始构建的定制环境,通常使用简化模型,需要大量时间来实现和验证轨道动力学,限制了其充分捕获真实世界复杂性的能力。为解决这一问题,本文引入了OrbitZoo,这是一个基于高保真度工业标准库构建的多功能多智能体RL环境,能够实现真实数据生成,支持碰撞避免和协作机动等场景,并确保稳健准确的轨道动力学。该环境通过与真实卫星星座Starlink的验证,相比真实世界数据实现了0.16%的平均绝对百分比误差(MAPE)。
OrbitZoo旨在为轨道动力学中的强化学习提供一个标准化、高保真的多智能体环境,支持:
采用极坐标参数化,相比传统RSW坐标系更现实:
T_RSW = T(cos θ Ŝ + sin θ(cos φ R̂ + sin φ Ŵ))
使用状态转移矩阵(STM)解析近似蒙特卡洛仿真的期望不确定性:
Σ_Δt = ΦΣ_0Φ^T
实验对比显示,在奖励函数中加入沿轨方向惩罚(α2=0.5)能显著改善学习效果:
相比现有环境,OrbitZoo是唯一同时支持:
总结:OrbitZoo是一个具有重要学术和实用价值的开源多智能体强化学习环境,通过高保真轨道动力学建模和真实数据验证,为空间自主系统的研究和开发提供了强有力的工具。该工作不仅推进了RL在航天领域的应用,也为该交叉学科的标准化发展做出了重要贡献。