衛星と軌道デブリの数が増加し続けるにつれて、宇宙混雑は衛星の安全性と持続可能性を脅かす重大な問題となっています。衝突回避、位置保持、軌道機動などの課題には、動的不確実性と多エージェント相互作用に対処するための高度な技術が必要です。強化学習(RL)はこの分野で有望性を示し、宇宙操作のための適応的で自律的な戦略を提供できます。しかし、既存の多くのRLフレームワークはゼロから構築されたカスタム環境に依存しており、通常は簡略化されたモデルを使用し、軌道力学の実装と検証に膨大な時間を要し、実世界の複雑性を十分に捉える能力を制限しています。この問題に対処するため、本論文ではOrbitZooを紹介します。これは高忠実度の業界標準ライブラリに基づいて構築された多機能な多エージェントRL環境であり、実データ生成、衝突回避と協調機動などのシナリオをサポートし、堅牢で正確な軌道力学を保証します。この環境は実際の衛星星座Starlinkとの検証を通じて、実世界データと比較して0.16%の平均絶対パーセント誤差(MAPE)を達成しています。
OrbitZooは、軌道力学における強化学習のための標準化された高忠実度の多エージェント環境を提供することを目的としており、以下をサポートします:
極座標パラメータ化を採用し、従来のRSW座標系と比較してより現実的です:
T_RSW = T(cos θ Ŝ + sin θ(cos φ R̂ + sin φ Ŵ))
状態遷移行列(STM)を使用して、解析的近似モンテカルロシミュレーションの期待不確実性を計算します:
Σ_Δt = ΦΣ_0Φ^T
実験では、報酬関数に沿軌方向ペナルティ(α2=0.5)を追加することで、学習効果が大幅に改善されることが示されています:
既存の環境と比較して、OrbitZooは以下を同時にサポートする唯一のものです:
要約:OrbitZooは、高忠実度軌道力学モデリングと実データ検証を通じて、宇宙自律システムの研究開発に強力なツールを提供する、重要な学術的および実用的価値を持つオープンソース多エージェント強化学習環境です。この研究は、RLの航空宇宙分野への応用を推進するだけでなく、この学際的分野の標準化発展に重要な貢献をしています。