OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics
Oliveira, Dyreby, Caldas et al.
The increasing number of satellites and orbital debris has made space congestion a critical issue, threatening satellite safety and sustainability. Challenges such as collision avoidance, station-keeping, and orbital maneuvering require advanced techniques to handle dynamic uncertainties and multi-agent interactions. Reinforcement learning (RL) has shown promise in this domain, enabling adaptive, autonomous policies for space operations; however, many existing RL frameworks rely on custom-built environments developed from scratch, which often use simplified models and require significant time to implement and validate the orbital dynamics, limiting their ability to fully capture real-world complexities. To address this, we introduce OrbitZoo, a versatile multi-agent RL environment built on a high-fidelity industry standard library, that enables realistic data generation, supports scenarios like collision avoidance and cooperative maneuvers, and ensures robust and accurate orbital dynamics. The environment is validated against a real satellite constellation, Starlink, achieving a Mean Absolute Percentage Error (MAPE) of 0.16% compared to real-world data. This validation ensures reliability for generating high-fidelity simulations and enabling autonomous and independent satellite operations.
academic
OrbitZoo: Многоагентная среда обучения с подкреплением для орбитальной динамики
С увеличением количества спутников и орбитальных обломков космическое загрязнение стало критической проблемой, угрожающей безопасности спутников и устойчивости космической деятельности. Задачи избежания столкновений, поддержания орбиты и орбитальных манёвров требуют передовых технологий для работы с динамической неопределённостью и взаимодействием множественных агентов. Обучение с подкреплением (RL) показало потенциал в этой области, обеспечивая адаптивные и автономные стратегии для космических операций; однако многие существующие RL-фреймворки полагаются на пользовательские среды, построенные с нуля, часто использующие упрощённые модели, требующие значительного времени для реализации и верификации орбитальной динамики, что ограничивает их способность полностью захватить сложность реального мира. Для решения этой проблемы в данной работе представлен OrbitZoo — универсальная многоагентная RL-среда, построенная на основе высокоточной библиотеки промышленного стандарта, обеспечивающая генерацию реалистичных данных, поддерживающая сценарии избежания столкновений и совместных манёвров, а также гарантирующая надёжную и точную орбитальную динамику. Среда верифицирована на реальном спутниковом созвездии Starlink, достигая среднего абсолютного процентного отклонения (MAPE) 0,16% по сравнению с реальными данными.
Проблема космического загрязнения: С 1957 года человечество запустило примерно 20 000 спутников, в настоящее время в орбитальной среде находится около 140 миллионов фрагментов обломков, из которых примерно 1 миллион имеет размер более 1 сантиметра, что достаточно для нанесения катастрофического ущерба при столкновении.
Угроза синдрома Кеслера: Столкновения обломков создают дополнительные обломки, формируя цепную реакцию, которая может привести к непригодности земной орбиты.
Ограничения традиционных методов: Современные решения для манёвров спутников в значительной степени зависят от ручных процессов, и с постоянным увеличением количества спутников и орбитальных обломков традиционные подходы становятся неустойчивыми.
Потребность в автоматизации: Необходимость разработки более быстрых и способных систем автономного интеллектуального принятия решений.
Потенциал RL: RL демонстрирует превосходство в реальной адаптации к сложным, динамическим и нелинейным космическим системам.
Отсутствие стандартизации: Существующие RL-фреймворки лишены стандартизации, большинство основаны на упрощённых моделях, что затрудняет захват сложности реального мира.
Высокоточная генерация данных: Построена на основе Python и мощной библиотеки космической динамики, интегрирует реальные силы и возмущения, обеспечивает точные наборы данных, поддерживает параллельные вычисления для быстрого распространения.
Поддержка многоагентного обучения с подкреплением: Стандартизированная платформа исследований RL, использующая библиотеку PettingZoo для поддержки многоагентного RL со структурой частично наблюдаемого марковского процесса принятия решений (POMDP), поддерживает масштабирование систем с тысячами небесных тел.
Настраиваемый фреймворк и визуализация: Модульная конструкция позволяет пользователям определять сценарии с произвольным количеством небесных тел, интегрировать пользовательские модели, обеспечивает чёткое разделение уровней абстракции, предоставляет компонент интерактивной 3D-визуализации.
Верификация в реальном мире: Верификация путём сравнения со спутниковым созвездием Starlink, достижение MAPE 0,16%, обеспечение надёжности высокоточного моделирования.
OrbitZoo предназначен для предоставления стандартизированной, высокоточной многоагентной среды для обучения с подкреплением в орбитальной динамике, поддерживающей:
Одноагентные и многоагентные задачи
Кооперативные, конкурентные или гибридные сценарии
Сравнительные эксперименты показывают, что добавление штрафа вдоль направления орбиты (α2=0,5) в функцию вознаграждения значительно улучшает результаты обучения:
Orekit: Библиотека небесной механики с открытым исходным кодом
PettingZoo: Стандарт многоагентной RL-среды
Данные эфемерид Starlink: Данные верификации орбиты спутника
Связанные исследования орбитального RL: Kolosa (2019), Herrera (2020), Casas (2022) и др.
Резюме: OrbitZoo — это среда многоагентного обучения с подкреплением с открытым исходным кодом, имеющая важное академическое и практическое значение. Благодаря высокоточному моделированию орбитальной динамики и верификации на реальных данных, она предоставляет мощный инструмент для исследования и разработки автономных космических систем. Эта работа не только продвигает применение RL в аэрокосмической отрасли, но и вносит важный вклад в стандартизированное развитие этой междисциплинарной области.