2025-11-25T07:58:17.729708

OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics

Oliveira, Dyreby, Caldas et al.

The increasing number of satellites and orbital debris has made space congestion a critical issue, threatening satellite safety and sustainability. Challenges such as collision avoidance, station-keeping, and orbital maneuvering require advanced techniques to handle dynamic uncertainties and multi-agent interactions. Reinforcement learning (RL) has shown promise in this domain, enabling adaptive, autonomous policies for space operations; however, many existing RL frameworks rely on custom-built environments developed from scratch, which often use simplified models and require significant time to implement and validate the orbital dynamics, limiting their ability to fully capture real-world complexities. To address this, we introduce OrbitZoo, a versatile multi-agent RL environment built on a high-fidelity industry standard library, that enables realistic data generation, supports scenarios like collision avoidance and cooperative maneuvers, and ensures robust and accurate orbital dynamics. The environment is validated against a real satellite constellation, Starlink, achieving a Mean Absolute Percentage Error (MAPE) of 0.16% compared to real-world data. This validation ensures reliability for generating high-fidelity simulations and enabling autonomous and independent satellite operations.

academic

OrbitZoo: Многоагентная среда обучения с подкреплением для орбитальной динамики

Основная информация

ID статьи: 2504.04160
Название: OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics
Авторы: Alexandre Oliveira, Katarina Dyreby, Francisco Caldas, Cláudia Soares (NOVA LINCS)
Классификация: cs.LG cs.MA
Конференция: NeurIPS 2025
Ссылка на статью: https://arxiv.org/abs/2504.04160v3

Аннотация

С увеличением количества спутников и орбитальных обломков космическое загрязнение стало критической проблемой, угрожающей безопасности спутников и устойчивости космической деятельности. Задачи избежания столкновений, поддержания орбиты и орбитальных манёвров требуют передовых технологий для работы с динамической неопределённостью и взаимодействием множественных агентов. Обучение с подкреплением (RL) показало потенциал в этой области, обеспечивая адаптивные и автономные стратегии для космических операций; однако многие существующие RL-фреймворки полагаются на пользовательские среды, построенные с нуля, часто использующие упрощённые модели, требующие значительного времени для реализации и верификации орбитальной динамики, что ограничивает их способность полностью захватить сложность реального мира. Для решения этой проблемы в данной работе представлен OrbitZoo — универсальная многоагентная RL-среда, построенная на основе высокоточной библиотеки промышленного стандарта, обеспечивающая генерацию реалистичных данных, поддерживающая сценарии избежания столкновений и совместных манёвров, а также гарантирующая надёжную и точную орбитальную динамику. Среда верифицирована на реальном спутниковом созвездии Starlink, достигая среднего абсолютного процентного отклонения (MAPE) 0,16% по сравнению с реальными данными.

Научная база и мотивация

Определение проблемы

Проблема космического загрязнения: С 1957 года человечество запустило примерно 20 000 спутников, в настоящее время в орбитальной среде находится около 140 миллионов фрагментов обломков, из которых примерно 1 миллион имеет размер более 1 сантиметра, что достаточно для нанесения катастрофического ущерба при столкновении.
Угроза синдрома Кеслера: Столкновения обломков создают дополнительные обломки, формируя цепную реакцию, которая может привести к непригодности земной орбиты.
Ограничения традиционных методов: Современные решения для манёвров спутников в значительной степени зависят от ручных процессов, и с постоянным увеличением количества спутников и орбитальных обломков традиционные подходы становятся неустойчивыми.

Научная мотивация

Потребность в автоматизации: Необходимость разработки более быстрых и способных систем автономного интеллектуального принятия решений.
Потенциал RL: RL демонстрирует превосходство в реальной адаптации к сложным, динамическим и нелинейным космическим системам.
Отсутствие стандартизации: Существующие RL-фреймворки лишены стандартизации, большинство основаны на упрощённых моделях, что затрудняет захват сложности реального мира.

Основные вклады

Высокоточная генерация данных: Построена на основе Python и мощной библиотеки космической динамики, интегрирует реальные силы и возмущения, обеспечивает точные наборы данных, поддерживает параллельные вычисления для быстрого распространения.
Поддержка многоагентного обучения с подкреплением: Стандартизированная платформа исследований RL, использующая библиотеку PettingZoo для поддержки многоагентного RL со структурой частично наблюдаемого марковского процесса принятия решений (POMDP), поддерживает масштабирование систем с тысячами небесных тел.
Настраиваемый фреймворк и визуализация: Модульная конструкция позволяет пользователям определять сценарии с произвольным количеством небесных тел, интегрировать пользовательские модели, обеспечивает чёткое разделение уровней абстракции, предоставляет компонент интерактивной 3D-визуализации.
Верификация в реальном мире: Верификация путём сравнения со спутниковым созвездием Starlink, достижение MAPE 0,16%, обеспечение надёжности высокоточного моделирования.

Подробное описание методологии

Определение задач

OrbitZoo предназначен для предоставления стандартизированной, высокоточной многоагентной среды для обучения с подкреплением в орбитальной динамике, поддерживающей:

Одноагентные и многоагентные задачи
Кооперативные, конкурентные или гибридные сценарии
Непрерывные и дискретные пространства действий
Частично наблюдаемые среды

Архитектура модели

Проектирование основных модулей

Класс Body: Базовый класс физических сущностей
- Содержит уникальный идентификатор, массу, радиус, начальное положение и скорость
- Встроенный численный распространитель для расчёта будущих состояний
- Поддержка распространения неопределённости
Класс Satellite: Расширение класса Body
- Добавляет параметры системы пропульсии и агента
- Поддерживает параметризацию тяги в полярных координатах (T, θ, φ)
- Включает параметры массы топлива и удельного импульса
Класс Interface: Интерактивная 3D-визуализация
- Настраиваемые визуальные компоненты
- Обновление состояния системы в реальном времени
- Гибкие перспективы камеры
Класс Environment: Высокоуровневый интерфейс взаимодействия
- Совместимость со стандартом PettingZoo
- Поддержка одноагентных/многоагентных задач
- Управление информацией об орбитальном состоянии

Технические инновации

1. Высокоточное моделирование динамики

Моделирование гравитационного поля: Использование сферических гармоник Холмса-Фезерстоуна
Возмущающие силы: Атмосферное сопротивление, давление солнечной радиации, эффекты третьего тела
Численное интегрирование: Поддержка метода Dormand-Prince с переменным шагом

2. Поддержка систем координат

Декартовы координаты: Прямые численные расчёты
Элементы Кеплера: Описание геометрии орбиты
Равноденственные элементы: Избежание проблем сингулярности

3. Моделирование тяги

Использование параметризации в полярных координатах, более реалистичной по сравнению с традиционной системой координат RSW:

T_RSW = T(cos θ Ŝ + sin θ(cos φ R̂ + sin φ Ŵ))

4. Распространение неопределённости

Использование матрицы переходов состояния (STM) для аналитического приближения ожидаемой неопределённости методом Монте-Карло:

Σ_Δt = ΦΣ_0Φ^T

Экспериментальная установка

Проектирование экспериментальных сценариев

1. Одноагентные задачи

Манёвр Хохмана: Классическая орбитальная передача
Избежание столкновений: Снижение вероятности столкновения
Отслеживание цели: Отслеживание динамической цели

2. Многоагентные задачи

Координация ГЕО-созвездия: Равномерное распределение на геостационарной орбите
Независимое обучение vs федеральное обучение: Сравнение различных стратегий сотрудничества

Метрики оценки

Точность орбиты: Отклонение от теоретического решения
Расход топлива: Эффективность топлива при выполнении задачи
Вероятность столкновения: Пороговое значение безопасности PoC < 10^-6
Производительность сходимости: Кумулятивное вознаграждение за эпизод обучения

Методы сравнения

DDPG: Базовый метод непрерывного управления
PPO: Метод оптимизации политики
DDQN: Дискретное пространство действий
Независимое обучение: Многоагентное обучение без коммуникации
Федеральное обучение: Совместное обучение с общими параметрами

Детали реализации

Архитектура сети: Два скрытых слоя, функция активации Tanh
Параметры обучения: Скорость обучения 0,0001, GAE λ=0,95
Конфигурация оборудования: Intel i3-8100 CPU, GTX 1050 Ti GPU, 16GB RAM

Результаты экспериментов

Основные результаты

1. Результаты верификации Starlink

Группа низкой RMSE: 24,14 метра (распространение за 16,6 часов)
Группа средней RMSE: 83,75 метра
Группа высокой RMSE: 1924,90 метра
Общее MAPE: 0,16%

2. Эксперимент манёвра Хохмана

Успешное обучение близкой к оптимальной стратегии, соответствующей теоретическому значению большой полуоси
Достижение целевой орбиты при реальных возмущениях
Более быстрая сходимость в эксперименте 2 по сравнению с экспериментом 1 (α2=0,5 vs α2=0)

3. Сравнение избежания столкновений

Производительность PPO: Ранее применяемая тяга, эффективное снижение риска столкновения
Производительность DDQN: Эффективна при обучающей динамике, но слабая обобщающая способность
Преимущество непрерывного пространства действий: PPO показывает лучшую производительность при реальной динамике

4. Координация ГЕО-созвездия

Агенты успешно обучились стратегии равномерного распределения
Федеральное обучение сходится быстрее
Хорошая обобщающая способность при невидимых возмущениях

Абляционные эксперименты

Влияние штрафа за направление тяги

Сравнительные эксперименты показывают, что добавление штрафа вдоль направления орбиты (α2=0,5) в функцию вознаграждения значительно улучшает результаты обучения:

Более быстрая сходимость к целевой орбите
Снижение ненужных манёвров вне плоскости орбиты
Большее соответствие оптимальному манёвру Хохмана

Влияние сложности динамики

Обучение на упрощённой модели: Только ньютоновская гравитация
Оценка при реальных условиях: Все возмущающие силы
Обобщающая способность: Обученная стратегия остаётся эффективной при реальных условиях

Анализ производительности

Вычислительная производительность

Временная сложность: O(n), где n — количество небесных тел
Эффект параллелизации: Параллельный режим быстрее при сложных моделях сил
Масштабируемость: Поддержка систем с тысячами небесных тел

Связанные работы

Приложения RL в орбитальной динамике

Традиционные методы: Большинство основаны на упрощённой модели CR3BP
Приложения Orekit: Небольшое количество исследований использует высокоточные библиотеки
Развитие многоагентных систем: Недавно начали уделять внимание задачам координации

Многоагентные RL-среды

Алгоритм REDA: Использование Poliastro и DQN
Приложение MAPPO: Многоспутниковое планирование наблюдений
Полёт в строю: Рассмотрение только ньютоновской гравитации

Преимущества OrbitZoo

По сравнению с существующими средами OrbitZoo — единственная, одновременно поддерживающая:

Многоагентное RL
Промышленный стандартный симулятор
Высокоточную динамику
Непрерывное управление
Реалистичное моделирование небесных тел и тяги
Интерактивную визуализацию
Открытый доступ

Выводы и обсуждение

Основные выводы

Успешная верификация: OrbitZoo верифицирована на данных Starlink с MAPE всего 0,16%
Полнота функциональности: Поддержка одноагентных/многоагентных, кооперативных/конкурентных сценариев
Отличная производительность: Обученные стратегии хорошо работают при реальной динамике
Высокая удобство использования: Модульная конструкция, поддержка быстрой разработки и развёртывания

Ограничения

Вычислительные затраты: Высокоточное моделирование требует больше вычислительных ресурсов
Настройка параметров: В экспериментах не проводилась обширная оптимизация гиперпараметров
Вызовы масштабирования: Реальное моделирование больших созвездий остаётся сложной задачей
Зависимость от модели: Зависит от точности библиотеки Orekit

Направления будущих исследований

Оптимизация алгоритмов: Исследование специализированных алгоритмов орбитального RL
Расширение приложений: Поддержка большего количества типов задач и ограничений
Повышение производительности: GPU-ускорение и распределённые вычисления
Продвижение стандартизации: Установление эталонных тестов орбитального RL

Глубокая оценка

Преимущества

Высокая инновационность: Первая многоагентная орбитальная RL-среда на основе промышленного стандарта
Полная верификация: Верификация на реальных спутниковых данных, высокая надёжность
Полнота функциональности: Поддержка множества сценариев и алгоритмов, хорошая расширяемость
Высокая практическая ценность: Может быть непосредственно использована для разработки реальных спутниковых задач

Недостатки

Вычислительная эффективность: Высокие вычислительные затраты высокоточного моделирования
Ограничения алгоритмов: Основная верификация классических RL-алгоритмов, отсутствие специализированной оптимизации
Ограниченное покрытие сценариев: Относительно ограниченные экспериментальные сценарии, возможно расширение приложений
Отсутствие теоретического анализа: Отсутствие гарантий сходимости и других теоретических гарантий

Влияние

Научный вклад: Заполнение пробела в стандартизированной среде орбитального RL
Промышленная ценность: Может быть использована для разработки автономного управления реальными спутниками
Значение открытого исходного кода: Содействие воспроизводимости исследований в этой области
Установление стандартов: Потенциал стать стандартной платформой для исследований орбитального RL

Применимые сценарии

Автономное управление спутниками: Поддержание орбиты, планирование манёвров
Управление созвездиями: Координация множественных спутников, полёт в строю
Избежание столкновений: Стратегии уклонения от космических обломков
Планирование миссий: Интеллектуальное принятие решений для сложных космических задач
Образование и обучение: Преподавание аэрокосмической инженерии и машинного обучения

Библиография

Orekit: Библиотека небесной механики с открытым исходным кодом
PettingZoo: Стандарт многоагентной RL-среды
Данные эфемерид Starlink: Данные верификации орбиты спутника
Связанные исследования орбитального RL: Kolosa (2019), Herrera (2020), Casas (2022) и др.

Резюме: OrbitZoo — это среда многоагентного обучения с подкреплением с открытым исходным кодом, имеющая важное академическое и практическое значение. Благодаря высокоточному моделированию орбитальной динамики и верификации на реальных данных, она предоставляет мощный инструмент для исследования и разработки автономных космических систем. Эта работа не только продвигает применение RL в аэрокосмической отрасли, но и вносит важный вклад в стандартизированное развитие этой междисциплинарной области.