2025-11-25T07:58:17.729708

OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics

Oliveira, Dyreby, Caldas et al.
The increasing number of satellites and orbital debris has made space congestion a critical issue, threatening satellite safety and sustainability. Challenges such as collision avoidance, station-keeping, and orbital maneuvering require advanced techniques to handle dynamic uncertainties and multi-agent interactions. Reinforcement learning (RL) has shown promise in this domain, enabling adaptive, autonomous policies for space operations; however, many existing RL frameworks rely on custom-built environments developed from scratch, which often use simplified models and require significant time to implement and validate the orbital dynamics, limiting their ability to fully capture real-world complexities. To address this, we introduce OrbitZoo, a versatile multi-agent RL environment built on a high-fidelity industry standard library, that enables realistic data generation, supports scenarios like collision avoidance and cooperative maneuvers, and ensures robust and accurate orbital dynamics. The environment is validated against a real satellite constellation, Starlink, achieving a Mean Absolute Percentage Error (MAPE) of 0.16% compared to real-world data. This validation ensures reliability for generating high-fidelity simulations and enabling autonomous and independent satellite operations.
academic

OrbitZoo: Многоагентная среда обучения с подкреплением для орбитальной динамики

Основная информация

  • ID статьи: 2504.04160
  • Название: OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics
  • Авторы: Alexandre Oliveira, Katarina Dyreby, Francisco Caldas, Cláudia Soares (NOVA LINCS)
  • Классификация: cs.LG cs.MA
  • Конференция: NeurIPS 2025
  • Ссылка на статью: https://arxiv.org/abs/2504.04160v3

Аннотация

С увеличением количества спутников и орбитальных обломков космическое загрязнение стало критической проблемой, угрожающей безопасности спутников и устойчивости космической деятельности. Задачи избежания столкновений, поддержания орбиты и орбитальных манёвров требуют передовых технологий для работы с динамической неопределённостью и взаимодействием множественных агентов. Обучение с подкреплением (RL) показало потенциал в этой области, обеспечивая адаптивные и автономные стратегии для космических операций; однако многие существующие RL-фреймворки полагаются на пользовательские среды, построенные с нуля, часто использующие упрощённые модели, требующие значительного времени для реализации и верификации орбитальной динамики, что ограничивает их способность полностью захватить сложность реального мира. Для решения этой проблемы в данной работе представлен OrbitZoo — универсальная многоагентная RL-среда, построенная на основе высокоточной библиотеки промышленного стандарта, обеспечивающая генерацию реалистичных данных, поддерживающая сценарии избежания столкновений и совместных манёвров, а также гарантирующая надёжную и точную орбитальную динамику. Среда верифицирована на реальном спутниковом созвездии Starlink, достигая среднего абсолютного процентного отклонения (MAPE) 0,16% по сравнению с реальными данными.

Научная база и мотивация

Определение проблемы

  1. Проблема космического загрязнения: С 1957 года человечество запустило примерно 20 000 спутников, в настоящее время в орбитальной среде находится около 140 миллионов фрагментов обломков, из которых примерно 1 миллион имеет размер более 1 сантиметра, что достаточно для нанесения катастрофического ущерба при столкновении.
  2. Угроза синдрома Кеслера: Столкновения обломков создают дополнительные обломки, формируя цепную реакцию, которая может привести к непригодности земной орбиты.
  3. Ограничения традиционных методов: Современные решения для манёвров спутников в значительной степени зависят от ручных процессов, и с постоянным увеличением количества спутников и орбитальных обломков традиционные подходы становятся неустойчивыми.

Научная мотивация

  1. Потребность в автоматизации: Необходимость разработки более быстрых и способных систем автономного интеллектуального принятия решений.
  2. Потенциал RL: RL демонстрирует превосходство в реальной адаптации к сложным, динамическим и нелинейным космическим системам.
  3. Отсутствие стандартизации: Существующие RL-фреймворки лишены стандартизации, большинство основаны на упрощённых моделях, что затрудняет захват сложности реального мира.

Основные вклады

  1. Высокоточная генерация данных: Построена на основе Python и мощной библиотеки космической динамики, интегрирует реальные силы и возмущения, обеспечивает точные наборы данных, поддерживает параллельные вычисления для быстрого распространения.
  2. Поддержка многоагентного обучения с подкреплением: Стандартизированная платформа исследований RL, использующая библиотеку PettingZoo для поддержки многоагентного RL со структурой частично наблюдаемого марковского процесса принятия решений (POMDP), поддерживает масштабирование систем с тысячами небесных тел.
  3. Настраиваемый фреймворк и визуализация: Модульная конструкция позволяет пользователям определять сценарии с произвольным количеством небесных тел, интегрировать пользовательские модели, обеспечивает чёткое разделение уровней абстракции, предоставляет компонент интерактивной 3D-визуализации.
  4. Верификация в реальном мире: Верификация путём сравнения со спутниковым созвездием Starlink, достижение MAPE 0,16%, обеспечение надёжности высокоточного моделирования.

Подробное описание методологии

Определение задач

OrbitZoo предназначен для предоставления стандартизированной, высокоточной многоагентной среды для обучения с подкреплением в орбитальной динамике, поддерживающей:

  • Одноагентные и многоагентные задачи
  • Кооперативные, конкурентные или гибридные сценарии
  • Непрерывные и дискретные пространства действий
  • Частично наблюдаемые среды

Архитектура модели

Проектирование основных модулей

  1. Класс Body: Базовый класс физических сущностей
    • Содержит уникальный идентификатор, массу, радиус, начальное положение и скорость
    • Встроенный численный распространитель для расчёта будущих состояний
    • Поддержка распространения неопределённости
  2. Класс Satellite: Расширение класса Body
    • Добавляет параметры системы пропульсии и агента
    • Поддерживает параметризацию тяги в полярных координатах (T, θ, φ)
    • Включает параметры массы топлива и удельного импульса
  3. Класс Interface: Интерактивная 3D-визуализация
    • Настраиваемые визуальные компоненты
    • Обновление состояния системы в реальном времени
    • Гибкие перспективы камеры
  4. Класс Environment: Высокоуровневый интерфейс взаимодействия
    • Совместимость со стандартом PettingZoo
    • Поддержка одноагентных/многоагентных задач
    • Управление информацией об орбитальном состоянии

Технические инновации

1. Высокоточное моделирование динамики

  • Моделирование гравитационного поля: Использование сферических гармоник Холмса-Фезерстоуна
  • Возмущающие силы: Атмосферное сопротивление, давление солнечной радиации, эффекты третьего тела
  • Численное интегрирование: Поддержка метода Dormand-Prince с переменным шагом

2. Поддержка систем координат

  • Декартовы координаты: Прямые численные расчёты
  • Элементы Кеплера: Описание геометрии орбиты
  • Равноденственные элементы: Избежание проблем сингулярности

3. Моделирование тяги

Использование параметризации в полярных координатах, более реалистичной по сравнению с традиционной системой координат RSW:

T_RSW = T(cos θ Ŝ + sin θ(cos φ R̂ + sin φ Ŵ))

4. Распространение неопределённости

Использование матрицы переходов состояния (STM) для аналитического приближения ожидаемой неопределённости методом Монте-Карло:

Σ_Δt = ΦΣ_0Φ^T

Экспериментальная установка

Проектирование экспериментальных сценариев

1. Одноагентные задачи

  • Манёвр Хохмана: Классическая орбитальная передача
  • Избежание столкновений: Снижение вероятности столкновения
  • Отслеживание цели: Отслеживание динамической цели

2. Многоагентные задачи

  • Координация ГЕО-созвездия: Равномерное распределение на геостационарной орбите
  • Независимое обучение vs федеральное обучение: Сравнение различных стратегий сотрудничества

Метрики оценки

  • Точность орбиты: Отклонение от теоретического решения
  • Расход топлива: Эффективность топлива при выполнении задачи
  • Вероятность столкновения: Пороговое значение безопасности PoC < 10^-6
  • Производительность сходимости: Кумулятивное вознаграждение за эпизод обучения

Методы сравнения

  • DDPG: Базовый метод непрерывного управления
  • PPO: Метод оптимизации политики
  • DDQN: Дискретное пространство действий
  • Независимое обучение: Многоагентное обучение без коммуникации
  • Федеральное обучение: Совместное обучение с общими параметрами

Детали реализации

  • Архитектура сети: Два скрытых слоя, функция активации Tanh
  • Параметры обучения: Скорость обучения 0,0001, GAE λ=0,95
  • Конфигурация оборудования: Intel i3-8100 CPU, GTX 1050 Ti GPU, 16GB RAM

Результаты экспериментов

Основные результаты

  • Группа низкой RMSE: 24,14 метра (распространение за 16,6 часов)
  • Группа средней RMSE: 83,75 метра
  • Группа высокой RMSE: 1924,90 метра
  • Общее MAPE: 0,16%

2. Эксперимент манёвра Хохмана

  • Успешное обучение близкой к оптимальной стратегии, соответствующей теоретическому значению большой полуоси
  • Достижение целевой орбиты при реальных возмущениях
  • Более быстрая сходимость в эксперименте 2 по сравнению с экспериментом 1 (α2=0,5 vs α2=0)

3. Сравнение избежания столкновений

  • Производительность PPO: Ранее применяемая тяга, эффективное снижение риска столкновения
  • Производительность DDQN: Эффективна при обучающей динамике, но слабая обобщающая способность
  • Преимущество непрерывного пространства действий: PPO показывает лучшую производительность при реальной динамике

4. Координация ГЕО-созвездия

  • Агенты успешно обучились стратегии равномерного распределения
  • Федеральное обучение сходится быстрее
  • Хорошая обобщающая способность при невидимых возмущениях

Абляционные эксперименты

Влияние штрафа за направление тяги

Сравнительные эксперименты показывают, что добавление штрафа вдоль направления орбиты (α2=0,5) в функцию вознаграждения значительно улучшает результаты обучения:

  • Более быстрая сходимость к целевой орбите
  • Снижение ненужных манёвров вне плоскости орбиты
  • Большее соответствие оптимальному манёвру Хохмана

Влияние сложности динамики

  • Обучение на упрощённой модели: Только ньютоновская гравитация
  • Оценка при реальных условиях: Все возмущающие силы
  • Обобщающая способность: Обученная стратегия остаётся эффективной при реальных условиях

Анализ производительности

Вычислительная производительность

  • Временная сложность: O(n), где n — количество небесных тел
  • Эффект параллелизации: Параллельный режим быстрее при сложных моделях сил
  • Масштабируемость: Поддержка систем с тысячами небесных тел

Связанные работы

Приложения RL в орбитальной динамике

  • Традиционные методы: Большинство основаны на упрощённой модели CR3BP
  • Приложения Orekit: Небольшое количество исследований использует высокоточные библиотеки
  • Развитие многоагентных систем: Недавно начали уделять внимание задачам координации

Многоагентные RL-среды

  • Алгоритм REDA: Использование Poliastro и DQN
  • Приложение MAPPO: Многоспутниковое планирование наблюдений
  • Полёт в строю: Рассмотрение только ньютоновской гравитации

Преимущества OrbitZoo

По сравнению с существующими средами OrbitZoo — единственная, одновременно поддерживающая:

  • Многоагентное RL
  • Промышленный стандартный симулятор
  • Высокоточную динамику
  • Непрерывное управление
  • Реалистичное моделирование небесных тел и тяги
  • Интерактивную визуализацию
  • Открытый доступ

Выводы и обсуждение

Основные выводы

  1. Успешная верификация: OrbitZoo верифицирована на данных Starlink с MAPE всего 0,16%
  2. Полнота функциональности: Поддержка одноагентных/многоагентных, кооперативных/конкурентных сценариев
  3. Отличная производительность: Обученные стратегии хорошо работают при реальной динамике
  4. Высокая удобство использования: Модульная конструкция, поддержка быстрой разработки и развёртывания

Ограничения

  1. Вычислительные затраты: Высокоточное моделирование требует больше вычислительных ресурсов
  2. Настройка параметров: В экспериментах не проводилась обширная оптимизация гиперпараметров
  3. Вызовы масштабирования: Реальное моделирование больших созвездий остаётся сложной задачей
  4. Зависимость от модели: Зависит от точности библиотеки Orekit

Направления будущих исследований

  1. Оптимизация алгоритмов: Исследование специализированных алгоритмов орбитального RL
  2. Расширение приложений: Поддержка большего количества типов задач и ограничений
  3. Повышение производительности: GPU-ускорение и распределённые вычисления
  4. Продвижение стандартизации: Установление эталонных тестов орбитального RL

Глубокая оценка

Преимущества

  1. Высокая инновационность: Первая многоагентная орбитальная RL-среда на основе промышленного стандарта
  2. Полная верификация: Верификация на реальных спутниковых данных, высокая надёжность
  3. Полнота функциональности: Поддержка множества сценариев и алгоритмов, хорошая расширяемость
  4. Высокая практическая ценность: Может быть непосредственно использована для разработки реальных спутниковых задач

Недостатки

  1. Вычислительная эффективность: Высокие вычислительные затраты высокоточного моделирования
  2. Ограничения алгоритмов: Основная верификация классических RL-алгоритмов, отсутствие специализированной оптимизации
  3. Ограниченное покрытие сценариев: Относительно ограниченные экспериментальные сценарии, возможно расширение приложений
  4. Отсутствие теоретического анализа: Отсутствие гарантий сходимости и других теоретических гарантий

Влияние

  1. Научный вклад: Заполнение пробела в стандартизированной среде орбитального RL
  2. Промышленная ценность: Может быть использована для разработки автономного управления реальными спутниками
  3. Значение открытого исходного кода: Содействие воспроизводимости исследований в этой области
  4. Установление стандартов: Потенциал стать стандартной платформой для исследований орбитального RL

Применимые сценарии

  1. Автономное управление спутниками: Поддержание орбиты, планирование манёвров
  2. Управление созвездиями: Координация множественных спутников, полёт в строю
  3. Избежание столкновений: Стратегии уклонения от космических обломков
  4. Планирование миссий: Интеллектуальное принятие решений для сложных космических задач
  5. Образование и обучение: Преподавание аэрокосмической инженерии и машинного обучения

Библиография

  1. Orekit: Библиотека небесной механики с открытым исходным кодом
  2. PettingZoo: Стандарт многоагентной RL-среды
  3. Данные эфемерид Starlink: Данные верификации орбиты спутника
  4. Связанные исследования орбитального RL: Kolosa (2019), Herrera (2020), Casas (2022) и др.

Резюме: OrbitZoo — это среда многоагентного обучения с подкреплением с открытым исходным кодом, имеющая важное академическое и практическое значение. Благодаря высокоточному моделированию орбитальной динамики и верификации на реальных данных, она предоставляет мощный инструмент для исследования и разработки автономных космических систем. Эта работа не только продвигает применение RL в аэрокосмической отрасли, но и вносит важный вклад в стандартизированное развитие этой междисциплинарной области.