2025-11-25T07:58:17.729708

OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics

Oliveira, Dyreby, Caldas et al.
The increasing number of satellites and orbital debris has made space congestion a critical issue, threatening satellite safety and sustainability. Challenges such as collision avoidance, station-keeping, and orbital maneuvering require advanced techniques to handle dynamic uncertainties and multi-agent interactions. Reinforcement learning (RL) has shown promise in this domain, enabling adaptive, autonomous policies for space operations; however, many existing RL frameworks rely on custom-built environments developed from scratch, which often use simplified models and require significant time to implement and validate the orbital dynamics, limiting their ability to fully capture real-world complexities. To address this, we introduce OrbitZoo, a versatile multi-agent RL environment built on a high-fidelity industry standard library, that enables realistic data generation, supports scenarios like collision avoidance and cooperative maneuvers, and ensures robust and accurate orbital dynamics. The environment is validated against a real satellite constellation, Starlink, achieving a Mean Absolute Percentage Error (MAPE) of 0.16% compared to real-world data. This validation ensures reliability for generating high-fidelity simulations and enabling autonomous and independent satellite operations.
academic

OrbitZoo: 궤도 동역학을 위한 다중 에이전트 강화학습 환경

기본 정보

  • 논문 ID: 2504.04160
  • 제목: OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics
  • 저자: Alexandre Oliveira, Katarina Dyreby, Francisco Caldas, Cláudia Soares (NOVA LINCS)
  • 분류: cs.LG cs.MA
  • 발표 학회: NeurIPS 2025
  • 논문 링크: https://arxiv.org/abs/2504.04160v3

초록

위성 및 궤도 잔해의 수량 증가에 따라 우주 혼잡이 위성 안전성과 지속 가능성을 위협하는 핵심 문제가 되었습니다. 충돌 회피, 위치 유지 및 궤도 기동 등의 과제는 동적 불확실성과 다중 에이전트 상호작용을 처리하기 위한 고급 기술이 필요합니다. 강화학습(RL)은 우주 작업을 위한 적응형 자율 정책을 제공할 수 있는 잠재력을 보여주고 있습니다. 그러나 많은 기존 RL 프레임워크는 처음부터 구축한 맞춤형 환경에 의존하며, 일반적으로 단순화된 모델을 사용하고 궤도 동역학 구현 및 검증에 상당한 시간이 필요하여 실제 세계의 복잡성을 충분히 포착할 수 있는 능력을 제한합니다. 이 문제를 해결하기 위해 본 논문은 고충실도 산업 표준 라이브러리를 기반으로 구축된 다목적 다중 에이전트 RL 환경인 OrbitZoo를 소개합니다. 이는 실제 데이터 생성을 가능하게 하고, 충돌 회피 및 협력 기동 등의 시나리오를 지원하며, 견고하고 정확한 궤도 동역학을 보장합니다. 이 환경은 실제 위성 별자리 Starlink와의 검증을 통해 실제 데이터 대비 평균 절대 백분율 오차(MAPE) 0.16%를 달성했습니다.

연구 배경 및 동기

문제 정의

  1. 우주 혼잡 문제: 1957년 이후 약 20,000개의 위성이 발사되었으며, 현재 궤도 환경에는 약 1.4억 개의 잔해 물체가 존재하고, 이 중 약 100만 개는 1센티미터 이상으로 충돌 시 재앙적 손상을 초래할 수 있습니다.
  2. Kessler 증후군 위협: 잔해 충돌이 더 많은 잔해를 생성하여 연쇄 반응을 형성하고, 지구 궤도를 사용 불가능하게 만들 수 있습니다.
  3. 기존 방법의 한계: 현재 위성 기동 솔루션은 인간의 개입에 크게 의존하며, 위성 및 궤도 잔해의 수량이 계속 증가함에 따라 기존 방법은 지속 불가능해집니다.

연구 동기

  1. 자동화 필요성: 더 빠르고 능력 있는 자율 지능형 의사결정 시스템 개발의 필요성
  2. RL 적용 가능성: RL은 실시간 적응형 복잡하고 동적이며 비선형 우주 시스템 처리에서 우수한 성능을 보임
  3. 표준화 부재: 기존 RL 프레임워크는 표준화가 부족하며, 대부분 단순화된 모델에 기반하여 실제 세계의 복잡성을 포착하기 어려움

핵심 기여

  1. 고충실도 데이터 생성: Python 및 강력한 우주 동역학 라이브러리를 기반으로 구축되었으며, 실제 힘과 섭동을 통합하여 정확한 데이터셋을 제공하고 병렬 계산을 통한 빠른 전파를 지원합니다.
  2. 다중 에이전트 강화학습 지원: 부분 관찰 가능 마르코프 결정 과정(POMDP) 구조의 다중 에이전트 RL을 지원하는 PettingZoo 라이브러리를 활용한 표준화된 RL 연구 플랫폼으로, 수천 개의 천체 시스템 확장을 지원합니다.
  3. 맞춤형 프레임워크 및 시각화: 모듈식 설계로 사용자가 임의의 수의 천체 시나리오를 정의할 수 있으며, 맞춤형 모델 통합이 가능하고, 명확한 추상화 계층 분리를 제공하며, 대화형 3D 시각화 구성 요소를 제공합니다.
  4. 실제 세계 검증: Starlink 위성 별자리와의 비교 검증을 통해 0.16%의 MAPE를 달성하여 고충실도 시뮬레이션의 신뢰성을 보장합니다.

방법론 상세 설명

작업 정의

OrbitZoo는 궤도 동역학에서 강화학습을 위한 표준화되고 고충실도의 다중 에이전트 환경을 제공하도록 설계되었으며, 다음을 지원합니다:

  • 단일 에이전트 및 다중 에이전트 작업
  • 협력, 경쟁 또는 혼합 시나리오
  • 연속 및 이산 동작 공간
  • 부분 관찰 가능 환경

모델 아키텍처

핵심 모듈 설계

  1. Body 클래스: 물리적 실체의 기초 클래스
    • 고유 식별자, 질량, 반경, 초기 위치 및 속도 포함
    • 미래 상태 계산을 위한 내장 수치 전파기
    • 불확실성 전파 지원
  2. Satellite 클래스: Body 클래스 확장
    • 추진 시스템 및 에이전트 매개변수 추가
    • 극좌표 추력 매개변수화 (T, θ, φ) 지원
    • 연료 질량 및 비추력 매개변수 포함
  3. Interface 클래스: 대화형 3D 시각화
    • 맞춤형 시각 구성 요소
    • 실시간 시스템 상태 업데이트
    • 유연한 카메라 관점
  4. Environment 클래스: 고수준 상호작용 인터페이스
    • PettingZoo 표준 호환성
    • 단일/다중 에이전트 작업 지원
    • 궤도 상태 정보 관리 제공

기술 혁신 포인트

1. 고충실도 동역학 모델링

  • 중력장 모델링: Holmes-Featherstone 구면 조화함수 사용
  • 섭동력: 대기 항력, 태양 복사압, 제3체 효과
  • 수치 적분: Dormand-Prince 가변 단계 방법 지원

2. 좌표계 지원

  • 직교 좌표: 직접 수치 계산
  • 케플러 요소: 궤도 기하학 설명
  • 등분점 요소: 특이점 문제 회피

3. 추력 모델링

극좌표 매개변수화 사용으로 기존 RSW 좌표계보다 더 현실적:

T_RSW = T(cos θ Ŝ + sin θ(cos φ R̂ + sin φ Ŵ))

4. 불확실성 전파

상태 전이 행렬(STM)을 사용하여 몬테카를로 시뮬레이션의 예상 불확실성을 해석적으로 근사:

Σ_Δt = ΦΣ_0Φ^T

실험 설정

실험 시나리오 설계

1. 단일 에이전트 작업

  • Hohmann 기동: 고전적 궤도 전이
  • 충돌 회피: 충돌 확률 감소
  • 목표 추적: 동적 목표 추적

2. 다중 에이전트 작업

  • GEO 별자리 조정: 정지궤도 균등 분포
  • 독립 학습 vs 연합 학습: 다양한 협력 전략 비교

평가 지표

  • 궤도 정확도: 이론적 해와의 편차
  • 연료 소비: 작업 완료의 연료 효율성
  • 충돌 확률: PoC < 10^-6을 안전 임계값으로
  • 수렴 성능: 훈련 에피소드의 누적 보상

비교 방법

  • DDPG: 연속 제어 기준
  • PPO: 정책 최적화 방법
  • DDQN: 이산 동작 공간
  • 독립 학습: 통신 없는 다중 에이전트
  • 연합 학습: 매개변수 공유 협력

구현 세부사항

  • 네트워크 아키텍처: 2개 숨겨진 계층, Tanh 활성화 함수
  • 훈련 매개변수: 학습률 0.0001, GAE λ=0.95
  • 하드웨어 구성: Intel i3-8100 CPU, GTX 1050 Ti GPU, 16GB RAM

실험 결과

주요 결과

  • 저 RMSE 그룹: 24.14미터 (16.6시간 전파)
  • 중 RMSE 그룹: 83.75미터
  • 고 RMSE 그룹: 1924.90미터
  • 전체 MAPE: 0.16%

2. Hohmann 기동 실험

  • 근최적 정책 학습 성공, 이론적 반장축 값과 일치
  • 현실적 섭동 하에서도 목표 궤도 도달 가능
  • 실험 2가 실험 1보다 더 빠른 수렴 (α2=0.5 vs α2=0)

3. 충돌 회피 비교

  • PPO 성능: 초기 추력 적용, 충돌 위험 효과적 감소
  • DDQN 성능: 훈련 동역학 하에서 효과적이나 일반화 능력 부족
  • 연속 동작 공간 장점: PPO가 현실적 동역학 하에서 더 우수한 성능

4. GEO 별자리 조정

  • 에이전트가 균등 분포 전략 학습 성공
  • 연합 학습이 더 빠른 수렴 속도
  • 미관찰 섭동 하에서 우수한 일반화 능력

소거 실험

추력 방향 페널티 영향

실험 비교 결과, 보상 함수에 궤도 방향 페널티 추가(α2=0.5)가 학습 효과를 크게 개선:

  • 목표 궤도로의 더 빠른 수렴
  • 불필요한 궤도 평면 외 기동 감소
  • 최적 Hohmann 기동에 더 가까움

동역학 복잡도 영향

  • 단순화 모델 훈련: 뉴턴 중력만 사용
  • 현실적 평가: 모든 섭동력 포함
  • 일반화 능력: 훈련 정책이 현실 조건에서도 유효

성능 분석

계산 성능

  • 시간 복잡도: O(n), n은 천체 수량
  • 병렬화 효과: 복잡한 힘 모델에서 병렬 방식이 더 빠름
  • 확장성: 수천 천체 시스템 지원

관련 연구

궤도 동역학 RL 응용

  • 기존 방법: 대부분 CR3BP 단순화 모델 기반
  • Orekit 응용: 고충실도 라이브러리 사용 연구 소수
  • 다중 에이전트 발전: 최근 조정 작업에 관심 시작

다중 에이전트 RL 환경

  • REDA 알고리즘: Poliastro 및 DQN 사용
  • MAPPO 응용: 다중 위성 관측 계획
  • 형편대 비행: 뉴턴 중력만 고려

OrbitZoo 장점

기존 환경과 비교하여 OrbitZoo는 다음을 동시에 지원하는 유일한 환경:

  • 다중 에이전트 RL
  • 산업 표준 시뮬레이터
  • 고충실도 동역학
  • 연속 제어
  • 현실적 천체 및 추력 모델링
  • 대화형 시각화
  • 공개 가용성

결론 및 토론

주요 결론

  1. 검증 성공: OrbitZoo가 Starlink 데이터로 검증되었으며, MAPE는 0.16%에 불과
  2. 기능 완전성: 단일/다중 에이전트, 협력/경쟁 시나리오 지원
  3. 우수한 성능: 훈련 정책이 현실적 동역학 하에서 우수한 성능 발휘
  4. 높은 사용성: 모듈식 설계로 빠른 개발 및 배포 지원

한계

  1. 계산 오버헤드: 고충실도 시뮬레이션은 더 많은 계산 자원 필요
  2. 매개변수 조정: 실험에서 광범위한 하이퍼매개변수 최적화 미실시
  3. 확장 과제: 대규모 별자리의 실시간 시뮬레이션은 여전히 도전적
  4. 모델 의존성: Orekit 라이브러리의 정확성에 의존

향후 방향

  1. 알고리즘 최적화: 전문화된 궤도 RL 알고리즘 탐색
  2. 응용 확장: 더 많은 작업 유형 및 제약 지원
  3. 성능 향상: GPU 가속 및 분산 계산
  4. 표준화 추진: 궤도 RL 벤치마크 테스트 수립

심층 평가

장점

  1. 높은 혁신성: 산업 표준 라이브러리 기반 첫 다중 에이전트 궤도 RL 환경
  2. 충분한 검증: 실제 위성 데이터로 검증되어 신뢰도 높음
  3. 포괄적 기능: 다양한 시나리오 및 알고리즘 지원, 확장성 우수
  4. 높은 실용 가치: 실제 위성 작업 개발에 직접 활용 가능

부족한 점

  1. 계산 효율성: 고충실도 시뮬레이션 계산 비용 높음
  2. 알고리즘 한계: 주로 고전적 RL 알고리즘 검증, 전문화된 최적화 부족
  3. 시나리오 범위: 실험 시나리오 상대적으로 제한적, 더 많은 응용 확장 가능
  4. 이론적 분석: 수렴성 등 이론적 보장 부족

영향력

  1. 학술 기여: 궤도 RL 표준화 환경의 공백 해소
  2. 산업 가치: 실제 위성 자율 제어 개발에 활용 가능
  3. 오픈소스 의의: 해당 분야 연구의 재현성 촉진
  4. 표준 제정: 궤도 RL 연구의 표준 플랫폼이 될 가능성

적용 시나리오

  1. 위성 자율 제어: 궤도 유지, 기동 계획
  2. 별자리 관리: 다중 위성 조정, 편대 비행
  3. 충돌 회피: 우주 잔해 회피 전략
  4. 작업 계획: 복잡한 우주 작업의 지능형 의사결정
  5. 교육 훈련: 항공우주 공학 및 기계학습 교육

참고문헌

  1. Orekit: 오픈소스 천체역학 라이브러리
  2. PettingZoo: 다중 에이전트 RL 환경 표준
  3. Starlink ephemeris data: 위성 궤도 검증 데이터
  4. 관련 궤도 RL 연구: Kolosa (2019), Herrera (2020), Casas (2022) 등

요약: OrbitZoo는 중요한 학술 및 실용 가치를 지닌 오픈소스 다중 에이전트 강화학습 환경으로, 고충실도 궤도 동역학 모델링과 실제 데이터 검증을 통해 우주 자율 시스템의 연구 및 개발을 위한 강력한 도구를 제공합니다. 이 연구는 RL의 항공우주 분야 응용을 추진할 뿐만 아니라 해당 학제 간 분야의 표준화 발전에도 중요한 기여를 합니다.