2025-11-24T22:58:17.201528

ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

Mousist

This paper presents ASTREA, the first agentic system executed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations, with on-orbit operation aboard the International Space Station (ISS). Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility of combining semantic reasoning with adaptive control under hardware constraints. On-orbit validation aboard the ISS initially faced challenges due to inference latency misaligned with the rapid thermal cycles of Low Earth Orbit (LEO) satellites. Synchronization with the orbit length successfully surpassed the baseline with reduced violations, extended episode durations, and improved CPU utilization. These findings demonstrate the potential for scalable agentic supervision architectures in future autonomous spacecraft.

academic

ASTREA: Введение интеллектуальной агентной системы для автономного управления тепловым режимом космических аппаратов

Основная информация

ID статьи: 2509.13380
Название: ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy
Автор: Alejandro D. Mousist (Thales Alenia Space, Tres Cantos, Spain)
Классификация: cs.RO cs.AI cs.LG cs.MA cs.SY eess.SY
Дата публикации: 11 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2509.13380

Аннотация

В данной работе предлагается ASTREA — первая агентная система, работающая на летном оборудовании уровня готовности технологии (TRL 9) для автономных операций космических аппаратов с верификацией на орбите на Международной космической станции (МКС). На примере теплового контроля система интегрирует ограниченный по ресурсам агент на основе большой языковой модели (LLM) с контроллером на основе обучения с подкреплением (RL) в асинхронной архитектуре, адаптированной для космических платформ. Наземные эксперименты показали, что контроль, управляемый LLM, улучшает тепловую стабильность и снижает нарушения, подтверждая осуществимость сочетания семантического рассуждения с адаптивным управлением при аппаратных ограничениях. Орбитальная верификация на МКС первоначально столкнулась с проблемой несоответствия задержки вывода и быстрых тепловых циклов спутников на низкой земной орбите (НЗО). После синхронизации с орбитальным периодом система успешно превзошла базовый уровень, снизив нарушения на 66,2%, увеличив время работы на 245,8% и улучшив использование процессора на 20,1%.

Исследовательский контекст и мотивация

Определение проблемы

Потребность в автономных операциях в космосе: С развитием лунных и орбитальных миссий возникает необходимость в космических системах, способных работать с минимальным вмешательством человека, особенно в условиях, когда задержки связи препятствуют прямому наземному контролю.
Сложность теплового контроля: Тепловой контроль является критической подсистемой, которая должна поддерживать целостность всех электронных компонентов при одновременном управлении ограниченными вычислительными ресурсами в реальном времени. Традиционные подходы полагаются на предварительно запрограммированные правила и наземный контроль, что снижает гибкость при работе с динамическими тепловыми нагрузками.
Ограничения аппаратных ресурсов: Большие языковые модели требуют значительных аппаратных ресурсов, что конфликтует с требованиями встроенных систем, которые должны быть радиационно-устойчивыми и работать в условиях строгих ограничений по энергопотреблению, размеру и температуре.

Научная значимость

Технологический прорыв: Первое развертывание агентной системы на основе LLM в реальной летной среде
Практическая ценность: Установление масштабируемой архитектуры агентного контроля для будущих автономных космических аппаратов
Теоретический вклад: Исследование интеграции семантического рассуждения и адаптивного управления в условиях космических ограничений

Ограничения существующих подходов

Space Llama: Отсутствие агентного поведения, предназначена только для ручного использования космонавтами
LLMSat и AI Space Cortex: Верификация в основном в наземной имитационной среде без реальной летной верификации
Традиционный тепловой контроль: Зависимость от предустановленных правил, отсутствие контекстного объяснения и адаптивности

Основные вклады

Первая летная агентная система: Реализация и верификация на МКС первой агентной системы контроля на основе LLM на оборудовании TRL 9
Гибридная асинхронная архитектура: Предложение гибридного дизайна, сочетающего эффективность обучения с подкреплением с интерпретируемостью языковых моделей
Стратегия орбитальной синхронизации: Обнаружение и верификация того, что окна вывода, синхронизированные с орбитальным периодом, преодолевают ограничения задержки
Практическое повышение производительности: Достижение 67,2% увеличения времени работы и 58,5% снижения тепловых нарушений в наземных экспериментах
Принципы проектирования космического ИИ: Предоставление практических рекомендаций по проектированию для будущих автономных систем НЗО

Детальное описание методики

Определение задачи

Входные данные: Данные датчиков температуры на борту, состояние использования процессора, информация о тепловых градиентах Выходные данные: Динамически корректируемые рекомендации коэффициента энтропии (α) для оптимизации баланса исследования-эксплуатации агента RL Ограничения:

Пороги температуры (60°C на земле, 57°C на орбите)
Вычислительные ресурсы одного ядра (ядро 0 выделено для системы ASTREA)
Задержка вывода (от 40 секунд до 8 минут)

Архитектура модели

Общий дизайн системы

ASTREA использует двухагентную асинхронную архитектуру:

Агент RL (уровень реального времени):
- На основе алгоритма Soft Actor-Critic (SAC)
- Непрерывный мониторинг температуры на борту
- Динамическая регулировка доступности ресурсов 15 ядер процессора
- Управление частотой ядра и состояниями питания
Агент LLM (уровень контроля):
- Использование квантованной модели Qwen2.5 (1,54 млрд параметров, 4-битное квантование)
- Вывод на устройстве через Llama.cpp
- Предоставление семантического рассуждения и контекстно-зависимых рекомендаций по корректировке параметров

Механизм коммуникации

Агент RL → Асинхронная очередь → Агент LLM
         ↓
    Сводка выполнения (количество итераций, шаги в опасной зоне, средний тепловой градиент)
         ↓
Агент LLM → Асинхронная очередь → Агент RL  
         ↓
    Рекомендации коэффициента α (генерируются через вызовы инструментов)

Ключевые технические компоненты

1. Агент обучения с подкреплением

Пространство состояний: Показания датчиков температуры, частота процессора, коэффициент опасности
Пространство действий: Корректировки частоты и состояния питания 15 ядер
Функция вознаграждения: Базовое вознаграждение за выживание + вознаграждение за тепловую безопасность
Новые признаки наблюдения: Коэффициент опасности (доля датчиков в пределах 10% порога)

2. Набор инструментов агента LLM

increase_exploration: α ∈ 0,4, 0,8
moderate_exploration: α ∈ 0,2, 0,4
decrease_exploration: α ∈ 0,05, 0,2
keep_alpha: Сохранение текущего значения
reset_alpha: Сброс к значению по умолчанию (0,2)

Технические инновации

Асинхронный развязанный дизайн: Предотвращение влияния задержки вывода LLM на управление в реальном времени, обеспечение безопасности системы
Семантическая оптимизация параметров: Использование способности LLM к контекстному пониманию для оптимизации стратегии исследования агента RL
Выравнивание с орбитальным периодом: Обнаружение и использование периодических характеристик окружения НЗО для синхронизации агентов
Адаптация к граничным вычислениям: Оптимизация квантования модели и стратегии вывода для космических аппаратных ограничений

Экспериментальная установка

Экспериментальная среда

1. Наземная лаборатория

Конфигурация малого стойки с активным охлаждением вентилятором
Тепловой контроль в течение 10 часов днем, естественные колебания температуры ночью
60-минутное временное окно для сбора сводок выполнения

2. Развертывание на МКС

Внешняя платформа полезной нагрузки модуля Columbus
Орбитальный период 90 минут (45 минут солнечного освещения + 45 минут тени)
Пассивное тепловое рассеивание через тепловые трубки, без активного охлаждения
Две конфигурации: короткий период 15 минут vs орбитальный период 90 минут

Аппаратная платформа

Процессор: 64-битная архитектура ARM, 16 ядер Cortex-A72
Память: 16 ГБ LPDDR4
Диапазон частот: Динамическая регулировка 1,0-2,0 ГГц
Ограничения: Отсутствие специализированных ускорителей, ядро 0 выделено для ASTREA

Метрики оценки

Количество тепловых нарушений: Подсчет экземпляров превышения температурного порога
Среднее время работы: Средняя продолжительность работы теплового контроля (временные шаги)
Эффективность использования процессора: Обратная величина оставшейся вычислительной мощности с учетом масштабирования частоты

Методы сравнения

Базовая система: Чистый агент SAC с адаптивным расписанием α по умолчанию из Stable Baselines3, без внешнего вмешательства или обратной связи по производительности.

Результаты экспериментов

Основные результаты наземных экспериментов

Метрика	Временной период	Базовая система	Система ASTREA
Среднее время работы	Первые 4 часа	47,17±18,15	78,83±11,33 (+67,2%)
	24 часа	135,24±32,94	142,29±8,06 (+5,2%)
Количество тепловых нарушений	Первые 4 часа	39,33±9,29	16,33±2,08 (-58,5%)
	24 часа	88,67±20,50	51,33±4,04 (-42,1%)
Среднее использование процессора	Первые 4 часа	25,81±5,00%	26,30±2,56% (+1,9%)
	24 часа	16,49±5,57%	16,24±4,46% (-1,5%)

Результаты орбитальных экспериментов

Эксперимент с коротким периодом (15-минутное окно)

Метрика	Базовая система	Система ASTREA
Среднее время работы	449,77±295,69	363,76±190,23 (-19,1%)
Количество тепловых нарушений	66±24,25	82±32,74 (+24,2%)
Среднее использование процессора	40,17±17,70%	22,86±3,05% (-43,1%)

Эксперимент с орбитальным периодом (90-минутное окно)

Метрика	Базовая система	Система ASTREA
Среднее время работы	449,77±295,69	1555,09±823,57 (+245,8%)
Количество тепловых нарушений	66±24,25	22,33±9,07 (-66,2%)
Среднее использование процессора	40,17±17,70%	48,27±11,49% (+20,1%)

Ключевые выводы

Важность временной синхронизации: Значительное снижение производительности при несоответствии периода вывода и динамики окружения
Стратегия выравнивания с орбитой: 90-минутное окно, синхронизированное с орбитой МКС, обеспечивает оптимальную производительность
Влияние задержки вывода: Время отклика LLM от 40 секунд до 8 минут подтверждает непригодность для контуров управления в реальном времени
Эффект раннего преимущества: Контроль, управляемый LLM, обеспечивает значительные улучшения на начальном этапе с сохранением стабильного преимущества в долгосрочной перспективе

Связанные работы

Приложения LLM в космосе

Space Llama: Первая открытая LLM, развернутая на МКС, но без возможностей автономного управления
LLMSat: Предложение LLM в качестве высокоуровневой системы управления космическим аппаратом, верификация только в имитационной среде
AI Space Cortex: Интерпретируемая автономная структура для экстремальных сред, верификация на наземной тестовой платформе

Гибридные системы LLM-RL

Согласно классификации Schoepp и др., три роли LLM в RL:

Агент: LLM напрямую действует как политика для принятия решений
Планировщик: LLM разбивает сложные задачи на подзадачи
Модель вознаграждения: LLM генерирует или оценивает сигналы вознаграждения

ASTREA использует четвертый режим: Контролер, где LLM предоставляет рекомендации по корректировке параметров, при этом агент RL сохраняет операционную независимость.

Технологические отличия

Соображения безопасности: Предотвращение галлюцинаций LLM, влияющих на критические решения
Адаптация к аппаратуре: Оптимизированные квантованные модели для космических ограничений
Гарантия реального времени: Асинхронная архитектура обеспечивает отзывчивость системы управления

Заключение и обсуждение

Основные выводы

Техническая осуществимость: Подтверждение осуществимости развертывания агентных систем на летном оборудовании
Повышение производительности: При надлежащей конфигурации достижимо значительное улучшение производительности теплового контроля
Принцип согласования временных масштабов: Период вывода LLM должен соответствовать временным масштабам динамики окружения
Принципы проектирования архитектуры: Асинхронное развязывание является ключевым для интеграции LLM-RL в космических приложениях

Ограничения

Аппаратные ограничения: Текущее летное оборудование не может поддерживать наиболее мощные языковые модели
Задержка вывода: Ограничение одного ядра приводит к значительной задержке отклика
Ограничения контекста: Необходимость поддерживать короткую длину контекста и структурированные подсказки
Масштабирование многоагентных систем: Задержка одного агента LLM может стать узким местом в конфигурациях с несколькими агентами

Будущие направления

Аппаратное ускорение: Космические ускорители могут принципиально изменить характеристики производительности
Специализированные модели: Модели, специализированные на управлении тепловым режимом, могут улучшить контекстное понимание
Расширение параметров: Корректировка других параметров управления помимо коэффициента α или адаптивное формирование вознаграждения
Многоагентное сотрудничество: Исследование архитектур совместного контроля с несколькими агентами LLM

Углубленная оценка

Преимущества

Новаторское значение: Первая верификация агентной системы в реальной летной среде, имеющая историческое значение
Инженерная практичность: Полное учет аппаратных ограничений, предоставление развертываемого решения
Достаточность экспериментов: Двойная верификация на земле и на орбите, анализ сравнения нескольких конфигураций
Теоретический вклад: Установление принципов проектирования для согласования периода вывода LLM с динамикой окружения
Техническая инновация: Асинхронная архитектура элегантно разрешает противоречие между задержкой и безопасностью

Недостатки

Масштаб выборки: Относительно короткие экспериментальные периоды, долгосрочная стабильность требует дальнейшей верификации
Однородность окружения: Верификация только в сценарии теплового контроля, применимость к другим подсистемам неизвестна
Ограничения модели: Способность к рассуждению квантованной модели ниже, чем у полной модели
Анализ затрат-выгод: Увеличение вычислительных затрат и сложности по сравнению с традиционными методами

Влияние

Академическая ценность: Предоставление важной эмпирической базы для приложений космического ИИ
Промышленное значение: Предоставление технологического пути для автономизации космической промышленности
Воспроизводимость: Детальные детали реализации и поддержка открытых инструментов способствуют воспроизведению
Потенциал расширения: Дизайн архитектуры обладает хорошей масштабируемостью и адаптивностью

Применимые сценарии

Глубокое космическое исследование: Поддержка автономного принятия решений в условиях задержки связи
Созвездия малых спутников: Интеллектуальный контроль в условиях ограниченных ресурсов
Пилотируемая космонавтика: Предоставление интеллектуальных вспомогательных систем для космонавтов
Граничные вычисления на земле: Гибридные интеллектуальные системы в условиях ограниченных ресурсов

Библиография

Callejo, E., et al. (2023). Imagin-e: The first step towards extending the cloud into space.
Booz Allen Hamilton and Meta (2025). Booz allen and meta launch space llama.
Maranto, D. (2024). Llmsat: A large language model-based goal-oriented agent for autonomous space exploration.
Touma, T., et al. (2025). Ai space cortex: An experimental system for future era space exploration.
Yang, A., et al. (2024). Qwen2 technical report.

Общая оценка: Данная работа имеет важное новаторское значение в области приложений космического ИИ. Благодаря строгому экспериментальному дизайну и полной верификации она закладывает прочную основу для развития будущих интеллектуальных космических аппаратов. Несмотря на некоторые технические ограничения, ее инженерная ценность и научный вклад значительны и заслуживают дальнейшего углубленного исследования и развития.