2025-11-12T22:22:10.712676

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

Mouchamps, Malherbe, Bolland et al.
This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).
academic

Gym-TORAX: Программное обеспечение с открытым исходным кодом для интеграции RL с симуляторами управления плазмой

Основная информация

  • ID статьи: 2510.11283
  • Название: Gym-TORAX: Open-source software for integrating RL with plasma control simulators
  • Авторы: Antoine Mouchamps, Arthur Malherbe, Adrien Bolland, Damien Ernst (Институт Монтефиоре, Университет Льежа, Бельгия)
  • Классификация: cs.LG (Машинное обучение)
  • Дата публикации: 13 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.11283v1

Аннотация

В данной статье представлен Gym-TORAX, пакет Python, который позволяет реализовать среды обучения с подкреплением (RL) для симуляции и управления динамикой плазмы токамака. Пользователи могут лаконично определить набор управляющих действий и наблюдений, а также цели управления, после чего Gym-TORAX создает среду Gymnasium, обёртывающую TORAX для симуляции динамики плазмы. Цели формулируются через функции вознаграждения, зависящие от состояния плазмы и управляющих действий, для оптимизации конкретных характеристик плазмы, таких как производительность и стабильность. Созданные экземпляры среды совместимы с широким спектром алгоритмов и библиотек RL, что способствует развитию исследований RL в области управления плазмой. В текущей версии доступна одна среда, основанная на сценарии повышения мощности Международного термоядерного экспериментального реактора (ИТЭР).

Научный контекст и мотивация

Проблемный фон

  1. Вызовы ядерной термоядерной энергетики: Стабильность и оптимизация производительности реакторов ядерного синтеза являются центральными проблемами исследований в области термоядерной энергетики. Конфигурация токамака как основное направление исследований сталкивается с проблемами управления высокой размерностью и сильной нелинейностью.
  2. Ограничения существующих инструментов симуляции:
    • Многие симуляторы плазмы (такие как RAPTOR, JOREK) не являются открытыми и требуют ограничивающих лицензий
    • Существующие инструменты в основном разработаны для физиков плазмы, что создает высокие барьеры входа для исследователей RL
    • Отсутствуют интерфейсы, ориентированные на приложения управления
  3. Потребность в междисциплинарном сотрудничестве: Применение RL в управлении плазмой требует снижения барьеров входа для исследователей RL и содействия сотрудничеству между двумя областями.

Научная мотивация

  • Предоставить открытую, легковесную, совместимую с RL платформу для симуляции управления плазмой
  • Посредством классического API Gymnasium инкапсулировать физику плазмы, позволяя исследователям RL сосредоточиться на оптимизации стратегий управления
  • Поддерживать исследования новых стратегий управления плазмой и открытие алгоритмов

Основные вклады

  1. Платформа программного обеспечения с открытым исходным кодом: Разработан пакет Python Gym-TORAX, предоставляющий стандартизированный интерфейс среды RL для исследований управления плазмой
  2. Интеграция TORAX: Создана обёртка Gymnasium для симулятора TORAX, реализующая среду замкнутого управления
  3. Модульный дизайн: Предоставлен гибкий механизм создания среды, позволяющий пользователям определять пользовательские сценарии управления путем наследования класса BaseEnv
  4. Эталонная среда ИТЭР: Реализована полная среда на основе сценария гибридного повышения мощности ИТЭР с включением эталонных стратегий управления
  5. Междисциплинарный мост: Снижены технические барьеры входа для исследователей RL в область управления плазмой

Подробное описание методов

Определение задачи

Проблема управления плазмой моделируется как конечный детерминированный марковский процесс принятия решений (MDP):

  • Пространство состояний 𝒮: состояние плазмы (температура, плотность, магнитный поток и т.д.)
  • Пространство действий 𝒜: управляющие переменные (полный ток, напряжение петли, источники энергии и т.д.)
  • Функция переходов f: 𝒮 × 𝒜 → 𝒮 (реализуется через симуляцию TORAX)
  • Функция вознаграждения r: 𝒮 × 𝒜 → ℝ (определяемые пользователем цели, связанные с задачей)

Архитектура системы

Двухуровневая дискретизация времени

  1. Уровень взаимодействия RL: временной шаг взаимодействия агента и среды
  2. Уровень физической симуляции: временной шаг решения уравнений в частных производных TORAX (опциональные режимы auto или fixed)

Основные компоненты

  1. Класс BaseEnv: абстрактный базовый класс, определяющий стандартный интерфейс для создания среды
  2. Класс Action: абстрактный класс для конфигурируемого определения действий
  3. Класс Observation: класс для определения содержания наблюдений
  4. Вспомогательные функции вознаграждения: специализированные инструменты для проектирования функций вознаграждения

Процесс создания среды

Пользователи должны реализовать четыре абстрактных метода:

class CustomEnv(BaseEnv):
    def _get_torax_config(self):
        # Определить конфигурацию TORAX и параметры симуляции
        pass
    
    def _define_action_space(self):
        # Указать подмножество переменных TORAX, управляемых агентом
        pass
    
    def _define_observation_space(self):
        # Выбрать переменные, включаемые в наблюдение
        pass
    
    def _compute_reward(self):
        # Определить функцию вознаграждения, связанную с задачей
        pass

Технические инновации

  1. Бесшовная интеграция физической симуляции и RL: инкапсуляция сложной физики плазмы через стандартный интерфейс Gymnasium
  2. Гибкая обработка временных масштабов: двухуровневый механизм дискретизации для обработки различий между частотой принятия решений RL и временным шагом физической симуляции
  3. Модульный дизайн: проектирование абстрактных классов поддерживает быстрое создание новых сценариев управления
  4. Механизмы надежности: автоматическая обработка ошибок симуляции и недопустимых состояний с предоставлением надлежащих условий завершения и штрафов

Экспериментальная установка

Среда симуляции: сценарий гибридного повышения мощности ИТЭР

  • Физический контекст: основан на гибридном режиме работы реактора ИТЭР
  • Временной диапазон: 100 секунд фазы повышения мощности (L-мода) + 50 секунд стационарной фазы (H-мода)
  • Управляющие переменные:
    • IpAction: управление полным током
    • NbiAction: мощность нейтрального пучкового впрыска
    • EcrhAction: мощность электронного циклотронного резонансного нагрева

Проектирование функции вознаграждения

Используется линейная комбинация четырех членов:

r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98

соответствующих коэффициенту усиления синтеза Q, минимальному коэффициенту безопасности, граничному коэффициенту безопасности и коэффициенту качества ограничения H-моды.

Сравниваемые стратегии

  1. Разомкнутая стратегия π_OL: использование предустановленной траектории действий TORAX
  2. Случайная стратегия π_R: равномерный случайный выбор в пространстве действий
  3. Стратегия ПИ-управления π_PI: использование пропорционально-интегрального регулятора для управления полным током, другие переменные следуют предустановленной траектории

Детали реализации

  • Оптимизация параметров ПИ: поиск по сетке для оптимизации пропорционального коэффициента усиления kp и интегрального коэффициента усиления ki
  • Пространство поиска: kp ∈ -10, 0, ki ∈ 0, 40
  • Плотность сетки: 20×60 = 1200 комбинаций параметров
  • Целевая функция: максимизация ожидаемого вознаграждения J(π)

Результаты экспериментов

Основные результаты

СтратегияОжидаемое вознаграждение
π_OL (разомкнутая)3.40
π_R (случайная)-10.79
π_PI (ПИ-управление)3.79

Ключевые выводы

  1. Преимущество ПИ-регулятора: оптимизированная стратегия ПИ-управления (kp*=0.700, ki*=34.257) показывает улучшение на 11.5% по сравнению с разомкнутой стратегией
  2. Стратегия управления током: стратегия ПИ имеет тенденцию повышать полный ток до верхнего предела 15 МА, что соответствует физическому принципу улучшения производительности ограничения при высоком токе
  3. Чувствительность параметров: ожидаемое вознаграждение демонстрирует сложное нелинейное распределение в пространстве параметров, требующее тщательной оптимизации

Анализ траекторий управления

  • Случайная стратегия: демонстрирует нерегулярные колебания с частичным ослаблением ограничивающих ограничений
  • Стратегия ПИ: стабильный рост до максимально допустимого значения, отражающий физически обоснованную логику управления
  • Отслеживание целей: ПИ-регулятор оптимизируется для ожидаемого вознаграждения, а не для отслеживания траектории, демонстрируя гибкость платформы RL

Связанные работы

Применение RL в управлении плазмой

  1. Магнитное управление: Degrave et al. (Nature 2022) использовали глубокое RL для управления формой плазмы токамака
  2. Управление стабильностью: Char et al. (2023) исследовали управление βN, Seo et al. (Nature 2024) избегали разрывных неустойчивостей
  3. Инструменты симуляции: существующие инструменты, такие как RAPTOR и JOREK, лишены открытости и интерфейсов RL

Преимущества данной работы

  • Первая специализированная платформа управления плазмой с открытым исходным кодом, разработанная для RL
  • Стандартизированный интерфейс снижает барьеры междисциплинарных исследований
  • Основана на современном стеке технологий JAX, поддерживающем быстрое автоматическое дифференцирование

Заключение и обсуждение

Основные выводы

  1. Gym-TORAX успешно предоставляет стандартизированное решение для интеграции RL и симуляции плазмы
  2. Эталон ПИ-регулятора демонстрирует эффективность платформы и потенциал для улучшений
  3. Модульный дизайн поддерживает быстрое расширение на новые сценарии управления

Ограничения

  1. Ограничения физической модели: основана на аксиально-симметричных предположениях TORAX, ограничивая моделирование сложных трехмерных эффектов
  2. Точность симуляции: применима для предварительных исследований; высокоточные приложения требуют более сложных физических моделей
  3. Охват сценариев: в настоящее время в основном поддерживает сценарии ИТЭР, требуется расширение на другие конфигурации реакторов

Направления будущих исследований

  1. Параметризация геометрии: поддержка прямой параметризации геометрии плазмы и токамака
  2. Обработка физических событий: добавление специализированных инструментов для обработки ключевых физических событий, таких как переход L-H
  3. Расширение функциональности TORAX: расширение возможностей по мере развития функциональности симулятора TORAX

Глубокая оценка

Достоинства

  1. Заполнение пробела: первая открытая платформа интеграции RL и управления плазмой, заполняющая важный инструментальный пробел
  2. Элегантный дизайн: двухуровневая дискретизация времени и модульный дизайн отражают хорошую инженерную практику
  3. Практическая ценность: снижает барьеры входа для исследователей RL в область управления плазмой
  4. Полный эталон: предоставляет полную реализацию сценария ИТЭР и сравнение нескольких эталонных стратегий
  5. Вклад с открытым исходным кодом: лицензия MIT и полная документация поддерживают развитие сообщества

Недостатки

  1. Ограниченная глубина экспериментов: демонстрируется только простой ПИ-регулятор, отсутствует глубокая оценка современных алгоритмов RL
  2. Недостаточная физическая верификация: отсутствует сравнение с данными реальных экспериментов с плазмой
  3. Недостаточно продемонстрирована масштабируемость: хотя дизайн поддерживает расширение, полный процесс создания новых сред не продемонстрирован
  4. Отсутствует анализ производительности: не предоставлены количественные анализы вычислительной производительности и масштабируемости

Влияние

  1. Академическая ценность: предоставляет стандартизированную платформу для применения RL в управлении плазмой
  2. Инженерная ценность: способствует междисциплинарному сотрудничеству и ускоряет развитие технологий управления синтезом
  3. Образовательная ценность: снижает барьеры обучения, способствует подготовке кадров в междисциплинарных областях
  4. Воспроизводимость: открытый дизайн и подробная документация поддерживают воспроизводимость исследований

Применимые сценарии

  1. Исследования алгоритмов RL: тестирование и сравнение различных алгоритмов RL в управлении плазмой
  2. Разработка стратегий управления: быстрое прототипирование и оценка новых стратегий управления плазмой
  3. Образование и обучение: использование в качестве учебного инструмента для помощи студентам в понимании применения RL в физических системах
  4. Предварительные исследования: верификация алгоритмов перед инвестированием в дорогостоящие реальные эксперименты

Библиография

В данной статье цитируются важные работы из нескольких областей, включая физику плазмы, обучение с подкреплением и технологии симуляции, в частности:

  • Основная техническая документация симулятора TORAX
  • Недавние прорывные работы по управлению плазмой RL, опубликованные в ведущих журналах, таких как Nature
  • Технические спецификации стандартных платформ окружения RL, таких как Gymnasium

Общая оценка: Gym-TORAX является важным вкладом в открытое программное обеспечение с практической ценностью. Хотя технические инновации относительно консервативны, работа имеет значительную ценность в содействии междисциплинарному сотрудничеству и стандартизации инструментов. Данная работа предоставляет важную инфраструктуру для применения RL в управлении плазмой и, вероятно, будет способствовать быстрому развитию этой междисциплинарной области.