Gym-TORAX: Open-source software for integrating RL with plasma control simulators
Mouchamps, Malherbe, Bolland et al.
This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).
academic
Gym-TORAX: Программное обеспечение с открытым исходным кодом для интеграции RL с симуляторами управления плазмой
В данной статье представлен Gym-TORAX, пакет Python, который позволяет реализовать среды обучения с подкреплением (RL) для симуляции и управления динамикой плазмы токамака. Пользователи могут лаконично определить набор управляющих действий и наблюдений, а также цели управления, после чего Gym-TORAX создает среду Gymnasium, обёртывающую TORAX для симуляции динамики плазмы. Цели формулируются через функции вознаграждения, зависящие от состояния плазмы и управляющих действий, для оптимизации конкретных характеристик плазмы, таких как производительность и стабильность. Созданные экземпляры среды совместимы с широким спектром алгоритмов и библиотек RL, что способствует развитию исследований RL в области управления плазмой. В текущей версии доступна одна среда, основанная на сценарии повышения мощности Международного термоядерного экспериментального реактора (ИТЭР).
Вызовы ядерной термоядерной энергетики: Стабильность и оптимизация производительности реакторов ядерного синтеза являются центральными проблемами исследований в области термоядерной энергетики. Конфигурация токамака как основное направление исследований сталкивается с проблемами управления высокой размерностью и сильной нелинейностью.
Ограничения существующих инструментов симуляции:
Многие симуляторы плазмы (такие как RAPTOR, JOREK) не являются открытыми и требуют ограничивающих лицензий
Существующие инструменты в основном разработаны для физиков плазмы, что создает высокие барьеры входа для исследователей RL
Отсутствуют интерфейсы, ориентированные на приложения управления
Потребность в междисциплинарном сотрудничестве: Применение RL в управлении плазмой требует снижения барьеров входа для исследователей RL и содействия сотрудничеству между двумя областями.
Платформа программного обеспечения с открытым исходным кодом: Разработан пакет Python Gym-TORAX, предоставляющий стандартизированный интерфейс среды RL для исследований управления плазмой
Интеграция TORAX: Создана обёртка Gymnasium для симулятора TORAX, реализующая среду замкнутого управления
Модульный дизайн: Предоставлен гибкий механизм создания среды, позволяющий пользователям определять пользовательские сценарии управления путем наследования класса BaseEnv
Эталонная среда ИТЭР: Реализована полная среда на основе сценария гибридного повышения мощности ИТЭР с включением эталонных стратегий управления
Междисциплинарный мост: Снижены технические барьеры входа для исследователей RL в область управления плазмой
Бесшовная интеграция физической симуляции и RL: инкапсуляция сложной физики плазмы через стандартный интерфейс Gymnasium
Гибкая обработка временных масштабов: двухуровневый механизм дискретизации для обработки различий между частотой принятия решений RL и временным шагом физической симуляции
Модульный дизайн: проектирование абстрактных классов поддерживает быстрое создание новых сценариев управления
Механизмы надежности: автоматическая обработка ошибок симуляции и недопустимых состояний с предоставлением надлежащих условий завершения и штрафов
r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98
соответствующих коэффициенту усиления синтеза Q, минимальному коэффициенту безопасности, граничному коэффициенту безопасности и коэффициенту качества ограничения H-моды.
Разомкнутая стратегия π_OL: использование предустановленной траектории действий TORAX
Случайная стратегия π_R: равномерный случайный выбор в пространстве действий
Стратегия ПИ-управления π_PI: использование пропорционально-интегрального регулятора для управления полным током, другие переменные следуют предустановленной траектории
Преимущество ПИ-регулятора: оптимизированная стратегия ПИ-управления (kp*=0.700, ki*=34.257) показывает улучшение на 11.5% по сравнению с разомкнутой стратегией
Стратегия управления током: стратегия ПИ имеет тенденцию повышать полный ток до верхнего предела 15 МА, что соответствует физическому принципу улучшения производительности ограничения при высоком токе
Чувствительность параметров: ожидаемое вознаграждение демонстрирует сложное нелинейное распределение в пространстве параметров, требующее тщательной оптимизации
В данной статье цитируются важные работы из нескольких областей, включая физику плазмы, обучение с подкреплением и технологии симуляции, в частности:
Основная техническая документация симулятора TORAX
Недавние прорывные работы по управлению плазмой RL, опубликованные в ведущих журналах, таких как Nature
Технические спецификации стандартных платформ окружения RL, таких как Gymnasium
Общая оценка: Gym-TORAX является важным вкладом в открытое программное обеспечение с практической ценностью. Хотя технические инновации относительно консервативны, работа имеет значительную ценность в содействии междисциплинарному сотрудничеству и стандартизации инструментов. Данная работа предоставляет важную инфраструктуру для применения RL в управлении плазмой и, вероятно, будет способствовать быстрому развитию этой междисциплинарной области.