The Transformer, a highly expressive architecture for sequence modeling, has recently been adapted to solve sequential decision-making, most notably through the Decision Transformer (DT), which learns policies by conditioning on desired returns. Yet, the adversarial robustness of reinforcement learning methods based on sequence modeling remains largely unexplored. Here we introduce the Conservative Adversarially Robust Decision Transformer (CART), to our knowledge the first framework designed to enhance the robustness of DT in adversarial stochastic games. We formulate the interaction between the protagonist and the adversary at each stage as a stage game, where the payoff is defined as the expected maximum value over subsequent states, thereby explicitly incorporating stochastic state transitions. By conditioning Transformer policies on the NashQ value derived from these stage games, CART generates policy that are simultaneously less exploitable (adversarially robust) and conservative to transition uncertainty. Empirically, CART achieves more accurate minimax value estimation and consistently attains superior worst-case returns across a range of adversarial stochastic games.
- ID статьи: 2510.11877
- Название: Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling
- Авторы: Xiaohang Tang (University College London), Zhuowen Cheng (Independent Researcher), Satyabrat Kumar (University College London)
- Классификация: cs.LG cs.GT
- Дата публикации/Конференция: 39-я конференция по нейронным системам обработки информации (NeurIPS 2025) Семинар: Reliable ML
- Ссылка на статью: https://arxiv.org/abs/2510.11877
Трансформер как высокоэкспрессивная архитектура моделирования последовательностей недавно был адаптирован для решения задач последовательного принятия решений, наиболее известным примером которого является Decision Transformer (DT), который изучает политику путем обусловливания ожидаемого вознаграждения. Однако состязательная надежность методов обучения с подкреплением на основе моделирования последовательностей остается в значительной степени неисследованной. В данной работе представлен Conservative Adversarially Robust Decision Transformer (CART), который, насколько нам известно, является первой структурой, предназначенной для повышения надежности DT в состязательных стохастических играх. Мы моделируем взаимодействие между протагонистом и противником на каждом этапе как этапную игру, где выигрыш определяется как ожидаемый максимум последующих состояний, явно включая стохастические переходы состояний. Обусловливая политику трансформера значениями NashQ, полученными из этих этапных игр, CART генерирует политики, которые одновременно имеют низкую уязвимость (состязательную надежность) и консервативность по отношению к неопределенности переходов.
Основная проблема, которую решает данное исследование, заключается в повышении состязательной надежности Decision Transformer в среде стохастических игр. Конкретно:
- Уязвимость Decision Transformer: Хотя DT показывает отличные результаты в задачах последовательного принятия решений, он легко может быть использован в состязательной среде, поскольку изучает политику путем имитационного обучения, и высокие вознаграждения могут быть обусловлены только слабостью стратегии противника, а не истинной надежностью.
- Ограничения существующих методов: Хотя Adversarially Robust Decision Transformer (ARDT) смягчает эту проблему путем обусловливания минимаксного вознаграждения, его применимость ограничена состязательным обучением с подкреплением с детерминированными переходами состояний и может проявлять чрезмерный оптимизм в играх со стохастическими переходами состояний.
- Вызовы обработки стохастичности: В стохастических играх переходы состояний по своей природе являются вероятностными, и ARDT может игнорировать вероятности переходов, обусловливая только минимаксное вознаграждение, что приводит к неправильной оценке вероятности посещения подигр с высоким вознаграждением.
Значимость этой проблемы проявляется в:
- Практичность: Реальные многоагентные системы часто включают неопределенность и состязательность
- Теоретическое значение: Заполнение пробела в исследованиях моделирования последовательностей в отношении состязательной надежности
- Безопасность: Повышение надежности систем ИИ в состязательной среде
- Первая структура надежного Decision Transformer для стохастических игр: Предложен CART, первый метод, специально разработанный для повышения надежности DT в состязательных стохастических играх.
- Моделирование этапных игр: Моделирование взаимодействия протагониста и противника на каждом временном шаге как этапной игры, где функция выигрыша определяется как ожидаемый максимум последующих состояний, явно учитывая стохастические переходы состояний.
- Алгоритм оценки значений NashQ: Комбинирование регрессии ожидаемых значений (Expectile Regression) и обучения временной разности (TD) для решения оптимальных минимаксных Q-значений для всех этапов.
- Эмпирическая верификация: Проверка превосходства CART в точности оценки минимаксных значений и вознаграждении в наихудшем случае на нескольких синтетических стохастических играх.
Стохастическая игра определяется как (S,A,Aˉ,T,R), где:
- S: пространство состояний
- A,Aˉ: пространства действий протагониста и противника
- T: распределение вероятностей переходов st+1∼T(⋅∣st,at,aˉt)
- R: функция вознаграждения
Цель состоит в изучении политики протагониста, надежной к адаптивному противнику:
(π∗,πˉ∗)=maxπminπˉEτ∼ρπ,πˉ[∑trt]
Моделирование взаимодействия на каждом временном шаге как этапной игры, где:
Qˉ(s,a,aˉ)=Es′∼T(⋅∣s,a)[r+V(s′)]V(s′)=maxa′Q(s′,a′)
Здесь функция V представляет ожидаемое значение выполнения оптимального действия протагониста в следующем состоянии s′.
Значение NashQ для последовательной игры определяется как:
QCART(s,a)=minaˉQ(s,a,aˉ)
Поскольку прямые операции min/max неэффективны, используется регрессия ожидаемых значений для аппроксимации:
Шаг 1: Изучение выигрышей этапной игрыL(Qˉ)=E(s,a,aˉ,r,s′)∼D[Qˉ(s,a,aˉ)−V(s′)−r]
Шаг 2: Оценка значений NashQL(Q)=E(s,a,aˉ,r,s′)∼D[LERα→0(Q(s,a)−Qˉ(s,a,aˉ))]
Шаг 3: Аппроксимация оптимальной функции стоимости состоянияL(V)=E(s′,a′)∼D[LERα→1(V(s′)−Q(s′,a′))]
где целевая функция регрессии ожидаемых значений определяется как: LERα(u)=E[u∣α−1(u>0)∣⋅u2]
- Явная обработка стохастичности: Введение дополнительной функции стоимости состояния V явно учитывает стохастичность переходов состояний, избегая проблемы чрезмерного оптимизма ARDT.
- Комбинирование регрессии ожидаемых значений и обучения TD: Инновационное использование регрессии ожидаемых значений для аппроксимации операций min/max, что делает обучение на данных траектории более эффективным.
- Баланс консервативности и надежности: Путем обусловливания значениями NashQ генерируются политики, которые одновременно обладают состязательной надежностью и консервативностью по отношению к неопределенности переходов.
Эксперименты проводились на синтетических стохастических играх, включая:
- Двухэтапные стохастические игры: Основной иллюстративный пример
- Трехэтапные стохастические игры: Более сложные последовательные взаимодействия
- 5 вариантов игр: Тестирование надежности при различных параметрах стохастичности
Сбор данных использовал равномерную случайную политику поведения, содержащую 105 траекторий, охватывающих все возможные траектории.
- Вознаграждение в наихудшем случае: Производительность политики против оптимального противника
- Точность оценки минимаксных значений: Отклонение от теоретических значений
- Decision Transformer (DT): Исходный трансформер решений
- Adversarially Robust Decision Transformer (ARDT): Существующий метод состязательной надежности
- Противник на этапе тестирования предполагается оптимальным
- Использование высокого целевого вознаграждения при декодировании
- Чередующаяся оптимизация трех функций потерь до сходимости
В иллюстративной двухэтапной стохастической игре:
- CART: 8.0 (вознаграждение в наихудшем случае)
- ARDT: 5.7
- DT: 6.0
Средняя производительность на 5 синтетических состязательных стохастических играх:
- CART: 8.115 ± минимальная дисперсия
- ARDT: 5.948
- DT: 6.421
- Чувствительность к целевому вознаграждению: CART поддерживает наивысшее вознаграждение в наихудшем случае при различных параметрах целевого вознаграждения, в то время как ARDT и DT получают более низкие вознаграждения при состязательных атаках.
- Проблема чрезмерного оптимизма: ARDT легко вводится в заблуждение редкими высокодоходными траекториями, переоценивая значения действий при игнорировании истинных вероятностей переходов, теряя надежность при высоких целевых вознаграждениях.
- Преимущество консервативности: CART, совместно учитывая выигрыши и стохастичность переходов состояний, сосредоточивается на осуществимых политиках, которые максимизируют ожидаемое вознаграждение в наихудшем случае.
В иллюстративном примере на рисунке 1:
- ARDT игнорирует малую вероятность достижения желаемого состояния s2′, переоценивая значения состояний и действий
- CART обрабатывает стохастичность путем распределения ожидаемого максимума, обеспечивая более консервативные и точные оценки значений
Решение двухпользовательских игр в онлайн-обучении широко изучалось посредством минимизации сожаления при онлайн-самоигре для сходимости к равновесию Нэша. Однако данная работа сосредоточена на параметре автономного обучения.
- Conservative Q-Learning (CQL): Смягчение переоценки Q-значений посредством пессимистических целей
- Implicit Q-Learning (IQL): Достижение стабилизации значений путем изучения неявных функций значений посредством регрессии ожидаемых значений
- ARDT: Достижение состязательной надежности в статических нулевых играх посредством минимаксной регрессии ожидаемых значений
- Trajectory Transformer: Захват стохастичности траектории посредством скрытых переменных
- Online Decision Transformer: Интеграция гибридного автономного-онлайн обучения с подкреплением
- Multi-Game Decision Transformer: Поддержка трансферного обучения и адаптации с малым количеством примеров
CART успешно решает проблему состязательной надежности DT в стохастических играх посредством:
- Моделирования взаимодействия как этапных игр, явно учитывая стохастические переходы
- Использования значений NashQ для обусловливания, генерирования политик, которые одновременно надежны и консервативны
- Достижения превосходной производительности в наихудшем случае на нескольких стохастических играх
- Масштаб экспериментов: В настоящее время проверено только на синтетических играх с коротким временным горизонтом
- Вычислительная сложность: Чередующаяся оптимизация трех целевых функций может увеличить вычислительные затраты
- Теоретический анализ: Отсутствие теоретических гарантий сходимости и надежности
- Расширение на сложные среды: Например, варианты покера (покер Куна и Ледука) и другие более сложные многоагентные конкурентные среды
- Долгосрочное планирование: Исследование игр большего масштаба и более длительных горизонтов планирования
- Теоретическое совершенствование: Предоставление теоретического анализа сходимости и надежности
- Высокая инновационность: Впервые введена состязательная надежность в моделирование последовательностей в стохастических играх, заполняя важный исследовательский пробел
- Обоснованный метод: Комбинирование моделирования этапных игр и регрессии ожидаемых значений элегантно решает двойной вызов стохастичности и состязательности
- Достаточные эксперименты: Хотя в синтетической среде, разработаны несколько вариантов для проверки эффективности метода
- Важная проблема: Решаемая проблема имеет важное практическое значение и теоретическое значение
- Ограничения экспериментов: Проверено только в простых синтетических средах, отсутствует проверка на реальных приложениях
- Отсутствие теории: Отсутствие теоретического анализа сходимости, сложности и надежности
- Сложность метода: Требует чередующейся оптимизации нескольких целевых функций, что может повлиять на практичность
- Ограниченное сравнение: Сравнение только с ARDT и DT, отсутствие сравнения с другими методами надежного обучения с подкреплением
- Академический вклад: Открывает новое направление применения моделирования последовательностей в состязательной среде
- Практическая ценность: Предоставляет новые идеи для разработки более надежных многоагентных систем
- Воспроизводимость: Четкое описание метода, простая экспериментальная установка, легко воспроизводится
- Многоагентные системы: Среды с состязательностью и неопределенностью
- Приложения, критичные по безопасности: Сценарии, требующие гарантии производительности в наихудшем случае
- Автономное обучение: Среды, где невозможно онлайн-взаимодействие
Статья ссылается на важные работы в области обучения с подкреплением, теории игр и моделирования последовательностей, включая:
- Chen et al. (2021) - Исходная работа Decision Transformer
- Tang et al. (2024a) - Метод ARDT
- Hu and Wellman (2003) - Nash Q-Learning
- Vaswani et al. (2017) - Архитектура Transformer
Общая оценка: Это высококачественная исследовательская работа, решающая важную и сложную проблему. Хотя есть место для улучшения в экспериментальной верификации и теоретическом анализе, инновационность и обоснованность метода делают его ценным вкладом в данную область.