2025-11-17T12:28:12.099327

Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling

Tang, Cheng, Kumar
The Transformer, a highly expressive architecture for sequence modeling, has recently been adapted to solve sequential decision-making, most notably through the Decision Transformer (DT), which learns policies by conditioning on desired returns. Yet, the adversarial robustness of reinforcement learning methods based on sequence modeling remains largely unexplored. Here we introduce the Conservative Adversarially Robust Decision Transformer (CART), to our knowledge the first framework designed to enhance the robustness of DT in adversarial stochastic games. We formulate the interaction between the protagonist and the adversary at each stage as a stage game, where the payoff is defined as the expected maximum value over subsequent states, thereby explicitly incorporating stochastic state transitions. By conditioning Transformer policies on the NashQ value derived from these stage games, CART generates policy that are simultaneously less exploitable (adversarially robust) and conservative to transition uncertainty. Empirically, CART achieves more accurate minimax value estimation and consistently attains superior worst-case returns across a range of adversarial stochastic games.
academic

Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling

基本信息

  • 论文ID: 2510.11877
  • 标题: Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling
  • 作者: Xiaohang Tang (University College London), Zhuowen Cheng (Independent Researcher), Satyabrat Kumar (University College London)
  • 分类: cs.LG cs.GT
  • 发表时间/会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Reliable ML
  • 论文链接: https://arxiv.org/abs/2510.11877

摘要

Transformer作为序列建模的高表达力架构,最近被适配用于解决序列决策问题,其中最著名的是Decision Transformer (DT),通过对期望回报进行条件化来学习策略。然而,基于序列建模的强化学习方法的对抗鲁棒性在很大程度上仍未被探索。本文介绍了Conservative Adversarially Robust Decision Transformer (CART),据我们所知,这是第一个旨在增强DT在对抗随机博弈中鲁棒性的框架。我们将每个阶段主角和对手之间的交互建模为阶段博弈,其中收益定义为后续状态的期望最大值,从而明确地纳入了随机状态转移。通过在从这些阶段博弈导出的NashQ值上条件化Transformer策略,CART生成的策略同时具有较低可利用性(对抗鲁棒)和对转移不确定性的保守性。

研究背景与动机

问题定义

本研究要解决的核心问题是在随机博弈环境中提高Decision Transformer的对抗鲁棒性。具体来说:

  1. Decision Transformer的脆弱性:虽然DT在序列决策任务中表现出色,但在对抗环境中容易被利用,因为它通过模仿学习的方式学习策略,高回报可能仅仅归因于对手策略的弱点而非真正的鲁棒性。
  2. 现有方法的局限性:Adversarially Robust Decision Transformer (ARDT)虽然通过条件化极小极大回报来缓解这一问题,但其适用性仅限于确定性状态转移的对抗强化学习,在随机状态转移的博弈中可能表现出过度乐观。
  3. 随机性处理的挑战:在随机博弈中,状态转移本质上是概率性的,ARDT可能因为仅条件化极小极大回报而忽略转移概率,导致对高回报子博弈访问概率的误估。

研究重要性

该问题的重要性体现在:

  • 实用性:现实世界的多智能体系统往往涉及不确定性和对抗性
  • 理论意义:填补了序列建模在对抗鲁棒性方面的研究空白
  • 安全性:提高AI系统在对抗环境中的可靠性

核心贡献

  1. 首个针对随机博弈的鲁棒Decision Transformer框架:提出了CART,这是第一个专门设计用于增强DT在对抗随机博弈中鲁棒性的方法。
  2. 阶段博弈建模:将每个时间步的主角-对手交互建模为阶段博弈,收益函数定义为后续状态的期望最大值,明确考虑随机状态转移。
  3. NashQ值估计算法:结合期望回归(Expectile Regression)和时序差分(TD)学习来求解所有阶段的最优极小极大Q值。
  4. 实证验证:在多个合成随机博弈中验证了CART在极小极大值估计准确性和最坏情况回报方面的优越性。

方法详解

任务定义

随机博弈定义为 (S,A,Aˉ,T,R)(S,A,\bar{A},T,R),其中:

  • SS:状态空间
  • A,AˉA,\bar{A}:主角和对手动作空间
  • TT:转移概率分布 st+1T(st,at,aˉt)s_{t+1} \sim T(\cdot|s_t,a_t,\bar{a}_t)
  • RR:奖励函数

目标是学习对自适应对手具有鲁棒性的主角策略: (π,πˉ)=maxπminπˉEτρπ,πˉ[trt](\pi^*,\bar{\pi}^*) = \max_\pi \min_{\bar{\pi}} E_{\tau\sim\rho^{\pi,\bar{\pi}}}[\sum_t r_t]

模型架构

1. 阶段博弈建模

将每个时间步的交互建模为阶段博弈,其中: Qˉ(s,a,aˉ)=EsT(s,a)[r+V(s)]\bar{Q}(s,a,\bar{a}) = E_{s'\sim T(\cdot|s,a)}[r + V(s')]V(s)=maxaQ(s,a)V(s') = \max_{a'} Q(s',a')

这里VV函数表示在下一阶段状态ss'执行最优主角动作的期望值。

2. NashQ值计算

序贯博弈的NashQ值定义为: QCART(s,a)=minaˉQ(s,a,aˉ)Q_{CART}(s,a) = \min_{\bar{a}} Q(s,a,\bar{a})

3. 实用算法实现

由于直接的min/max操作效率低下,采用期望回归来近似:

步骤1:学习阶段博弈收益L(Qˉ)=E(s,a,aˉ,r,s)D[Qˉ(s,a,aˉ)V(s)r]L(\bar{Q}) = E_{(s,a,\bar{a},r,s')\sim D}[\bar{Q}(s,a,\bar{a}) - V(s') - r]

步骤2:估计NashQ值L(Q)=E(s,a,aˉ,r,s)D[LERα0(Q(s,a)Qˉ(s,a,aˉ))]L(Q) = E_{(s,a,\bar{a},r,s')\sim D}[L^{\alpha\to0}_{ER}(Q(s,a) - \bar{Q}(s,a,\bar{a}))]

步骤3:近似最优状态值函数L(V)=E(s,a)D[LERα1(V(s)Q(s,a))]L(V) = E_{(s',a')\sim D}[L^{\alpha\to1}_{ER}(V(s') - Q(s',a'))]

其中期望回归目标定义为:LERα(u)=E[uα1(u>0)u2]L^\alpha_{ER}(u) = E[u|\alpha - \mathbf{1}(u>0)| \cdot u^2]

技术创新点

  1. 显式处理随机性:通过引入额外的状态值函数VV,明确考虑状态转移的随机性,避免ARDT的过度乐观问题。
  2. 期望回归与TD学习结合:创新性地将期望回归用于近似min/max操作,使得在轨迹数据上的学习更加高效。
  3. 保守性与鲁棒性平衡:通过条件化NashQ值,生成既具有对抗鲁棒性又对转移不确定性保守的策略。

实验设置

数据集

实验在合成随机博弈上进行,包括:

  1. 二阶段随机博弈:主要的说明性例子
  2. 三阶段随机博弈:更复杂的序贯交互
  3. 5个变体博弈:测试不同随机性设置下的鲁棒性

数据收集采用均匀随机行为策略,包含10510^5条轨迹,覆盖所有可能的轨迹。

评价指标

  • 最坏情况回报:策略对抗最优对手时的表现
  • 极小极大值估计准确性:与理论值的偏差

对比方法

  • Decision Transformer (DT):原始的决策变换器
  • Adversarially Robust Decision Transformer (ARDT):现有的对抗鲁棒方法

实现细节

  • 测试时对手假设为最优策略
  • 使用高目标回报进行解码
  • 交替优化三个损失函数直至收敛

实验结果

主要结果

二阶段随机博弈结果

在说明性的二阶段随机博弈中:

  • CART: 8.0 (最坏情况回报)
  • ARDT: 5.7
  • DT: 6.0

5个博弈平均性能

跨5个合成对抗随机博弈的平均表现:

  • CART: 8.115 ± 最低方差
  • ARDT: 5.948
  • DT: 6.421

关键发现

  1. 目标回报敏感性:CART在不同目标回报设置下都能保持最高的最坏情况回报,而ARDT和DT在对抗攻击下获得较低回报。
  2. 过度乐观问题:ARDT容易被稀有的高收益轨迹误导,高估动作值而忽略真实转移概率,在高目标回报时失去鲁棒性。
  3. 保守性优势:CART通过联合考虑收益和状态转移随机性,专注于能最大化最坏情况期望回报的可行策略。

案例分析

在图1的说明例子中:

  • ARDT无视到达期望状态s2s'_2的小概率,对状态和动作值估计过于乐观
  • CART通过分配期望最大值来处理随机性,值估计更加保守和准确

相关工作

随机博弈求解

在线学习中的两人博弈求解已被广泛研究,通过在线自对弈进行遗憾最小化以收敛到纳什均衡。但本工作聚焦于离线学习设置。

离线强化学习

  • Conservative Q-Learning (CQL):通过悲观目标缓解Q值高估
  • Implicit Q-Learning (IQL):通过期望回归学习隐式值函数实现值稳定化
  • ARDT:在静态零和博弈中通过极小极大期望回归实现对抗鲁棒性

Decision Transformer扩展

  • Trajectory Transformer:通过潜变量捕获轨迹随机性
  • Online Decision Transformer:集成混合离线-在线强化学习
  • Multi-Game Decision Transformer:支持迁移学习和少样本适应

结论与讨论

主要结论

CART通过以下方式成功解决了DT在随机博弈中的对抗鲁棒性问题:

  1. 将交互建模为阶段博弈,明确考虑随机转移
  2. 使用NashQ值进行条件化,生成既鲁棒又保守的策略
  3. 在多个随机博弈中实现了优越的最坏情况性能

局限性

  1. 实验规模:目前仅在短时域的合成博弈上验证
  2. 计算复杂度:交替优化三个目标函数可能增加计算开销
  3. 理论分析:缺乏收敛性和鲁棒性的理论保证

未来方向

  1. 扩展到复杂环境:如扑克变体(Kuhn和Leduc扑克)等更复杂的多智能体竞争环境
  2. 长期规划:探索更大规模博弈和更长规划时域
  3. 理论完善:提供收敛性和鲁棒性的理论分析

深度评价

优点

  1. 创新性强:首次将对抗鲁棒性引入随机博弈的序列建模,填补了重要研究空白
  2. 方法合理:通过阶段博弈建模和期望回归的结合,优雅地处理了随机性和对抗性的双重挑战
  3. 实验充分:虽然是合成环境,但设计了多个变体来验证方法的有效性
  4. 问题重要:解决的问题具有重要的实用价值和理论意义

不足

  1. 实验局限:仅在简单的合成环境中验证,缺乏真实世界应用的验证
  2. 理论缺失:缺乏收敛性、复杂度和鲁棒性的理论分析
  3. 方法复杂:需要交替优化多个目标函数,可能影响实用性
  4. 比较有限:只与ARDT和DT比较,缺乏与其他鲁棒强化学习方法的对比

影响力

  1. 学术贡献:为序列建模在对抗环境中的应用开辟了新方向
  2. 实用价值:为开发更鲁棒的多智能体系统提供了新思路
  3. 可复现性:方法描述清晰,实验设置简单,易于复现

适用场景

  1. 多智能体系统:存在对抗性和不确定性的环境
  2. 安全关键应用:需要保证最坏情况性能的场景
  3. 离线学习:无法进行在线交互的环境

参考文献

本文引用了强化学习、博弈论和序列建模领域的重要工作,包括:

  • Chen et al. (2021) - Decision Transformer的原始工作
  • Tang et al. (2024a) - ARDT方法
  • Hu and Wellman (2003) - Nash Q-Learning
  • Vaswani et al. (2017) - Transformer架构

总体评价:这是一篇高质量的研究论文,解决了一个重要且具有挑战性的问题。虽然在实验验证和理论分析方面还有提升空间,但其创新性和方法的合理性使其成为该领域的有价值贡献。