2025-11-17T12:28:12.099327

Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling

Tang, Cheng, Kumar

The Transformer, a highly expressive architecture for sequence modeling, has recently been adapted to solve sequential decision-making, most notably through the Decision Transformer (DT), which learns policies by conditioning on desired returns. Yet, the adversarial robustness of reinforcement learning methods based on sequence modeling remains largely unexplored. Here we introduce the Conservative Adversarially Robust Decision Transformer (CART), to our knowledge the first framework designed to enhance the robustness of DT in adversarial stochastic games. We formulate the interaction between the protagonist and the adversary at each stage as a stage game, where the payoff is defined as the expected maximum value over subsequent states, thereby explicitly incorporating stochastic state transitions. By conditioning Transformer policies on the NashQ value derived from these stage games, CART generates policy that are simultaneously less exploitable (adversarially robust) and conservative to transition uncertainty. Empirically, CART achieves more accurate minimax value estimation and consistently attains superior worst-case returns across a range of adversarial stochastic games.

academic

확률 게임에서의 시퀀스 모델링을 통한 강건한 적대적 강화학습

기본 정보

논문 ID: 2510.11877
제목: Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling
저자: Xiaohang Tang (University College London), Zhuowen Cheng (Independent Researcher), Satyabrat Kumar (University College London)
분류: cs.LG cs.GT
발표 시간/학회: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Reliable ML
논문 링크: https://arxiv.org/abs/2510.11877

초록

Transformer는 시퀀스 모델링의 표현력 있는 아키텍처로서 최근 시퀀스 의사결정 문제 해결에 적용되고 있으며, 그 중 가장 유명한 것은 기대 수익을 조건화하여 정책을 학습하는 Decision Transformer (DT)이다. 그러나 시퀀스 모델링 기반 강화학습 방법의 적대적 강건성은 여전히 크게 미탐색 상태이다. 본 논문은 Conservative Adversarially Robust Decision Transformer (CART)를 소개하며, 이는 우리가 아는 한 DT의 적대적 확률 게임에서의 강건성을 향상시키기 위해 설계된 첫 번째 프레임워크이다. 우리는 각 단계에서 주인공과 상대 간의 상호작용을 단계 게임으로 모델링하며, 여기서 수익은 후속 상태의 기대 최댓값으로 정의되어 확률적 상태 전이를 명시적으로 포함한다. 이러한 단계 게임에서 유도된 NashQ 값을 조건화하여 Transformer 정책을 구성함으로써, CART는 낮은 이용 가능성(적대적 강건성)과 전이 불확실성에 대한 보수성을 동시에 갖는 정책을 생성한다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 확률 게임 환경에서 Decision Transformer의 적대적 강건성을 향상시키는 것이다. 구체적으로:

Decision Transformer의 취약성: DT는 시퀀스 의사결정 작업에서 우수한 성능을 보이지만, 적대적 환경에서는 모방 학습 방식으로 정책을 학습하기 때문에 쉽게 이용당할 수 있다. 높은 수익은 상대의 약한 전략이 아닌 진정한 강건성에 기인할 수 있다.
기존 방법의 한계: Adversarially Robust Decision Transformer (ARDT)는 극소극대 수익을 조건화하여 이 문제를 완화하지만, 그 적용 범위는 결정론적 상태 전이를 가진 적대적 강화학습에만 제한되며, 확률적 상태 전이를 가진 게임에서는 과도하게 낙관적일 수 있다.
확률성 처리의 도전: 확률 게임에서 상태 전이는 본질적으로 확률적이며, ARDT는 극소극대 수익만을 조건화하여 전이 확률을 무시할 수 있으므로 높은 수익 부분 게임 방문 확률을 잘못 추정할 수 있다.

연구의 중요성

이 문제의 중요성은 다음과 같이 나타난다:

실용성: 현실 세계의 다중 에이전트 시스템은 종종 불확실성과 적대성을 포함한다
이론적 의의: 시퀀스 모델링의 적대적 강건성 연구 공백을 채운다
안전성: 적대적 환경에서 AI 시스템의 신뢰성을 향상시킨다

핵심 기여

확률 게임을 위한 첫 번째 강건한 Decision Transformer 프레임워크: 적대적 확률 게임에서 DT의 강건성을 향상시키기 위해 특별히 설계된 첫 번째 방법인 CART를 제안한다.
단계 게임 모델링: 각 시간 단계의 주인공-상대 상호작용을 단계 게임으로 모델링하며, 수익 함수는 후속 상태의 기대 최댓값으로 정의되어 확률적 상태 전이를 명시적으로 고려한다.
NashQ 값 추정 알고리즘: 기대 회귀(Expectile Regression)와 시간차 분(TD) 학습을 결합하여 모든 단계의 최적 극소극대 Q 값을 해결한다.
실증적 검증: 여러 합성 확률 게임에서 극소극대 값 추정 정확성과 최악의 경우 수익 측면에서 CART의 우월성을 검증한다.

방법 상세 설명

작업 정의

확률 게임은 $(S,A,\bar{A},T,R)$ 로 정의되며, 여기서:

$S$ : 상태 공간
$A,\bar{A}$ : 주인공과 상대의 행동 공간
$T$ : 전이 확률 분포 $s_{t+1} \sim T(\cdot|s_t,a_t,\bar{a}_t)$
$R$ : 보상 함수

목표는 적응형 상대에 강건한 주인공 정책을 학습하는 것이다: $(\pi^*,\bar{\pi}^*) = \max_\pi \min_{\bar{\pi}} E_{\tau\sim\rho^{\pi,\bar{\pi}}}[\sum_t r_t]$

모델 아키텍처

1. 단계 게임 모델링

각 시간 단계의 상호작용을 단계 게임으로 모델링하며, 여기서: $\bar{Q}(s,a,\bar{a}) = E_{s'\sim T(\cdot|s,a)}[r + V(s')]$ $V(s') = \max_{a'} Q(s',a')$

여기서 $V$ 함수는 다음 단계 상태 $s'$ 에서 최적 주인공 행동을 실행하는 기대 값을 나타낸다.

2. NashQ 값 계산

순차 게임의 NashQ 값은 다음과 같이 정의된다: $Q_{CART}(s,a) = \min_{\bar{a}} Q(s,a,\bar{a})$

3. 실용적 알고리즘 구현

직접적인 최소/최대 연산이 비효율적이므로 기대 회귀를 사용하여 근사한다:

단계 1: 단계 게임 수익 학습 $L(\bar{Q}) = E_{(s,a,\bar{a},r,s')\sim D}[\bar{Q}(s,a,\bar{a}) - V(s') - r]$

단계 2: NashQ 값 추정 $L(Q) = E_{(s,a,\bar{a},r,s')\sim D}[L^{\alpha\to0}_{ER}(Q(s,a) - \bar{Q}(s,a,\bar{a}))]$

단계 3: 최적 상태 값 함수 근사 $L(V) = E_{(s',a')\sim D}[L^{\alpha\to1}_{ER}(V(s') - Q(s',a'))]$

여기서 기대 회귀 목표는 다음과 같이 정의된다: $L^\alpha_{ER}(u) = E[u|\alpha - \mathbf{1}(u>0)| \cdot u^2]$

기술적 혁신점

확률성의 명시적 처리: 추가 상태 값 함수 $V$ 를 도입하여 상태 전이의 확률성을 명시적으로 고려하고, ARDT의 과도한 낙관주의 문제를 피한다.
기대 회귀와 TD 학습의 결합: 기대 회귀를 창의적으로 사용하여 최소/최대 연산을 근사하므로 궤적 데이터에서의 학습이 더욱 효율적이다.
보수성과 강건성의 균형: NashQ 값을 조건화하여 적대적 강건성과 전이 불확실성에 대한 보수성을 모두 갖는 정책을 생성한다.

실험 설정

데이터셋

실험은 합성 확률 게임에서 수행되며, 다음을 포함한다:

2단계 확률 게임: 주요 설명 예제
3단계 확률 게임: 더 복잡한 순차 상호작용
5개 변형 게임: 다양한 확률성 설정에서 강건성 테스트

데이터 수집은 균일 무작위 행동 정책을 사용하며, $10^5$ 개의 궤적을 포함하여 모든 가능한 궤적을 커버한다.

평가 지표

최악의 경우 수익: 정책이 최적 상대에 대항할 때의 성능
극소극대 값 추정 정확성: 이론값과의 편차

비교 방법

Decision Transformer (DT): 원본 의사결정 변환기
Adversarially Robust Decision Transformer (ARDT): 기존 적대적 강건 방법

구현 세부사항

테스트 시 상대는 최적 정책으로 가정
높은 목표 수익을 사용한 디코딩
수렴할 때까지 세 손실 함수를 교대로 최적화

실험 결과

주요 결과

2단계 확률 게임 결과

설명적 2단계 확률 게임에서:

CART: 8.0 (최악의 경우 수익)
ARDT: 5.7
DT: 6.0

5개 게임 평균 성능

5개 합성 적대적 확률 게임 전체의 평균 성능:

CART: 8.115 ± 최소 분산
ARDT: 5.948
DT: 6.421

주요 발견

목표 수익 민감성: CART는 다양한 목표 수익 설정에서 최고의 최악의 경우 수익을 유지하는 반면, ARDT와 DT는 적대적 공격 하에서 더 낮은 수익을 얻는다.
과도한 낙관주의 문제: ARDT는 드문 고수익 궤적에 의해 오도되기 쉬우며, 행동 값을 과대평가하면서 실제 전이 확률을 무시하여 높은 목표 수익에서 강건성을 잃는다.
보수성 우위: CART는 수익과 상태 전이 확률성을 함께 고려하여 최악의 경우 기대 수익을 최대화할 수 있는 실행 가능한 정책에 집중한다.