The Transformer, a highly expressive architecture for sequence modeling, has recently been adapted to solve sequential decision-making, most notably through the Decision Transformer (DT), which learns policies by conditioning on desired returns. Yet, the adversarial robustness of reinforcement learning methods based on sequence modeling remains largely unexplored. Here we introduce the Conservative Adversarially Robust Decision Transformer (CART), to our knowledge the first framework designed to enhance the robustness of DT in adversarial stochastic games. We formulate the interaction between the protagonist and the adversary at each stage as a stage game, where the payoff is defined as the expected maximum value over subsequent states, thereby explicitly incorporating stochastic state transitions. By conditioning Transformer policies on the NashQ value derived from these stage games, CART generates policy that are simultaneously less exploitable (adversarially robust) and conservative to transition uncertainty. Empirically, CART achieves more accurate minimax value estimation and consistently attains superior worst-case returns across a range of adversarial stochastic games.
- 논문 ID: 2510.11877
- 제목: Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling
- 저자: Xiaohang Tang (University College London), Zhuowen Cheng (Independent Researcher), Satyabrat Kumar (University College London)
- 분류: cs.LG cs.GT
- 발표 시간/학회: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Reliable ML
- 논문 링크: https://arxiv.org/abs/2510.11877
Transformer는 시퀀스 모델링의 표현력 있는 아키텍처로서 최근 시퀀스 의사결정 문제 해결에 적용되고 있으며, 그 중 가장 유명한 것은 기대 수익을 조건화하여 정책을 학습하는 Decision Transformer (DT)이다. 그러나 시퀀스 모델링 기반 강화학습 방법의 적대적 강건성은 여전히 크게 미탐색 상태이다. 본 논문은 Conservative Adversarially Robust Decision Transformer (CART)를 소개하며, 이는 우리가 아는 한 DT의 적대적 확률 게임에서의 강건성을 향상시키기 위해 설계된 첫 번째 프레임워크이다. 우리는 각 단계에서 주인공과 상대 간의 상호작용을 단계 게임으로 모델링하며, 여기서 수익은 후속 상태의 기대 최댓값으로 정의되어 확률적 상태 전이를 명시적으로 포함한다. 이러한 단계 게임에서 유도된 NashQ 값을 조건화하여 Transformer 정책을 구성함으로써, CART는 낮은 이용 가능성(적대적 강건성)과 전이 불확실성에 대한 보수성을 동시에 갖는 정책을 생성한다.
본 연구가 해결하고자 하는 핵심 문제는 확률 게임 환경에서 Decision Transformer의 적대적 강건성을 향상시키는 것이다. 구체적으로:
- Decision Transformer의 취약성: DT는 시퀀스 의사결정 작업에서 우수한 성능을 보이지만, 적대적 환경에서는 모방 학습 방식으로 정책을 학습하기 때문에 쉽게 이용당할 수 있다. 높은 수익은 상대의 약한 전략이 아닌 진정한 강건성에 기인할 수 있다.
- 기존 방법의 한계: Adversarially Robust Decision Transformer (ARDT)는 극소극대 수익을 조건화하여 이 문제를 완화하지만, 그 적용 범위는 결정론적 상태 전이를 가진 적대적 강화학습에만 제한되며, 확률적 상태 전이를 가진 게임에서는 과도하게 낙관적일 수 있다.
- 확률성 처리의 도전: 확률 게임에서 상태 전이는 본질적으로 확률적이며, ARDT는 극소극대 수익만을 조건화하여 전이 확률을 무시할 수 있으므로 높은 수익 부분 게임 방문 확률을 잘못 추정할 수 있다.
이 문제의 중요성은 다음과 같이 나타난다:
- 실용성: 현실 세계의 다중 에이전트 시스템은 종종 불확실성과 적대성을 포함한다
- 이론적 의의: 시퀀스 모델링의 적대적 강건성 연구 공백을 채운다
- 안전성: 적대적 환경에서 AI 시스템의 신뢰성을 향상시킨다
- 확률 게임을 위한 첫 번째 강건한 Decision Transformer 프레임워크: 적대적 확률 게임에서 DT의 강건성을 향상시키기 위해 특별히 설계된 첫 번째 방법인 CART를 제안한다.
- 단계 게임 모델링: 각 시간 단계의 주인공-상대 상호작용을 단계 게임으로 모델링하며, 수익 함수는 후속 상태의 기대 최댓값으로 정의되어 확률적 상태 전이를 명시적으로 고려한다.
- NashQ 값 추정 알고리즘: 기대 회귀(Expectile Regression)와 시간차 분(TD) 학습을 결합하여 모든 단계의 최적 극소극대 Q 값을 해결한다.
- 실증적 검증: 여러 합성 확률 게임에서 극소극대 값 추정 정확성과 최악의 경우 수익 측면에서 CART의 우월성을 검증한다.
확률 게임은 (S,A,Aˉ,T,R)로 정의되며, 여기서:
- S: 상태 공간
- A,Aˉ: 주인공과 상대의 행동 공간
- T: 전이 확률 분포 st+1∼T(⋅∣st,at,aˉt)
- R: 보상 함수
목표는 적응형 상대에 강건한 주인공 정책을 학습하는 것이다:
(π∗,πˉ∗)=maxπminπˉEτ∼ρπ,πˉ[∑trt]
각 시간 단계의 상호작용을 단계 게임으로 모델링하며, 여기서:
Qˉ(s,a,aˉ)=Es′∼T(⋅∣s,a)[r+V(s′)]V(s′)=maxa′Q(s′,a′)
여기서 V 함수는 다음 단계 상태 s′에서 최적 주인공 행동을 실행하는 기대 값을 나타낸다.
순차 게임의 NashQ 값은 다음과 같이 정의된다:
QCART(s,a)=minaˉQ(s,a,aˉ)
직접적인 최소/최대 연산이 비효율적이므로 기대 회귀를 사용하여 근사한다:
단계 1: 단계 게임 수익 학습L(Qˉ)=E(s,a,aˉ,r,s′)∼D[Qˉ(s,a,aˉ)−V(s′)−r]
단계 2: NashQ 값 추정L(Q)=E(s,a,aˉ,r,s′)∼D[LERα→0(Q(s,a)−Qˉ(s,a,aˉ))]
단계 3: 최적 상태 값 함수 근사L(V)=E(s′,a′)∼D[LERα→1(V(s′)−Q(s′,a′))]
여기서 기대 회귀 목표는 다음과 같이 정의된다: LERα(u)=E[u∣α−1(u>0)∣⋅u2]
- 확률성의 명시적 처리: 추가 상태 값 함수 V를 도입하여 상태 전이의 확률성을 명시적으로 고려하고, ARDT의 과도한 낙관주의 문제를 피한다.
- 기대 회귀와 TD 학습의 결합: 기대 회귀를 창의적으로 사용하여 최소/최대 연산을 근사하므로 궤적 데이터에서의 학습이 더욱 효율적이다.
- 보수성과 강건성의 균형: NashQ 값을 조건화하여 적대적 강건성과 전이 불확실성에 대한 보수성을 모두 갖는 정책을 생성한다.
실험은 합성 확률 게임에서 수행되며, 다음을 포함한다:
- 2단계 확률 게임: 주요 설명 예제
- 3단계 확률 게임: 더 복잡한 순차 상호작용
- 5개 변형 게임: 다양한 확률성 설정에서 강건성 테스트
데이터 수집은 균일 무작위 행동 정책을 사용하며, 105개의 궤적을 포함하여 모든 가능한 궤적을 커버한다.
- 최악의 경우 수익: 정책이 최적 상대에 대항할 때의 성능
- 극소극대 값 추정 정확성: 이론값과의 편차
- Decision Transformer (DT): 원본 의사결정 변환기
- Adversarially Robust Decision Transformer (ARDT): 기존 적대적 강건 방법
- 테스트 시 상대는 최적 정책으로 가정
- 높은 목표 수익을 사용한 디코딩
- 수렴할 때까지 세 손실 함수를 교대로 최적화
설명적 2단계 확률 게임에서:
- CART: 8.0 (최악의 경우 수익)
- ARDT: 5.7
- DT: 6.0
5개 합성 적대적 확률 게임 전체의 평균 성능:
- CART: 8.115 ± 최소 분산
- ARDT: 5.948
- DT: 6.421
- 목표 수익 민감성: CART는 다양한 목표 수익 설정에서 최고의 최악의 경우 수익을 유지하는 반면, ARDT와 DT는 적대적 공격 하에서 더 낮은 수익을 얻는다.
- 과도한 낙관주의 문제: ARDT는 드문 고수익 궤적에 의해 오도되기 쉬우며, 행동 값을 과대평가하면서 실제 전이 확률을 무시하여 높은 목표 수익에서 강건성을 잃는다.
- 보수성 우위: CART는 수익과 상태 전이 확률성을 함께 고려하여 최악의 경우 기대 수익을 최대화할 수 있는 실행 가능한 정책에 집중한다.
그림 1의 설명 예제에서:
- ARDT는 기대 상태 s2′에 도달할 작은 확률을 무시하고 상태 및 행동 값 추정에서 과도하게 낙관적이다
- CART는 기대 최댓값을 할당하여 확률성을 처리하므로 값 추정이 더욱 보수적이고 정확하다
온라인 학습에서의 2인 게임 해결은 온라인 자기 대전을 통해 나쉬 균형으로 수렴하는 후회 최소화로 광범위하게 연구되었다. 그러나 본 연구는 오프라인 학습 설정에 초점을 맞춘다.
- Conservative Q-Learning (CQL): 비관적 목표를 통해 Q 값 과대평가 완화
- Implicit Q-Learning (IQL): 기대 회귀를 통해 암묵적 값 함수를 학습하여 값 안정화 달성
- ARDT: 정적 영합 게임에서 극소극대 기대 회귀를 통해 적대적 강건성 달성
- Trajectory Transformer: 잠재 변수를 통해 궤적 확률성 포착
- Online Decision Transformer: 혼합 오프라인-온라인 강화학습 통합
- Multi-Game Decision Transformer: 전이 학습 및 소수 샷 적응 지원
CART는 다음과 같은 방식으로 확률 게임에서 DT의 적대적 강건성 문제를 성공적으로 해결한다:
- 상호작용을 단계 게임으로 모델링하여 확률적 전이를 명시적으로 고려
- NashQ 값을 사용한 조건화로 강건하면서도 보수적인 정책 생성
- 여러 확률 게임에서 우수한 최악의 경우 성능 달성
- 실험 규모: 현재 단기 시간 영역의 합성 게임에서만 검증
- 계산 복잡도: 세 개의 목표 함수를 교대로 최적화하면 계산 오버헤드 증가 가능
- 이론적 분석: 수렴성 및 강건성에 대한 이론적 보장 부재
- 복잡한 환경으로 확장: Kuhn 및 Leduc 포커 변형 등 더 복잡한 다중 에이전트 경쟁 환경
- 장기 계획: 더 큰 규모 게임 및 더 긴 계획 시간 영역 탐색
- 이론 완성: 수렴성 및 강건성에 대한 이론적 분석 제공
- 높은 혁신성: 확률 게임의 시퀀스 모델링에 적대적 강건성을 처음 도입하여 중요한 연구 공백을 채운다
- 합리적 방법: 단계 게임 모델링과 기대 회귀의 결합을 통해 확률성과 적대성의 이중 도전을 우아하게 처리한다
- 충분한 실험: 합성 환경이지만 방법의 효과성을 검증하기 위해 여러 변형을 설계했다
- 중요한 문제: 해결하는 문제는 중요한 실용 가치와 이론적 의의를 갖는다
- 실험 한계: 단순한 합성 환경에서만 검증되어 실제 응용 검증 부족
- 이론 부재: 수렴성, 복잡도 및 강건성에 대한 이론적 분석 부재
- 방법 복잡성: 여러 목표 함수를 교대로 최적화해야 하므로 실용성에 영향 가능
- 제한된 비교: ARDT 및 DT와만 비교하여 다른 강건 강화학습 방법과의 비교 부족
- 학술적 기여: 시퀀스 모델링의 적대적 환경 응용에 새로운 방향 개척
- 실용적 가치: 더욱 강건한 다중 에이전트 시스템 개발을 위한 새로운 아이디어 제공
- 재현성: 방법 설명이 명확하고 실험 설정이 단순하여 재현이 용이하다
- 다중 에이전트 시스템: 적대성과 불확실성이 존재하는 환경
- 안전 관련 응용: 최악의 경우 성능을 보장해야 하는 시나리오
- 오프라인 학습: 온라인 상호작용이 불가능한 환경
본 논문은 강화학습, 게임 이론 및 시퀀스 모델링 분야의 중요한 연구를 인용하며, 다음을 포함한다:
- Chen et al. (2021) - Decision Transformer의 원본 연구
- Tang et al. (2024a) - ARDT 방법
- Hu and Wellman (2003) - Nash Q-Learning
- Vaswani et al. (2017) - Transformer 아키텍처
종합 평가: 이는 중요하고 도전적인 문제를 해결하는 고품질 연구 논문이다. 실험 검증 및 이론적 분석 측면에서 개선 여지가 있지만, 혁신성과 방법의 합리성으로 인해 해당 분야의 가치 있는 기여가 된다.