2025-11-17T12:28:12.099327

Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling

Tang, Cheng, Kumar
The Transformer, a highly expressive architecture for sequence modeling, has recently been adapted to solve sequential decision-making, most notably through the Decision Transformer (DT), which learns policies by conditioning on desired returns. Yet, the adversarial robustness of reinforcement learning methods based on sequence modeling remains largely unexplored. Here we introduce the Conservative Adversarially Robust Decision Transformer (CART), to our knowledge the first framework designed to enhance the robustness of DT in adversarial stochastic games. We formulate the interaction between the protagonist and the adversary at each stage as a stage game, where the payoff is defined as the expected maximum value over subsequent states, thereby explicitly incorporating stochastic state transitions. By conditioning Transformer policies on the NashQ value derived from these stage games, CART generates policy that are simultaneously less exploitable (adversarially robust) and conservative to transition uncertainty. Empirically, CART achieves more accurate minimax value estimation and consistently attains superior worst-case returns across a range of adversarial stochastic games.
academic

Aprendizaje por Refuerzo Adversarial Robusto en Juegos Estocásticos mediante Modelado de Secuencias

Información Básica

  • ID del Artículo: 2510.11877
  • Título: Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling
  • Autores: Xiaohang Tang (University College London), Zhuowen Cheng (Independent Researcher), Satyabrat Kumar (University College London)
  • Clasificación: cs.LG cs.GT
  • Fecha de Publicación/Conferencia: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS 2025) Taller: Reliable ML
  • Enlace del Artículo: https://arxiv.org/abs/2510.11877

Resumen

El Transformer, como arquitectura altamente expresiva para modelado de secuencias, ha sido recientemente adaptado para resolver problemas de decisión secuencial, siendo el más notable el Decision Transformer (DT), que aprende políticas condicionadas en retornos esperados. Sin embargo, la robustez adversarial de los métodos de aprendizaje por refuerzo basados en modelado de secuencias permanece en gran medida sin explorar. Este artículo introduce el Conservative Adversarially Robust Decision Transformer (CART), que es, según nuestro conocimiento, el primer marco diseñado para mejorar la robustez del DT en juegos estocásticos adversariales. Modelamos la interacción entre el protagonista y el adversario en cada etapa como un juego de etapa, donde la recompensa se define como el máximo esperado del estado subsecuente, incorporando explícitamente transiciones de estado estocásticas. Al condicionar la política del Transformer en valores NashQ derivados de estos juegos de etapa, CART genera políticas que son simultáneamente poco explotables (robustas adversarialmente) y conservadoras respecto a la incertidumbre de transición.

Contexto de Investigación y Motivación

Definición del Problema

El problema central que este estudio aborda es mejorar la robustez adversarial del Decision Transformer en entornos de juegos estocásticos. Específicamente:

  1. Fragilidad del Decision Transformer: Aunque el DT demuestra un desempeño excepcional en tareas de decisión secuencial, es vulnerable a la explotación en entornos adversariales, ya que aprende políticas mediante aprendizaje por imitación, donde los retornos elevados pueden atribuirse simplemente a debilidades en la estrategia del adversario en lugar de una verdadera robustez.
  2. Limitaciones de Métodos Existentes: El Adversarially Robust Decision Transformer (ARDT), aunque mitiga este problema condicionando en retornos minimax, es aplicable únicamente al aprendizaje por refuerzo adversarial con transiciones de estado deterministas, y puede exhibir excesivo optimismo en juegos con transiciones de estado estocásticas.
  3. Desafíos en el Manejo de la Estocasticidad: En juegos estocásticos, las transiciones de estado son inherentemente probabilísticas. El ARDT puede subestimar la probabilidad de acceso a subjuegos de alto retorno al condicionar únicamente en retornos minimax, ignorando probabilidades de transición.

Importancia de la Investigación

La importancia de este problema se manifiesta en:

  • Practicidad: Los sistemas multiagente del mundo real frecuentemente involucran incertidumbre y adversarialidad
  • Significancia Teórica: Llena un vacío en la investigación sobre robustez adversarial en modelado de secuencias
  • Seguridad: Mejora la confiabilidad de sistemas de IA en entornos adversariales

Contribuciones Principales

  1. Primer Marco de Decision Transformer Robusto para Juegos Estocásticos: Se propone CART, el primer método diseñado específicamente para mejorar la robustez del DT en juegos estocásticos adversariales.
  2. Modelado de Juegos de Etapa: Se modelan las interacciones protagonista-adversario en cada paso temporal como juegos de etapa, con funciones de recompensa definidas como el máximo esperado del estado subsecuente, considerando explícitamente transiciones de estado estocásticas.
  3. Algoritmo de Estimación de Valores NashQ: Se combinan Regresión Expectil (Expectile Regression) y aprendizaje de Diferencia Temporal (TD) para resolver los valores Q minimax óptimos en todas las etapas.
  4. Validación Empírica: Se verifica la superioridad de CART en precisión de estimación de valores minimax y retornos en el peor caso en múltiples juegos estocásticos sintéticos.

Explicación Detallada del Método

Definición de la Tarea

Un juego estocástico se define como (S,A,Aˉ,T,R)(S,A,\bar{A},T,R), donde:

  • SS: espacio de estados
  • A,AˉA,\bar{A}: espacios de acciones del protagonista y adversario
  • TT: distribución de probabilidad de transición st+1T(st,at,aˉt)s_{t+1} \sim T(\cdot|s_t,a_t,\bar{a}_t)
  • RR: función de recompensa

El objetivo es aprender una política del protagonista robusta frente a adversarios adaptativos: (π,πˉ)=maxπminπˉEτρπ,πˉ[trt](\pi^*,\bar{\pi}^*) = \max_\pi \min_{\bar{\pi}} E_{\tau\sim\rho^{\pi,\bar{\pi}}}[\sum_t r_t]

Arquitectura del Modelo

1. Modelado de Juegos de Etapa

Se modela la interacción en cada paso temporal como un juego de etapa, donde: Qˉ(s,a,aˉ)=EsT(s,a)[r+V(s)]\bar{Q}(s,a,\bar{a}) = E_{s'\sim T(\cdot|s,a)}[r + V(s')]V(s)=maxaQ(s,a)V(s') = \max_{a'} Q(s',a')

Aquí la función VV representa el valor esperado de ejecutar la acción óptima del protagonista en el estado subsecuente ss'.

2. Cálculo de Valores NashQ

El valor NashQ del juego secuencial se define como: QCART(s,a)=minaˉQ(s,a,aˉ)Q_{CART}(s,a) = \min_{\bar{a}} Q(s,a,\bar{a})

3. Implementación Algorítmica Práctica

Dado que las operaciones min/max directas son ineficientes, se utiliza regresión expectil para aproximación:

Paso 1: Aprender Recompensas del Juego de EtapaL(Qˉ)=E(s,a,aˉ,r,s)D[Qˉ(s,a,aˉ)V(s)r]L(\bar{Q}) = E_{(s,a,\bar{a},r,s')\sim D}[\bar{Q}(s,a,\bar{a}) - V(s') - r]

Paso 2: Estimar Valores NashQL(Q)=E(s,a,aˉ,r,s)D[LERα0(Q(s,a)Qˉ(s,a,aˉ))]L(Q) = E_{(s,a,\bar{a},r,s')\sim D}[L^{\alpha\to0}_{ER}(Q(s,a) - \bar{Q}(s,a,\bar{a}))]

Paso 3: Aproximar Función de Valor de Estado ÓptimoL(V)=E(s,a)D[LERα1(V(s)Q(s,a))]L(V) = E_{(s',a')\sim D}[L^{\alpha\to1}_{ER}(V(s') - Q(s',a'))]

Donde el objetivo de regresión expectil se define como: LERα(u)=E[uα1(u>0)u2]L^\alpha_{ER}(u) = E[u|\alpha - \mathbf{1}(u>0)| \cdot u^2]

Puntos de Innovación Técnica

  1. Manejo Explícito de la Estocasticidad: Al introducir una función de valor de estado adicional VV, se considera explícitamente la estocasticidad de las transiciones de estado, evitando el excesivo optimismo del ARDT.
  2. Combinación de Regresión Expectil y Aprendizaje TD: Se utiliza innovadoramente la regresión expectil para aproximar operaciones min/max, haciendo el aprendizaje en datos de trayectoria más eficiente.
  3. Equilibrio entre Conservadurismo y Robustez: Al condicionar en valores NashQ, se generan políticas que son simultáneamente robustas adversarialmente y conservadoras respecto a la incertidumbre de transición.

Configuración Experimental

Conjunto de Datos

Los experimentos se realizan en juegos estocásticos sintéticos, incluyendo:

  1. Juegos Estocásticos de Dos Etapas: Ejemplo ilustrativo principal
  2. Juegos Estocásticos de Tres Etapas: Interacciones secuenciales más complejas
  3. 5 Variantes de Juegos: Prueba de robustez bajo diferentes configuraciones de estocasticidad

La recopilación de datos utiliza una política de comportamiento uniformemente aleatoria, conteniendo 10510^5 trayectorias que cubren todas las trayectorias posibles.

Métricas de Evaluación

  • Retorno en el Peor Caso: Desempeño de la política contra el adversario óptimo
  • Precisión de Estimación de Valores Minimax: Desviación respecto a valores teóricos

Métodos de Comparación

  • Decision Transformer (DT): Transformador de decisión original
  • Adversarially Robust Decision Transformer (ARDT): Método de robustez adversarial existente

Detalles de Implementación

  • El adversario en tiempo de prueba se asume como política óptima
  • Se utiliza decodificación con objetivo de retorno elevado
  • Optimización alternada de tres funciones de pérdida hasta convergencia

Resultados Experimentales

Resultados Principales

Resultados de Juego Estocástico de Dos Etapas

En el juego estocástico de dos etapas ilustrativo:

  • CART: 8.0 (retorno en el peor caso)
  • ARDT: 5.7
  • DT: 6.0

Desempeño Promedio en 5 Juegos

Desempeño promedio en 5 juegos estocásticos adversariales sintéticos:

  • CART: 8.115 ± varianza mínima
  • ARDT: 5.948
  • DT: 6.421

Hallazgos Clave

  1. Sensibilidad al Retorno Objetivo: CART mantiene el retorno en el peor caso más elevado en diferentes configuraciones de retorno objetivo, mientras que ARDT y DT obtienen retornos más bajos bajo ataque adversarial.
  2. Problema de Excesivo Optimismo: ARDT es fácilmente engañado por trayectorias raras de alto retorno, sobreestimando valores de acciones mientras ignora probabilidades de transición reales, perdiendo robustez con retornos objetivo elevados.
  3. Ventaja de Conservadurismo: CART, al considerar conjuntamente recompensas y estocasticidad de transición de estado, se enfoca en políticas viables que maximizan el retorno esperado en el peor caso.

Análisis de Casos

En el ejemplo ilustrativo de la Figura 1:

  • ARDT ignora la baja probabilidad de alcanzar el estado esperado s2s'_2, siendo excesivamente optimista en estimaciones de valores de estado y acción
  • CART maneja la estocasticidad asignando máximos esperados, resultando en estimaciones de valor más conservadoras y precisas

Trabajo Relacionado

Solución de Juegos Estocásticos

La solución de juegos de dos jugadores en aprendizaje en línea ha sido ampliamente estudiada, mediante autocompetencia en línea para minimizar arrepentimiento y converger a equilibrio de Nash. Sin embargo, este trabajo se enfoca en configuración de aprendizaje sin conexión.

Aprendizaje por Refuerzo Sin Conexión

  • Conservative Q-Learning (CQL): Mitiga sobreestimación de Q mediante objetivos pesimistas
  • Implicit Q-Learning (IQL): Estabiliza valores mediante aprendizaje de funciones de valor implícitas con regresión expectil
  • ARDT: Logra robustez adversarial en juegos de suma cero estática mediante regresión expectil minimax

Extensiones de Decision Transformer

  • Trajectory Transformer: Captura estocasticidad de trayectoria mediante variables latentes
  • Online Decision Transformer: Integra aprendizaje por refuerzo híbrido sin conexión-en línea
  • Multi-Game Decision Transformer: Soporta aprendizaje por transferencia y adaptación con pocos ejemplos

Conclusiones y Discusión

Conclusiones Principales

CART resuelve exitosamente el problema de robustez adversarial del DT en juegos estocásticos mediante:

  1. Modelado de interacciones como juegos de etapa, considerando explícitamente transiciones estocásticas
  2. Uso de valores NashQ para condicionar, generando políticas robustas y conservadoras
  3. Logro de desempeño superior en el peor caso en múltiples juegos estocásticos

Limitaciones

  1. Escala Experimental: Actualmente validado únicamente en juegos sintéticos de horizonte corto
  2. Complejidad Computacional: La optimización alternada de tres funciones objetivo puede aumentar la carga computacional
  3. Análisis Teórico: Carece de garantías teóricas de convergencia y robustez

Direcciones Futuras

  1. Extensión a Entornos Complejos: Como variantes de póker (póker de Kuhn y Leduc) y otros entornos competitivos multiagente más complejos
  2. Planificación a Largo Plazo: Exploración de juegos a mayor escala y horizontes de planificación más extensos
  3. Perfeccionamiento Teórico: Proporcionar análisis teórico de convergencia y robustez

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación: Primera introducción de robustez adversarial en modelado de secuencias para juegos estocásticos, llenando un vacío importante en la investigación
  2. Método Razonable: La combinación de modelado de juegos de etapa y regresión expectil maneja elegantemente los desafíos duales de estocasticidad y adversarialidad
  3. Experimentación Suficiente: Aunque en entornos sintéticos, se diseñaron múltiples variantes para validar la efectividad del método
  4. Problema Importante: El problema abordado posee valor práctico y significancia teórica importantes

Insuficiencias

  1. Limitaciones Experimentales: Validación únicamente en entornos sintéticos simples, carece de verificación en aplicaciones del mundo real
  2. Ausencia Teórica: Carece de análisis teórico de convergencia, complejidad y robustez
  3. Complejidad del Método: Requiere optimización alternada de múltiples funciones objetivo, potencialmente afectando practicidad
  4. Comparación Limitada: Solo comparación con ARDT y DT, carece de comparación con otros métodos de aprendizaje por refuerzo robusto

Impacto

  1. Contribución Académica: Abre nuevas direcciones para aplicación de modelado de secuencias en entornos adversariales
  2. Valor Práctico: Proporciona nuevas perspectivas para desarrollo de sistemas multiagente más robustos
  3. Reproducibilidad: Descripción clara del método y configuración experimental simple, facilitando reproducción

Escenarios Aplicables

  1. Sistemas Multiagente: Entornos con adversarialidad e incertidumbre
  2. Aplicaciones Críticas de Seguridad: Escenarios que requieren garantía de desempeño en el peor caso
  3. Aprendizaje Sin Conexión: Entornos donde no es posible interacción en línea

Referencias

Este artículo cita trabajos importantes en los campos de aprendizaje por refuerzo, teoría de juegos y modelado de secuencias, incluyendo:

  • Chen et al. (2021) - Trabajo original del Decision Transformer
  • Tang et al. (2024a) - Método ARDT
  • Hu and Wellman (2003) - Nash Q-Learning
  • Vaswani et al. (2017) - Arquitectura Transformer

Evaluación General: Este es un artículo de investigación de alta calidad que aborda un problema importante y desafiante. Aunque existe espacio para mejora en validación experimental y análisis teórico, su innovación y razonabilidad metodológica lo convierten en una contribución valiosa a este campo.