This paper investigates the impact of perturbations on the best-response-based algorithms approximating Nash equilibria in zero-sum games, namely Double Oracle and Fictitious Play. More precisely, we assume that the oracle computing the best responses perturbs the utilities before selecting the best response. We show that using such an oracle reduces the number of iterations for both algorithms. For some cases, suitable perturbations ensure the expected number of iterations is logarithmic. Although the utility perturbation is computationally demanding as it requires iterating through all pure strategies, we demonstrate that one can efficiently perturb the utilities in games where pure strategies have further inner structure.
academic
Perturbando Respuestas Óptimas en Juegos de Suma Cero
Este artículo investiga los efectos de la perturbación en algoritmos basados en respuestas óptimas, que se utilizan para aproximar equilibrios de Nash en juegos de suma cero, con especial atención en los algoritmos Double Oracle y Fictitious Play. El estudio asume que el oráculo que calcula respuestas óptimas perturba las utilidades aleatoriamente antes de seleccionar la respuesta óptima. Se demuestra que el uso de este oráculo perturbado reduce el número de iteraciones en ambos algoritmos. En ciertos casos, una perturbación adecuada puede garantizar que el número esperado de iteraciones sea logarítmico. Aunque la perturbación de utilidades requiere recorrer todas las estrategias puras con alto costo computacional, el estudio prueba que para juegos donde las estrategias puras tienen estructura interna (como juegos estocásticos parcialmente observables), la perturbación puede implementarse eficientemente.
Calcular equilibrios de Nash en juegos bipartitos de suma cero con espacios de estrategia grandes es un problema computacionalmente intensivo. Aunque teóricamente se sabe que existen equilibrios ε-Nash de tamaño O(log n) (donde n es el número de estrategias puras), los algoritmos tradicionales basados en oráculos de respuesta óptima (BRO) como Fictitious Play (FP) y Double Oracle (DO) requieren Ω(n) iteraciones en el peor caso.
Brecha Teoría-Práctica: Althöfer y Lipton demostraron la existencia de ε-NE de tamaño logarítmico, pero los algoritmos prácticos no alcanzan esta complejidad
Limitaciones de Cotas Inferiores: Hazan y Koren probaron que cualquier algoritmo basado en BRO requiere al menos Ω(√n/log³n) iteraciones
Necesidades de Aplicaciones Prácticas: Los algoritmos de aprendizaje por refuerzo profundo (como Policy Space Response Oracles) dependen de estos algoritmos fundamentales
FP y DO: Requieren O(n) iteraciones en el peor caso
Algoritmo Hazan-Koren: Aunque proporciona complejidad O(√n/ε²), es complejo y solo ofrece mejora de raíz cuadrada
Métodos de Regularización: Como PU y OMWU alcanzan O(log n) iteraciones, pero requieren mantener distribuciones de probabilidad para todas las estrategias puras, no siendo adecuados para juegos grandes
Mediante la introducción de perturbación en el oráculo de respuesta óptima, haciéndolo más potente, se busca superar las limitaciones de las cotas teóricas inferiores, logrando velocidad de convergencia logarítmica.
Introducción del Oráculo de Respuesta Óptima Perturbada (PBRO): Se propone un mecanismo que perturba aleatoriamente las utilidades antes de calcular la respuesta óptima
Resultados Teóricos:
Se prueba que Stochastic Fictitious Play (SFP) alcanza complejidad de iteraciones O(log n/ε²) en esperanza
Se prueba que Stochastic Double Oracle (SDO) alcanza O(log n) iteraciones esperadas en instancias específicamente difíciles (ejemplo de Zhang y Sandholm)
Esquema de Implementación Eficiente: Se propone un método de perturbación eficiente para juegos con estructura interna (como POSG, juegos de planificación de rutas), sin necesidad de recorrer todas las estrategias puras
Verificación Experimental: Se valida la efectividad del método de perturbación en múltiples tipos de juegos, incluyendo juegos matriciales, juegos estocásticos y juegos de planificación de rutas
Herramientas Teóricas: Se utiliza el truco Gumbel-max para establecer la conexión entre SFP y el predictor exponencial ponderado aleatorio (REWF)
Entrada: Juego matricial M ∈ ℝ^(m×n), parámetro de precisión ε > 0
Salida: Par de estrategias ε-equilibrio de Nash ⟨p*, q*⟩
Restricción: Minimizar el número de iteraciones (llamadas al oráculo)
Truco Gumbel-max (Lema 1):
Para un vector x ∈ ℝ^n, si z tiene componentes independientes e idénticamente distribuidas según la distribución Gumbel G(0,β):
P(argmax_i π_i(x+z) = i*) = π_i*(softmax(x/β))
Esto significa que usar respuesta óptima con perturbación Gumbel es equivalente a muestrear de una distribución softmax.
Conexión con REWF:
La selección de estrategia del jugador fila en SFP es equivalente a la estrategia REWF
En la ronda t, se muestrea de softmax(-η∑^{t-1} Me)
El parámetro η = 1/β controla el equilibrio exploración-explotación
Teorema 3 (Complejidad de SFP):
Para juego matricial normalizado a 0,1 M ∈ ℝ^(m×n), m ≤ n, estableciendo β = (2+√(2ln n))/(ε√(8ln n)), SFP encuentra ε-NE en O(log n/ε²) iteraciones esperadas.
Esquema de Prueba:
Establecer número de iteraciones T = ((2+√(2ln n))/ε)² ∈ O(log n/ε²)
Utilizar Corolario 2 (cota de arrepentimiento de REWF), con probabilidad ≥3/4:
Lema 4 (Esperanza de Perturbación Uniforme):
Para la fila k con x = ⟨1,...,1,0,-1,...,-1⟩, usando perturbación U(-1/2,1/2),
el índice esperado de respuesta óptima perturbada EI = k/2
Teorema 6: SDO encuentra NE de L en O(log n) iteraciones esperadas
Técnica de Prueba:
Definir función potencial X_t = max{r_t, c_t}, donde r_t = min R_t, c_t = min C_t
Usar teoría de drift para probar X_t - EX_{t+2} ≥ X_t/2
Hofbauer y Sandholm (2002): Prueba conexión entre perturbación y regularización
PU y OMWU: Variantes de AFP regularizadas de Cen et al. (2024), alcanzan O(log n) pero requieren mantener distribuciones de probabilidad para todas estrategias
Diferencia de Este Artículo: PBRO solo requiere mantener subconjunto de estrategias seleccionadas, adecuado para juegos grandes
Althöfer (1994) - Existencia de ε-NE de tamaño logarítmico
Hazan & Koren (2016) - Límites teóricos de algoritmos BRO
Hofbauer & Sandholm (2002) - Prueba de convergencia de SFP
Cesa-Bianchi & Lugosi (2006) - Algoritmo REWF
Trabajo Relacionado:
5. Zhang & Sandholm (2024) - Cota inferior exponencial de DO
6. Cloud et al. (2023) - Anticipatory Fictitious Play
7. Lanctot et al. (2017) - Policy Space Response Oracles
8. Cen et al. (2024) - Algoritmos de juego regularizados
Evaluación General: Este es un excelente artículo que combina bien teoría y práctica. La contribución principal es probar que el mecanismo de perturbación permite que algoritmos BRO alcancen complejidad logarítmica, superando la cota inferior teórica conocida (mediante fortalecimiento de oráculo). El resultado teórico de SFP es completo y riguroso, el análisis de SDO aunque incompleto proporciona perspectivas valiosas. El diseño experimental es completo, reportando honestamente el rango de aplicabilidad del método. Las principales insuficiencias son que la complejidad general de SDO no se resuelve, y falta explicación teórica del pobre desempeño en juegos aleatorios. Este trabajo abre nueva dirección para investigación de algoritmos de teoría de juegos, con potencial valor de aplicación en aprendizaje por refuerzo profundo, mereciendo investigación adicional.