2025-11-18T08:49:13.884110

Perturbing Best Responses in Zero-Sum Games

Dziwoki, Horcik

This paper investigates the impact of perturbations on the best-response-based algorithms approximating Nash equilibria in zero-sum games, namely Double Oracle and Fictitious Play. More precisely, we assume that the oracle computing the best responses perturbs the utilities before selecting the best response. We show that using such an oracle reduces the number of iterations for both algorithms. For some cases, suitable perturbations ensure the expected number of iterations is logarithmic. Although the utility perturbation is computationally demanding as it requires iterating through all pure strategies, we demonstrate that one can efficiently perturb the utilities in games where pure strategies have further inner structure.

academic

Perturbando Respuestas Óptimas en Juegos de Suma Cero

Información Básica

ID del Artículo: 2511.12523
Título: Perturbing Best Responses in Zero-Sum Games
Autores: Adam Dziwoki, Rostislav Horčík (Universidad Técnica Checa de Praga)
Clasificación: cs.GT (Teoría de Juegos), cs.AI (Inteligencia Artificial)
Fecha de Publicación: 16 de noviembre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2511.12523
Enlace del Código: https://github.com/geoborek/perturbing-best-responses

Resumen

Este artículo investiga los efectos de la perturbación en algoritmos basados en respuestas óptimas, que se utilizan para aproximar equilibrios de Nash en juegos de suma cero, con especial atención en los algoritmos Double Oracle y Fictitious Play. El estudio asume que el oráculo que calcula respuestas óptimas perturba las utilidades aleatoriamente antes de seleccionar la respuesta óptima. Se demuestra que el uso de este oráculo perturbado reduce el número de iteraciones en ambos algoritmos. En ciertos casos, una perturbación adecuada puede garantizar que el número esperado de iteraciones sea logarítmico. Aunque la perturbación de utilidades requiere recorrer todas las estrategias puras con alto costo computacional, el estudio prueba que para juegos donde las estrategias puras tienen estructura interna (como juegos estocásticos parcialmente observables), la perturbación puede implementarse eficientemente.

Antecedentes y Motivación de la Investigación

Problema Central

Calcular equilibrios de Nash en juegos bipartitos de suma cero con espacios de estrategia grandes es un problema computacionalmente intensivo. Aunque teóricamente se sabe que existen equilibrios ε-Nash de tamaño O(log n) (donde n es el número de estrategias puras), los algoritmos tradicionales basados en oráculos de respuesta óptima (BRO) como Fictitious Play (FP) y Double Oracle (DO) requieren Ω(n) iteraciones en el peor caso.

Importancia

Brecha Teoría-Práctica: Althöfer y Lipton demostraron la existencia de ε-NE de tamaño logarítmico, pero los algoritmos prácticos no alcanzan esta complejidad
Limitaciones de Cotas Inferiores: Hazan y Koren probaron que cualquier algoritmo basado en BRO requiere al menos Ω(√n/log³n) iteraciones
Necesidades de Aplicaciones Prácticas: Los algoritmos de aprendizaje por refuerzo profundo (como Policy Space Response Oracles) dependen de estos algoritmos fundamentales

Limitaciones de Métodos Existentes

FP y DO: Requieren O(n) iteraciones en el peor caso
Algoritmo Hazan-Koren: Aunque proporciona complejidad O(√n/ε²), es complejo y solo ofrece mejora de raíz cuadrada
Métodos de Regularización: Como PU y OMWU alcanzan O(log n) iteraciones, pero requieren mantener distribuciones de probabilidad para todas las estrategias puras, no siendo adecuados para juegos grandes

Motivación de la Investigación

Mediante la introducción de perturbación en el oráculo de respuesta óptima, haciéndolo más potente, se busca superar las limitaciones de las cotas teóricas inferiores, logrando velocidad de convergencia logarítmica.

Contribuciones Principales

Introducción del Oráculo de Respuesta Óptima Perturbada (PBRO): Se propone un mecanismo que perturba aleatoriamente las utilidades antes de calcular la respuesta óptima
Resultados Teóricos:
- Se prueba que Stochastic Fictitious Play (SFP) alcanza complejidad de iteraciones O(log n/ε²) en esperanza
- Se prueba que Stochastic Double Oracle (SDO) alcanza O(log n) iteraciones esperadas en instancias específicamente difíciles (ejemplo de Zhang y Sandholm)
Esquema de Implementación Eficiente: Se propone un método de perturbación eficiente para juegos con estructura interna (como POSG, juegos de planificación de rutas), sin necesidad de recorrer todas las estrategias puras
Verificación Experimental: Se valida la efectividad del método de perturbación en múltiples tipos de juegos, incluyendo juegos matriciales, juegos estocásticos y juegos de planificación de rutas
Herramientas Teóricas: Se utiliza el truco Gumbel-max para establecer la conexión entre SFP y el predictor exponencial ponderado aleatorio (REWF)

Explicación Detallada del Método

Definición de la Tarea

Entrada: Juego matricial M ∈ ℝ^(m×n), parámetro de precisión ε > 0 Salida: Par de estrategias ε-equilibrio de Nash ⟨p*, q*⟩ Restricción: Minimizar el número de iteraciones (llamadas al oráculo)

Definición Matemática de la Respuesta Óptima Perturbada

Para el jugador fila, dada la estrategia mixta del jugador columna q ∈ Δ_n:

B̃R_r(q) ∈ argmin_{i∈[m]} π_i(Mq - u)

donde u es un vector aleatorio cuyos componentes son variables aleatorias i.i.d.

Para el jugador columna, dada la estrategia mixta del jugador fila p ∈ Δ_m:

B̃R_c(p) ∈ argmax_{j∈[n]} π_j(p^⊤M + v)

Stochastic Fictitious Play (SFP)

Flujo del Algoritmo:

Inicialización: t←1, p←e_k, q←e_l (estrategias puras iniciales)
Calcular límites de condición de terminación: lb←BRVal_r(q), ub←BRVal_c(p)
Mientras ub - lb > tε:
- t←t+1
- i←B̃R_r(q), j←B̃R_c(p) (respuesta óptima perturbada)
- p←p+e_i, q←q+e_j (acumulación de estrategias)
- Actualizar límites
Retornar estrategia promediada: ⟨p*/t, q*/t⟩

Innovaciones Clave:

Uso de oráculo perturbado en lugar de oráculo determinista
Mantenimiento de vectores de estrategia acumulada, retornando estrategia promediada al final
Condición de terminación usando valores de respuesta óptima sin perturbar

Fundamentos Teóricos de la Perturbación Gumbel

Truco Gumbel-max (Lema 1): Para un vector x ∈ ℝ^n, si z tiene componentes independientes e idénticamente distribuidas según la distribución Gumbel G(0,β):

P(argmax_i π_i(x+z) = i*) = π_i*(softmax(x/β))

Esto significa que usar respuesta óptima con perturbación Gumbel es equivalente a muestrear de una distribución softmax.

Conexión con REWF:

La selección de estrategia del jugador fila en SFP es equivalente a la estrategia REWF
En la ronda t, se muestrea de softmax(-η∑^{t-1} Me)
El parámetro η = 1/β controla el equilibrio exploración-explotación

Núcleo del Análisis Teórico

Teorema 3 (Complejidad de SFP): Para juego matricial normalizado a 0,1 M ∈ ℝ^(m×n), m ≤ n, estableciendo β = (2+√(2ln n))/(ε√(8ln n)), SFP encuentra ε-NE en O(log n/ε²) iteraciones esperadas.

Esquema de Prueba:

Establecer número de iteraciones T = ((2+√(2ln n))/ε)² ∈ O(log n/ε²)
Utilizar Corolario 2 (cota de arrepentimiento de REWF), con probabilidad ≥3/4:
```
∑_{t=1}^T M(i_t,j_t) - min_i ∑_{t=1}^T M(i,j_t) ≤ √T(1 + √(ln n)/2)
```
Aplicar resultado dual para jugador columna (probabilidad ≥3/4)
Ambos eventos ocurren simultáneamente con probabilidad ≥1/2
Combinar ambas desigualdades para obtener ub - lb ≤ ε
Número esperado de ejecuciones ≤2

Stochastic Double Oracle (SDO)

Características del Algoritmo:

Mantener subconjuntos de estrategias R ⊆ m, C ⊆ n
Cada ronda calcula el equilibrio de Nash del subjuego MR,C
Usar oráculo perturbado para añadir nuevas estrategias

Análisis para Juegos Específicos:

Ejemplo 1 (Matriz L):

L = [0   1   ...  1  ]
    [-1  0   ...  1  ]
    [⋮   ⋮   ⋱   ⋮  ]
    [-1  -1  ... 0  ]

Lema 4 (Esperanza de Perturbación Uniforme): Para la fila k con x = ⟨1,...,1,0,-1,...,-1⟩, usando perturbación U(-1/2,1/2), el índice esperado de respuesta óptima perturbada EI = k/2

Teorema 6: SDO encuentra NE de L en O(log n) iteraciones esperadas

Técnica de Prueba:

Definir función potencial X_t = max{r_t, c_t}, donde r_t = min R_t, c_t = min C_t
Usar teoría de drift para probar X_t - EX_{t+2} ≥ X_t/2
Aplicar Corolario 17 para obtener ET ≤ 2ln n

Implementación Eficiente de Perturbación

Método de Agrupamiento: Para juegos con estructura interna (como juegos estocásticos):

Identificar elementos matriciales correspondientes al mismo estado terminal
Agrupar elementos matriciales en K clusters
Aplicar el mismo valor de perturbación aleatoria a cada cluster

Fórmula de Perturbación:

B̃R_r(q) = argmin_{i∈[m]} π_i((L + ∑_{k=1}^K z_k B_k)q)

donde B_k es matriz de máscara, identificando elementos del k-ésimo cluster

Ventajas:

Solo necesita generar K números aleatorios (K << mn)
Preserva la semántica de la estructura del juego
Aplicable a POSG, EFG y otros juegos estructurados

Configuración Experimental

Conjuntos de Datos y Tipos de Juegos

Juegos Matriciales Aleatorios: Matrices n×n, elementos muestreados uniformemente de 0,1, 100 instancias por tamaño
Matrices L y U^⊤: Instancias difíciles del Ejemplo 1 y 2
Juego f-finger Morra: Juego clásico, tamaño matricial f²×f²
Juego Colonel Blotto: 5 campos de batalla, presupuestos de unidades diferentes
Juego Estocástico n-bit Aleatorio: Correspondiente a matriz 2^n×2^n, con estructura de árbol
Juego de Planificación de Rutas: Malla n×n, un lado busca ruta más corta, otro lado elige aristas para aumentar costo

Métricas de Evaluación

Número de Iteraciones: Número de llamadas al oráculo necesarias para alcanzar ε-NE
Valor ε: Establecido en 0.1
Estadísticas: Media y desviación estándar de 10 experimentos repetidos

Métodos de Comparación

FP: Fictitious Play Estándar
AFP: Anticipatory Fictitious Play
SAFP: Versión perturbada de AFP
DO: Double Oracle Estándar
SDO: Versión perturbada de Double Oracle

Detalles de Implementación

Lenguaje de Programación: Python
Hardware: AMD Ryzen 7 PRO 7840U
Generación de Números Aleatorios: Biblioteca numpy, semilla inicial 1
Inicialización: Índice de peor caso (k=l=n)
Desempate: Seleccionar respuesta óptima con índice mínimo
Parámetro β de SFP: Establecido según Teorema 3
Distribución de Perturbación SDO:
- Análisis teórico: U(-1,1)
- Aplicación práctica: U(-0.01,0.01) y U(-0.001,0.001)

Resultados Experimentales

Resultados Principales

Desempeño de SFP en Diferentes Juegos

Juegos Matriciales Aleatorios 0,1:

AFP muestra mejor desempeño, significativamente superior a otros métodos
SFP y SAFP muestran desempeño similar, ligeramente superior a FP
En juegos aleatorios, la ventaja de perturbación no es evidente
El número de iteraciones crece aproximadamente linealmente con la escala

Matriz U^⊤:

FP y AFP muestran complejidad de peor caso O(n)
SFP y SAFP reducen significativamente el número de iteraciones
Para n=1000, SFP requiere aproximadamente 10-15 iteraciones, mientras FP requiere 1000
Verifica la complejidad teórica O(log n)

Juego f-finger Morra:

SFP y SAFP convergen rápidamente, incluso para f grande
El número de iteraciones de FP y AFP crece con f²
Para f=10, SFP requiere aproximadamente 50 iteraciones, FP requiere 200+

Desempeño de SDO en Diferentes Juegos

Matrices L y U^⊤ (Perturbación Teórica U(-1,1)):

SDO alcanza la complejidad logarítmica predicha teóricamente
Para n=2000, SDO requiere aproximadamente 10-15 iteraciones
DO requiere n iteraciones (no mostrado en gráfico por escala)
Verifica perfectamente Teorema 6 y 7

Juego f-finger Morra:

La perturbación reduce significativamente el número de iteraciones
Tanto U(-0.01,0.01) como U(-0.001,0.001) son efectivos
Perturbación más pequeña (U(-0.001,0.001)) muestra mejor estabilidad en escala grande

Juego Colonel Blotto:

5 campos de batalla, presupuesto de unidades 0-40
El método de perturbación consistentemente supera versión sin perturbación
U(-0.01,0.01) muestra mejor desempeño general

Experimentos de Perturbación Eficiente

Juego Estocástico n-bit (Correspondiente a L y U^⊤):

Usar método de perturbación con agrupamiento
Para n=2000 (escala 2^11), requiere aproximadamente 100 iteraciones
Aunque ligeramente más lento que perturbación teórica, muy superior a complejidad lineal de DO
Prueba la viabilidad de implementación eficiente

Juego de Planificación de Rutas:

Pruebas en malla n×n
La perturbación reduce significativamente el número de iteraciones
La ventaja es más evidente cuando aumenta el tamaño de malla
Para n=14, versión perturbada requiere aproximadamente 100 iteraciones, sin perturbación requiere 200+

Observaciones de Experimentos de Ablación

Impacto de Intensidad de Perturbación:

Perturbación excesiva puede dañar convergencia (observado en juegos aleatorios)
U(-0.001,0.001) muestra desempeño estable en la mayoría de casos
U(-0.01,0.01) es más efectivo en juegos estructurados

Selección de Distribución de Perturbación:

Distribución Gumbel: Teóricamente óptima, adecuada para SFP
Distribución Uniforme: Más simple en práctica, efectiva en SDO
Ambas muestran desempeño similar en experimentos

Hallazgos Clave

Dependencia del Tipo de Juego: La perturbación es efectiva en instancias estructuradas/difíciles, con ventaja no evidente en juegos aleatorios
Consistencia Teoría-Práctica: Los resultados experimentales están altamente alineados con predicciones teóricas
Viabilidad de Implementación Eficiente: El método de agrupamiento mantiene efectividad mientras reduce significativamente costo computacional
Robustez: El método de perturbación muestra desempeño estable en múltiples tipos de juegos

Trabajo Relacionado

Investigación de Convergencia de Fictitious Play

Robinson (1951): Prueba convergencia de FP a NE en juegos de suma cero
Conjetura de Karlin: Problema abierto más antiguo sobre velocidad de convergencia de FP
Resultados Parciales: Resultados de Abernethy et al. (2021), Daskalakis y Pan (2014) para tipos de matriz específicos
AFP: Propuesto por Cloud et al. (2023), aún requiere O(n) iteraciones pero con constante más pequeña, llamando BRO 4 veces por ronda

Métodos de Regularización

Hofbauer y Sandholm (2002): Prueba conexión entre perturbación y regularización
PU y OMWU: Variantes de AFP regularizadas de Cen et al. (2024), alcanzan O(log n) pero requieren mantener distribuciones de probabilidad para todas estrategias
Diferencia de Este Artículo: PBRO solo requiere mantener subconjunto de estrategias seleccionadas, adecuado para juegos grandes

Investigación de Double Oracle

Complejidad Base: Se sabe que DO requiere Θ(n) iteraciones, pero falta investigación teórica profunda
Zhang y Sandholm (2024): Prueba cota inferior exponencial de DO en POSG
Investigación de Variantes: Self-Play PSRO de McAleer et al. (2022), etc., pero sin garantías de convergencia
Contribución de Este Artículo: Primer estudio sistemático de propiedades de convergencia de SDO

Límites Teóricos de Algoritmos BRO

Althöfer (1994), Lipton y Young (1994): Existencia de ε-NE de tamaño O(log n)
Hazan y Koren (2016):
- Cota Inferior: Cualquier algoritmo BRO requiere Ω(√n/log³n) iteraciones
- Cota Superior: Proponen algoritmo O(√n/ε²)
Avance de Este Artículo: Supera cota inferior teórica mediante fortalecimiento de BRO (añadiendo perturbación)

Aplicaciones en Aprendizaje por Refuerzo Profundo

Serie PSRO: Lanctot et al. (2017), McAleer et al. (2022), Bighashdel et al. (2024)
Conexión: Estos métodos dependen del marco DO, SDO de este artículo puede aplicarse directamente
Impacto Potencial: El mecanismo de perturbación puede mejorar estrategias de exploración en RL profundo

Conclusiones y Discusión

Conclusiones Principales

Avance Teórico:
- SFP alcanza complejidad esperada O(log n/ε²), primera prueba de convergencia logarítmica de algoritmo PBRO
- SDO alcanza complejidad esperada O(log n) en instancias difíciles específicas
Valor Práctico:
- El método de perturbación reduce significativamente iteraciones en juegos estructurados
- El esquema de implementación eficiente hace el método aplicable a juegos grandes
Contribuciones Metodológicas:
- Establece conexión teórica entre SFP y REWF
- Proporciona marco usando teoría de drift para análisis de SDO

Limitaciones

Complejidad General de SDO No Resuelta:
- Solo se prueba complejidad logarítmica para instancias específicas
- La complejidad en caso general sigue siendo problema abierto
Desempeño en Juegos Estocásticos:
- La perturbación no muestra ventaja evidente en juegos generados aleatoriamente
- Posiblemente porque juegos aleatorios ya tienen respuestas óptimas inherentemente aleatorias
Selección de Parámetro de Perturbación:
- El parámetro teóricamente óptimo (β) puede ser demasiado grande en práctica
- Requiere ajuste según juego específico
Aproximación de Implementación Eficiente:
- La perturbación con agrupamiento no es completamente equivalente a perturbación completa
- Las garantías teóricas solo aplican a caso de perturbación completa
Costo Computacional:
- Aunque reduce iteraciones, cada iteración requiere generar números aleatorios
- Para algunos juegos, el beneficio puede no compensar costo adicional

Direcciones Futuras

Análisis de Complejidad General de SDO:
- Probar o refutar complejidad logarítmica de SDO en caso general
- Identificar características de clases de juegos donde SDO es eficiente
Estrategias de Perturbación Adaptativa:
- Ajustar dinámicamente intensidad de perturbación según convergencia
- Explorar propiedades teóricas de diferentes distribuciones de perturbación
Integración con Aprendizaje por Refuerzo Profundo:
- Integrar PBRO en marco PSRO
- Investigar efectos de perturbación cuando BRO se aproxima con redes neuronales
Clases de Juegos Más Amplias:
- Extender a juegos generales (no solo suma cero)
- Investigar mecanismos de perturbación en juegos multiagente
Validación en Aplicaciones Reales:
- Probar en escenarios de juegos reales (póker, juegos de estrategia)
- Evaluar desempeño bajo restricciones de recursos computacionales reales

Evaluación Profunda

Fortalezas

Rigor Teórico:
- Pruebas matemáticas completas, desde truco Gumbel-max hasta teoría de drift
- Conexión clara establecida entre SFP y algoritmo de aprendizaje en línea clásico (REWF)
- Resultados teóricos altamente consistentes con experimentos
Selección de Problema Importante:
- Aborda brecha teoría-práctica de larga data en el campo
- Supera cota inferior de Hazan-Koren (mediante fortalecimiento de oráculo)
- Tiene valor de aplicación directa en aprendizaje por refuerzo profundo
Innovación de Método:
- Mecanismo de perturbación simple pero efectivo
- Esquema de implementación eficiente resuelve cuello de botella computacional
- Marco unificado aplicable a ambas clases de algoritmos FP y DO
Completitud Experimental:
- Cubre instancias teóricas, juegos clásicos, juegos aleatorios, juegos estructurados
- Compara múltiples métodos baseline
- Reporta honestamente resultados negativos en juegos aleatorios
Claridad de Escritura:
- Introducción de antecedentes suficiente, motivación clara
- Detalles técnicos completos, fuerte reproducibilidad
- Proporciona código de fuente abierta

Insuficiencias

Completitud Teórica:
- Complejidad general de SDO no resuelta, solo análisis de casos especiales
- Falta explicación teórica de por qué perturbación falla en juegos aleatorios
- Brecha teórica entre perturbación eficiente y completa no cuantificada
Diseño Experimental:
- Escala de experimentos en juegos aleatorios relativamente pequeña (n≤1000)
- Falta comparación directa con algoritmo Hazan-Koren
- No reporta tiempo de ejecución real, solo número de iteraciones
Consideraciones de Practicidad:
- Falta orientación universal para selección de parámetro de perturbación
- Falta criterios de decisión sobre cuándo usar perturbación
- Rango de aplicabilidad de esquema de implementación eficiente no suficientemente claro
Profundidad de Análisis:
- Explicación intuitiva insuficiente de por qué mecanismo de perturbación es efectivo
- Análisis insuficiente de relación entre estructura de juego y efectividad de perturbación
- Experimentos de ablación relativamente simples
Equidad de Comparación:
- AFP llama BRO 4 veces por ronda, mientras FP/SFP solo 2 veces
- Debería reportar también comparación de total de llamadas BRO

Impacto

Contribución Teórica:
- Proporciona nueva dirección para investigación de algoritmos BRO
- Prueba potencial de fortalecimiento de oráculo
- Puede inspirar investigación en otros problemas de optimización combinatoria
Valor Práctico:
- Directamente aplicable a marcos DO/FP existentes
- Tiene potencial de mejora para métodos PSRO en RL profundo
- Esquema de implementación eficiente tiene operabilidad práctica
Limitaciones:
- Requiere desarrollo teórico adicional para convertirse en método estándar
- Desempeño en juegos aleatorios limita universalidad
- Costo computacional requiere validación en aplicaciones a gran escala
Reproducibilidad:
- Proporciona código de fuente abierta, reproducibilidad fuerte
- Descripción de algoritmo clara, fácil de implementar
- Configuración experimental detallada

Escenarios de Aplicabilidad

Fuertemente Recomendado:

Juegos con estructura clara (EFG, POSG)
Juegos con múltiples respuestas óptimas equivalentes
Instancias difíciles donde DO/FP converge lentamente
Juegos con espacio de estrategia gigante pero estructura interna

Usar con Cautela:

Juegos completamente aleatorios
Juegos donde respuesta óptima es única y clara
Escenarios con recursos computacionales extremadamente limitados
Aplicaciones que requieren garantías deterministas

No Recomendado:

Juegos pequeños (resolución directa más rápida)
Juegos generales sin estructura (ventaja de perturbación no evidente)
Escenarios de toma de decisión en tiempo real (aleatoriedad puede no ser aceptable)

Referencias

Fundamentos Teóricos Clave:

Althöfer (1994) - Existencia de ε-NE de tamaño logarítmico
Hazan & Koren (2016) - Límites teóricos de algoritmos BRO
Hofbauer & Sandholm (2002) - Prueba de convergencia de SFP
Cesa-Bianchi & Lugosi (2006) - Algoritmo REWF

Trabajo Relacionado: 5. Zhang & Sandholm (2024) - Cota inferior exponencial de DO 6. Cloud et al. (2023) - Anticipatory Fictitious Play 7. Lanctot et al. (2017) - Policy Space Response Oracles 8. Cen et al. (2024) - Algoritmos de juego regularizados

Evaluación General: Este es un excelente artículo que combina bien teoría y práctica. La contribución principal es probar que el mecanismo de perturbación permite que algoritmos BRO alcancen complejidad logarítmica, superando la cota inferior teórica conocida (mediante fortalecimiento de oráculo). El resultado teórico de SFP es completo y riguroso, el análisis de SDO aunque incompleto proporciona perspectivas valiosas. El diseño experimental es completo, reportando honestamente el rango de aplicabilidad del método. Las principales insuficiencias son que la complejidad general de SDO no se resuelve, y falta explicación teórica del pobre desempeño en juegos aleatorios. Este trabajo abre nueva dirección para investigación de algoritmos de teoría de juegos, con potencial valor de aplicación en aprendizaje por refuerzo profundo, mereciendo investigación adicional.