Uniform Value and Decidability in Ergodic Blind Stochastic Games
Chatterjee, Lurie, Saona et al.
We study a class of two-player zero-sum stochastic games known as \textit{blind stochastic games}, where players neither observe the state nor receive any information about it during the game. A central concept for analyzing long-duration stochastic games is the \textit{uniform value}. A game has a uniform value $v$ if for every $\varepsilon>0$, Player 1 (resp., Player 2) has a strategy such that, for all sufficiently large $n$, his average payoff over $n$ stages is at least $v-\varepsilon$ (resp., at most $v+\varepsilon$). Prior work has shown that the uniform value may not exist in general blind stochastic games. To address this, we introduce a subclass called \textit{ergodic blind stochastic games}, defined by imposing an ergodicity condition on the state transitions. For this subclass, we prove the existence of the uniform value and provide an algorithm to approximate it, establishing the \textit{decidability} of the approximation problem. Notably, this decidability result is novel even in the single-player setting of Partially Observable Markov Decision Processes (POMDPs). Furthermore, we show that no algorithm can compute the uniform value exactly, emphasizing the tightness of our result. Finally, we establish that the uniform value is independent of the initial belief.
academic
Valor Uniforme y Decidibilidad en Juegos Estocásticos Ciegos Ergódicos
Título: Uniform Value and Decidability in Ergodic Blind Stochastic Games
Autores: Krishnendu Chatterjee (IST Austria), David Lurie (NyxAir & Paris Dauphine University), Raimundo Saona (IST Austria), Bruno Ziliotto (Toulouse School of Economics)
Clasificación: math.OC (Optimización y Control), cs.CC (Complejidad Computacional)
Fecha de Publicación: arXiv v2, 21 de noviembre de 2025
Este artículo estudia juegos estocásticos ciegos (blind stochastic games)—una clase de juegos estocásticos de suma cero para dos jugadores en los que los participantes no observan el estado ni reciben información alguna sobre el mismo. El artículo introduce la subclase de juegos estocásticos ciegos ergódicos (ergodic blind stochastic games), definida mediante la imposición de condiciones de ergodicidad sobre las transiciones de estado. Para esta subclase, el artículo demuestra la existencia del valor uniforme (uniform value) y proporciona algoritmos de aproximación, estableciendo la decidibilidad del problema de aproximación. Este resultado de decidibilidad es novedoso incluso en procesos de decisión de Markov parcialmente observables (POMDPs) en el caso de un solo agente. Además, el artículo demuestra que ningún algoritmo puede calcular exactamente el valor uniforme, enfatizando la precisión de los resultados. Finalmente, el artículo establece que el valor uniforme es independiente de la creencia inicial.
El problema central que este artículo aborda es: ¿cómo caracterizar el valor del juego a largo plazo en juegos estocásticos ciegos? Específicamente:
Problema de existencia del valor uniforme: Ziliotto Zil16 ha demostrado que los juegos estocásticos ciegos generales pueden no tener valor uniforme. ¿Bajo qué condiciones existe el valor uniforme?
Problema de computabilidad: Incluso si el valor uniforme existe, ¿puede calcularse o aproximarse mediante un algoritmo? Madani et al. MHC03 han demostrado que en MDPs ciegos generales, tanto el cálculo como la aproximación del valor uniforme son indecidibles.
Significado Teórico: Los juegos estocásticos ciegos son el modelo más simple de juegos con información incompleta, sirviendo como referencia teórica para estudiar modelos más complejos. Son equivalentes a autómatas finitos probabilísticos, con amplias aplicaciones en informática.
Aplicaciones Prácticas: Incluyen especificaciones concisas de lenguajes para cadenas infinitas BGB12, CT12, análisis de secuencias en biología computacional DEKM98, procesamiento de voz Moh97, entre otras.
Contribución Metodológica: Identificar condiciones sobre los datos que aseguren que la dinámica de creencias exhiba comportamiento ergódico es una contribución metodológica clave.
Juegos estocásticos ciegos generales: No garantizan la existencia del valor uniforme Zil16
Juegos estocásticos ciegos intercambiables: Venel Ven15 demostró la existencia del valor uniforme, pero no proporcionó algoritmos de cálculo
MDPs ciegos: Rosenberg et al. RSV02 demostraron la existencia del valor uniforme, pero Madani et al. MHC03 probaron que el cálculo y la aproximación son indecidibles
Investigación existente sobre ergodicidad: Se concentra principalmente en juegos estocásticos o MDPs estándar, sin estudiar sistemáticamente juegos estocásticos ciegos
El punto de partida del artículo es identificar una subclase decidible de juegos estocásticos ciegos mediante la introducción de condiciones de ergodicidad. Esta condición:
Es natural y comúnmente utilizada en la literatura de teoría de juegos
Garantiza la existencia del valor uniforme
Hace que el problema de aproximación sea decidible
Mantiene el cálculo exacto como indecidible, demostrando la precisión de los resultados
Las contribuciones principales del artículo incluyen:
Definición de Juegos Estocásticos Ciegos Ergódicos: Formalización de esta nueva subclase de juegos basada en propiedades de ergodicidad de productos de matrices de transición (Definición 3.3)
Existencia del Valor Uniforme y Decidibilidad de la Aproximación (Teorema 3.5):
Demuestra que todos los juegos estocásticos ciegos ergódicos tienen valor uniforme
Proporciona algoritmos de aproximación, estableciendo la decidibilidad del problema de aproximación
Cota de complejidad: 2-EXPSPACE
Indecidibilidad del Cálculo Exacto (Teorema 3.6):
Demuestra que incluso para MDPs ciegos de Markov (subclase de juegos estocásticos ciegos ergódicos), el cálculo exacto del valor uniforme es indecidible
Esto demuestra la precisión del resultado de decidibilidad de aproximación
Independencia de la Creencia Inicial (Teorema 3.7):
Demuestra que en juegos estocásticos ciegos ergódicos, el valor uniforme no depende de la creencia inicial
Condiciones Suficientes: Identifica varias clases de matrices de transición que garantizan ergodicidad (C1-C5), incluyendo matrices de Markov, matrices scrambling, matrices de Sarymsakov, entre otras
Algoritmo de Verificación (Proposición 3.9): Proporciona un algoritmo de espacio exponencial para verificar si un juego estocástico ciego satisface la propiedad de ergodicidad
Un juego estocástico ciego se define como una tupla de cinco elementos Γ = (K, I, J, p, g):
K: conjunto finito de estados
I, J: conjuntos finitos de acciones para el jugador 1 y jugador 2
p: K × I × J → Δ(K): función de transición probabilística
g: K × I × J → 0,1: función de recompensa por etapa
Características clave: Los jugadores no observan el estado, solo conocen la creencia inicial b₁ ∈ Δ(K) e historial de acciones.
Definición del Valor Uniforme: Un juego Γ tiene valor uniforme v: Δ(K) → 0,1 si para todo b₁ ∈ Δ(K) y ε > 0, existen estrategias (σ*, π*) y n ∈ ℕ* tales que para todo N ≥ n:
El jugador 1 puede garantizar: γ^(b₁)_N(σ*, π) ≥ v(b₁) - ε
El jugador 2 puede garantizar: γ^(b₁)_N(σ, π*) ≤ v(b₁) + ε
donde γ^(b₁)N(σ, π) = 𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G_m es la recompensa promedio de N etapas.
Juego Estocástico Ciego Ergódico (Definición 3.3): Un juego Γ es ergódico si para todo ε > 0, existe un entero n₀ tal que para todas las secuencias de pares de acciones de longitud n ≥ n₀:
τ₁(Tⁿ(aⁿ)) ≤ ε
donde Tⁿ(aⁿ) = P(a₁)P(a₂)···P(aₙ) es el producto de matrices de transición hacia adelante.
Propiedad clave (Proposición 3.8): Un juego Γ es ergódico si y solo si existe n₀ ≤ (3^|K| - 2^(|K|+1) + 1)/2 tal que para todas las secuencias de pares de acciones de longitud n₀:
El método central del artículo es construir un juego estocástico abstracto (abstract stochastic game) G*(b₁, ε), que es de estado finito y puede aproximar el juego estocástico ciego original con error ε.
Pasos de construcción:
Paso 1: Determinación de la Escala Temporal (Proposición 4.1)
Para todas las secuencias de longitud n ≥ nε, se tiene τ₁(Tⁿ(aⁿ)) ≤ ε
Paso 2: Construcción del Conjunto de Matrices Estables
T(ε): conjunto de todos los productos hacia adelante de matrices de transición de longitud n que satisfacen la condición τ₁
T̃(ε): conjunto de matrices estables abstractas, para cada Tⁿ ∈ T(ε), definir T̃ⁿ tal que: t̃ⁿ_(k,k')(aⁿ) := 1/|K| ∑^|K|(k=1) tⁿ(k,k')(aⁿ) es decir, cada fila es igual al promedio de todas las filas, haciendo la matriz estable (todas las filas idénticas)
Paso 3: Definición del Espacio de Estados Abstracto
Conjunto de creencias abstractas: B* := {b* ∈ Δ(K) | ∃T̃ⁿ ∈ T̃(ε) s.t. b* = b₁^⊤T̃ⁿ} ∪ {b₁}
Espacio de estados: X := ⋃^(n-1)_(m=0) (B* × (I × J)^m)
Este es un conjunto finito de tamaño O(|I × J|^(2n)), donde n es doblemente exponencial.
Paso 4: Definición de Transiciones y Recompensas
Función de proyección proj: X → Δ(K) que mapea estados abstractos a creencias
Función de actualización abstracta ψ*:
Si m ∈ 0, n-2: ψ*(x, a) = (b*, a₁, ···, a_m, a)
Si m = n-1: ψ*(x, a) = (proj(x)^⊤T̃ⁿ(aⁿ)) (reinicio a nueva creencia abstracta)
Función de transición: p*(x'|x, a) = 1 si x' = ψ*(x, a), en caso contrario 0 (determinista)
Función de recompensa: g*(x, i, j) = ∑_(k∈K) proj(x)(k)·g(k, i, j)
Insight clave: La ergodicidad garantiza que después de n pasos, todas las filas de las matrices de transición se vuelven similares (diferencia ≤ ε)
Técnica de estabilización: Mediante promediación se construyen matrices estables, haciendo que la actualización de creencias sea independiente de la creencia inicial
Estructura de bloques: Reinicio cada n pasos, aprovechando la propiedad de "pérdida de memoria" de la ergodicidad
2. Análisis Fino del Control de Errores
Lema 4.2: Demuestra que la distancia de creencias entre el juego original y el abstracto está acotada: ||b^(b₁,h_m)(m,σ,π) - proj(x^(b₁,h_m)(m,σ,π))||₁ ≤ 4ε
Lema 4.3: Demuestra que la diferencia de recompensa promedio está acotada: |𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G_m - 𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G*_m| ≤ 4ε
3. Diferencias con Trabajos Base
vs. Juegos intercambiables de Venel Ven15: No solo se prueba existencia, sino que se proporciona un algoritmo decidible
vs. Ergodicidad en juegos estocásticos estándar: Las condiciones se imponen sobre los datos originales, no sobre el juego de creencias
vs. Literatura de MDPs ciegos: Primera vez que se establece decidibilidad de aproximación en juegos de dos jugadores
4. Ingenio en la Prueba de Indecidibilidad
Reducción desde el problema de universalidad de autómatas finitos probabilísticos (PFA)
Construcción de acción Restart que permite que el MDP ciego simule un PFA
Adición de estado k̂ que asegura que todas las matrices de transición sean de Markov (garantizando ergodicidad)
Demostración de que probabilidad de aceptación > 1/2 es equivalente a valor promedio a largo plazo > 1/2
Entrada: Creencia inicial b₁, juego estocástico ciego Γ, precisión ε
1. Verificar la propiedad de ergodicidad de Γ
2. Construir el conjunto de matrices T(ε)
3. Derivar el conjunto de matrices abstractas T̃(ε) de T(ε)
4. Construir el juego estocástico abstracto G*(b₁, ε)
5. Calcular el valor uniforme v*(b₁, ε) de G*(b₁, ε)
Salida: v*(b₁, ε) (si Γ es ergódico)
Análisis de Complejidad:
Número de estados: O(|I × J|^(2n)), donde n ≤ (3^|K| - 2^(|K|+1) + 1)/2
Mediante teoría de cuerpos cerrados reales, se puede resolver en PSPACE para juegos estocásticos estándar CMH08
Existencia: Rosenberg et al. RSV02 demuestran que el valor uniforme existe en MDPs ciegos
Indecidibilidad: Madani et al. MHC03 demuestran que tanto el cálculo como la aproximación son indecidibles
Memoria Finita: Chatterjee et al. CSZ22 demuestran que estrategias de memoria finita son suficientes, pero el tamaño de memoria no tiene cota computable
MN81 Mertens & Neyman (1981): Trabajo fundamental sobre existencia de valor uniforme en juegos estocásticos estándar
Zil16 Ziliotto (2016): Contraejemplo donde el valor uniforme puede no existir en juegos estocásticos ciegos
MHC03 Madani, Hanks & Condon (2003): Resultado clásico sobre indecidibilidad en MDPs ciegos
Sen06 Seneta (2006): Revisión autorizada sobre teoría de matrices no negativas y ergodicidad
Ven15 Venel (2015): Existencia de valor uniforme en juegos estocásticos intercambiables
RSV02 Rosenberg, Solan & Vieille (2002): Existencia de valor uniforme en MDPs ciegos
CSZ22 Chatterjee, Saona & Ziliotto (2022): Estrategias de memoria finita en POMDPs
OB21 Oliu-Barton (2021): Nuevo algoritmo para juegos estocásticos estándar
Evaluación General: Este es un artículo de excelencia teórica y técnica sólida. Logra un avance importante en el problema fundamental de juegos estocásticos ciegos, equilibrando ingeniosamente la existencia del valor uniforme con la computabilidad mediante la introducción de condiciones de ergodicidad. Aunque la complejidad del algoritmo es alta limitando aplicaciones prácticas, sus contribuciones teóricas y metodológicas son significativas para teoría de juegos, teoría de autómatas y teoría de complejidad computacional. El resultado de precisión (aproximación decidible pero exacto indecidible) es particularmente impresionante, caracterizando claramente el límite computacional del problema.