Uniform Value and Decidability in Ergodic Blind Stochastic Games
Chatterjee, Lurie, Saona et al.
We study a class of two-player zero-sum stochastic games known as \textit{blind stochastic games}, where players neither observe the state nor receive any information about it during the game. A central concept for analyzing long-duration stochastic games is the \textit{uniform value}. A game has a uniform value $v$ if for every $\varepsilon>0$, Player 1 (resp., Player 2) has a strategy such that, for all sufficiently large $n$, his average payoff over $n$ stages is at least $v-\varepsilon$ (resp., at most $v+\varepsilon$). Prior work has shown that the uniform value may not exist in general blind stochastic games. To address this, we introduce a subclass called \textit{ergodic blind stochastic games}, defined by imposing an ergodicity condition on the state transitions. For this subclass, we prove the existence of the uniform value and provide an algorithm to approximate it, establishing the \textit{decidability} of the approximation problem. Notably, this decidability result is novel even in the single-player setting of Partially Observable Markov Decision Processes (POMDPs). Furthermore, we show that no algorithm can compute the uniform value exactly, emphasizing the tightness of our result. Finally, we establish that the uniform value is independent of the initial belief.
academic
Valore Uniforme e Decidibilità nei Giochi Stocastici Ciechi Ergodici
Titolo: Uniform Value and Decidability in Ergodic Blind Stochastic Games
Autori: Krishnendu Chatterjee (IST Austria), David Lurie (NyxAir & Paris Dauphine University), Raimundo Saona (IST Austria), Bruno Ziliotto (Toulouse School of Economics)
Classificazione: math.OC (Ottimizzazione e Controllo), cs.CC (Complessità Computazionale)
Questo articolo studia i giochi stocastici ciechi (blind stochastic games)—una classe di giochi stocastici a somma zero a due giocatori nei quali i partecipanti non osservano lo stato né ricevono alcuna informazione su di esso. L'articolo introduce una sottoclasse denominata giochi stocastici ciechi ergodici (ergodic blind stochastic games), definita imponendo condizioni di ergodicità sulle transizioni di stato. Per questa sottoclasse, l'articolo dimostra l'esistenza del valore uniforme (uniform value) e fornisce algoritmi di approssimazione, stabilendo la decidibilità del problema di approssimazione. Questo risultato di decidibilità è nuovo anche nel contesto dei processi decisionali di Markov parzialmente osservabili (POMDP) a singolo agente. Inoltre, l'articolo dimostra che nessun algoritmo può calcolare esattamente il valore uniforme, sottolineando la stretta natura dei risultati. Infine, l'articolo stabilisce che il valore uniforme è indipendente dalla credenza iniziale.
I problemi fondamentali affrontati in questo articolo sono:
Problema dell'esistenza del valore uniforme: Ziliotto Zil16 ha dimostrato che i giochi stocastici ciechi generali potrebbero non avere un valore uniforme. Sotto quali condizioni esiste il valore uniforme?
Problema della calcolabilità: Anche se il valore uniforme esiste, può essere calcolato o approssimato mediante algoritmi? Madani et al. MHC03 hanno dimostrato che nei MDP ciechi generali, sia il calcolo che l'approssimazione del valore uniforme sono indecidibili.
Significato Teorico: I giochi stocastici ciechi rappresentano il modello più semplice di giochi con informazione incompleta e fungono da benchmark teorico per modelli più complessi. Sono equivalenti agli automi probabilistici finiti, con ampie applicazioni in informatica.
Applicazioni Pratiche: Includono linguaggi di specifica concisa per stringhe infinite BGB12, CT12, analisi di sequenze in biologia computazionale DEKM98, elaborazione del parlato Moh97, e altri.
Contributi Metodologici: L'identificazione di condizioni sui dati per garantire il comportamento ergodico della dinamica delle credenze rappresenta un importante contributo metodologico.
Giochi stocastici ciechi generali: Non garantiscono l'esistenza del valore uniforme Zil16
Giochi stocastici ciechi scambiabili: Venel Ven15 ha provato l'esistenza del valore uniforme, ma non ha fornito algoritmi di calcolo
MDP ciechi: Rosenberg et al. RSV02 hanno provato l'esistenza del valore uniforme, ma Madani et al. MHC03 hanno provato che il calcolo e l'approssimazione sono indecidibili
Ricerca esistente su ergodicità: Principalmente concentrata su giochi stocastici standard o MDP, senza uno studio sistematico dei giochi stocastici ciechi
Il punto di partenza dell'articolo è identificare una sottoclasse decidibile di giochi stocastici ciechi introducendo condizioni di ergodicità. Questa condizione:
È naturale e comunemente utilizzata nella letteratura sulla teoria dei giochi
Garantisce l'esistenza del valore uniforme
Rende il problema di approssimazione decidibile
Mantiene il calcolo esatto indecidibile, dimostrando la stretta natura dei risultati
Definizione di Giochi Stocastici Ciechi Ergodici: Formalizzazione di questa nuova sottoclasse di giochi basata sulle proprietà di ergodicità del prodotto di matrici di transizione (Definizione 3.3)
Esistenza del Valore Uniforme e Decidibilità dell'Approssimazione (Teorema 3.5):
Dimostrazione che tutti i giochi stocastici ciechi ergodici hanno un valore uniforme
Fornitura di algoritmi di approssimazione, stabilendo la decidibilità del problema di approssimazione
Limite superiore di complessità: 2-EXPSPACE
Indecidibilità del Calcolo Esatto (Teorema 3.6):
Dimostrazione che anche per gli MDP ciechi di Markov (sottoclasse dei giochi stocastici ciechi ergodici), il calcolo esatto del valore uniforme è indecidibile
Questo dimostra la stretta natura del risultato di decidibilità dell'approssimazione
Indipendenza dalla Credenza Iniziale (Teorema 3.7):
Dimostrazione che nei giochi stocastici ciechi ergodici, il valore uniforme non dipende dalla credenza iniziale
Condizioni Sufficienti: Identificazione di diverse classi di matrici di transizione che garantiscono l'ergodicità (C1-C5), incluse matrici di Markov, matrici scrambling, matrici di Sarymsakov, ecc.
Algoritmo di Verifica (Proposizione 3.9): Fornitura di un algoritmo in spazio esponenziale per verificare se un gioco stocastico cieco soddisfa la proprietà di ergodicità
Un gioco stocastico cieco è definito come una quintupla Γ = (K, I, J, p, g):
K: insieme finito di stati
I, J: insiemi finiti di azioni per il giocatore 1 e il giocatore 2
p: K × I × J → Δ(K): funzione di transizione probabilistica
g: K × I × J → 0,1: funzione di ricompensa per fase
Caratteristiche Chiave: I giocatori non osservano lo stato, conoscono solo la credenza iniziale b₁ ∈ Δ(K) e la storia delle azioni.
Definizione del Valore Uniforme: Un gioco Γ ha valore uniforme v: Δ(K) → 0,1 se per tutti b₁ ∈ Δ(K) e ε > 0, esistono strategie (σ*, π*) e n ∈ ℕ* tali che per tutti N ≥ n:
Il giocatore 1 può garantire: γ^(b₁)_N(σ*, π) ≥ v(b₁) - ε
Il giocatore 2 può garantire: γ^(b₁)_N(σ, π*) ≤ v(b₁) + ε
dove γ^(b₁)N(σ, π) = 𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G_m è la ricompensa media su N fasi.
Gioco Stocastico Cieco Ergodico (Definizione 3.3): Un gioco Γ è ergodico se per tutti ε > 0, esiste un intero n₀ tale che per tutte le sequenze di coppie di azioni di lunghezza n ≥ n₀:
τ₁(Tⁿ(aⁿ)) ≤ ε
dove Tⁿ(aⁿ) = P(a₁)P(a₂)···P(aₙ) è il prodotto di matrici di transizione in avanti.
Proprietà Chiave (Proposizione 3.8): Un gioco Γ è ergodico se e solo se esiste n₀ ≤ (3^|K| - 2^(|K|+1) + 1)/2 tale che per tutte le sequenze di coppie di azioni di lunghezza n₀:
Il metodo centrale dell'articolo è la costruzione di un gioco stocastico astratto (abstract stochastic game) G*(b₁, ε), che è a stati finiti e approssima il gioco stocastico cieco originale con errore ε.
Procedura di Costruzione:
Passo 1: Determinazione della Scala Temporale (Proposizione 4.1)
Dato ε > 0, calcolare nε = n₀⌈ln(ε)/ln(sup_(aⁿ⁰) τ₁(Tⁿ⁰(aⁿ⁰)))⌉
Per tutte le sequenze di lunghezza n ≥ nε, si ha τ₁(Tⁿ(aⁿ)) ≤ ε
Passo 2: Costruzione dell'Insieme di Matrici Stabili
T(ε): insieme di tutti i prodotti in avanti di matrici di transizione di lunghezza n che soddisfano la condizione τ₁
T̃(ε): insieme di matrici astratte stabili. Per ogni Tⁿ ∈ T(ε), definire T̃ⁿ tale che: t̃ⁿ_(k,k')(aⁿ) := 1/|K| ∑^|K|(k=1) tⁿ(k,k')(aⁿ) cioè ogni riga è uguale alla media di tutte le righe, rendendo la matrice stabile (tutte le righe identiche)
Passo 3: Definizione dello Spazio di Stati Astratto
Insieme di credenze astratte: B* := {b* ∈ Δ(K) | ∃T̃ⁿ ∈ T̃(ε) s.t. b* = b₁^⊤T̃ⁿ} ∪ {b₁}
Spazio di stati: X := ⋃^(n-1)_(m=0) (B* × (I × J)^m)
Questo è un insieme finito di dimensione O(|I × J|^(2n)), dove n è doppiamente esponenziale.
Passo 4: Definizione di Transizioni e Ricompense
Funzione di proiezione proj: X → Δ(K) che mappa stati astratti a credenze
Funzione di aggiornamento astratta ψ*:
Se m ∈ 0, n-2: ψ*(x, a) = (b*, a₁, ···, a_m, a)
Se m = n-1: ψ*(x, a) = (proj(x)^⊤T̃ⁿ(aⁿ)) (reset a nuova credenza astratta)
Funzione di transizione: p*(x'|x, a) = 1 se x' = ψ*(x, a), altrimenti 0 (deterministica)
Funzione di ricompensa: g*(x, i, j) = ∑_(k∈K) proj(x)(k)·g(k, i, j)
Intuizione Chiave: L'ergodicità garantisce che dopo lunghezza n, tutte le righe delle matrici di transizione diventano simili (differenza ≤ ε)
Tecnica di Stabilizzazione: Attraverso la media, costruire matrici stabili rendendo l'aggiornamento delle credenze indipendente dalla credenza iniziale
Struttura a Blocchi: Reset ogni n passi, sfruttando la proprietà di "scomparsa della memoria" dell'ergodicità
2. Analisi Precisa del Controllo dell'Errore
Lemma 4.2: Dimostrazione che la distanza delle credenze tra il gioco originale e quello astratto è limitata: ||b^(b₁,h_m)(m,σ,π) - proj(x^(b₁,h_m)(m,σ,π))||₁ ≤ 4ε
Lemma 4.3: Dimostrazione che la differenza di ricompensa media è limitata: |𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G_m - 𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G*_m| ≤ 4ε
3. Distinzione dal Baseline
vs. Giochi Scambiabili di Venel Ven15: Non solo provare l'esistenza, ma fornire algoritmi decidibili
vs. Ergodicità in Giochi Stocastici Standard: Le condizioni sono imposte sui dati originali, non sul gioco delle credenze
vs. Letteratura su MDP Ciechi: Prima volta che si stabilisce la decidibilità dell'approssimazione in giochi a due giocatori
4. Eleganza della Prova di Indecidibilità
Riduzione dal problema di universalità degli automi probabilistici finiti (PFA)
Costruzione di un'azione Restart che consente all'MDP cieco di simulare un PFA
Aggiunta di uno stato k̂ che rende tutte le matrici di transizione di Markov (garantendo l'ergodicità)
Dimostrazione che la probabilità di accettazione > 1/2 è equivalente al valore medio a lungo termine > 1/2
Input: Credenza iniziale b₁, gioco stocastico cieco Γ, precisione ε
1. Verificare la proprietà di ergodicità di Γ
2. Costruire l'insieme di matrici T(ε)
3. Derivare l'insieme di matrici astratte T̃(ε) da T(ε)
4. Costruire il gioco stocastico astratto G*(b₁, ε)
5. Calcolare il valore uniforme v*(b₁, ε) di G*(b₁, ε)
Output: v*(b₁, ε) (se Γ è ergodico)
Analisi di Complessità:
Numero di stati: O(|I × J|^(2n)), dove n ≤ (3^|K| - 2^(|K|+1) + 1)/2
Attraverso la teoria dei campi reali chiusi, risolvibile in PSPACE per giochi stocastici standard CMH08
MN81 Mertens & Neyman (1981): Lavoro fondamentale sull'esistenza del valore uniforme nei giochi stocastici standard
Zil16 Ziliotto (2016): Controesampi dove il valore uniforme nei giochi stocastici ciechi potrebbe non esistere
MHC03 Madani, Hanks & Condon (2003): Risultato classico di indecidibilità negli MDP ciechi
Sen06 Seneta (2006): Rassegna autorevole sulla teoria delle matrici non negative e ergodicità
Ven15 Venel (2015): Esistenza del valore uniforme nei giochi stocastici scambiabili
RSV02 Rosenberg, Solan & Vieille (2002): Esistenza del valore uniforme negli MDP ciechi
CSZ22 Chatterjee, Saona & Ziliotto (2022): Strategie a memoria finita nei POMDP
OB21 Oliu-Barton (2021): Nuovi algoritmi per giochi stocastici standard
Valutazione Complessiva: Questo è un articolo teorico eccellente e rigoroso. Raggiunge importanti progressi su questo problema fondamentale ma difficile dei giochi stocastici ciechi, bilanciando ingegnosamente l'esistenza del valore uniforme con la calcolabilità attraverso l'introduzione di condizioni di ergodicità. Sebbene la complessità algoritmica elevata limiti le applicazioni pratiche, i contributi teorici e metodologici sono significativi per la teoria dei giochi, la teoria degli automi e la teoria della complessità computazionale. Il risultato di stretta natura (approssimazione decidibile ma esatto indecidibile) è particolarmente impressionante, caratterizzando chiaramente il confine computazionale del problema.