Uniform Value and Decidability in Ergodic Blind Stochastic Games
Chatterjee, Lurie, Saona et al.
We study a class of two-player zero-sum stochastic games known as \textit{blind stochastic games}, where players neither observe the state nor receive any information about it during the game. A central concept for analyzing long-duration stochastic games is the \textit{uniform value}. A game has a uniform value $v$ if for every $\varepsilon>0$, Player 1 (resp., Player 2) has a strategy such that, for all sufficiently large $n$, his average payoff over $n$ stages is at least $v-\varepsilon$ (resp., at most $v+\varepsilon$). Prior work has shown that the uniform value may not exist in general blind stochastic games. To address this, we introduce a subclass called \textit{ergodic blind stochastic games}, defined by imposing an ergodicity condition on the state transitions. For this subclass, we prove the existence of the uniform value and provide an algorithm to approximate it, establishing the \textit{decidability} of the approximation problem. Notably, this decidability result is novel even in the single-player setting of Partially Observable Markov Decision Processes (POMDPs). Furthermore, we show that no algorithm can compute the uniform value exactly, emphasizing the tightness of our result. Finally, we establish that the uniform value is independent of the initial belief.
academic
Valeur Uniforme et Décidabilité dans les Jeux Stochastiques Aveugles Ergodiques
Titre: Uniform Value and Decidability in Ergodic Blind Stochastic Games
Auteurs: Krishnendu Chatterjee (IST Austria), David Lurie (NyxAir & Paris Dauphine University), Raimundo Saona (IST Austria), Bruno Ziliotto (Toulouse School of Economics)
Classification: math.OC (Optimisation et Contrôle), cs.CC (Complexité Computationnelle)
Cet article étudie les jeux stochastiques aveugles (blind stochastic games) — une classe de jeux stochastiques à deux joueurs à somme nulle où les participants n'observent ni l'état ni ne reçoivent d'informations sur l'état. L'article introduit une sous-classe de jeux stochastiques aveugles ergodiques (ergodic blind stochastic games), définie en imposant des conditions d'ergodicité sur les transitions d'état. Pour cette sous-classe, l'article prouve l'existence de la valeur uniforme (uniform value) et fournit des algorithmes d'approximation, établissant la décidabilité du problème d'approximation. Ce résultat de décidabilité est nouveau même dans le cadre monoagent des processus de décision markoviens partiellement observables (POMDP). De plus, l'article prouve qu'aucun algorithme ne peut calculer exactement la valeur uniforme, soulignant la rigueur des résultats. Enfin, l'article établit que la valeur uniforme est indépendante de la croyance initiale.
Les problèmes fondamentaux que cet article résout sont:
Problème d'existence de la valeur uniforme: Ziliotto Zil16 a prouvé que les jeux stochastiques aveugles généraux peuvent ne pas avoir de valeur uniforme. Sous quelles conditions la valeur uniforme existe-t-elle?
Problème de calculabilité: Même si la valeur uniforme existe, peut-elle être calculée ou approximée par un algorithme? Madani et al. MHC03 ont prouvé que dans les MDP aveugles généraux, le calcul et l'approximation de la valeur uniforme sont indécidables.
Signification théorique: Les jeux stochastiques aveugles constituent le modèle le plus simple de jeux à information incomplète et servent de référence théorique pour l'étude de modèles plus complexes. Ils sont équivalents aux automates finis probabilistes, largement utilisés en informatique.
Applications pratiques: Incluent les spécifications concises pour les langages de chaînes infinies BGB12, CT12, l'analyse de séquences en biologie computationnelle DEKM98, le traitement de la parole Moh97, etc.
Contribution méthodologique: L'identification de conditions sur les données pour assurer un comportement ergodique de la dynamique des croyances constitue une contribution méthodologique clé.
Jeux stochastiques aveugles généraux: N'assurent pas l'existence de la valeur uniforme Zil16
Jeux stochastiques aveugles échangeables: Venel Ven15 a prouvé l'existence de la valeur uniforme, mais n'a pas fourni d'algorithme de calcul
MDP aveugles: Rosenberg et al. RSV02 ont prouvé l'existence de la valeur uniforme, mais Madani et al. MHC03 ont prouvé que le calcul et l'approximation sont indécidables
Recherches existantes sur l'ergodicité: Principalement concentrées sur les jeux stochastiques standards ou les MDP, sans étude systématique des jeux stochastiques aveugles
Le point de départ de l'article est d'identifier une sous-classe décidable de jeux stochastiques aveugles en introduisant une condition d'ergodicité qui:
Est naturelle et couramment utilisée dans la littérature sur la théorie des jeux
Assure l'existence de la valeur uniforme
Rend le problème d'approximation décidable
Maintient le calcul exact indécidable, démontrant la rigueur des résultats
Les contributions principales de l'article incluent:
Définition des jeux stochastiques aveugles ergodiques: Formalisation d'une nouvelle sous-classe de jeux basée sur les propriétés d'ergodicité des produits de matrices de transition (Définition 3.3)
Existence de la valeur uniforme et décidabilité de l'approximation (Théorème 3.5):
Preuve que tous les jeux stochastiques aveugles ergodiques ont une valeur uniforme
Fourniture d'algorithmes d'approximation, établissant la décidabilité du problème d'approximation
Borne de complexité: 2-EXPSPACE
Indécidabilité du calcul exact (Théorème 3.6):
Preuve que même pour les MDP aveugles Markov (sous-classe des jeux stochastiques aveugles ergodiques), le calcul exact de la valeur uniforme est indécidable
Cela démontre la rigueur du résultat de décidabilité de l'approximation
Indépendance de la croyance initiale (Théorème 3.7):
Preuve que dans les jeux stochastiques aveugles ergodiques, la valeur uniforme ne dépend pas de la croyance initiale
Conditions suffisantes: Identification de plusieurs classes de matrices de transition garantissant l'ergodicité (C1-C5), incluant les matrices Markov, les matrices scrambling, les matrices Sarymsakov, etc.
Algorithme de vérification (Proposition 3.9): Fourniture d'un algorithme en espace exponentiel pour vérifier si un jeu stochastique aveugle satisfait la propriété d'ergodicité
Un jeu stochastique aveugle est défini comme un quintuplet Γ = (K, I, J, p, g):
K: ensemble fini d'états
I, J: ensembles finis d'actions des joueurs 1 et 2
p: K × I × J → Δ(K): fonction de transition probabiliste
g: K × I × J → 0,1: fonction de récompense d'étape
Caractéristiques clés: Les joueurs n'observent pas l'état et ne connaissent que la croyance initiale b₁ ∈ Δ(K) et l'historique des actions.
Définition de la valeur uniforme: Le jeu Γ a une valeur uniforme v: Δ(K) → 0,1 si pour tout b₁ ∈ Δ(K) et ε > 0, il existe des stratégies (σ*, π*) et n ∈ ℕ* tels que pour tout N ≥ n:
Le joueur 1 peut garantir: γ^(b₁)_N(σ*, π) ≥ v(b₁) - ε
Le joueur 2 peut garantir: γ^(b₁)_N(σ, π*) ≤ v(b₁) + ε
où γ^(b₁)N(σ, π) = 𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G_m est la récompense moyenne sur N étapes.
Jeu stochastique aveugle ergodique (Définition 3.3): Le jeu Γ est ergodique si pour tout ε > 0, il existe un entier n₀ tel que pour toute séquence de paires d'actions de longueur n ≥ n₀:
τ₁(Tⁿ(aⁿ)) ≤ ε
où Tⁿ(aⁿ) = P(a₁)P(a₂)···P(aₙ) est le produit des matrices de transition avant.
Propriété clé (Proposition 3.8): Le jeu Γ est ergodique si et seulement s'il existe n₀ ≤ (3^|K| - 2^(|K|+1) + 1)/2 tel que pour toute séquence de longueur n₀:
La méthode centrale de l'article consiste à construire un jeu stochastique abstrait G*(b₁, ε), qui est à états finis et peut approximer le jeu stochastique aveugle original avec une erreur ε.
Étapes de construction:
Étape 1: Détermination de l'échelle de temps (Proposition 4.1)
Étant donné ε > 0, calculer nε = n₀⌈ln(ε)/ln(sup_(aⁿ⁰) τ₁(Tⁿ⁰(aⁿ⁰)))⌉
Pour toute séquence de longueur n ≥ nε, on a τ₁(Tⁿ(aⁿ)) ≤ ε
Étape 2: Construction de l'ensemble de matrices stables
T(ε): ensemble de tous les produits avant de matrices satisfaisant la condition τ₁
T̃(ε): ensemble de matrices abstraites stables, pour chaque Tⁿ ∈ T(ε), définir T̃ⁿ tel que: t̃ⁿ_(k,k')(aⁿ) := 1/|K| ∑^|K|(k=1) tⁿ(k,k')(aⁿ) c'est-à-dire que chaque ligne égale la moyenne de toutes les lignes, rendant la matrice stable (toutes les lignes identiques)
Intuition clé: L'ergodicité garantit qu'après la longueur n, toutes les lignes des matrices de transition deviennent similaires (différence ≤ ε)
Technique de stabilisation: Construction de matrices stables par moyenne, rendant la mise à jour des croyances indépendante de la croyance initiale
Structure par blocs: Réinitialisation tous les n pas, exploitant la propriété d'« oubli de la mémoire » de l'ergodicité
2. Analyse fine du contrôle d'erreur
Lemme 4.2: Preuve que la distance des croyances entre le jeu original et le jeu abstrait est bornée: ||b^(b₁,h_m)(m,σ,π) - proj(x^(b₁,h_m)(m,σ,π))||₁ ≤ 4ε
Lemme 4.3: Preuve que la différence de récompense moyenne est bornée: |𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G_m - 𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G*_m| ≤ 4ε
3. Distinction avec les références de base
vs. Jeux échangeables de Venel Ven15: Non seulement l'existence, mais aussi un algorithme décidable
vs. Ergodicité des jeux stochastiques standards: Les conditions s'appliquent aux données originales plutôt qu'au jeu des croyances
vs. Littérature sur les MDP aveugles: Première établissement de la décidabilité de l'approximation dans les jeux à deux joueurs
4. Ingéniosité de la preuve d'indécidabilité
Réduction du problème d'universalité des automates finis probabilistes (PFA)
Construction d'une action Restart permettant au MDP aveugle de simuler un PFA
Ajout d'un état k̂ rendant toutes les matrices de transition Markov (garantissant l'ergodicité)
Preuve que la probabilité d'acceptation > 1/2 équivaut à une valeur moyenne à long terme > 1/2
MN81 Mertens & Neyman (1981): Travail fondateur sur l'existence de la valeur uniforme dans les jeux stochastiques standards
Zil16 Ziliotto (2016): Contre-exemple où la valeur uniforme peut ne pas exister dans les jeux stochastiques aveugles
MHC03 Madani, Hanks & Condon (2003): Résultat classique sur l'indécidabilité dans les MDP aveugles
Sen06 Seneta (2006): Synthèse autoritaire sur la théorie des matrices non-négatives et l'ergodicité
Ven15 Venel (2015): Existence de la valeur uniforme pour les jeux stochastiques échangeables
RSV02 Rosenberg, Solan & Vieille (2002): Existence de la valeur uniforme pour les MDP aveugles
CSZ22 Chatterjee, Saona & Ziliotto (2022): Stratégies à mémoire finie dans les POMDP
OB21 Oliu-Barton (2021): Nouvel algorithme pour les jeux stochastiques standards
Évaluation Globale: Cet article est un excellent travail théorique profond et techniquement solide. Il réalise une percée importante sur le problème fondamental mais difficile des jeux stochastiques aveugles, en équilibrant intelligemment l'existence de la valeur uniforme et la calculabilité par l'introduction d'une condition d'ergodicité. Bien que la complexité algorithmique élevée limite les applications pratiques, ses contributions théoriques et innovations méthodologiques sont d'une importance majeure pour la théorie des jeux, la théorie des automates et la théorie de la complexité computationnelle. Le résultat de rigueur (approximation décidable mais exact indécidable) est particulièrement impressionnant, délimitant clairement la frontière computationnelle du problème.