Uniform Value and Decidability in Ergodic Blind Stochastic Games
Chatterjee, Lurie, Saona et al.
We study a class of two-player zero-sum stochastic games known as \textit{blind stochastic games}, where players neither observe the state nor receive any information about it during the game. A central concept for analyzing long-duration stochastic games is the \textit{uniform value}. A game has a uniform value $v$ if for every $\varepsilon>0$, Player 1 (resp., Player 2) has a strategy such that, for all sufficiently large $n$, his average payoff over $n$ stages is at least $v-\varepsilon$ (resp., at most $v+\varepsilon$). Prior work has shown that the uniform value may not exist in general blind stochastic games. To address this, we introduce a subclass called \textit{ergodic blind stochastic games}, defined by imposing an ergodicity condition on the state transitions. For this subclass, we prove the existence of the uniform value and provide an algorithm to approximate it, establishing the \textit{decidability} of the approximation problem. Notably, this decidability result is novel even in the single-player setting of Partially Observable Markov Decision Processes (POMDPs). Furthermore, we show that no algorithm can compute the uniform value exactly, emphasizing the tightness of our result. Finally, we establish that the uniform value is independent of the initial belief.
academic
Einheitlicher Wert und Entscheidbarkeit in ergodischen blinden stochastischen Spielen
Titel: Uniform Value and Decidability in Ergodic Blind Stochastic Games
Autoren: Krishnendu Chatterjee (IST Austria), David Lurie (NyxAir & Paris Dauphine University), Raimundo Saona (IST Austria), Bruno Ziliotto (Toulouse School of Economics)
Klassifikation: math.OC (Optimierung und Kontrolle), cs.CC (Rechenkomplexität)
Veröffentlichungsdatum: arXiv v2, 21. November 2025
Diese Arbeit untersucht blinde stochastische Spiele (blind stochastic games) – eine Klasse von Zwei-Personen-Nullsummenspielen, bei denen die Spieler weder den Zustand beobachten noch Informationen über den Zustand erhalten. Das Paper führt ergodische blinde stochastische Spiele (ergodic blind stochastic games) als Unterklasse ein, die durch Ergodizitätsbedingungen auf Zustandsübergängen definiert wird. Für diese Unterklasse wird die Existenz des einheitlichen Wertes (uniform value) nachgewiesen und Approximationsalgorithmen bereitgestellt, die die Entscheidbarkeit des Approximationsproblems etablieren. Dieses Entscheidbarkeitsergebnis ist auch für teilweise beobachtbare Markov-Entscheidungsprozesse (POMDPs) im Einpersonen-Fall neu. Darüber hinaus wird bewiesen, dass kein Algorithmus den einheitlichen Wert exakt berechnen kann, was die Straffheit der Ergebnisse unterstreicht. Abschließend wird etabliert, dass der einheitliche Wert unabhängig vom initialen Glauben ist.
Existenzproblem des einheitlichen Wertes: Ziliotto Zil16 hat bewiesen, dass allgemeine blinde stochastische Spiele möglicherweise keinen einheitlichen Wert haben. Unter welchen Bedingungen existiert der einheitliche Wert?
Berechenbarkeitsproblem: Selbst wenn der einheitliche Wert existiert, kann er durch Algorithmen berechnet oder approximiert werden? Madani et al. MHC03 haben bewiesen, dass das Berechnen und Approximieren des einheitlichen Wertes in allgemeinen blinden MDPs unentscheidbar ist.
Theoretische Bedeutung: Blinde stochastische Spiele sind das einfachste Modell für Spiele mit unvollständiger Information und dienen als theoretischer Bezugspunkt für komplexere Modelle. Sie sind äquivalent zu probabilistischen endlichen Automaten, die in der Informatik weit verbreitet sind.
Praktische Anwendungen: Einschließlich prägnanter Spezifikationssprachen für unendliche Zeichenketten BGB12, CT12, Sequenzanalyse in der Computationalbiologie DEKM98, Sprachverarbeitung Moh97 und weitere.
Methodologischer Beitrag: Die Identifikation von Bedingungen auf den Daten, um ergodisches Verhalten in der Glaubensdynamik zu gewährleisten, ist ein wesentlicher methodologischer Beitrag.
Allgemeine blinde stochastische Spiele: Garantieren nicht die Existenz des einheitlichen Wertes Zil16
Austauschbare blinde stochastische Spiele: Venel Ven15 bewies die Existenz des einheitlichen Wertes, lieferte aber keinen Berechnungsalgorithmus
Blinde MDPs: Rosenberg et al. RSV02 bewiesen die Existenz des einheitlichen Wertes, aber Madani et al. MHC03 bewiesen, dass Berechnung und Approximation unentscheidbar sind
Bestehende Ergodizitätsforschung: Konzentriert sich hauptsächlich auf Standard-Stochastische Spiele oder MDPs, untersucht blinde stochastische Spiele nicht systematisch
Der Ausgangspunkt dieser Arbeit ist die Einführung von Ergodizitätsbedingungen, um eine entscheidbare Unterklasse blinder stochastischer Spiele zu identifizieren, die:
In der Spieltheorie-Literatur natürlich und häufig verwendet wird
Die Existenz des einheitlichen Wertes garantiert
Das Approximationsproblem entscheidbar macht
Die exakte Berechnung bleibt unentscheidbar, was die Straffheit der Ergebnisse zeigt
Definition ergodischer blinder stochastischer Spiele: Formalisierung dieser neuen Spielklasse basierend auf Ergodizitätseigenschaften von Übergangsmatrizenprodukten (Definition 3.3)
Existenz des einheitlichen Wertes und Entscheidbarkeit der Approximation (Satz 3.5):
Beweis, dass alle ergodischen blinden stochastischen Spiele einen einheitlichen Wert haben
Bereitstellung von Approximationsalgorithmen, Etablierung der Entscheidbarkeit des Approximationsproblems
Komplexitätsschranke: 2-EXPSPACE
Unentscheidbarkeit der exakten Berechnung (Satz 3.6):
Beweis, dass selbst für Markov-blinde MDPs (Unterklasse ergodischer blinder stochastischer Spiele) die exakte Berechnung des einheitlichen Wertes unentscheidbar ist
Dies zeigt die Straffheit des Entscheidbarkeitsergebnisses der Approximation
Unabhängigkeit vom initialen Glauben (Satz 3.7):
Beweis, dass in ergodischen blinden stochastischen Spielen der einheitliche Wert nicht vom initialen Glauben abhängt
Hinreichende Bedingungen: Identifikation mehrerer Klassen von Übergangsmatrizen, die Ergodizität garantieren (C1-C5), einschließlich Markov-Matrizen, Scrambling-Matrizen, Sarymsakov-Matrizen usw.
Verifikationsalgorithmus (Proposition 3.9): Bereitstellung eines Exponentialraum-Algorithmus zur Überprüfung, ob ein blindes stochastisches Spiel die Ergodizitätseigenschaft erfüllt
Blindes stochastisches Spiel wird als Fünftupel Γ = (K, I, J, p, g) definiert:
K: endliche Zustandsmenge
I, J: endliche Aktionsmengen für Spieler 1 und Spieler 2
p: K × I × J → Δ(K): Wahrscheinlichkeitsübergangsfunktion
g: K × I × J → 0,1: Phasenbelohnungsfunktion
Schlüsseleigenschaft: Spieler beobachten den Zustand nicht, kennen nur den initialen Glauben b₁ ∈ Δ(K) und die Historie der Aktionen.
Einheitlicher Wert wird definiert als: Spiel Γ hat einen einheitlichen Wert v: Δ(K) → 0,1, wenn für alle b₁ ∈ Δ(K) und ε > 0 Strategien (σ*, π*) und n ∈ ℕ* existieren, sodass für alle N ≥ n:
Spieler 1 kann garantieren: γ^(b₁)_N(σ*, π) ≥ v(b₁) - ε
Spieler 2 kann garantieren: γ^(b₁)_N(σ, π*) ≤ v(b₁) + ε
wobei γ^(b₁)N(σ, π) = 𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G_m die N-Phasen-Durchschnittsbelohnung ist.
Ergodisches blindes stochastisches Spiel (Definition 3.3): Spiel Γ ist ergodisch, wenn für alle ε > 0 eine ganze Zahl n₀ existiert, sodass für alle Aktionspaarsequenzen aⁿ der Länge n ≥ n₀:
τ₁(Tⁿ(aⁿ)) ≤ ε
wobei Tⁿ(aⁿ) = P(a₁)P(a₂)···P(aₙ) das Produkt der Vorwärtsübergangsmatrizen ist.
Schlüsseleigenschaft (Proposition 3.8): Spiel Γ ist ergodisch genau dann, wenn eine ganze Zahl n₀ ≤ (3^|K| - 2^(|K|+1) + 1)/2 existiert, sodass für alle Aktionspaarsequenzen der Länge n₀:
Die Kernmethode des Papers ist die Konstruktion eines abstrakten stochastischen Spiels G*(b₁, ε), das endlich viele Zustände hat und das ursprüngliche blinde stochastische Spiel mit Fehler ε approximiert.
Konstruktionsschritte:
Schritt 1: Bestimmung der Zeitskala (Proposition 4.1)
Für alle Sequenzen aⁿ der Länge n ≥ nε gilt τ₁(Tⁿ(aⁿ)) ≤ ε
Schritt 2: Konstruktion der stabilen Matrizenmenge
T(ε): Menge aller Vorwärtsproduktmatrizen der Länge n, die die τ₁-Bedingung erfüllen
T̃(ε): Abstrakte stabile Matrizenmenge, für jedes Tⁿ ∈ T(ε) wird T̃ⁿ definiert als: t̃ⁿ_(k,k')(aⁿ) := 1/|K| ∑^|K|(k=1) tⁿ(k,k')(aⁿ) Das heißt, jede Zeile ist gleich dem Durchschnitt aller Zeilen, was die Matrix stabil macht (alle Zeilen identisch)
Schritt 3: Definition des abstrakten Zustandsraums
Schlüsseleinsicht: Ergodizität garantiert, dass nach Länge n alle Übergangsmatrizen ähnliche Zeilen haben (Differenz ≤ ε)
Stabilisierungstechnik: Konstruktion stabiler Matrizen durch Mittelung, sodass die Glaubensaktualisierung unabhängig vom initialen Glauben wird
Blockstruktur: Alle n Schritte zurücksetzen, Nutzung der "Gedächtnisverlust"-Eigenschaft der Ergodizität
2. Feinkörnige Fehleranalyse
Lemma 4.2: Beweis, dass der Glaubensabstand zwischen ursprünglichem und abstraktem Spiel begrenzt ist: ||b^(b₁,h_m)(m,σ,π) - proj(x^(b₁,h_m)(m,σ,π))||₁ ≤ 4ε
Lemma 4.3: Beweis, dass die Durchschnittsbelohnungsdifferenz begrenzt ist: |𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G_m - 𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G*_m| ≤ 4ε
3. Unterschiede zur Baseline
vs. Venels Ven15 austauschbare Spiele: Nicht nur Existenzbeweis, sondern auch entscheidbarer Algorithmus
vs. Standard-Ergodizität stochastischer Spiele: Bedingungen auf ursprünglichen Daten, nicht auf Glaubensspielen
vs. Blinde-MDP-Literatur: Erste Etablierung der Approximationsentscheidbarkeit in Zwei-Personen-Spielen
4. Eleganz des Unentscheidbarkeitbeweises
Reduktion vom Universalitätsproblem probabilistischer endlicher Automaten (PFA)
Konstruktion einer Restart-Aktion, sodass das blinde MDP PFAs simulieren kann
Hinzufügen eines Zustands k̂, sodass alle Übergangsmatrizen Markov sind (Ergodizität garantiert)
Beweis, dass Akzeptanzwahrscheinlichkeit > 1/2 äquivalent zu langfristigem Durchschnitt > 1/2 ist
MN81 Mertens & Neyman (1981): Grundlegende Arbeit zur Existenz des einheitlichen Wertes in Standard-Stochastischen Spielen
Zil16 Ziliotto (2016): Gegenbeispiel, dass einheitlicher Wert in blinden stochastischen Spielen möglicherweise nicht existiert
MHC03 Madani, Hanks & Condon (2003): Klassisches Ergebnis zur Unentscheidbarkeit in blinden MDPs
Sen06 Seneta (2006): Autoritative Übersicht über nicht-negative Matrizen und Ergodizitätstheorie
Ven15 Venel (2015): Existenz des einheitlichen Wertes in austauschbaren stochastischen Spielen
RSV02 Rosenberg, Solan & Vieille (2002): Existenz des einheitlichen Wertes in blinden MDPs
CSZ22 Chatterjee, Saona & Ziliotto (2022): Endliche Gedächtnisstrategien in POMDPs
OB21 Oliu-Barton (2021): Neue Algorithmen für Standard-Stochastische Spiele
Gesamtbewertung: Dies ist ein theoretisch tiefgreifendes und technisch solides Papier von hoher Qualität. Es erzielt einen wichtigen Durchbruch bei diesem grundlegenden, aber schwierigen Problem blinder stochastischer Spiele, indem es durch geschickte Einführung von Ergodizitätsbedingungen die Existenz des einheitlichen Wertes und die Berechenbarkeit elegant ausbalanciert. Obwohl die Algorithmus-Komplexität praktische Anwendungen einschränkt, sind seine theoretischen Beiträge und methodologischen Innovationen für Spieltheorie, Automatentheorie und Rechenkomplexitätstheorie von großer Bedeutung. Das Straffheitsergebnis (Approximation entscheidbar, aber exakt unentscheidbar) ist besonders beeindruckend und charakterisiert die Rechengrenze des Problems klar.