We study a class of two-player zero-sum stochastic games known as \textit{blind stochastic games}, where players neither observe the state nor receive any information about it during the game. A central concept for analyzing long-duration stochastic games is the \textit{uniform value}. A game has a uniform value $v$ if for every $\varepsilon>0$, Player 1 (resp., Player 2) has a strategy such that, for all sufficiently large $n$, his average payoff over $n$ stages is at least $v-\varepsilon$ (resp., at most $v+\varepsilon$). Prior work has shown that the uniform value may not exist in general blind stochastic games. To address this, we introduce a subclass called \textit{ergodic blind stochastic games}, defined by imposing an ergodicity condition on the state transitions. For this subclass, we prove the existence of the uniform value and provide an algorithm to approximate it, establishing the \textit{decidability} of the approximation problem. Notably, this decidability result is novel even in the single-player setting of Partially Observable Markov Decision Processes (POMDPs). Furthermore, we show that no algorithm can compute the uniform value exactly, emphasizing the tightness of our result. Finally, we establish that the uniform value is independent of the initial belief.
論文ID : 2405.12583タイトル : Uniform Value and Decidability in Ergodic Blind Stochastic Games著者 : Krishnendu Chatterjee (IST Austria), David Lurie (NyxAir & Paris Dauphine University), Raimundo Saona (IST Austria), Bruno Ziliotto (Toulouse School of Economics)分類 : math.OC (最適化と制御), cs.CC (計算複雑性)発表日時 : arXiv v2, 2025年11月21日論文リンク : https://arxiv.org/abs/2405.12583v2 本論文は盲確率ゲーム(blind stochastic games)を研究する。これは双人零和確率ゲームの一種であり、参加者は状態を観測せず、状態に関する情報も受け取らない。論文は遍歴的盲確率ゲーム(ergodic blind stochastic games)という部分クラスを導入し、状態遷移に遍歴性条件を課すことで定義する。このクラスに対して、論文は一様値(uniform value)の存在性を証明し、近似アルゴリズムを提供し、近似問題の判定可能性を確立する。この判定可能性の結果は、単人設定の部分可観測マルコフ決定過程(POMDPs)においても新規である。さらに論文は、一様値を正確に計算できるアルゴリズムは存在しないことを証明し、結果の厳密性を強調する。最後に、一様値が初期信念に依存しないことを確立する。
本論文が解決しようとする核心的な問題は、盲確率ゲームにおいて長期ゲームの価値をどのように特徴付けるかである。具体的には:
一様値の存在性問題 : Ziliotto Zil16 は一般的な盲確率ゲームでは一様値が存在しない可能性があることを証明した。では、どのような条件下で一様値は存在するのか?計算可能性問題 : 一様値が存在したとしても、アルゴリズムによってそれを計算または近似できるのか?Madani等MHC03 は一般的な盲MDPでは、一様値の計算と近似の両方が判定不可能であることを証明した。理論的意義 : 盲確率ゲームは不完全情報ゲームの最も単純なモデルであり、より複雑なモデルを研究するための理論的ベンチマークである。確率有限オートマトンと等価であり、計算機科学で広く応用されている。実際の応用 : 無限文字列の簡潔な仕様言語BGB12, CT12 、計算生物学における配列分析DEKM98 、音声処理Moh97 など。方法論的貢献 : データ上の条件を識別することで、信念ダイナミクスが遍歴的振る舞いを示すことを保証する。これは重要な方法論的貢献である。一般的な盲確率ゲーム : 一様値の存在を保証しないZil16 交換可能な盲確率ゲーム : VenelVen15 は一様値の存在を証明したが、計算アルゴリズムは提供しなかった盲MDP : Rosenberg等RSV02 は一様値の存在を証明したが、Madani等MHC03 は計算と近似が判定不可能であることを証明した既存の遍歴性研究 : 主に標準的な確率ゲームまたはMDPに焦点を当てており、盲確率ゲームは体系的に研究されていない論文の出発点は、遍歴性条件を導入することで、判定可能な盲確率ゲームの部分クラスを識別することである。この条件は:
ゲーム理論の文献で自然かつ一般的である 一様値の存在を保証する 近似問題を判定可能にする 正確な計算は依然として判定不可能であり、結果の厳密性を示す 論文の主な貢献は以下の通りである:
遍歴的盲確率ゲームの定義 : 遷移行列の乗積の遍歴性に基づいて、この新しいゲームのサブクラスを形式的に定義する(定義3.3)一様値の存在性と近似の判定可能性 (定理3.5):すべての遍歴的盲確率ゲームが一様値を持つことを証明 近似アルゴリズムを提供し、近似問題の判定可能性を確立 複雑度の上界は2-EXPSPACE 正確な計算の判定不可能性 (定理3.6):Markov盲MDP(遍歴的盲確率ゲームの部分クラス)においても、一様値の正確な計算が判定不可能であることを証明 これは近似の判定可能性の結果の厳密性を示す 初期信念の独立性 (定理3.7):遍歴的盲確率ゲームにおいて、一様値が初期信念に依存しないことを証明 十分条件 : 遍歴性を保証する遷移行列のいくつかのクラスを識別(C1-C5)。Markov行列、scrambling行列、Sarymsakov行列など検証アルゴリズム (命題3.9): 盲確率ゲームが遍歴性を満たすかどうかを検証する指数空間アルゴリズムを提供盲確率ゲーム は5タプル Γ = (K, I, J, p, g)として定義される:
K: 有限状態集合 I, J: プレイヤー1と2の有限行動集合 p: K × I × J → Δ(K): 確率遷移関数 g: K × I × J → 0,1 : ステージ報酬関数 主要な特徴 : プレイヤーは状態を観測せず、初期信念b₁ ∈ Δ(K)と過去の行動履歴のみを知る。
一様値の定義 : ゲームΓが一様値v: Δ(K) → 0,1 を持つとは、すべてのb₁ ∈ Δ(K)とε > 0に対して、戦略(σ*, π*)とn ∈ ℕ*が存在し、すべてのN ≥ nに対して:
プレイヤー1は以下を保証できる: γ^(b₁)_N(σ*, π) ≥ v(b₁) - ε プレイヤー2は以下を保証できる: γ^(b₁)_N(σ, π*) ≤ v(b₁) + ε ここで γ^(b₁)N(σ, π) = 𝔼^(b₁) (σ,π)1/N ∑^N_(m=1) G_m はN段階の平均報酬である。
核心概念 : 遍歴性係数τ₁。確率行列Pに対して、以下のように定義される:
τ₁(P) := 1/2 max_(k,k̄) ∑^|K|(k'=1) |p (k,k') - p_(k̄,k')|
遍歴的盲確率ゲーム (定義3.3): ゲームΓが遍歴的であるとは、すべてのε > 0に対して、整数n₀が存在し、長さn ≥ n₀のすべての行動対列aⁿに対して:
τ₁(Tⁿ(aⁿ)) ≤ ε
ここで Tⁿ(aⁿ) = P(a₁)P(a₂)···P(aₙ)は前向き遷移行列の乗積である。
主要な性質 (命題3.8): ゲームΓが遍歴的であることと、n₀ ≤ (3^|K| - 2^(|K|+1) + 1)/2が存在し、長さn₀のすべての行動対列に対して:
τ₁(Tⁿ⁰(aⁿ⁰)) < 1
であることは同値である。
論文の核心的な方法は、抽象確率ゲーム (abstract stochastic game) G*(b₁, ε)を構築することである。これは有限状態を持ち、元の盲確率ゲームを誤差εで近似できる。
構築ステップ :
ステップ1: 時間スケールの決定 (命題4.1)
ε > 0が与えられたとき、nε = n₀⌈ln(ε)/ln(sup_(aⁿ⁰) τ₁(Tⁿ⁰(aⁿ⁰)))⌉を計算 長さn ≥ nεのすべての列aⁿに対して、τ₁(Tⁿ(aⁿ)) ≤ εが成立 ステップ2: 安定行列集合の構築
T(ε): τ₁条件を満たす長さnのすべての前向き乗積行列の集合 T̃(ε): 抽象安定行列集合。各Tⁿ ∈ T(ε)に対して、T̃ⁿを定義: t̃ⁿ_(k,k')(aⁿ) := 1/|K| ∑^|K|(k=1) tⁿ (k,k')(aⁿ) つまり、すべての行が同じ値(すべての行の平均)となり、行列が安定化する ステップ3: 抽象状態空間の定義
抽象信念集合: B* := {b* ∈ Δ(K) | ∃T̃ⁿ ∈ T̃(ε) s.t. b* = b₁^⊤T̃ⁿ} ∪ {b₁}
状態空間: X := ⋃^(n-1)_(m=0) (B* × (I × J)^m)
これは有限集合であり、サイズはO(|I × J|^(2n))である。ここでnは二重指数である。
ステップ4: 遷移と報酬の定義
射影関数proj: X → Δ(K)は抽象状態を信念にマッピング 抽象更新関数ψ*:
m ∈ 0, n-2 の場合: ψ*(x, a) = (b*, a₁, ···, a_m, a) m = n-1の場合: ψ*(x, a) = (proj(x)^⊤T̃ⁿ(aⁿ))(新しい抽象信念にリセット) 遷移関数: p*(x'|x, a) = 1(x' = ψ*(x, a)の場合)、それ以外は0(決定論的) 報酬関数: g*(x, i, j) = ∑_(k∈K) proj(x)(k)·g(k, i, j) 1. 集約スキームの設計
主要な洞察 : 遍歴性は長さnの後、すべての遷移行列の行が類似(差異≤ε)になることを保証安定化技巧 : 平均化によって安定行列を構築し、信念更新が初期信念に依存しないようにするブロック構造 : n段階ごとにリセット。遍歴性の「記憶消失」性質を利用2. 誤差制御の精密分析
補題4.2 : 元のゲームと抽象ゲームの信念距離が有界であることを証明: ||b^(b₁,h_m)(m,σ,π) - proj(x^(b₁,h_m) (m,σ,π))||₁ ≤ 4ε補題4.3 : 平均報酬の差が有界であることを証明: |𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G_m - 𝔼^(b₁) (σ,π)1/N ∑^N_(m=1) G*_m | ≤ 4ε3. ベースラインとの違い
vs. VenelVen15 の交換可能ゲーム : 存在性だけでなく、判定可能なアルゴリズムも提供vs. 標準確率ゲームの遍歴性 : 条件は信念ゲームではなく、元のデータに課されるvs. 盲MDP文献 : 双人ゲームで初めて近似の判定可能性を確立4. 判定不可能性証明の巧妙さ
確率有限オートマトン(PFA)の普遍性問題からの帰約 Restart動作を構築してPFAをシミュレート可能にする 状態k̂を追加してすべての遷移行列をMarkov化(遍歴性を保証) 受理確率>1/2が長期平均>1/2と同値であることを証明 問題の説明 :
状態: K = {Good, Fair, Poor}(機械の状態) 行動: I = {Wait, Basic Maintenance, Critical Repair} プレイヤーはアクセス不可能な機械を監視し、過去の行動に基づいて決定 遷移行列 (部分表示):
Wait行動下:
G F P
G 0.9 0.1 0.0
F 0.0 0.7 0.3
P 0.0 0.1 0.9
遍歴性の検証 :
各行動の遷移行列P(i)はMarkov行列(少なくとも1列がすべて正) したがってτ₁(P(i)) < 1がすべてのi ∈ Iに対して成立 遍歴性を満たす 入力: 初期信念b₁, 盲確率ゲームΓ, 精度ε
1. Γの遍歴性を検証
2. 行列集合T(ε)を構築
3. T(ε)から抽象行列集合T̃(ε)を導出
4. 抽象確率ゲームG*(b₁, ε)を構築
5. G*(b₁, ε)の一様値v*(b₁, ε)を計算
出力: v*(b₁, ε)(Γが遍歴的な場合)
複雑度分析 :
状態数: O(|I × J|^(2n))。ここでn ≤ (3^|K| - 2^(|K|+1) + 1)/2 実閉体理論を通じて、標準確率ゲームはPSPACE内で解けるCMH08 総合的な複雑度: 2-EXPSPACE 論文は主に理論的な研究であり、核心的な結果は表2にまとめられている:
クラス 一様値存在 正確判定可能 近似判定可能 値は定数 十分条件 遍歴的盲MDP はい 判定不可能 判定可能 はい はい 遍歴的盲確率ゲーム はい 判定不可能 判定可能 はい はい Scrambling隠蔽確率ゲーム ? 判定不可能 ? ? はい
(太字は本論文の新しい結果を示す)
定理3.5(存在性と判定可能性) :
証明戦略 : 4段階の構築を通じて
抽象ゲームG*(b₁, ε)を構築 信念が接近していることを証明(補題4.2) 報酬が接近していることを証明(補題4.3) 標準確率ゲームの一様値存在性を利用 誤差界 : |v*(b₁, ε) - v(b₁)| ≤ 4ε判定可能性 : 有限状態確率ゲームへの帰約を通じて定理3.6(判定不可能性) :
証明戦略 : PFA普遍性問題からの帰約主要な構築 :
吸収状態k̂を追加 Restart動作で初期状態にリセット 報酬設計により受理確率>1/2 ⟺ 長期平均>1/2 分離結果 : 標準確率ゲーム(正確判定可能OB21 )と対比定理3.7(初期信念の独立性) :
証明のポイント : 抽象ゲームでは異なる初期信念の差は最初のnε段階のみ誤差界 : |v(b₁) - v(b'₁)| ≤ 8εはすべてのb₁, b'₁に対して成立論文は行列クラスの厳密な包含関係を識別した:
C₅ ⊊ C₄ ⊊ C₃ ⊊ C₂ ⊊ C₁
ここで:
C₅(Markov) : 少なくとも1列がすべて正C₄(Scrambling) : 任意の2行が公通の後続状態を持つC₃(Sarymsakov) : 任意の2つの互いに素な部分集合は公通の到達可能状態を持つか、到達可能集合が拡大C₂(C₂-行列) : SIA且つすべてのSIA行列との乗積がSIAC₁(SIA) : Pⁿが安定行列に収束これらすべてのクラスの遷移行列は、盲確率ゲームが遍歴的であることを保証する。
標準確率ゲーム Sha53 : 完全な状態観測Mertens-NeymanMN81 : 一様値は常に存在 アルゴリズム: OB21 等が計算方法を提供 盲確率ゲーム :N段階値は存在vN28 ZiliottoZil16 : 一様値が存在しない反例 VenelVen15 : 交換可能条件下で一様値存在(アルゴリズムなし) 存在性 : Rosenberg等RSV02 は盲MDPの一様値存在を証明判定不可能性 : Madani等MHC03 は計算と近似の両方が判定不可能であることを証明有限記憶 : Chatterjee等CSZ22 は有限記憶戦略が十分であることを証明したが、記憶サイズに計算可能な界がない標準確率ゲーム :有限状態HK66, Sob71, Vri03 可算状態Now99 応用: 暗号資産攻撃分析CKGIV18 MDP中の遍歴性 :有限状態AS92, HBS87, WSS11 可算状態BSL90, PBS93 サーベイABFG+93, Put14 オートマトン理論 :単人の場合CSV13 は隔離カットポイントを持つ確率オートマトンを研究 本論文は双人ゲームに拡張 肯定的結果 :強い仮定下CH10 他の目標CCT16, CDH13, GO14 否定的結果 :ω-正則目標Cha07 部分可観測ゲームCCGK16 vs. VenelVen15 : 存在性だけでなく、アルゴリズムも提供vs. 盲MDP文献 : 双人ゲームで初めて近似の判定可能性を確立vs. 標準遍歴性 : 条件は元のデータに課され、信念ダイナミクスの遍歴的振る舞いを識別新規性 : 単人POMDP中でも、近似の判定可能性は新しい存在性 : 遍歴的盲確率ゲームは常に一様値を持つ判定可能性の二分法 :
近似: 判定可能(2-EXPSPACE) 正確: 判定不可能(Markov盲MDPでも) 初期信念の無関性 : 一様値は定数関数十分条件 : 遍歴性を保証する5つの行列クラスを識別検証アルゴリズム : 遍歴性を判定する指数空間アルゴリズム1. 複雑度
2-EXPSPACEの上界は高い 実際の計算は実行不可能な可能性がある 下界は与えられていない 2. 適用範囲
遍歴的な場合のみ 遍歴性条件(式1)はすべての行動列に対して一貫して成立する必要がある 多くの実際のゲームは満たさない可能性がある 3. 正確な計算
定理3.6は正確な計算が判定不可能であることを示す 任意の精度に近似することのみ可能 近似値の品質を判定する方法がない **4. 拡張性の問題
隠蔽確率ゲーム(信号あり)への拡張は大きな課題に直面 ランダムな遷移は誤差伝播を引き起こす 存在性と判定可能性は依然として開放問題 1. 隠蔽確率ゲーム (第5節で議論)
Scrambling隠蔽ゲーム : 定義5.2が一般化を与える開放問題 :
主要な障害 :
信念遷移がランダムになる(vs. 盲ゲームの決定論的) 元のゲームと抽象ゲームを完全に結合できない 誤差が伝播する可能性RSV02 2. 複雑度の改善
2-EXPSPACEの上界を低下させる マッチング下界を確立 多項式時間で解ける部分クラスを識別 3. アルゴリズムの最適化
実際に実装可能なアルゴリズム 問題構造の利用 近似品質のオンライン推定 4. 応用の探索
ロボット航法(部分可観測) ネットワークセキュリティ(攻防ゲーム) リソース管理(不完全情報) 5. 理論の深化
遍歴性の他の特徴付け 他のゲームクラスとの関係 多人ゲームへの一般化 1. 理論的貢献が顕著
先駆的 : 盲確率ゲームで初めて近似の判定可能性を確立厳密性 : 判定不可能性の結果は近似が最善であることを示す統一性 : 存在性、判定可能性、初期信念の独立性を同時に扱う2. 方法論的革新
抽象ゲーム構築 : 遍歴性を利用して有限近似を優雅に構築安定化技巧 : 平均化により信念更新を独立化誤差分析 : ε制御が証明全体を貫く3. 技術的深さ
行列理論 : 遍歴係数と行列乗積理論を深く利用複雑性理論 : 判定不可能性の巧妙な帰約証明ゲーム理論 : 複数の研究分野を結合(オートマトン、MDP、確率ゲーム)4. 結果の完全性
十分条件を提供(5つの行列クラス) 検証アルゴリズムを与える(命題3.9) 具体例を含む(例3.1) 拡張方向を議論(第5節) 5. 記述の明確性
構造が合理的で論理が明確 定義が厳密で記号が規範的 証明が詳細で検証しやすい 関連研究が包括的 1. 計算複雑度
2-EXPSPACEが高すぎる : 実際には実行不可能下界がない : 改善可能かどうか不明実験がない : 実際のパフォーマンスが未評価2. 適用性の制限
遍歴条件が強い : 式(1)はすべての列に対して一貫性が必要有限状態のみ : 無限状態空間は未考慮零和仮定 : 一般和ゲームは未議論3. アルゴリズムの詳細
アルゴリズム1が抽象的 : 実装詳細が不足数値安定性 : 浮動小数点計算の問題は未議論パラメータ選択 : εの選択方法の指針がない4. 実験検証
例が1つのみ : 例3.1は過度に単純性能評価がない : 実行時間、メモリ使用量が不明比較がない : 他の方法(サンプリングなど)との比較なし5. 拡張性の問題
隠蔽ゲーム : 主要な障害が未解決多人ゲーム : 未議論他の目標 : 割引報酬、到達可能性が十分に探索されていない1. 理論的影響
空白を埋める : 盲確率ゲームとPOMDPで初めて近似の判定可能性を確立方法論 : 抽象ゲーム構築は他の不完全情報ゲーム研究を刺激する可能性複雑性理論 : 正確vs.近似の二分法は重要な洞察2. 実用的価値
限定的 : 2-EXPSPACE複雑度が実際の応用を制限理論的指導 : 処理可能な部分クラスの識別は価値があるベンチマーク : 他の発見的方法の理論的基準として機能3. 再現可能性
理論結果 : 証明が詳細で検証可能アルゴリズム : 説明が明確で実装可能例 : シンプルで再現可能コード : 実装は提供されていない4. 後続研究
直接的拡張 : 隠蔽ゲーム、多人ゲームアルゴリズム改善 : 複雑度低下、実装応用 : 具体的領域のモデリングと求解理論的に適用可能 :
小規模問題 : 状態と行動空間が小さい強い遍歴性 : 遷移行列が急速に混合近似で十分 : 正確な値は不要オフライン計算 : 高い計算コストを許容具体的な応用 :
機械保守 : 例3.1のような状態不可観測の保守決定ネットワーク監視 : 過去データに基づく侵入検知ロボット航法 : 部分可観測環境での経路計画リソース配分 : 不完全情報下の競争的リソース配分不適用なシナリオ :
大規模システム : 状態空間が指数的に爆発非遍歴システム : 長期的に過去に依存リアルタイム決定 : 計算時間が制限される正確性要求 : 正確な最適戦略が必要MN81 Mertens & Neyman (1981): 標準確率ゲームの一様値存在性の基礎的研究Zil16 Ziliotto (2016): 盲確率ゲームで一様値が存在しない反例MHC03 Madani, Hanks & Condon (2003): 盲MDPの判定不可能性の古典的結果Sen06 Seneta (2006): 非負行列と遍歴性理論の権威的サーベイVen15 Venel (2015): 交換可能確率ゲームの一様値存在性RSV02 Rosenberg, Solan & Vieille (2002): 盲MDPの一様値存在性CSZ22 Chatterjee, Saona & Ziliotto (2022): POMDPの有限記憶戦略OB21 Oliu-Barton (2021): 標準確率ゲームの新しいアルゴリズム総合評価 : これは理論が深く、技術が堅実な優れた論文である。盲確率ゲームというこの基礎的だが困難な問題において、重要な突破を達成した。遍歴性条件の導入を通じて、一様値の存在性と計算可能性を巧妙にバランスさせている。アルゴリズムの複雑度が高く実際の応用を制限するが、その理論的貢献と方法論的革新はゲーム理論、オートマトン理論、計算複雑性理論に重要な意義を持つ。特に厳密性の結果(近似は判定可能だが正確は判定不可能)は印象的であり、問題の計算的境界を明確に刻画している。