Uniform Value and Decidability in Ergodic Blind Stochastic Games
Chatterjee, Lurie, Saona et al.
We study a class of two-player zero-sum stochastic games known as \textit{blind stochastic games}, where players neither observe the state nor receive any information about it during the game. A central concept for analyzing long-duration stochastic games is the \textit{uniform value}. A game has a uniform value $v$ if for every $\varepsilon>0$, Player 1 (resp., Player 2) has a strategy such that, for all sufficiently large $n$, his average payoff over $n$ stages is at least $v-\varepsilon$ (resp., at most $v+\varepsilon$). Prior work has shown that the uniform value may not exist in general blind stochastic games. To address this, we introduce a subclass called \textit{ergodic blind stochastic games}, defined by imposing an ergodicity condition on the state transitions. For this subclass, we prove the existence of the uniform value and provide an algorithm to approximate it, establishing the \textit{decidability} of the approximation problem. Notably, this decidability result is novel even in the single-player setting of Partially Observable Markov Decision Processes (POMDPs). Furthermore, we show that no algorithm can compute the uniform value exactly, emphasizing the tightness of our result. Finally, we establish that the uniform value is independent of the initial belief.
academic
एर्गोडिक ब्लाइंड स्टोकेस्टिक गेम्स में समान मूल्य और निर्णयशीलता
शीर्षक: Uniform Value and Decidability in Ergodic Blind Stochastic Games
लेखक: Krishnendu Chatterjee (IST Austria), David Lurie (NyxAir & Paris Dauphine University), Raimundo Saona (IST Austria), Bruno Ziliotto (Toulouse School of Economics)
वर्गीकरण: math.OC (अनुकूलन और नियंत्रण), cs.CC (कम्प्यूटेशनल जटिलता)
यह पेपर ब्लाइंड स्टोकेस्टिक गेम्स का अध्ययन करता है—द्विपक्षीय शून्य-योग स्टोकेस्टिक गेम्स का एक वर्ग जहां प्रतिभागी न तो अवस्था को देखते हैं और न ही अवस्था के बारे में कोई जानकारी प्राप्त करते हैं। पेपर एर्गोडिक ब्लाइंड स्टोकेस्टिक गेम्स (ergodic blind stochastic games) के एक उपवर्ग को प्रस्तुत करता है, जिसे अवस्था संक्रमण पर एर्गोडिसिटी शर्तों को लागू करके परिभाषित किया जाता है। इस उपवर्ग के लिए, पेपर समान मूल्य (uniform value) के अस्तित्व को सिद्ध करता है, और सन्निकटन एल्गोरिदम प्रदान करता है, सन्निकटन समस्या की निर्णयशीलता स्थापित करता है। यह निर्णयशीलता परिणाम एकल-व्यक्ति सेटिंग में आंशिक रूप से अवलोकनीय मार्कोव निर्णय प्रक्रियाओं (POMDPs) में भी नया है। इसके अतिरिक्त, पेपर सिद्ध करता है कि कोई भी एल्गोरिदम समान मूल्य की सटीक गणना नहीं कर सकता, परिणामों की कसाई को रेखांकित करता है। अंत में, पेपर स्थापित करता है कि समान मूल्य प्रारंभिक विश्वास से स्वतंत्र है।
यह पेपर जो मूल समस्या को हल करना चाहता है वह है: ब्लाइंड स्टोकेस्टिक गेम्स में, दीर्घकालीन गेम के मूल्य को कैसे चिह्नित किया जाए? विशेष रूप से:
समान मूल्य के अस्तित्व की समस्या: Ziliotto Zil16 ने पहले से ही सिद्ध किया है कि सामान्य ब्लाइंड स्टोकेस्टिक गेम्स में समान मूल्य मौजूद नहीं हो सकता है, तो किन शर्तों के तहत समान मूल्य मौजूद है?
गणनीयता समस्या: भले ही समान मूल्य मौजूद हो, क्या इसे एल्गोरिदम द्वारा गणना या सन्निकटित किया जा सकता है? Madani आदि MHC03 ने सिद्ध किया है कि सामान्य ब्लाइंड MDP में, समान मूल्य की गणना और सन्निकटन दोनों अनिर्णीय हैं।
सैद्धांतिक महत्व: ब्लाइंड स्टोकेस्टिक गेम्स अधूरी जानकारी वाले गेम्स का सबसे सरल मॉडल है, अधिक जटिल मॉडल के अध्ययन के लिए एक सैद्धांतिक बेंचमार्क है। यह संभाव्य परिमित ऑटोमेटा के समतुल्य है, जिसका कंप्यूटर विज्ञान में व्यापक अनुप्रयोग है।
व्यावहारिक अनुप्रयोग: अनंत स्ट्रिंग्स के संक्षिप्त विनिर्देश भाषाएं BGB12, CT12, कम्प्यूटेशनल जीव विज्ञान में अनुक्रम विश्लेषण DEKM98, वाक् प्रसंस्करण Moh97 आदि शामिल हैं।
पद्धति संबंधी योगदान: डेटा पर शर्तों की पहचान करके विश्वास गतिशीलता को एर्गोडिक व्यवहार प्रदर्शित करने के लिए, यह एक महत्वपूर्ण पद्धति संबंधी योगदान है।
एर्गोडिक ब्लाइंड स्टोकेस्टिक गेम्स को परिभाषित करना: संक्रमण मैट्रिक्स उत्पाद की एर्गोडिसिटी गुणों के आधार पर, इस नए गेम उपवर्ग को औपचारिक रूप से परिभाषित किया गया है (परिभाषा 3.3)
समान मूल्य के अस्तित्व और सन्निकटन निर्णयशीलता (प्रमेय 3.5):
सभी एर्गोडिक ब्लाइंड स्टोकेस्टिक गेम्स में समान मूल्य है यह सिद्ध करता है
सन्निकटन एल्गोरिदम प्रदान करता है, सन्निकटन समस्या की निर्णयशीलता स्थापित करता है
जटिलता ऊपरी सीमा 2-EXPSPACE है
सटीक गणना की अनिर्णयशीलता (प्रमेय 3.6):
सिद्ध करता है कि Markov ब्लाइंड MDP के लिए भी (एर्गोडिक ब्लाइंड स्टोकेस्टिक गेम्स का उपवर्ग), समान मूल्य की सटीक गणना अनिर्णीय है
यह सन्निकटन निर्णयशीलता परिणाम की कसाई को दर्शाता है
प्रारंभिक विश्वास स्वतंत्रता (प्रमेय 3.7):
एर्गोडिक ब्लाइंड स्टोकेस्टिक गेम्स में, समान मूल्य प्रारंभिक विश्वास पर निर्भर नहीं है यह सिद्ध करता है
पर्याप्त शर्तें: संक्रमण मैट्रिक्स के कई वर्गों की पहचान करता है जो एर्गोडिसिटी को सुनिश्चित करते हैं (C1-C5), जिसमें Markov मैट्रिक्स, scrambling मैट्रिक्स, Sarymsakov मैट्रिक्स आदि शामिल हैं
सत्यापन एल्गोरिदम (प्रस्ताव 3.9): यह जांचने के लिए एक घातीय स्पेस एल्गोरिदम प्रदान करता है कि क्या ब्लाइंड स्टोकेस्टिक गेम्स एर्गोडिसिटी गुणों को संतुष्ट करते हैं
ब्लाइंड स्टोकेस्टिक गेम्स को पांच-टपल Γ = (K, I, J, p, g) के रूप में परिभाषित किया गया है:
K: परिमित अवस्था समुच्चय
I, J: खिलाड़ी 1 और खिलाड़ी 2 के परिमित कार्य समुच्चय
p: K × I × J → Δ(K): संभाव्य संक्रमण फलन
g: K × I × J → 0,1: चरणबद्ध पुरस्कार फलन
मुख्य विशेषता: खिलाड़ी अवस्था को नहीं देखते, केवल प्रारंभिक विश्वास b₁ ∈ Δ(K) और ऐतिहासिक कार्यों को जानते हैं।
समान मूल्य परिभाषा: गेम Γ का समान मूल्य v: Δ(K) → 0,1 है, यदि सभी b₁ ∈ Δ(K) और ε > 0 के लिए, रणनीतियां (σ*, π*) और n ∈ ℕ* मौजूद हैं, जैसे कि सभी N ≥ n के लिए:
खिलाड़ी 1 सुनिश्चित कर सकता है: γ^(b₁)_N(σ*, π) ≥ v(b₁) - ε
खिलाड़ी 2 सुनिश्चित कर सकता है: γ^(b₁)_N(σ, π*) ≤ v(b₁) + ε
जहां γ^(b₁)N(σ, π) = 𝔼^(b₁)(σ,π)1/N ∑^N_(m=1) G_m N-चरणीय औसत पुरस्कार है।
एर्गोडिक ब्लाइंड स्टोकेस्टिक गेम्स (परिभाषा 3.3): गेम Γ एर्गोडिक है, यदि सभी ε > 0 के लिए, एक पूर्णांक n₀ मौजूद है जैसे कि लंबाई n ≥ n₀ के सभी कार्य जोड़ी अनुक्रमों aⁿ के लिए:
τ₁(Tⁿ(aⁿ)) ≤ ε
जहां Tⁿ(aⁿ) = P(a₁)P(a₂)···P(aₙ) आगे की ओर संक्रमण मैट्रिक्स उत्पाद है।
मुख्य गुणधर्म (प्रस्ताव 3.8): गेम Γ एर्गोडिक है यदि और केवल यदि n₀ ≤ (3^|K| - 2^(|K|+1) + 1)/2 मौजूद है जैसे कि लंबाई n₀ के सभी कार्य जोड़ी अनुक्रमों के लिए:
पेपर की मुख्य विधि एक अमूर्त स्टोकेस्टिक गेम्स (abstract stochastic game) G*(b₁, ε) का निर्माण है, जो परिमित अवस्था का है, और मूल ब्लाइंड स्टोकेस्टिक गेम्स को त्रुटि ε के साथ सन्निकटित कर सकता है।
निर्माण चरण:
चरण 1: समय पैमाना निर्धारित करना (प्रस्ताव 4.1)
दिया गया ε > 0, nε = n₀⌈ln(ε)/ln(sup_(aⁿ⁰) τ₁(Tⁿ⁰(aⁿ⁰)))⌉ की गणना करें
लंबाई n ≥ nε के सभी अनुक्रमों aⁿ के लिए, τ₁(Tⁿ(aⁿ)) ≤ ε है
चरण 2: स्थिर मैट्रिक्स समुच्चय का निर्माण
T(ε): सभी लंबाई n के आगे की ओर उत्पाद मैट्रिक्स समुच्चय जो τ₁ शर्त को संतुष्ट करते हैं
T̃(ε): अमूर्त स्थिर मैट्रिक्स समुच्चय, प्रत्येक Tⁿ ∈ T(ε) के लिए, T̃ⁿ को परिभाषित करें जैसे कि: t̃ⁿ_(k,k')(aⁿ) := 1/|K| ∑^|K|(k=1) tⁿ(k,k')(aⁿ) अर्थात् प्रत्येक पंक्ति सभी पंक्तियों के औसत के बराबर है, मैट्रिक्स को स्थिर बनाता है (सभी पंक्तियां समान)
OB21 Oliu-Barton (2021): मानक स्टोकेस्टिक गेम्स के लिए नया एल्गोरिदम
समग्र मूल्यांकन: यह एक सैद्धांतिक रूप से गहरा और तकनीकी रूप से ठोस उत्कृष्ट पेपर है। यह ब्लाइंड स्टोकेस्टिक गेम्स में इस मौलिक लेकिन कठिन समस्या पर महत्वपूर्ण सफलता प्राप्त करता है, एर्गोडिसिटी शर्त को प्रस्तुत करके समान मूल्य के अस्तित्व और गणनीयता को सुंदरता से संतुलित करता है। यद्यपि एल्गोरिदम जटिलता व्यावहारिक अनुप्रयोग को सीमित करती है, इसके सैद्धांतिक योगदान और पद्धति संबंधी नवाचार गेम सिद्धांत, ऑटोमेटा सिद्धांत और कम्प्यूटेशनल जटिलता सिद्धांत के लिए महत्वपूर्ण हैं। पेपर की कसाई परिणाम (सन्निकटन निर्णीय लेकिन सटीक अनिर्णीय) विशेष रूप से प्रभावशाली है, समस्या की कम्प्यूटेशनल सीमा को स्पष्ट रूप से चिह्नित करता है।