This paper investigates the impact of perturbations on the best-response-based algorithms approximating Nash equilibria in zero-sum games, namely Double Oracle and Fictitious Play. More precisely, we assume that the oracle computing the best responses perturbs the utilities before selecting the best response. We show that using such an oracle reduces the number of iterations for both algorithms. For some cases, suitable perturbations ensure the expected number of iterations is logarithmic. Although the utility perturbation is computationally demanding as it requires iterating through all pure strategies, we demonstrate that one can efficiently perturb the utilities in games where pure strategies have further inner structure.
academic
शून्य-योग खेलों में सर्वोत्तम प्रतिक्रियाओं को विचलित करना
यह पेपर सर्वोत्तम प्रतिक्रिया आधारित एल्गोरिदम पर विचलन के प्रभाव का अध्ययन करता है, जो शून्य-योग खेलों में नैश संतुलन का अनुमान लगाने के लिए उपयोग किए जाते हैं, विशेष रूप से Double Oracle और Fictitious Play एल्गोरिदम पर ध्यान केंद्रित करते हैं। अध्ययन मानता है कि सर्वोत्तम प्रतिक्रिया की गणना करने वाला ओरेकल सर्वोत्तम प्रतिक्रिया चुनने से पहले उपयोगिता को विचलित करता है। अनुसंधान दर्शाता है कि इस विचलित ओरेकल का उपयोग दोनों एल्गोरिदम के पुनरावृत्ति की संख्या को कम कर सकता है। कुछ मामलों में, उपयुक्त विचलन यह सुनिश्चित कर सकता है कि अपेक्षित पुनरावृत्ति संख्या लॉगरिदमिक स्तर की हो। हालांकि उपयोगिता विचलन को सभी शुद्ध रणनीतियों को पार करने की आवश्यकता है, जो कम्प्यूटेशनल रूप से महंगा है, अनुसंधान प्रमाणित करता है कि शुद्ध रणनीतियों के आंतरिक संरचना वाले खेलों (जैसे आंशिक रूप से अवलोकनीय स्टोकेस्टिक खेल) के लिए विचलन को कुशलतापूर्वक लागू किया जा सकता है।
बड़ी रणनीति स्पेस के साथ द्विपक्षीय शून्य-योग खेलों में नैश संतुलन की गणना करना एक कम्प्यूटेशनल रूप से गहन समस्या है। हालांकि सैद्धांतिक रूप से O(log n) आकार के ε-नैश संतुलन का अस्तित्व ज्ञात है (जहां n शुद्ध रणनीतियों की संख्या है), Fictitious Play (FP) और Double Oracle (DO) जैसे पारंपरिक सर्वोत्तम प्रतिक्रिया ओरेकल (BRO) आधारित एल्गोरिदम सबसे खराब स्थिति में Ω(n) पुनरावृत्तियों की आवश्यकता होती है।
सिद्धांत-व्यवहार अंतराल: Althöfer और Lipton आदि ने लॉगरिदमिक आकार के ε-NE का अस्तित्व सिद्ध किया है, लेकिन वास्तविक एल्गोरिदम इस जटिलता को प्राप्त नहीं कर सकते
निचली सीमा प्रतिबंध: Hazan और Koren ने सिद्ध किया कि कोई भी BRO आधारित एल्गोरिदम कम से कम Ω(√n/log³n) पुनरावृत्तियों की आवश्यकता है
व्यावहारिक अनुप्रयोग की आवश्यकता: गहन सुदृढ़ीकरण सीखने के एल्गोरिदम (जैसे Policy Space Response Oracles) इन मूल एल्गोरिदम पर निर्भर करते हैं
FP और DO: सबसे खराब स्थिति में O(n) पुनरावृत्तियों की आवश्यकता होती है
Hazan-Koren एल्गोरिदम: हालांकि O(√n/ε²) जटिलता प्रदान करता है, एल्गोरिदम जटिल है और केवल वर्गमूल स्तर का सुधार है
नियमितकरण विधियां: जैसे PU और OMWU O(log n) पुनरावृत्तियों को प्राप्त करते हैं, लेकिन सभी शुद्ध रणनीतियों की संभाव्यता वितरण को बनाए रखने की आवश्यकता होती है, जो बड़े पैमाने के खेलों के लिए उपयुक्त नहीं है
सर्वोत्तम प्रतिक्रिया ओरेकल में विचलन का परिचय देकर इसे अधिक शक्तिशाली बनाना, जिससे सैद्धांतिक निचली सीमा को तोड़ा जा सके और लॉगरिदमिक स्तर की अभिसरण गति प्राप्त की जा सके।
विचलित सर्वोत्तम प्रतिक्रिया ओरेकल (PBRO) का परिचय: सर्वोत्तम प्रतिक्रिया की गणना से पहले उपयोगिता को यादृच्छिक रूप से विचलित करने की एक तंत्र का प्रस्ताव
सैद्धांतिक परिणाम:
Stochastic Fictitious Play (SFP) अपेक्षा में O(log n/ε²) पुनरावृत्ति जटिलता प्राप्त करता है यह सिद्ध करना
Stochastic Double Oracle (SDO) विशिष्ट कठिन उदाहरणों (Zhang और Sandholm का उदाहरण) के लिए O(log n) अपेक्षित पुनरावृत्ति प्राप्त करता है यह सिद्ध करना
कुशल कार्यान्वयन योजना: आंतरिक संरचना वाले खेलों (जैसे POSG, पथ योजना खेल) के लिए कुशल विचलन विधि का प्रस्ताव, जिसमें सभी शुद्ध रणनीतियों को पार करने की आवश्यकता नहीं है
प्रायोगिक सत्यापन: विभिन्न खेल प्रकारों पर विचलन विधि की प्रभावशीलता का सत्यापन, जिसमें मैट्रिक्स खेल, स्टोकेस्टिक खेल और पथ योजना खेल शामिल हैं
सैद्धांतिक उपकरण: Gumbel-max तकनीक का उपयोग करके SFP और स्टोकेस्टिक घातांकीय भारित पूर्वसूचक (REWF) के बीच संबंध स्थापित करना
इनपुट: मैट्रिक्स खेल M ∈ ℝ^(m×n), सटीकता पैरामीटर ε > 0
आउटपुट: ε-नैश संतुलन रणनीति जोड़ी ⟨p*, q*⟩
बाधा: पुनरावृत्ति संख्या को कम करना (ओरेकल कॉल संख्या)
प्रमेय 3 (SFP जटिलता):
0,1 के लिए सामान्यीकृत मैट्रिक्स खेल M ∈ ℝ^(m×n), m ≤ n के लिए, β = (2+√(2ln n))/(ε√(8ln n)) सेट करें, तो SFP O(log n/ε²) अपेक्षित पुनरावृत्ति में ε-NE खोजता है।
प्रमाण विचार:
पुनरावृत्ति संख्या T = ((2+√(2ln n))/ε)² ∈ O(log n/ε²) सेट करें
Corollary 2 (REWF की खेद सीमा) का उपयोग करके, संभावना ≥ 3/4:
Lemma 4 (एकसमान विचलन की अपेक्षा):
k-वीं पंक्ति x = ⟨1,...,1,0,-1,...,-1⟩ के लिए, U(-1/2,1/2) विचलन का उपयोग करके,
विचलित सर्वोत्तम प्रतिक्रिया की अपेक्षित अनुक्रमणिका EI = k/2
प्रमेय 6: SDO O(log n) अपेक्षित पुनरावृत्ति में L का NE खोजता है
प्रमाण तकनीक:
संभावित फलन X_t = max{r_t, c_t} को परिभाषित करें, जहां r_t = min R_t, c_t = min C_t
ड्रिफ्ट सिद्धांत (drift theory) का उपयोग करके X_t - EX_{t+2} ≥ X_t/2 सिद्ध करें
Hazan & Koren (2016) - BRO एल्गोरिदम की सैद्धांतिक सीमाएं
Hofbauer & Sandholm (2002) - SFP अभिसरण प्रमाण
Cesa-Bianchi & Lugosi (2006) - REWF एल्गोरिदम
संबंधित कार्य:
5. Zhang & Sandholm (2024) - DO की घातांकीय निचली सीमा
6. Cloud et al. (2023) - Anticipatory Fictitious Play
7. Lanctot et al. (2017) - Policy Space Response Oracles
8. Cen et al. (2024) - नियमितकृत खेल एल्गोरिदम
समग्र मूल्यांकन: यह सिद्धांत और व्यवहार के अच्छे संयोजन वाला एक उत्कृष्ट पेपर है। मुख्य योगदान यह प्रमाणित करना है कि विचलन तंत्र BRO एल्गोरिदम को लॉगरिदमिक स्तर की जटिलता प्राप्त करने में सक्षम बना सकता है, ज्ञात सैद्धांतिक निचली सीमा को तोड़ता है (ओरेकल को बढ़ाकर)। SFP के सैद्धांतिक परिणाम पूर्ण और कठोर हैं, SDO का विश्लेषण हालांकि पूर्ण नहीं है लेकिन मूल्यवान अंतर्दृष्टि प्रदान करता है। प्रायोगिक डिजाइन व्यापक है, विधि की लागू सीमा की ईमानदारी से रिपोर्ट करता है। मुख्य कमियां हैं SDO की सामान्य जटिलता अनसुलझी है, और यादृच्छिक खेलों में कमजोर प्रदर्शन के लिए सैद्धांतिक व्याख्या की कमी है। यह कार्य खेल सिद्धांत एल्गोरिदम अनुसंधान के लिए एक नई दिशा खोलता है, गहन सुदृढ़ीकरण सीखने के लिए भी संभावित अनुप्रयोग मूल्य है, आगे के अनुसंधान के योग्य है।