Proximal Regret and Proximal Correlated Equilibria: A New Tractable Solution Concept for Online Learning and Games
Cai, Daskalakis, Luo et al.
Learning and computation of equilibria are central problems in game theory, theory of computation, and artificial intelligence. In this work, we introduce proximal regret, a new notion of regret based on proximal operators that lies strictly between external and swap regret. When every player employs a no-proximal-regret algorithm in a general convex game, the empirical distribution of play converges to proximal correlated equilibria (PCE), a refinement of coarse correlated equilibria. Our framework unifies several emerging notions in online learning and game theory-such as gradient equilibrium and semicoarse correlated equilibrium-and introduces new ones. Our main result shows that the classic Online Gradient Descent (GD) algorithm achieves an optimal $O(\sqrt{T})$ bound on proximal regret, revealing that GD, without modification, minimizes a stronger regret notion than external regret. This provides a new explanation for the empirically superior performance of gradient descent in online learning and games. We further extend our analysis to Mirror Descent in the Bregman setting and to Optimistic Gradient Descent, which yields faster convergence in smooth convex games.
academic
निकटस्थ खेद और निकटस्थ सहसंबद्ध संतुलन: ऑनलाइन शिक्षा और खेलों के लिए एक नई सुगम समाधान अवधारणा
शिक्षा और संतुलन की गणना खेल सिद्धांत, कम्प्यूटेशनल सिद्धांत और कृत्रिम बुद्धिमत्ता में मूल समस्याएं हैं। यह पेपर निकटस्थ खेद (proximal regret) की एक नई अवधारणा प्रस्तुत करता है जो निकटस्थ संचालकों पर आधारित है, जो बाहरी खेद और विनिमय खेद के बीच कड़ाई से स्थित है। जब सभी खिलाड़ी सामान्य उत्तल खेलों में निकटस्थ खेद-मुक्त एल्गोरिदम अपनाते हैं, तो रणनीतियों का अनुभवजन्य वितरण निकटस्थ सहसंबद्ध संतुलन (PCE) में परिवर्तित होता है, जो मोटे सहसंबद्ध संतुलन का एक परिशोधन है। यह ढांचा ऑनलाइन शिक्षा और खेल सिद्धांत में कई उभरती अवधारणाओं (जैसे ढाल संतुलन और अर्ध-मोटे सहसंबद्ध संतुलन) को एकीकृत करता है और नई अवधारणाएं प्रस्तुत करता है। मुख्य परिणाम दर्शाते हैं कि शास्त्रीय ऑनलाइन ढाल अवतरण (GD) एल्गोरिदम बिना किसी संशोधन के इष्टतम O(T) निकटस्थ खेद सीमा प्राप्त करता है, जो प्रकट करता है कि GD वास्तव में बाहरी खेद की तुलना में अधिक मजबूत खेद अवधारणा को कम करता है। यह ऑनलाइन शिक्षा और खेलों में ढाल अवतरण के उत्कृष्ट अनुभवजन्य प्रदर्शन के लिए एक नई व्याख्या प्रदान करता है। अनुसंधान Bregman सेटिंग में दर्पण अवतरण और आशावादी ढाल अवतरण तक विस्तारित होता है, बाद वाला चिकनी उत्तल खेलों में तेजी से अभिसरण प्राप्त करता है।
यह पेपर जो मूल समस्या हल करना चाहता है: क्या खेलों में मोटे सहसंबद्ध संतुलन (CCE) की तुलना में अधिक मजबूत, लेकिन अभी भी कुशलतापूर्वक सीखने और गणना करने योग्य संतुलन अवधारणा मौजूद है?
Nash संतुलन की कम्प्यूटेशनल कठिनाई: हालांकि Nash संतुलन मजबूत रणनीति स्थिरता प्रदान करता है, लेकिन दो-खिलाड़ी खेलों में भी Nash संतुलन की गणना करना PPAD-complete समस्या है, और शिक्षा गतिशीलता आमतौर पर Nash संतुलन के सेट में परिवर्तित नहीं होती है।
CCE की सीमाएं:
मोटे सहसंबद्ध संतुलन (CCE) हालांकि बाहरी खेद-मुक्त एल्गोरिदम के माध्यम से कुशलतापूर्वक सीखा जा सकता है, लेकिन संतुलन अवधारणा के रूप में कमजोर है
CCE उच्च अराजकता की कीमत (Price of Anarchy) प्रदर्शित कर सकता है
सबसे खराब CCE के परिणाम Nash संतुलन की तुलना में बहुत कम आदर्श हो सकते हैं
CE की आकर्षणीयता और कठिनाई:
सहसंबद्ध संतुलन (CE) मजबूत रणनीति स्थिरता और बेहतर परिणाम प्रदान करता है
विनिमय खेद-मुक्त एल्गोरिदम में अनुपयोगिता, Pareto इष्टतमता जैसे गुण होते हैं
लेकिन सामान्य उत्तल खेलों में CE की कुशल गणना के लिए एल्गोरिदम अभी भी अज्ञात है
पेपर मुख्य प्रश्न उठाता है: क्या बाहरी खेद की तुलना में अधिक मजबूत, लेकिन अभी भी कुशलतापूर्वक न्यूनीकरण योग्य Φ-खेद अवधारणा मौजूद है? इसी तरह, क्या CCE की तुलना में अधिक मजबूत, लेकिन अभी भी सामान्य उत्तल खेलों में कुशलतापूर्वक गणना योग्य Φ-संतुलन अवधारणा मौजूद है?
इस पेपर का प्रारंभिक बिंदु अनुकूलन सिद्धांत में निकटस्थ संचालक (proximal operator) इस मौलिक उपकरण का उपयोग करके, बाहरी खेद और विनिमय खेद के बीच स्थित नई खेद अवधारणा का निर्माण करना है।
निकटस्थ खेद अवधारणा का परिचय: निकटस्थ संचालकों पर आधारित नई Φ-खेद अवधारणा प्रस्तुत करता है, जो बाहरी खेद से कड़ाई से अधिक मजबूत है, कई उभरती अवधारणाओं (ढाल संतुलन, अर्ध-मोटे सहसंबद्ध संतुलन आदि) को एकीकृत करता है।
GD के मजबूत गारंटी का प्रकटीकरण: सिद्ध करता है कि शास्त्रीय ऑनलाइन ढाल अवतरण (GD) एल्गोरिदम सभी ρ-कमजोर उत्तल कार्यों (ρ<1) के लिए एक साथ इष्टतम O(T) निकटस्थ खेद सीमा प्राप्त करता है, बिना किसी संशोधन के।
निकटस्थ सहसंबद्ध संतुलन (PCE) की परिभाषा: जब सभी खिलाड़ी निकटस्थ खेद-मुक्त एल्गोरिदम का उपयोग करते हैं, तो रणनीति वितरण PCE में परिवर्तित होता है, जो CCE का कड़ा उपसमुच्चय है।
Bregman सेटिंग में विस्तार: विश्लेषण को Bregman सेटिंग तक सामान्यीकृत करता है, सिद्ध करता है कि दर्पण अवतरण एल्गोरिदम Bregman निकटस्थ खेद को कम करता है।
खेलों में त्वरित अभिसरण:
आशावादी ढाल अवतरण चिकनी उत्तल खेलों में O(T−1/4) व्यक्तिगत निकटस्थ खेद प्राप्त करता है
मजबूत उत्तल कार्यों के लिए O(1) सामाजिक निकटस्थ खेद प्राप्त करता है
एकीकृत सिद्धांत ढांचा: कई अनुप्रयोग परिदृश्यों (ऑनलाइन अनुरूप भविष्यवाणी, नीलामी आदि) में GD के उत्कृष्ट प्रदर्शन को समझने के लिए एकीकृत व्याख्या प्रदान करता है।
कमजोर उत्तल कार्य:
कार्य f:X→R को ρ-कमजोर उत्तल (ρ ≥ 0) कहा जाता है, यदि f+2ρ∥⋅∥2 उत्तल है।
सभी उत्तल कार्य ρ-कमजोर उत्तल हैं (ρ ≥ 0)
सभी L-चिकने कार्य ρ-कमजोर उत्तल हैं (ρ ≥ L)
निकटस्थ संचालक (परिभाषा 2):
उचित, निम्न अर्ध-निरंतर, ρ-कमजोर उत्तल (ρ < 1) कार्य f:X→R के लिए, इसका निकटस्थ संचालक परिभाषित किया जाता है:
proxf(x)=argminx′∈X{f(x′)+21∥x′−x∥2}
चूंकि ρ < 1, यह अनुकूलन समस्या दृढ़ता से उत्तल है, अद्वितीय समाधान मौजूद है।
निकटस्थ खेद (परिभाषा 4):
कार्य f∈Fwc(X) के लिए, निकटस्थ खेद को परिभाषित किया जाता है:
RegfT:=∑t=1Tℓt(xt)−ℓt(proxf(xt))
कार्य परिवार F⊆Fwc(X) के लिए, निकटस्थ खेद maxf∈FRegfT है।
बाहरी खेद: Fext={I{x}:x∈X} (सूचक कार्य सेट) चुनें, तो proxI{x}(⋅)=x स्थिर कार्य है, निकटस्थ खेद बाहरी खेद में विघटित होता है।
ढाल संतुलन: F={fv(x)=⟨v,x⟩:∥v∥=1} (बंधे रैखिक कार्य) चुनें, तो proxfv(x)=ΠX[x−v], प्रक्षेपण-प्रकार खेद के अनुरूप। जब X=Rd बिना बाधा के हो, तो उप-रैखिक निकटस्थ खेद ढाल संतुलन संपत्ति का संकेत देता है:
T1∑t=1T∇ℓt(xt)=o(1)
सममित रैखिक विनिमय खेद: F को चिकने (लेकिन आवश्यक रूप से उत्तल नहीं) द्विघात कार्यों के रूप में चुनें, निकटस्थ संचालक सभी सममित एफाइन स्व-समरूपता ϕ(x)=Ax+b (A सममित) को कवर करता है। संबंधित Φ-खेद को सममित रैखिक विनिमय खेद कहा जाता है।
प्रमेय 1 (GD निकटस्थ खेद को कम करता है):
X⊆Rd बंद उत्तल सेट हो, {ℓt} उत्तल हानि अनुक्रम हो, {xt} GD द्वारा उत्पन्न पुनरावृत्ति अनुक्रम हो (चरण आकार {ηt} गैर-बढ़ता हो)। किसी भी ρ-कमजोर उत्तल कार्य f∈Fwc(X) (ρ < 1) के लिए, pt=proxf(xt) को दर्शाते हुए, हमारे पास है:
मुख्य लेम्मा (लेम्मा 1):
ρ-कमजोर उत्तल कार्य f और px=proxf(x) के लिए, हमारे पास है:
∥x−px∥2−∥x−p∥2≤2f(p)−2f(px)−(1−ρ)∥p−px∥2
प्रमाण मूल विचार:
मानक GD विश्लेषण प्रारंभिक बिंदु: ऑनलाइन ढाल अवतरण के मानक विश्लेषण ढांचे का उपयोग करें, प्राप्त करें:
∑t=1T⟨∇ℓt(xt),xt−pt⟩≤2η1∥x1−p1∥2+∑t=1T−12ηt1(∥xt+1−pt+1∥2−∥xt+1−pt∥2)+gradient terms
गैर-दूरदर्शी पदों को संभालना: मुख्य पद ∥xt+1−pt+1∥2−∥xt+1−pt∥2 दूरदर्शी नहीं है। लेम्मा 1 का उपयोग करते हुए, इसे ऊपरी सीमा दें:
∥xt+1−pt+1∥2−∥xt+1−pt∥2≤2(f(pt)−f(pt+1))−(1−ρ)∥pt−pt+1∥2
दूरदर्शी और नकारात्मक पद: कार्य मान अंतर f(pt)−f(pt+1) दूरदर्शी हो सकता है (कुल योग Bf तक सीमित है), नकारात्मक पद −∥pt−pt+1∥2 अतिरिक्त स्थिरता गारंटी प्रदान करता है।
सममित रैखिक विनिमय खेद का उपचार (प्रमेय 2):
सममित एफाइन स्व-समरूपता ϕ(x)=Ax+b के लिए:
प्रक्षेप रूपांतरण ϕα=(1−α)Id+αϕ का निर्माण करें, जहां α=3(1+∥A∥2)1
प्रस्ताव 1 का उपयोग करें, जब σmin(Aα)>21 हो, तो ϕα को चिकने कार्य के निकटस्थ संचालक के रूप में प्रदर्शित किया जा सकता है
GD गारंटी: RegfT=O(T) सभी ρ-कमजोर उत्तल कार्यों f (ρ < 1) के लिए एक साथ
इष्टतमता: बाहरी खेद को शामिल करने के कारण, Ω(T) निचली सीमा ज्ञात है, इसलिए यह सीमा इष्टतम है
बिना संशोधन के: मानक GD एल्गोरिदम बिना किसी परिवर्तन के इस गारंटी को प्राप्त कर सकता है
2. सममित रैखिक विनिमय खेद (प्रमेय 2)
इकाई गोले X⊆Bd(0,D) के भीतर, किसी भी सममित एफाइन स्व-समरूपता ϕ(x)=Ax+b के लिए:
Regϕ(T)≤3(1+∥A∥2)(4D2+D∥b∥+G2)⋅T
सिंप्लेक्स X=Δd (D=1,∥A∥2≤1) के लिए:
Regϕ(T)=O(GT)
3. खेलों में सुधारी गई सीमा (प्रमेय 4)
G-Lipschitz, L-चिकने उत्तल खेलों में, जब सभी खिलाड़ी आशावादी ढाल अवतरण (चरण आकार η=T−1/4) का उपयोग करते हैं:
∑t=1T⟨∇xiui(xt),proxf(xit)−xit⟩≤(DXi2+2Bi,f+4nL2G2)T1/4
ε-अनुमानित Φ-संतुलन में परिवर्तित होने के लिए O(1/ε4/3) दौर की आवश्यकता है।
4. सामाजिक खेद (प्रमेय 5)
α-दृढ़ता से उत्तल कार्य परिवार Fα,sc के लिए, चरण आकार η≤8nL2min{α,1} चुनें:
∑i=1nRegfiT≤2η∑i(DXi+Bfi)+nηG2=O(1)
यह मौजूदा O(1) सामाजिक बाहरी खेद परिणाम में सुधार करता है, क्योंकि दृढ़ता से उत्तल कार्य वर्ग सूचक कार्यों को शामिल नहीं करता है।
Bregman सेटिंग में विस्तार (प्रमेय 7):
1-दृढ़ता से उत्तल दूरी उत्पन्न कार्य ϕ और दर्पण अवतरण एल्गोरिदम के लिए, किसी भी ρ-कमजोर उत्तल f के लिए:
∑t=1T⟨∇ℓt(xt),xt−pt⟩≤ηTD+Bf+∑t=1T2ηt∥∇ℓt(xt)∥∗2−∑t=1T−12(1−ρ)∥pt−pt+1∥2
जहां D=maxtDϕ(pt∣xt) Bregman विचलन है।
आशावादी ढाल में सुधार (प्रमेय 3):
OG का खेद ढाल परिवर्तन PT=∑t=1T∥gt−gt−1∥2 पर निर्भर करता है न कि ∑t∥gt∥2 पर, स्थिर वातावरण में PT≪T।
GD की विशेषता: GD न केवल बाहरी खेद को कम करता है, बल्कि सभी कमजोर उत्तल कार्यों के निकटस्थ खेद को एक साथ कम करता है, यह कई अनुप्रयोगों में इसके उत्कृष्ट प्रदर्शन की व्याख्या करता है।
गैर-नकारात्मकता: जब F स्थिर कार्यों को शामिल करता है, तो निकटस्थ खेद गैर-नकारात्मक होता है (क्योंकि proxc=Id)।
पदानुक्रम संरचना: बाहरी खेद ⊂ निकटस्थ खेद ⊂ विनिमय खेद, और समावेशन संबंध कड़े हैं।
निकटस्थ खेद सुगम है: निकटस्थ संचालक पर आधारित Φ-खेद बाहरी खेद से कड़ाई से अधिक मजबूत है, लेकिन अभी भी सरल GD एल्गोरिदम द्वारा कुशलतापूर्वक न्यूनीकरण योग्य है, इष्टतम O(T) सीमा प्राप्त करता है।
GD की मजबूत गारंटी: शास्त्रीय GD एल्गोरिदम सभी ρ-कमजोर उत्तल कार्यों (ρ < 1) के लिए निकटस्थ खेद को कम करता है, बिना किसी संशोधन के, यह इसके उत्कृष्ट अनुभवजन्य प्रदर्शन के लिए सैद्धांतिक व्याख्या प्रदान करता है।
एकीकृत ढांचा: निकटस्थ खेद कई उभरती अवधारणाओं (ढाल संतुलन, अर्ध-मोटे CE आदि) को एकीकृत करता है, और खेलों में नई संतुलन अवधारणा PCE को परिभाषित करता है।
विस्तारशीलता: सिद्धांत स्वाभाविक रूप से विस्तारित होता है:
DFF+25 Daskalakis et al. "Efficient learning and computation of linear correlated equilibrium in general convex games". STOC 2025. (रैखिक विनिमय खेद)
CDL+24 Cai et al. "On Tractable Φ-Equilibria in Non-Concave Games". NeurIPS 2024. (प्रक्षेपण-प्रकार और प्रक्षेप-प्रकार खेद)
SAL+15 Syrgkanis et al. "Fast convergence of regularized learning in games". NeurIPS 2015. (खेलों में त्वरित अभिसरण)
AJT25 Angelopoulos et al. "Gradient Equilibrium in Online Learning: Theory and Applications". arXiv 2025. (ढाल संतुलन)
AB25 Ahunbay & Bichler. "Semicoarse Correlated Equilibria and LP-Based Guarantees for Gradient Dynamics". EC 2025. (अर्ध-मोटे CE)
PB14 Parikh & Boyd. "Proximal algorithms". Foundations and Trends in Optimization 2014. (निकटस्थ संचालक सर्वेक्षण)
Zin03 Zinkevich. "Online convex programming and generalized infinitesimal gradient ascent". ICML 2003. (GD की शास्त्रीय विश्लेषण)
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला सैद्धांतिक कार्य है, जो नई अवधारणा (निकटस्थ खेद) प्रस्तुत करता है, एक सुरुचिपूर्ण सैद्धांतिक ढांचा स्थापित करता है, और शास्त्रीय एल्गोरिदम के गहरे गुणों को प्रकट करता है। मुख्य योगदान सैद्धांतिक अंतर्दृष्टि और अवधारणा एकीकरण में है, तकनीकी रूप से निकटस्थ संचालक के गुणों का चतुराई से उपयोग करके गैर-दूरदर्शी पद समस्या को हल करता है। हालांकि अनुभवजन्य सत्यापन की कमी है और कुछ तकनीकी विवरण में सुधार की संभावना है, लेकिन इसका सैद्धांतिक मूल्य और क्षेत्र पर संभावित प्रभाव महत्वपूर्ण है। विशेष रूप से, यह कार्य दर्शाता है कि सरल GD एल्गोरिदम वास्तव में पारंपरिक समझ की तुलना में अधिक मजबूत गारंटी रखता है, जो व्यावहारिक अनुप्रयोगों के लिए महत्वपूर्ण है। ऑनलाइन शिक्षा सिद्धांत, खेल सिद्धांत, अनुकूलन एल्गोरिदम में रुचि रखने वाले शोधकर्ताओं को पढ़ने की अनुशंसा की जाती है।