2025-11-16T08:25:11.983890

Proximal Regret and Proximal Correlated Equilibria: A New Tractable Solution Concept for Online Learning and Games

Cai, Daskalakis, Luo et al.
Learning and computation of equilibria are central problems in game theory, theory of computation, and artificial intelligence. In this work, we introduce proximal regret, a new notion of regret based on proximal operators that lies strictly between external and swap regret. When every player employs a no-proximal-regret algorithm in a general convex game, the empirical distribution of play converges to proximal correlated equilibria (PCE), a refinement of coarse correlated equilibria. Our framework unifies several emerging notions in online learning and game theory-such as gradient equilibrium and semicoarse correlated equilibrium-and introduces new ones. Our main result shows that the classic Online Gradient Descent (GD) algorithm achieves an optimal $O(\sqrt{T})$ bound on proximal regret, revealing that GD, without modification, minimizes a stronger regret notion than external regret. This provides a new explanation for the empirically superior performance of gradient descent in online learning and games. We further extend our analysis to Mirror Descent in the Bregman setting and to Optimistic Gradient Descent, which yields faster convergence in smooth convex games.
academic

निकटस्थ खेद और निकटस्थ सहसंबद्ध संतुलन: ऑनलाइन शिक्षा और खेलों के लिए एक नई सुगम समाधान अवधारणा

मूल जानकारी

  • पेपर ID: 2511.01852
  • शीर्षक: Proximal Regret and Proximal Correlated Equilibria: A New Tractable Solution Concept for Online Learning and Games
  • लेखक: Yang Cai (Yale University), Constantinos Daskalakis (MIT CSAIL), Haipeng Luo (USC), Chen-Yu Wei (UVA), Weiqiang Zheng (Yale University)
  • वर्गीकरण: cs.GT (खेल सिद्धांत), cs.LG (मशीन लर्निंग)
  • प्रकाशन तिथि: 5 नवंबर 2025 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2511.01852v2

सारांश

शिक्षा और संतुलन की गणना खेल सिद्धांत, कम्प्यूटेशनल सिद्धांत और कृत्रिम बुद्धिमत्ता में मूल समस्याएं हैं। यह पेपर निकटस्थ खेद (proximal regret) की एक नई अवधारणा प्रस्तुत करता है जो निकटस्थ संचालकों पर आधारित है, जो बाहरी खेद और विनिमय खेद के बीच कड़ाई से स्थित है। जब सभी खिलाड़ी सामान्य उत्तल खेलों में निकटस्थ खेद-मुक्त एल्गोरिदम अपनाते हैं, तो रणनीतियों का अनुभवजन्य वितरण निकटस्थ सहसंबद्ध संतुलन (PCE) में परिवर्तित होता है, जो मोटे सहसंबद्ध संतुलन का एक परिशोधन है। यह ढांचा ऑनलाइन शिक्षा और खेल सिद्धांत में कई उभरती अवधारणाओं (जैसे ढाल संतुलन और अर्ध-मोटे सहसंबद्ध संतुलन) को एकीकृत करता है और नई अवधारणाएं प्रस्तुत करता है। मुख्य परिणाम दर्शाते हैं कि शास्त्रीय ऑनलाइन ढाल अवतरण (GD) एल्गोरिदम बिना किसी संशोधन के इष्टतम O(T)O(\sqrt{T}) निकटस्थ खेद सीमा प्राप्त करता है, जो प्रकट करता है कि GD वास्तव में बाहरी खेद की तुलना में अधिक मजबूत खेद अवधारणा को कम करता है। यह ऑनलाइन शिक्षा और खेलों में ढाल अवतरण के उत्कृष्ट अनुभवजन्य प्रदर्शन के लिए एक नई व्याख्या प्रदान करता है। अनुसंधान Bregman सेटिंग में दर्पण अवतरण और आशावादी ढाल अवतरण तक विस्तारित होता है, बाद वाला चिकनी उत्तल खेलों में तेजी से अभिसरण प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

यह पेपर जो मूल समस्या हल करना चाहता है: क्या खेलों में मोटे सहसंबद्ध संतुलन (CCE) की तुलना में अधिक मजबूत, लेकिन अभी भी कुशलतापूर्वक सीखने और गणना करने योग्य संतुलन अवधारणा मौजूद है?

समस्या की महत्ता

  1. Nash संतुलन की कम्प्यूटेशनल कठिनाई: हालांकि Nash संतुलन मजबूत रणनीति स्थिरता प्रदान करता है, लेकिन दो-खिलाड़ी खेलों में भी Nash संतुलन की गणना करना PPAD-complete समस्या है, और शिक्षा गतिशीलता आमतौर पर Nash संतुलन के सेट में परिवर्तित नहीं होती है।
  2. CCE की सीमाएं:
    • मोटे सहसंबद्ध संतुलन (CCE) हालांकि बाहरी खेद-मुक्त एल्गोरिदम के माध्यम से कुशलतापूर्वक सीखा जा सकता है, लेकिन संतुलन अवधारणा के रूप में कमजोर है
    • CCE उच्च अराजकता की कीमत (Price of Anarchy) प्रदर्शित कर सकता है
    • सबसे खराब CCE के परिणाम Nash संतुलन की तुलना में बहुत कम आदर्श हो सकते हैं
  3. CE की आकर्षणीयता और कठिनाई:
    • सहसंबद्ध संतुलन (CE) मजबूत रणनीति स्थिरता और बेहतर परिणाम प्रदान करता है
    • विनिमय खेद-मुक्त एल्गोरिदम में अनुपयोगिता, Pareto इष्टतमता जैसे गुण होते हैं
    • लेकिन सामान्य उत्तल खेलों में CE की कुशल गणना के लिए एल्गोरिदम अभी भी अज्ञात है

मौजूदा विधियों की सीमाएं

  1. विनिमय खेद न्यूनीकरण की कठिनाई:
    • सबसे नए सामान्य विनिमय खेद एल्गोरिदम में स्वीकार्य खेद पर घातीय निर्भरता है
    • कोई भी विनिमय खेद न्यूनीकरण एल्गोरिदम आवश्यक रूप से समस्या आयाम या स्वीकार्य खेद पर घातीय निर्भरता रखता है
  2. रैखिक विनिमय खेद की जटिलता:
    • Daskalakis आदि DFF+25 द्वारा प्रस्तावित रैखिक विनिमय खेद एल्गोरिदम दीर्घवृत्त विधि पर आधारित है, जो बहुत जटिल है
    • सरल व्यावहारिक एल्गोरिदम की कमी है

अनुसंधान प्रेरणा

पेपर मुख्य प्रश्न उठाता है: क्या बाहरी खेद की तुलना में अधिक मजबूत, लेकिन अभी भी कुशलतापूर्वक न्यूनीकरण योग्य Φ-खेद अवधारणा मौजूद है? इसी तरह, क्या CCE की तुलना में अधिक मजबूत, लेकिन अभी भी सामान्य उत्तल खेलों में कुशलतापूर्वक गणना योग्य Φ-संतुलन अवधारणा मौजूद है?

इस पेपर का प्रारंभिक बिंदु अनुकूलन सिद्धांत में निकटस्थ संचालक (proximal operator) इस मौलिक उपकरण का उपयोग करके, बाहरी खेद और विनिमय खेद के बीच स्थित नई खेद अवधारणा का निर्माण करना है।

मूल योगदान

  1. निकटस्थ खेद अवधारणा का परिचय: निकटस्थ संचालकों पर आधारित नई Φ-खेद अवधारणा प्रस्तुत करता है, जो बाहरी खेद से कड़ाई से अधिक मजबूत है, कई उभरती अवधारणाओं (ढाल संतुलन, अर्ध-मोटे सहसंबद्ध संतुलन आदि) को एकीकृत करता है।
  2. GD के मजबूत गारंटी का प्रकटीकरण: सिद्ध करता है कि शास्त्रीय ऑनलाइन ढाल अवतरण (GD) एल्गोरिदम सभी ρ-कमजोर उत्तल कार्यों (ρ<1) के लिए एक साथ इष्टतम O(T)O(\sqrt{T}) निकटस्थ खेद सीमा प्राप्त करता है, बिना किसी संशोधन के।
  3. निकटस्थ सहसंबद्ध संतुलन (PCE) की परिभाषा: जब सभी खिलाड़ी निकटस्थ खेद-मुक्त एल्गोरिदम का उपयोग करते हैं, तो रणनीति वितरण PCE में परिवर्तित होता है, जो CCE का कड़ा उपसमुच्चय है।
  4. Bregman सेटिंग में विस्तार: विश्लेषण को Bregman सेटिंग तक सामान्यीकृत करता है, सिद्ध करता है कि दर्पण अवतरण एल्गोरिदम Bregman निकटस्थ खेद को कम करता है।
  5. खेलों में त्वरित अभिसरण:
    • आशावादी ढाल अवतरण चिकनी उत्तल खेलों में O(T1/4)O(T^{-1/4}) व्यक्तिगत निकटस्थ खेद प्राप्त करता है
    • मजबूत उत्तल कार्यों के लिए O(1)O(1) सामाजिक निकटस्थ खेद प्राप्त करता है
  6. एकीकृत सिद्धांत ढांचा: कई अनुप्रयोग परिदृश्यों (ऑनलाइन अनुरूप भविष्यवाणी, नीलामी आदि) में GD के उत्कृष्ट प्रदर्शन को समझने के लिए एकीकृत व्याख्या प्रदान करता है।

विधि विवरण

कार्य परिभाषा

ऑनलाइन उत्तल अनुकूलन सेटिंग:

  • प्रत्येक दौर t1t \geq 1 में, शिक्षार्थी कार्रवाई xtXx^t \in X चुनता है (XRdX \subseteq \mathbb{R}^d उत्तल सेट है)
  • प्रतिद्वंद्वी उत्तल हानि कार्य t:XR\ell_t: X \to \mathbb{R} चुनता है
  • शिक्षार्थी को हानि t(xt)\ell_t(x^t) का सामना करना पड़ता है और ढाल प्रतिक्रिया t(xt)\nabla\ell_t(x^t) प्राप्त करता है

Φ-खेद ढांचा: रणनीति संशोधन सेट Φ\Phi दिया गया (प्रत्येक ϕ:XX\phi: X \to X स्व-समरूपता है), Φ-खेद को परिभाषित किया जाता है: RegΦT:=maxϕΦ(t=1Tt(xt)t(ϕ(xt)))\text{Reg}^T_\Phi := \max_{\phi \in \Phi} \left(\sum_{t=1}^T \ell_t(x^t) - \ell_t(\phi(x^t))\right)

मूल अवधारणा: निकटस्थ संचालक और निकटस्थ खेद

कमजोर उत्तल कार्य: कार्य f:XRf: X \to \overline{\mathbb{R}} को ρ-कमजोर उत्तल (ρ ≥ 0) कहा जाता है, यदि f+ρ22f + \frac{\rho}{2}\|\cdot\|^2 उत्तल है।

  • सभी उत्तल कार्य ρ-कमजोर उत्तल हैं (ρ ≥ 0)
  • सभी L-चिकने कार्य ρ-कमजोर उत्तल हैं (ρ ≥ L)

निकटस्थ संचालक (परिभाषा 2): उचित, निम्न अर्ध-निरंतर, ρ-कमजोर उत्तल (ρ < 1) कार्य f:XRf: X \to \overline{\mathbb{R}} के लिए, इसका निकटस्थ संचालक परिभाषित किया जाता है: proxf(x)=argminxX{f(x)+12xx2}\text{prox}_f(x) = \arg\min_{x' \in X} \left\{f(x') + \frac{1}{2}\|x' - x\|^2\right\}

चूंकि ρ < 1, यह अनुकूलन समस्या दृढ़ता से उत्तल है, अद्वितीय समाधान मौजूद है।

निकटस्थ खेद (परिभाषा 4): कार्य fFwc(X)f \in \mathcal{F}_{wc}(X) के लिए, निकटस्थ खेद को परिभाषित किया जाता है: RegfT:=t=1Tt(xt)t(proxf(xt))\text{Reg}^T_f := \sum_{t=1}^T \ell_t(x^t) - \ell_t(\text{prox}_f(x^t))

कार्य परिवार FFwc(X)\mathcal{F} \subseteq \mathcal{F}_{wc}(X) के लिए, निकटस्थ खेद maxfFRegfT\max_{f \in \mathcal{F}} \text{Reg}^T_f है।

निकटस्थ खेद के विशेष मामले

  1. बाहरी खेद: Fext={I{x}:xX}\mathcal{F}_{ext} = \{I_{\{x\}}: x \in X\} (सूचक कार्य सेट) चुनें, तो proxI{x}()=x\text{prox}_{I_{\{x\}}}(\cdot) = x स्थिर कार्य है, निकटस्थ खेद बाहरी खेद में विघटित होता है।
  2. ढाल संतुलन: F={fv(x)=v,x:v=1}\mathcal{F} = \{f_v(x) = \langle v, x\rangle: \|v\| = 1\} (बंधे रैखिक कार्य) चुनें, तो proxfv(x)=ΠX[xv]\text{prox}_{f_v}(x) = \Pi_X[x-v], प्रक्षेपण-प्रकार खेद के अनुरूप। जब X=RdX = \mathbb{R}^d बिना बाधा के हो, तो उप-रैखिक निकटस्थ खेद ढाल संतुलन संपत्ति का संकेत देता है: 1Tt=1Tt(xt)=o(1)\left\|\frac{1}{T}\sum_{t=1}^T \nabla\ell_t(x^t)\right\| = o(1)
  3. सममित रैखिक विनिमय खेद: F\mathcal{F} को चिकने (लेकिन आवश्यक रूप से उत्तल नहीं) द्विघात कार्यों के रूप में चुनें, निकटस्थ संचालक सभी सममित एफाइन स्व-समरूपता ϕ(x)=Ax+b\phi(x) = Ax + b (AA सममित) को कवर करता है। संबंधित Φ-खेद को सममित रैखिक विनिमय खेद कहा जाता है।

मुख्य सैद्धांतिक परिणाम

प्रमेय 1 (GD निकटस्थ खेद को कम करता है): XRdX \subseteq \mathbb{R}^d बंद उत्तल सेट हो, {t}\{\ell_t\} उत्तल हानि अनुक्रम हो, {xt}\{x^t\} GD द्वारा उत्पन्न पुनरावृत्ति अनुक्रम हो (चरण आकार {ηt}\{\eta_t\} गैर-बढ़ता हो)। किसी भी ρ-कमजोर उत्तल कार्य fFwc(X)f \in \mathcal{F}_{wc}(X) (ρ < 1) के लिए, pt=proxf(xt)p^t = \text{prox}_f(x^t) को दर्शाते हुए, हमारे पास है:

t=1Tt(xt),xtptD2+2BfxT+1pT22ηT+t=1Tηt2t(xt)2t=1T1(1ρ)2ηtptpt+12\sum_{t=1}^T \langle\nabla\ell_t(x^t), x^t - p^t\rangle \leq \frac{D^2 + 2B_f - \|x^{T+1} - p^T\|^2}{2\eta_T} + \sum_{t=1}^T \frac{\eta_t}{2}\|\nabla\ell_t(x^t)\|^2 - \sum_{t=1}^{T-1} \frac{(1-\rho)}{2\eta_t}\|p^t - p^{t+1}\|^2

जहां:

  • D=maxt[T]xtptD = \max_{t \in [T]} \|x^t - p^t\| (बंधे सेट के लिए व्यास)
  • Bf=maxt[T]f(pt)mint[T]f(pt)B_f = \max_{t \in [T]} f(p^t) - \min_{t \in [T]} f(p^t) (कार्य मान परिवर्तन सीमा)

निश्चित चरण आकार ηt=η\eta_t = \eta के लिए, η=D2+2BfG2T\eta = \sqrt{\frac{D^2 + 2B_f}{G^2T}} चुनें (GG Lipschitz स्थिरांक है), हम प्राप्त कर सकते हैं: RegfTGD2+2BfT\text{Reg}^T_f \leq G\sqrt{D^2 + 2B_f} \cdot \sqrt{T}

यह इष्टतम O(T)O(\sqrt{T}) सीमा प्राप्त करता है।

तकनीकी नवाचार बिंदु

मुख्य लेम्मा (लेम्मा 1): ρ-कमजोर उत्तल कार्य ff और px=proxf(x)p_x = \text{prox}_f(x) के लिए, हमारे पास है: xpx2xp22f(p)2f(px)(1ρ)ppx2\|x - p_x\|^2 - \|x - p\|^2 \leq 2f(p) - 2f(p_x) - (1-\rho)\|p - p_x\|^2

प्रमाण मूल विचार:

  1. मानक GD विश्लेषण प्रारंभिक बिंदु: ऑनलाइन ढाल अवतरण के मानक विश्लेषण ढांचे का उपयोग करें, प्राप्त करें: t=1Tt(xt),xtptx1p122η1+t=1T112ηt(xt+1pt+12xt+1pt2)+gradient terms\sum_{t=1}^T \langle\nabla\ell_t(x^t), x^t - p^t\rangle \leq \frac{\|x^1 - p^1\|^2}{2\eta_1} + \sum_{t=1}^{T-1} \frac{1}{2\eta_t}(\|x^{t+1} - p^{t+1}\|^2 - \|x^{t+1} - p^t\|^2) + \text{gradient terms}
  2. गैर-दूरदर्शी पदों को संभालना: मुख्य पद xt+1pt+12xt+1pt2\|x^{t+1} - p^{t+1}\|^2 - \|x^{t+1} - p^t\|^2 दूरदर्शी नहीं है। लेम्मा 1 का उपयोग करते हुए, इसे ऊपरी सीमा दें: xt+1pt+12xt+1pt22(f(pt)f(pt+1))(1ρ)ptpt+12\|x^{t+1} - p^{t+1}\|^2 - \|x^{t+1} - p^t\|^2 \leq 2(f(p^t) - f(p^{t+1})) - (1-\rho)\|p^t - p^{t+1}\|^2
  3. दूरदर्शी और नकारात्मक पद: कार्य मान अंतर f(pt)f(pt+1)f(p^t) - f(p^{t+1}) दूरदर्शी हो सकता है (कुल योग BfB_f तक सीमित है), नकारात्मक पद ptpt+12-\|p^t - p^{t+1}\|^2 अतिरिक्त स्थिरता गारंटी प्रदान करता है।

सममित रैखिक विनिमय खेद का उपचार (प्रमेय 2): सममित एफाइन स्व-समरूपता ϕ(x)=Ax+b\phi(x) = Ax + b के लिए:

  1. प्रक्षेप रूपांतरण ϕα=(1α)Id+αϕ\phi_\alpha = (1-\alpha)\text{Id} + \alpha\phi का निर्माण करें, जहां α=13(1+A2)\alpha = \frac{1}{3(1+\|A\|_2)}
  2. प्रस्ताव 1 का उपयोग करें, जब σmin(Aα)>12\sigma_{\min}(A_\alpha) > \frac{1}{2} हो, तो ϕα\phi_\alpha को चिकने कार्य के निकटस्थ संचालक के रूप में प्रदर्शित किया जा सकता है
  3. मूल खेद Regϕ(T)1αRegϕα(T)\text{Reg}_\phi(T) \leq \frac{1}{\alpha}\text{Reg}_{\phi_\alpha}(T)
  4. प्रमेय 1 लागू करें O(T)O(\sqrt{T}) सीमा प्राप्त करने के लिए

प्रायोगिक सेटअप

नोट: यह पेपर शुद्ध सैद्धांतिक कार्य है, पारंपरिक अर्थ में प्रयोग नहीं है। सभी परिणाम सैद्धांतिक प्रमाण हैं।

सैद्धांतिक सत्यापन परिदृश्य

पेपर निम्नलिखित सेटिंग में सैद्धांतिक परिणामों को सत्यापित करता है:

  1. प्रतिकूल ऑनलाइन शिक्षा:
    • मनमाने उत्तल हानि कार्य अनुक्रम
    • कॉम्पैक्ट उत्तल नीति स्पेस XRdX \subseteq \mathbb{R}^d
    • G-Lipschitz हानि
  2. चिकनी उत्तल खेल:
    • n खिलाड़ी, प्रत्येक खिलाड़ी के पास कॉम्पैक्ट उत्तल रणनीति सेट XiRdiX_i \subseteq \mathbb{R}^{d_i}
    • उपयोगिता कार्य ui:×i[n]Xi[0,1]u_i: \times_{i \in [n]} X_i \to [0,1] निरंतर अवकलनीय, अवतल, G-Lipschitz, L-चिकना

मूल्यांकन मेट्रिक्स

  1. निकटस्थ खेद सीमा: RegfT=O(T)\text{Reg}^T_f = O(\sqrt{T})
  2. अभिसरण दर: ε-अनुमानित संतुलन के लिए दौर जटिलता
  3. सामाजिक खेद: i=1nRegi,fT\sum_{i=1}^n \text{Reg}^T_{i,f}

प्रायोगिक परिणाम

मुख्य सैद्धांतिक परिणाम

1. प्रतिकूल सेटिंग में निकटस्थ खेद (प्रमेय 1)

  • GD गारंटी: RegfT=O(T)\text{Reg}^T_f = O(\sqrt{T}) सभी ρ-कमजोर उत्तल कार्यों ff (ρ < 1) के लिए एक साथ
  • इष्टतमता: बाहरी खेद को शामिल करने के कारण, Ω(T)\Omega(\sqrt{T}) निचली सीमा ज्ञात है, इसलिए यह सीमा इष्टतम है
  • बिना संशोधन के: मानक GD एल्गोरिदम बिना किसी परिवर्तन के इस गारंटी को प्राप्त कर सकता है

2. सममित रैखिक विनिमय खेद (प्रमेय 2) इकाई गोले XBd(0,D)X \subseteq B_d(0,D) के भीतर, किसी भी सममित एफाइन स्व-समरूपता ϕ(x)=Ax+b\phi(x) = Ax + b के लिए: Regϕ(T)3(1+A2)(4D2+Db+G2)T\text{Reg}_\phi(T) \leq 3(1 + \|A\|_2)(4D^2 + D\|b\| + G^2) \cdot \sqrt{T}

सिंप्लेक्स X=ΔdX = \Delta_d (D=1,A21D=1, \|A\|_2 \leq 1) के लिए: Regϕ(T)=O(GT)\text{Reg}_\phi(T) = O(G\sqrt{T})

3. खेलों में सुधारी गई सीमा (प्रमेय 4) G-Lipschitz, L-चिकने उत्तल खेलों में, जब सभी खिलाड़ी आशावादी ढाल अवतरण (चरण आकार η=T1/4\eta = T^{-1/4}) का उपयोग करते हैं: t=1Txiui(xt),proxf(xit)xit(DXi2+2Bi,f+4nL2G2)T1/4\sum_{t=1}^T \langle\nabla_{x_i}u_i(x^t), \text{prox}_f(x^t_i) - x^t_i\rangle \leq (D^2_{X_i} + 2B_{i,f} + 4nL^2G^2)T^{1/4}

ε-अनुमानित Φ-संतुलन में परिवर्तित होने के लिए O(1/ε4/3)O(1/\varepsilon^{4/3}) दौर की आवश्यकता है।

4. सामाजिक खेद (प्रमेय 5) α-दृढ़ता से उत्तल कार्य परिवार Fα,sc\mathcal{F}_{\alpha,sc} के लिए, चरण आकार ηmin{α,1}8nL2\eta \leq \sqrt{\frac{\min\{\alpha,1\}}{8nL^2}} चुनें: i=1nRegfiTi(DXi+Bfi)2η+nηG2=O(1)\sum_{i=1}^n \text{Reg}^T_{f_i} \leq \frac{\sum_i(D_{X_i} + B_{f_i})}{2\eta} + n\eta G^2 = O(1)

यह मौजूदा O(1)O(1) सामाजिक बाहरी खेद परिणाम में सुधार करता है, क्योंकि दृढ़ता से उत्तल कार्य वर्ग सूचक कार्यों को शामिल नहीं करता है।

विलोपन विश्लेषण

Bregman सेटिंग में विस्तार (प्रमेय 7): 1-दृढ़ता से उत्तल दूरी उत्पन्न कार्य ϕ\phi और दर्पण अवतरण एल्गोरिदम के लिए, किसी भी ρ-कमजोर उत्तल ff के लिए: t=1Tt(xt),xtptD+BfηT+t=1Tηt2t(xt)2t=1T1(1ρ)2ptpt+12\sum_{t=1}^T \langle\nabla\ell_t(x^t), x^t - p^t\rangle \leq \frac{D + B_f}{\eta_T} + \sum_{t=1}^T \frac{\eta_t}{2}\|\nabla\ell_t(x^t)\|^2_* - \sum_{t=1}^{T-1} \frac{(1-\rho)}{2}\|p^t - p^{t+1}\|^2

जहां D=maxtDϕ(ptxt)D = \max_{t} D_\phi(p^t|x^t) Bregman विचलन है।

आशावादी ढाल में सुधार (प्रमेय 3): OG का खेद ढाल परिवर्तन PT=t=1Tgtgt12P^T = \sum_{t=1}^T \|g^t - g^{t-1}\|^2 पर निर्भर करता है न कि tgt2\sum_t \|g^t\|^2 पर, स्थिर वातावरण में PTTP^T \ll T

सैद्धांतिक अंतर्दृष्टि

  1. एकीकृतता: निकटस्थ खेद ढांचा एकीकृत करता है:
    • बाहरी खेद (सूचक कार्य)
    • ढाल संतुलन (रैखिक कार्य)
    • अर्ध-मोटे सहसंबद्ध संतुलन (सममित रैखिक रूपांतरण)
  2. GD की विशेषता: GD न केवल बाहरी खेद को कम करता है, बल्कि सभी कमजोर उत्तल कार्यों के निकटस्थ खेद को एक साथ कम करता है, यह कई अनुप्रयोगों में इसके उत्कृष्ट प्रदर्शन की व्याख्या करता है।
  3. गैर-नकारात्मकता: जब F\mathcal{F} स्थिर कार्यों को शामिल करता है, तो निकटस्थ खेद गैर-नकारात्मक होता है (क्योंकि proxc=Id\text{prox}_c = \text{Id})।
  4. पदानुक्रम संरचना: बाहरी खेद \subset निकटस्थ खेद \subset विनिमय खेद, और समावेशन संबंध कड़े हैं।

संबंधित कार्य

Φ-खेद और संतुलन गणना

  1. रैखिक विनिमय खेद DFF+25:
    • रैखिक विनिमय खेद (सभी एफाइन स्व-समरूपता) प्रस्तावित करता है
    • Ellipsoid Against Hope ढांचे पर आधारित एल्गोरिदम
    • इस पेपर का सममित रैखिक विनिमय खेद इसका विशेष मामला है, लेकिन GD अधिक सरल है
  2. कम-आयामी Φ-खेद ZAT+25b:
    • कम-आयामी कार्यों (कम डिग्री बहुपद) तक विस्तारित करता है
    • अभी भी जटिल EAH ढांचे की आवश्यकता है
  3. GGM ढांचा GGM08:
    • सामान्य Φ-खेद न्यूनीकरण ढांचा
    • आवश्यकता: (i) Φ पर बाहरी खेद-मुक्त एल्गोरिदम; (ii) निश्चित बिंदु दैवज्ञ
    • यह पेपर दर्शाता है कि सरल एल्गोरिदम इन मजबूत धारणाओं को दरकिनार कर सकते हैं

प्रक्षेपण-प्रकार और प्रक्षेप-प्रकार खेद

  1. CDL+24 का कार्य:
    • प्रक्षेपण-प्रकार खेद: Φ={ϕv()=ΠX[v]:v1}\Phi = \{\phi_v(\cdot) = \Pi_X[\cdot - v]: \|v\| \leq 1\}
    • प्रक्षेप-प्रकार खेद: Φ={ϕα,x()=(1α)()+αx}\Phi = \{\phi_{\alpha,x}(\cdot) = (1-\alpha)(\cdot) + \alpha x\}
    • इस पेपर का निकटस्थ खेद इन दोनों अवधारणाओं को महत्वपूर्ण रूप से सामान्यीकृत करता है
    • प्रक्षेपण-प्रकार खेद रैखिक कार्यों का निकटस्थ खेद है
    • प्रक्षेप-प्रकार खेद बाहरी खेद के बराबर है
  2. Ahunbay Ahu24:
    • प्रारंभिक संस्करण ढाल क्षेत्र पर आधारित रणनीति संशोधन प्रस्तावित करता है
    • स्थानीय CCE और स्थिर CCE (मानक Φ-संतुलन से अलग) का अध्ययन करता है
    • बाद के संस्करण इस पेपर से प्रेरित, प्रतिकूल निकटस्थ खेद विश्लेषण का विस्तार करते हैं
    • लेकिन इसका विश्लेषण पूरी तरह से Bregman सेटिंग तक विस्तारित नहीं होता है ("खड़ी" धारणा की आवश्यकता)

खेलों में शिक्षा

  1. त्वरित अभिसरण DDK11, SAL+15, FAL+22:
    • चिकनी खेलों में O(logT)O(\log T) व्यक्तिगत बाहरी खेद
    • O(1)O(1) सामाजिक बाहरी खेद
    • यह पेपर इन परिणामों को अधिक मजबूत निकटस्थ खेद तक विस्तारित करता है
  2. ढाल संतुलन AJT25:
    • ऑनलाइन अनुरूप भविष्यवाणी में ढाल संतुलन संपत्ति
    • यह पेपर दर्शाता है कि GD का निकटस्थ खेद ढाल संतुलन का संकेत देता है
  3. अर्ध-मोटे सहसंबद्ध संतुलन AB25:
    • सामान्य रूप के खेलों में, सममित रैखिक CE = अर्ध-मोटे CE
    • प्रथम-मूल्य नीलामी में, अर्ध-मोटे CE इष्टतम सामाजिक कल्याण प्राप्त करता है
    • यह पेपर परिणाम सीधे GD के अर्ध-मोटे CE में परिवर्तन का संकेत देते हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. निकटस्थ खेद सुगम है: निकटस्थ संचालक पर आधारित Φ-खेद बाहरी खेद से कड़ाई से अधिक मजबूत है, लेकिन अभी भी सरल GD एल्गोरिदम द्वारा कुशलतापूर्वक न्यूनीकरण योग्य है, इष्टतम O(T)O(\sqrt{T}) सीमा प्राप्त करता है।
  2. GD की मजबूत गारंटी: शास्त्रीय GD एल्गोरिदम सभी ρ-कमजोर उत्तल कार्यों (ρ < 1) के लिए निकटस्थ खेद को कम करता है, बिना किसी संशोधन के, यह इसके उत्कृष्ट अनुभवजन्य प्रदर्शन के लिए सैद्धांतिक व्याख्या प्रदान करता है।
  3. एकीकृत ढांचा: निकटस्थ खेद कई उभरती अवधारणाओं (ढाल संतुलन, अर्ध-मोटे CE आदि) को एकीकृत करता है, और खेलों में नई संतुलन अवधारणा PCE को परिभाषित करता है।
  4. विस्तारशीलता: सिद्धांत स्वाभाविक रूप से विस्तारित होता है:
    • Bregman सेटिंग (दर्पण अवतरण)
    • खेलों में त्वरित अभिसरण (आशावादी ढाल)
    • दृढ़ता से उत्तल कार्यों का सामाजिक खेद

सीमाएं

  1. कार्य वर्ग प्रतिबंध:
    • ρ < 1 की आवश्यकता (कमजोर उत्तलता पैरामीटर कड़ाई से 1 से कम)
    • सभी संभावित रणनीति संशोधनों को शामिल नहीं करता है (जैसे सामान्य गैर-सममित रैखिक रूपांतरण)
  2. खेल सेटिंग धारणाएं:
    • उत्तल खेल धारणा (उपयोगिता अवतल)
    • चिकनाई धारणा (L-चिकनी उपयोगिता)
    • गैर-उत्तल खेलों पर सीधे लागू नहीं होता है
  3. निचली सीमा की कमी:
    • निकटस्थ खेद की विशिष्ट निचली सीमा प्रदान नहीं करता है
    • सममित रैखिक विनिमय खेद और सामान्य रैखिक विनिमय खेद के बीच का अंतर पूरी तरह से चिह्नित नहीं है
  4. अनुभवजन्य सत्यापन:
    • शुद्ध सैद्धांतिक कार्य, प्रायोगिक सत्यापन की कमी
    • वास्तविक अनुप्रयोगों में स्थिरांक कारक बड़े हो सकते हैं
  5. गैर-उत्तल खेल:
    • हालांकि परिशिष्ट B स्थानीय निकटस्थ CE की चर्चा करता है, विश्लेषण अभी भी स्थानीय उत्तल क्षेत्र में है
    • वैश्विक गैर-उत्तल मामले में गारंटी सीमित है

भविष्य की दिशाएं

  1. RVU सीमा का पूर्ण प्रमाण (टिप्पणी 5):
    • यदि "Regret bounded by Variation of Utilities" रूप की निकटस्थ खेद सीमा साबित की जा सकती है
    • सामान्य उत्तल खेलों में O(1)O(1) व्यक्तिगत बाहरी खेद की ओर ले जा सकता है (वर्तमान में अज्ञात)
  2. अधिक व्यापक कार्य वर्ग:
    • ρ ≥ 1 के कमजोर उत्तल कार्यों तक विस्तारित करें
    • गैर-सममित रैखिक रूपांतरणों के निकटस्थ प्रतिनिधित्व का अध्ययन करें
  3. निचली सीमा सिद्धांत:
    • निकटस्थ खेद की सूचना-सैद्धांतिक निचली सीमा स्थापित करें
    • विभिन्न कार्य वर्गों की इष्टतम दरें चिह्नित करें
  4. अनुभवजन्य अनुसंधान:
    • वास्तविक खेलों में PCE की संपत्तियों को सत्यापित करें
    • वास्तविक अनुप्रयोगों में PCE बनाम CCE/CE की तुलना करें
  5. एल्गोरिदम डिजाइन:
    • निकटस्थ खेद के लिए विशेष अनुकूलन एल्गोरिदम डिजाइन करें
    • अनुकूली चरण आकार रणनीतियों का अन्वेषण करें
  6. अन्य खेल प्रकारों में विस्तार:
    • विस्तारित रूप के खेल
    • बेयस खेल
    • यादृच्छिक खेल

गहन मूल्यांकन

शक्तियां

1. सैद्धांतिक नवाचार मजबूत

  • निकटस्थ संचालक इस अनुकूलन सिद्धांत मौलिक उपकरण को ऑनलाइन शिक्षा और खेल सिद्धांत में पेश करता है
  • बाहरी खेद और विनिमय खेद के बीच निरंतर स्पेक्ट्रम स्थापित करता है
  • GD एल्गोरिदम की छिपी हुई मजबूत गारंटी को प्रकट करता है

2. एकीकृतता और सार्वभौमिकता

  • कई प्रतीत होने वाली स्वतंत्र अवधारणाओं को एकीकृत करता है (ढाल संतुलन, अर्ध-मोटे CE, प्रक्षेपण-प्रकार खेद आदि)
  • ढांचा सामान्य उत्तल सेट और कमजोर उत्तल कार्य वर्ग पर लागू होता है
  • Bregman सेटिंग में स्वाभाविक विस्तार

3. तकनीकी गहराई

  • मुख्य लेम्मा 1 निकटस्थ संचालक की प्रथम-क्रम इष्टतमता स्थितियों का चतुराई से उपयोग करता है
  • गैर-दूरदर्शी पदों को संभालने की तकनीक सार्वभौमिक है
  • सममित रैखिक विनिमय खेद के लिए प्रक्षेप निर्माण अंतर्दृष्टिपूर्ण है

4. व्यावहारिक महत्व

  • कई अनुप्रयोगों में GD की सफलता के लिए सैद्धांतिक व्याख्या प्रदान करता है:
    • ऑनलाइन अनुरूप भविष्यवाणी में सीमांत कवरेज
    • प्रथम-मूल्य नीलामी में सामाजिक कल्याण गारंटी
  • एल्गोरिदम सरल (GD को संशोधित करने की आवश्यकता नहीं), कार्यान्वयन में आसान

5. लेखन स्पष्टता

  • संरचना स्पष्ट, प्रेरणा से तकनीकी विवरण तक परत दर परत
  • कई उदाहरण और विशेष मामले समझने में सहायता करते हैं
  • संबंधित कार्य के साथ तुलना विस्तृत है

कमियां

1. सैद्धांतिक पूर्णता

  • निकटस्थ खेद की विशिष्ट निचली सीमा की कमी (हालांकि बाहरी खेद की Ω(T)\Omega(\sqrt{T}) निचली सीमा विरासत में मिली है)
  • प्रमेय 3 की सीमा मानक RVU सीमा से कमजोर है (टिप्पणी 5 स्वीकार करती है)
  • कुछ स्थिरांक कारक तंग नहीं हो सकते हैं (जैसे प्रमेय 2 में 3(1+||A||₂))

2. लागू सीमा

  • ρ < 1 की सीमा कुछ प्राकृतिक कार्य वर्गों को बाहर करती है
  • सामान्य (गैर-सममित) रैखिक विनिमय खेद को कवर नहीं करता है
  • गैर-उत्तल खेलों में विस्तार सीमित है (केवल स्थानीय गारंटी)

3. अनुभवजन्य कमी

  • पूरी तरह से प्रायोगिक सत्यापन की कमी
  • वास्तविक अनुप्रयोगों में प्रदर्शन का मूल्यांकन नहीं किया गया है
  • वास्तविक प्रभाव में स्थिरांक कारक अज्ञात है

4. तकनीकी विवरण

  • Bregman सेटिंग को 1-दृढ़ता से उत्तल धारणा की आवश्यकता है (हालांकि स्केलिंग के माध्यम से प्राप्त किया जा सकता है)
  • कुछ प्रमाण चरण (जैसे लेम्मा 2) की सीमा में सुधार की संभावना है
  • प्रस्ताव 1 की दो पर्याप्त स्थितियां आवश्यक हैं या नहीं इस पर चर्चा नहीं है

5. मौजूदा कार्य के साथ संबंध

  • Ahu24 के साथ विस्तृत तुलना केवल परिशिष्ट में है (हालांकि परिशिष्ट A विस्तृत है)
  • रैखिक विनिमय खेद DFF+25 में सुधार मुख्य रूप से सरलता में है, जटिलता में नहीं

प्रभाव

क्षेत्र में योगदान:

  1. अवधारणा योगदान: निकटस्थ खेद और PCE खेल सिद्धांत और ऑनलाइन शिक्षा के लिए नए उपकरण प्रदान करते हैं
  2. सैद्धांतिक योगदान: GD के गहरे गुणों को प्रकट करता है, नए एल्गोरिदम डिजाइन को प्रेरित कर सकता है
  3. एकीकरण योगदान: बिखरी हुई अवधारणाओं के लिए एकीकृत ढांचा प्रदान करता है

व्यावहारिक मूल्य:

  • उच्च: मौजूदा GD कार्यान्वयन को संशोधित करने की आवश्यकता नहीं है, अधिक मजबूत गारंटी प्राप्त करें
  • मध्यम: विशिष्ट अनुप्रयोगों (अनुरूप भविष्यवाणी, नीलामी) में सीधे अनुप्रयोग मूल्य
  • सत्यापन प्रतीक्षित: वास्तविक प्रदर्शन सुधार को अनुभवजन्य अनुसंधान की आवश्यकता है

पुनरुत्पादनीयता:

  • सैद्धांतिक परिणाम: पूरी तरह से पुनरुत्पादनीय, प्रमाण विस्तृत है
  • एल्गोरिदम कार्यान्वयन: मानक GD/MD, कार्यान्वयन में आसान
  • प्रयोग: कोई प्रयोग नहीं, लेकिन सैद्धांतिक आधार पर सत्यापन प्रयोग डिजाइन किए जा सकते हैं

अपेक्षित प्रभाव:

  • ऑनलाइन शिक्षा और खेल सिद्धांत क्रॉसओवर क्षेत्र में महत्वपूर्ण उपकरण बन सकता है
  • बाद के अनुसंधान के लिए कई मूल्यवान खुली समस्याएं प्रदान करता है
  • अन्य अनुकूलन एल्गोरिदम के खेद विश्लेषण को प्रेरित कर सकता है

लागू परिदृश्य

सबसे उपयुक्त अनुप्रयोग:

  1. ऑनलाइन अनुरूप भविष्यवाणी: सीमांत कवरेज गारंटी के लिए ढाल संतुलन संपत्ति की आवश्यकता
  2. नीलामी तंत्र डिजाइन: CCE की तुलना में अधिक मजबूत लेकिन सीखने योग्य संतुलन की आवश्यकता
  3. बहु-एजेंट सुदृढ़ शिक्षा: चिकनी उत्तल खेलों में रणनीति शिक्षा
  4. ऑनलाइन अनुकूलन: बाहरी खेद से अधिक मजबूत गारंटी की आवश्यकता वाले परिदृश्य

कम उपयुक्त परिदृश्य:

  1. गैर-उत्तल खेल (केवल स्थानीय गारंटी)
  2. पूर्ण विनिमय खेद गारंटी की आवश्यकता वाले अनुप्रयोग
  3. असतत कार्रवाई स्पेस (हालांकि सिंप्लेक्स लागू होता है, लाभ स्पष्ट नहीं है)
  4. अत्यंत सीमित कम्प्यूटेशनल संसाधन (स्थिरांक कारक बड़े हो सकते हैं)

अनुशंसित उपयोग शर्तें:

  • रणनीति स्पेस उत्तल है
  • हानि/उपयोगिता कार्य चिकना है
  • पहले से GD/MD एल्गोरिदम का उपयोग कर रहे हैं
  • CCE से अधिक मजबूत संतुलन गारंटी की आवश्यकता है

संदर्भ (चयनित)

  1. DFF+25 Daskalakis et al. "Efficient learning and computation of linear correlated equilibrium in general convex games". STOC 2025. (रैखिक विनिमय खेद)
  2. CDL+24 Cai et al. "On Tractable Φ-Equilibria in Non-Concave Games". NeurIPS 2024. (प्रक्षेपण-प्रकार और प्रक्षेप-प्रकार खेद)
  3. SAL+15 Syrgkanis et al. "Fast convergence of regularized learning in games". NeurIPS 2015. (खेलों में त्वरित अभिसरण)
  4. AJT25 Angelopoulos et al. "Gradient Equilibrium in Online Learning: Theory and Applications". arXiv 2025. (ढाल संतुलन)
  5. AB25 Ahunbay & Bichler. "Semicoarse Correlated Equilibria and LP-Based Guarantees for Gradient Dynamics". EC 2025. (अर्ध-मोटे CE)
  6. PB14 Parikh & Boyd. "Proximal algorithms". Foundations and Trends in Optimization 2014. (निकटस्थ संचालक सर्वेक्षण)
  7. Zin03 Zinkevich. "Online convex programming and generalized infinitesimal gradient ascent". ICML 2003. (GD की शास्त्रीय विश्लेषण)

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला सैद्धांतिक कार्य है, जो नई अवधारणा (निकटस्थ खेद) प्रस्तुत करता है, एक सुरुचिपूर्ण सैद्धांतिक ढांचा स्थापित करता है, और शास्त्रीय एल्गोरिदम के गहरे गुणों को प्रकट करता है। मुख्य योगदान सैद्धांतिक अंतर्दृष्टि और अवधारणा एकीकरण में है, तकनीकी रूप से निकटस्थ संचालक के गुणों का चतुराई से उपयोग करके गैर-दूरदर्शी पद समस्या को हल करता है। हालांकि अनुभवजन्य सत्यापन की कमी है और कुछ तकनीकी विवरण में सुधार की संभावना है, लेकिन इसका सैद्धांतिक मूल्य और क्षेत्र पर संभावित प्रभाव महत्वपूर्ण है। विशेष रूप से, यह कार्य दर्शाता है कि सरल GD एल्गोरिदम वास्तव में पारंपरिक समझ की तुलना में अधिक मजबूत गारंटी रखता है, जो व्यावहारिक अनुप्रयोगों के लिए महत्वपूर्ण है। ऑनलाइन शिक्षा सिद्धांत, खेल सिद्धांत, अनुकूलन एल्गोरिदम में रुचि रखने वाले शोधकर्ताओं को पढ़ने की अनुशंसा की जाती है।