Proximal Regret and Proximal Correlated Equilibria: A New Tractable Solution Concept for Online Learning and Games
Cai, Daskalakis, Luo et al.
Learning and computation of equilibria are central problems in game theory, theory of computation, and artificial intelligence. In this work, we introduce proximal regret, a new notion of regret based on proximal operators that lies strictly between external and swap regret. When every player employs a no-proximal-regret algorithm in a general convex game, the empirical distribution of play converges to proximal correlated equilibria (PCE), a refinement of coarse correlated equilibria. Our framework unifies several emerging notions in online learning and game theory-such as gradient equilibrium and semicoarse correlated equilibrium-and introduces new ones. Our main result shows that the classic Online Gradient Descent (GD) algorithm achieves an optimal $O(\sqrt{T})$ bound on proximal regret, revealing that GD, without modification, minimizes a stronger regret notion than external regret. This provides a new explanation for the empirically superior performance of gradient descent in online learning and games. We further extend our analysis to Mirror Descent in the Bregman setting and to Optimistic Gradient Descent, which yields faster convergence in smooth convex games.
academic
Rimpianto Prossimale e Equilibri Correlati Prossimali: Un Nuovo Concetto di Soluzione Trattabile per l'Apprendimento Online e i Giochi
L'apprendimento e il calcolo dell'equilibrio sono problemi fondamentali nella teoria dei giochi, nella teoria computazionale e nell'intelligenza artificiale. Questo articolo introduce il rimpianto prossimale (proximal regret), un nuovo concetto di rimpianto basato su operatori prossimali che si colloca rigorosamente tra il rimpianto esterno e il rimpianto di scambio. Quando tutti i giocatori adottano algoritmi senza rimpianto prossimale in giochi convessi generali, la distribuzione empirica delle strategie converge a equilibri correlati prossimali (PCE), che rappresentano un raffinamento degli equilibri correlati grossolani. Il framework unifica diversi concetti emergenti nella teoria dell'apprendimento online e dei giochi (come equilibri di gradiente ed equilibri correlati semi-grossolani) e introduce nuovi concetti. I risultati principali dimostrano che l'algoritmo classico di discesa del gradiente online (GD) raggiunge il limite ottimale di rimpianto prossimale O(T) senza alcuna modifica, rivelando che GD minimizza effettivamente un concetto di rimpianto più forte del rimpianto esterno. Ciò fornisce una nuova spiegazione per le prestazioni empiriche superiori della discesa del gradiente nell'apprendimento online e nei giochi. La ricerca si estende ulteriormente alla discesa speculare e alla discesa del gradiente ottimista nell'ambito di Bregman, quest'ultima realizzando una convergenza più veloce nei giochi convessi lisci.
Il problema centrale affrontato in questo articolo è: Esiste un concetto di equilibrio nei giochi più forte degli equilibri correlati grossolani (CCE), ma comunque efficiente da apprendere e calcolare?
Difficoltà Computazionale dell'Equilibrio di Nash: Sebbene l'equilibrio di Nash fornisca una forte stabilità strategica, il calcolo dell'equilibrio di Nash è un problema PPAD-completo anche nei giochi a due giocatori, e le dinamiche di apprendimento tipicamente non convergono all'insieme degli equilibri di Nash.
Limitazioni del CCE:
Gli equilibri correlati grossolani, sebbene apprendibili efficientemente tramite algoritmi senza rimpianto esterno, rappresentano un concetto di equilibrio debole
Il CCE può esibire un alto prezzo dell'anarchia
I risultati peggiori del CCE possono essere significativamente inferiori agli equilibri di Nash
Attrattiva e Difficoltà del CE:
Gli equilibri correlati forniscono una stabilità strategica più forte e risultati migliori
Gli algoritmi senza rimpianto di scambio possiedono proprietà di non-sfruttabilità e ottimalità paretiana
Tuttavia, gli algoritmi efficienti per il calcolo del CE in giochi convessi generali rimangono sconosciuti
Difficoltà della Minimizzazione del Rimpianto di Scambio:
Gli algoritmi di rimpianto di scambio universali più recenti hanno dipendenza esponenziale dal rimpianto ammissibile
Qualsiasi algoritmo di minimizzazione del rimpianto di scambio deve necessariamente avere dipendenza esponenziale dalla dimensionalità del problema o dal rimpianto ammissibile
Complessità del Rimpianto di Scambio Lineare:
L'algoritmo di rimpianto di scambio lineare proposto da Daskalakis et al. DFF+25 si basa sul metodo dell'ellissoide, risultando eccessivamente complesso
L'articolo pone la questione chiave: Esiste un concetto di Φ-rimpianto più forte del rimpianto esterno, ma comunque efficiente da minimizzare? Corrispondentemente, esiste un concetto di Φ-equilibrio più forte del CCE, ma comunque efficiente da calcolare in giochi convessi generali?
Il punto di partenza di questo lavoro è sfruttare l'operatore prossimale (proximal operator), uno strumento fondamentale della teoria dell'ottimizzazione, per costruire un nuovo concetto di rimpianto che si colloca tra il rimpianto esterno e il rimpianto di scambio.
Introduzione del Concetto di Rimpianto Prossimale: Propone un nuovo concetto di Φ-rimpianto basato su operatori prossimali, rigorosamente più forte del rimpianto esterno, che unifica molteplici concetti emergenti (equilibri di gradiente, equilibri correlati semi-grossolani, ecc.).
Rivelazione delle Garanzie Forti di GD: Dimostra che l'algoritmo classico di discesa del gradiente online (GD) raggiunge simultaneamente il limite ottimale di rimpianto prossimale O(T) per tutte le funzioni ρ-debolmente convesse (ρ<1), senza alcuna modifica.
Definizione di Equilibri Correlati Prossimali (PCE): Quando tutti i giocatori utilizzano algoritmi senza rimpianto prossimale, la distribuzione delle strategie converge a PCE, che è un sottoinsieme rigoroso del CCE.
Estensione all'Ambito di Bregman: Generalizza l'analisi all'ambito di Bregman, dimostrando che l'algoritmo di discesa speculare minimizza il rimpianto prossimale di Bregman.
Convergenza Accelerata nei Giochi:
La discesa del gradiente ottimista raggiunge rimpianto prossimale individuale O(T−1/4)
Raggiunge rimpianto prossimale sociale O(1) per funzioni fortemente convesse
Framework Teorico Unificato: Fornisce una spiegazione unificata per comprendere le prestazioni superiori di GD in molteplici scenari applicativi (previsione conforme online, aste, ecc.).
In ogni round t≥1, l'apprendente sceglie un'azione xt∈X (dove X⊆Rd è un insieme convesso)
L'avversario sceglie una funzione di perdita convessa ℓt:X→R
L'apprendente subisce una perdita ℓt(xt) e riceve feedback del gradiente ∇ℓt(xt)
Framework del Φ-Rimpianto:
Dato un insieme di modifiche strategiche Φ (dove ogni ϕ:X→X è un endomorfismo), il Φ-rimpianto è definito come:
RegΦT:=maxϕ∈Φ(∑t=1Tℓt(xt)−ℓt(ϕ(xt)))
Rimpianto Esterno: Scegliendo Fext={I{x}:x∈X} (insieme di funzioni indicatrici), allora proxI{x}(⋅)=x è una funzione costante, e il rimpianto prossimale si riduce al rimpianto esterno.
Equilibri di Gradiente: Scegliendo F={fv(x)=⟨v,x⟩:∥v∥=1} (funzioni lineari limitate), allora proxfv(x)=ΠX[x−v], corrispondente al rimpianto di proiezione. Quando X=Rd è senza vincoli, il rimpianto prossimale sublineare implica la proprietà di equilibrio di gradiente:
T1∑t=1T∇ℓt(xt)=o(1)
Rimpianto di Scambio Lineare Simmetrico: Scegliendo F come funzioni quadratiche lisce (ma non necessariamente convesse), l'operatore prossimale copre tutti gli endomorfismi affini simmetrici ϕ(x)=Ax+b (dove A è simmetrica). Il corrispondente Φ-rimpianto è chiamato rimpianto di scambio lineare simmetrico.
Teorema 1 (GD Minimizza il Rimpianto Prossimale):
Sia X⊆Rd un insieme chiuso convesso, {ℓt} una sequenza di perdite convesse, e {xt} la sequenza di iterazioni generata da GD (con step size non crescente {ηt}). Per qualsiasi funzione ρ-debolmente convessa f∈Fwc(X) (ρ < 1), denotando pt=proxf(xt), abbiamo:
Lemma Chiave (Lemma 1):
Per una funzione ρ-debolmente convessa f e px=proxf(x), abbiamo:
∥x−px∥2−∥x−p∥2≤2f(p)−2f(px)−(1−ρ)∥p−px∥2
Idea Centrale della Dimostrazione:
Punto di Partenza dell'Analisi Standard di GD: Utilizzando il framework standard di analisi della discesa del gradiente online, otteniamo:
∑t=1T⟨∇ℓt(xt),xt−pt⟩≤2η1∥x1−p1∥2+∑t=1T−12ηt1(∥xt+1−pt+1∥2−∥xt+1−pt∥2)+termini di gradiente
Gestione dei Termini Non-Telescopici: Il termine chiave ∥xt+1−pt+1∥2−∥xt+1−pt∥2 non è telescopico. Utilizzando il Lemma 1, lo limitiamo superiormente con:
∥xt+1−pt+1∥2−∥xt+1−pt∥2≤2(f(pt)−f(pt+1))−(1−ρ)∥pt−pt+1∥2
Telescopio e Termini Negativi: La differenza di valori della funzione f(pt)−f(pt+1) è telescopica (la somma è limitata da Bf), e il termine negativo −∥pt−pt+1∥2 fornisce garanzie di stabilità aggiuntive.
Gestione del Rimpianto di Scambio Lineare Simmetrico (Teorema 2):
Per gli endomorfismi affini simmetrici ϕ(x)=Ax+b:
Costruiamo una trasformazione interpolata ϕα=(1−α)Id+αϕ, dove α=3(1+∥A∥2)1
Utilizzando la Proposizione 1, quando σmin(Aα)>21, ϕα può essere rappresentato come operatore prossimale di una funzione liscia
Garanzia di GD: RegfT=O(T) per tutte le funzioni ρ-debolmente convesse f (ρ < 1) simultaneamente
Ottimalità: Poiché include il rimpianto esterno, il limite inferiore Ω(T) è noto, quindi questo limite è ottimale
Nessuna Modifica Richiesta: L'algoritmo GD standard raggiunge questa garanzia senza alcun cambiamento
2. Rimpianto di Scambio Lineare Simmetrico (Teorema 2)
All'interno della palla unitaria X⊆Bd(0,D), per qualsiasi endomorfismo affine simmetrico ϕ(x)=Ax+b:
Regϕ(T)≤3(1+∥A∥2)(4D2+D∥b∥+G2)⋅T
Per il simplesso X=Δd (dove D=1,∥A∥2≤1):
Regϕ(T)=O(GT)
3. Limiti Migliorati nei Giochi (Teorema 4)
In giochi convessi G-Lipschitz e L-lisci, quando tutti i giocatori utilizzano la discesa del gradiente ottimista (con step size η=T−1/4):
∑t=1T⟨∇xiui(xt),proxf(xit)−xit⟩≤(DXi2+2Bi,f+4nL2G2)T1/4
La convergenza a un equilibrio Φ-approssimato ε richiede O(1/ε4/3) round.
4. Rimpianto Sociale (Teorema 5)
Per la famiglia di funzioni α-fortemente convesse Fα,sc, scegliendo step size η≤8nL2min{α,1}:
∑i=1nRegfiT≤2η∑i(DXi+Bfi)+nηG2=O(1)
Questo migliora i risultati esistenti di rimpianto esterno sociale O(1), poiché la classe di funzioni fortemente convesse non include funzioni indicatrici.
Estensione all'Ambito di Bregman (Teorema 7):
Per una funzione generatrice di distanza 1-fortemente convessa ϕ e l'algoritmo di discesa speculare, per qualsiasi f ρ-debolmente convessa:
∑t=1T⟨∇ℓt(xt),xt−pt⟩≤ηTD+Bf+∑t=1T2ηt∥∇ℓt(xt)∥∗2−∑t=1T−12(1−ρ)∥pt−pt+1∥2
dove D=maxtDϕ(pt∣xt) è la divergenza di Bregman.
Miglioramento della Discesa del Gradiente Ottimista (Teorema 3):
Il rimpianto di OG dipende dalla variazione del gradiente PT=∑t=1T∥gt−gt−1∥2 piuttosto che da ∑t∥gt∥2, e in ambienti stabili PT≪T.
Specificità di GD: GD non solo minimizza il rimpianto esterno, ma minimizza simultaneamente il rimpianto prossimale di tutte le funzioni debolmente convesse, il che spiega le sue prestazioni superiori in molteplici applicazioni.
Non-Negatività: Quando F include funzioni costanti, il rimpianto prossimale è non-negativo (poiché proxc=Id).
Gerarchia: Rimpianto esterno ⊂ Rimpianto prossimale ⊂ Rimpianto di scambio, e le inclusioni sono rigorose.
Il Rimpianto Prossimale è Trattabile: Il Φ-rimpianto basato su operatori prossimali è rigorosamente più forte del rimpianto esterno, ma rimane efficiente da minimizzare tramite il semplice algoritmo GD, raggiungendo il limite ottimale O(T).
Garanzie Forti di GD: L'algoritmo GD classico minimizza simultaneamente il rimpianto prossimale per tutte le funzioni ρ-debolmente convesse (ρ < 1), senza alcuna modifica, fornendo una spiegazione teorica per le sue prestazioni empiriche superiori.
Framework Unificato: Il rimpianto prossimale unifica molteplici concetti emergenti (equilibri di gradiente, CE semi-grossolani, ecc.) e definisce un nuovo concetto di equilibrio nei giochi, PCE.
Estensibilità: La teoria si estende naturalmente a:
Ambito di Bregman (discesa speculare)
Convergenza accelerata nei giochi (gradiente ottimista)
Rimpianto sociale per funzioni fortemente convesse
DFF+25 Daskalakis et al. "Efficient learning and computation of linear correlated equilibrium in general convex games". STOC 2025. (Rimpianto di scambio lineare)
CDL+24 Cai et al. "On Tractable Φ-Equilibria in Non-Concave Games". NeurIPS 2024. (Rimpianto di proiezione e interpolazione)
SAL+15 Syrgkanis et al. "Fast convergence of regularized learning in games". NeurIPS 2015. (Convergenza accelerata nei giochi)
AJT25 Angelopoulos et al. "Gradient Equilibrium in Online Learning: Theory and Applications". arXiv 2025. (Equilibri di gradiente)
AB25 Ahunbay & Bichler. "Semicoarse Correlated Equilibria and LP-Based Guarantees for Gradient Dynamics". EC 2025. (CE semi-grossolani)
PB14 Parikh & Boyd. "Proximal algorithms". Foundations and Trends in Optimization 2014. (Rassegna degli operatori prossimali)
Zin03 Zinkevich. "Online convex programming and generalized infinitesimal gradient ascent". ICML 2003. (Analisi classica di GD)
Valutazione Complessiva: Questo è un lavoro teorico di alta qualità che propone un concetto innovativo (rimpianto prossimale), stabilisce un elegante framework teorico e rivela proprietà profonde degli algoritmi classici. I contributi principali risiedono nell'intuizione teorica e nell'unificazione concettuale, con tecniche che sfruttano abilmente le proprietà dell'operatore prossimale per risolvere il problema dei termini non-telescopici. Sebbene manchi verifica empirica e alcuni dettagli tecnici potrebbero essere migliorati, il valore teorico e l'impatto potenziale sul campo sono significativi. Particolarmente degno di nota è il fatto che questo lavoro dimostra che il semplice algoritmo GD possiede effettivamente garanzie più forti di quanto tradizionalmente riconosciuto, il che ha importanza significativa per la pratica. Consigliato ai ricercatori interessati alla teoria dell'apprendimento online, teoria dei giochi e algoritmi di ottimizzazione.