Proximal Regret and Proximal Correlated Equilibria: A New Tractable Solution Concept for Online Learning and Games
Cai, Daskalakis, Luo et al.
Learning and computation of equilibria are central problems in game theory, theory of computation, and artificial intelligence. In this work, we introduce proximal regret, a new notion of regret based on proximal operators that lies strictly between external and swap regret. When every player employs a no-proximal-regret algorithm in a general convex game, the empirical distribution of play converges to proximal correlated equilibria (PCE), a refinement of coarse correlated equilibria. Our framework unifies several emerging notions in online learning and game theory-such as gradient equilibrium and semicoarse correlated equilibrium-and introduces new ones. Our main result shows that the classic Online Gradient Descent (GD) algorithm achieves an optimal $O(\sqrt{T})$ bound on proximal regret, revealing that GD, without modification, minimizes a stronger regret notion than external regret. This provides a new explanation for the empirically superior performance of gradient descent in online learning and games. We further extend our analysis to Mirror Descent in the Bregman setting and to Optimistic Gradient Descent, which yields faster convergence in smooth convex games.
academic
Proximale Reue und proximale korrelierte Gleichgewichte: Ein neues handhabbares Lösungskonzept für Online-Lernen und Spiele
Lernen und Gleichgewichtsberechnung sind zentrale Probleme in Spieltheorie, Berechenbarkeitstheorie und künstlicher Intelligenz. Dieses Paper führt proximale Reue (proximal regret) ein – ein neues Reue-Konzept basierend auf proximalen Operatoren, das streng zwischen äußerer Reue und Tausch-Reue liegt. Wenn alle Spieler Algorithmen mit proximaler Reue in allgemeinen konvexen Spielen verwenden, konvergiert die empirische Verteilung der Strategien zu proximalen korrelierten Gleichgewichten (PCE), einer Verfeinerung grober korrelierter Gleichgewichte. Das Framework vereinheitlicht mehrere neue Konzepte in Online-Lernen und Spieltheorie (wie Gradienten-Gleichgewichte und halbgrobe korrelierte Gleichgewichte) und führt neue Konzepte ein. Hauptergebnisse zeigen, dass der klassische Online-Gradient-Descent (GD)-Algorithmus ohne Modifikation optimale O(T) proximale Reue-Schranken erreicht, was offenbart, dass GD tatsächlich ein stärkeres Reue-Konzept als äußere Reue minimiert. Dies bietet eine neue Erklärung für die überlegene empirische Leistung von Gradient Descent in Online-Lernen und Spielen. Die Forschung erstreckt sich weiter auf Mirror Descent und optimistische Gradienten-Verfahren in der Bregman-Einstellung, wobei letztere schnellere Konvergenz in glatten konvexen Spielen erreichen.
Das Kernproblem dieses Papers ist: Existiert in Spielen ein Gleichgewichtskonzept, das stärker als grobe korrelierte Gleichgewichte (CCE) ist, aber dennoch effizient gelernt und berechnet werden kann?
Rechenschwierigkeit von Nash-Gleichgewichten: Obwohl Nash-Gleichgewichte starke Strategiestabilität bieten, ist die Berechnung von Nash-Gleichgewichten selbst in Zwei-Personen-Spielen PPAD-vollständig, und Lernungsdynamiken konvergieren typischerweise nicht zur Menge der Nash-Gleichgewichte.
Einschränkungen von CCE:
Grobe korrelierte Gleichgewichte (CCE) können zwar durch Algorithmen ohne äußere Reue effizient gelernt werden, sind aber als Gleichgewichtskonzept schwach
CCE können hohe Anarchie-Kosten (Price of Anarchy) aufweisen
Die schlechtesten CCE-Ergebnisse können deutlich schlechter als Nash-Gleichgewichte sein
Attraktivität und Schwierigkeit von CE:
Korrelierte Gleichgewichte (CE) bieten stärkere Strategiestabilität und bessere Ergebnisse
Algorithmen ohne Tausch-Reue haben Nicht-Ausnutzbarkeit und Pareto-Optimalität
Aber effiziente Algorithmen zur Berechnung von CE in allgemeinen konvexen Spielen sind noch unbekannt
Das Paper stellt die Schlüsselfrage: Existiert ein Φ-Reue-Konzept, das stärker als äußere Reue ist, aber dennoch effizient minimiert werden kann? Entsprechend, existiert ein Φ-Gleichgewichtskonzept, das stärker als CCE ist, aber dennoch effizient in allgemeinen konvexen Spielen berechnet werden kann?
Der Ausgangspunkt dieses Papers ist die Nutzung des proximalen Operators (proximal operator) – eines grundlegenden Werkzeugs aus der Optimierungstheorie – um ein neues Reue-Konzept zu konstruieren, das zwischen äußerer Reue und Tausch-Reue liegt.
Einführung des proximalen Reue-Konzepts: Vorschlag eines neuen Φ-Reue-Konzepts basierend auf proximalen Operatoren, das streng stärker als äußere Reue ist und mehrere neue Konzepte vereinheitlicht (Gradienten-Gleichgewichte, halbgrobe korrelierte Gleichgewichte usw.).
Enthüllung starker GD-Garantien: Beweis, dass der klassische Online-Gradient-Descent (GD)-Algorithmus gleichzeitig für alle ρ-schwach konvexen Funktionen (ρ<1) optimale O(T) proximale Reue-Schranken erreicht, ohne jegliche Modifikation.
Definition proximaler korrelierter Gleichgewichte (PCE): Wenn alle Spieler Algorithmen ohne proximale Reue verwenden, konvergiert die Strategieverteilung zu PCE, einer echten Teilmenge von CCE.
Erweiterung auf Bregman-Einstellung: Verallgemeinerung der Analyse auf die Bregman-Einstellung mit Beweis, dass Mirror-Descent-Algorithmen Bregman-proximale Reue minimieren.
O(1) soziale proximale Reue für stark konvexe Funktionen
Einheitliches theoretisches Framework: Bereitstellung einer einheitlichen Erklärung für die überlegene Leistung von GD in mehreren Anwendungsszenarien (Online-konforme Vorhersage, Auktionen usw.).
In jeder Runde t≥1 wählt der Lernende eine Aktion xt∈X (wobei X⊆Rd eine konvexe Menge ist)
Der Gegner wählt eine konvexe Verlustfunktion ℓt:X→R
Der Lernende erleidet Verlust ℓt(xt) und erhält Gradienten-Rückmeldung ∇ℓt(xt)
Φ-Reue-Framework:
Gegeben eine Menge von Strategiemodifikationen Φ (wobei jedes ϕ:X→X ein Endomorphismus ist), ist Φ-Reue definiert als:
RegΦT:=maxϕ∈Φ(∑t=1Tℓt(xt)−ℓt(ϕ(xt)))
Äußere Reue: Wähle Fext={I{x}:x∈X} (Indikatorfunktionen), dann ist proxI{x}(⋅)=x eine konstante Funktion, und die proximale Reue degeneriert zu äußerer Reue.
Gradienten-Gleichgewichte: Wähle F={fv(x)=⟨v,x⟩:∥v∥=1} (beschränkte lineare Funktionen), dann ist proxfv(x)=ΠX[x−v], was projektionsbasierter Reue entspricht. Wenn X=Rd unbeschränkt ist, impliziert sublineare proximale Reue Gradienten-Gleichgewichtseigenschaft:
T1∑t=1T∇ℓt(xt)=o(1)
Symmetrische lineare Tausch-Reue: Wähle F als glatte (aber nicht notwendigerweise konvexe) quadratische Funktionen, dann decken die proximalen Operatoren alle symmetrischen affinen Endomorphismen ϕ(x)=Ax+b (A symmetrisch) ab. Die entsprechende Φ-Reue heißt symmetrische lineare Tausch-Reue.
Theorem 1 (GD minimiert proximale Reue):
Sei X⊆Rd eine abgeschlossene konvexe Menge, {ℓt} eine Folge konvexer Verlustfunktionen, {xt} die durch GD erzeugte Iterationsfolge (mit nicht-ansteigenden Schrittweiten {ηt}). Für jede ρ-schwach konvexe Funktion f∈Fwc(X) (ρ < 1), sei pt=proxf(xt), dann gilt:
Schlüssel-Lemma (Lemma 1):
Für eine ρ-schwach konvexe Funktion f und px=proxf(x) gilt:
∥x−px∥2−∥x−p∥2≤2f(p)−2f(px)−(1−ρ)∥p−px∥2
Beweisstrategie:
Standardmäßige GD-Analyse: Verwendung des standardmäßigen Analyserahmens für Online-Gradient-Descent, um zu erhalten:
∑t=1T⟨∇ℓt(xt),xt−pt⟩≤2η1∥x1−p1∥2+∑t=1T−12ηt1(∥xt+1−pt+1∥2−∥xt+1−pt∥2)+Gradiententerme
Behandlung nicht-teleskopierender Terme: Der kritische Term ∥xt+1−pt+1∥2−∥xt+1−pt∥2 teleskopiert nicht. Mit Lemma 1 wird dieser nach oben begrenzt durch:
∥xt+1−pt+1∥2−∥xt+1−pt∥2≤2(f(pt)−f(pt+1))−(1−ρ)∥pt−pt+1∥2
Teleskopierung und negative Terme: Die Funktionswertdifferenz f(pt)−f(pt+1) teleskopiert (Gesamtsumme begrenzt durch Bf), und der negative Term −∥pt−pt+1∥2 bietet zusätzliche Stabilitätsgarantie.
1. Proximale Reue in adversarialer Einstellung (Theorem 1)
GD-Garantie: RegfT=O(T) für alle ρ-schwach konvexen Funktionen f (ρ < 1) gleichzeitig
Optimalität: Da äußere Reue enthalten ist, ist die Ω(T) Untergrenze bekannt, daher ist diese Schranke optimal
Keine Modifikation erforderlich: Der Standard-GD-Algorithmus benötigt keine Änderungen, um diese Garantie zu erreichen
2. Symmetrische lineare Tausch-Reue (Theorem 2)
Innerhalb der Einheitsball X⊆Bd(0,D), für jeden symmetrischen affinen Endomorphismus ϕ(x)=Ax+b:
Regϕ(T)≤3(1+∥A∥2)(4D2+D∥b∥+G2)⋅T
Für den Simplex X=Δd (D=1, ∥A∥2≤1):
Regϕ(T)=O(GT)
3. Verbesserte Schranken in Spielen (Theorem 4)
In G-Lipschitz, L-glatten konvexen Spielen, wenn alle Spieler optimistische Gradienten verwenden (Schrittweite η=T−1/4):
∑t=1T⟨∇xiui(xt),proxf(xit)−xit⟩≤(DXi2+2Bi,f+4nL2G2)T1/4
Konvergenz zu ε-approximativer Φ-Gleichgewicht erfordert O(1/ε4/3) Runden.
Erweiterung auf Bregman-Einstellung (Theorem 7):
Für 1-stark konvexe Distanz-Generatorfunktion ϕ und Mirror-Descent-Algorithmus, für jede ρ-schwach konvexe f:
∑t=1T⟨∇ℓt(xt),xt−pt⟩≤ηTD+Bf+∑t=1T2ηt∥∇ℓt(xt)∥∗2−∑t=1T−12(1−ρ)∥pt−pt+1∥2
wobei D=maxtDϕ(pt∣xt) die Bregman-Divergenz ist.
Verbesserung durch optimistische Gradienten (Theorem 3):
Die Reue von OG hängt von Gradienten-Variation PT=∑t=1T∥gt−gt−1∥2 ab, nicht von ∑t∥gt∥2, in stabilen Umgebungen ist PT≪T.
Besonderheit von GD: GD minimiert nicht nur äußere Reue, sondern gleichzeitig proximale Reue für alle schwach konvexen Funktionen, was seine überlegene Leistung in mehreren Anwendungen erklärt.
Nicht-Negativität: Wenn F konstante Funktionen enthält, ist die proximale Reue nicht-negativ (da proxc=Id).
Hierarchische Struktur: Äußere Reue ⊂ Proximale Reue ⊂ Tausch-Reue, und die Inklusionen sind streng.
Proximale Reue ist handhabbar: Φ-Reue basierend auf proximalen Operatoren ist streng stärker als äußere Reue, kann aber dennoch von einfachen GD-Algorithmen effizient minimiert werden, mit optimaler O(T)-Schranke.
Starke GD-Garantien: Der klassische GD-Algorithmus minimiert gleichzeitig proximale Reue für alle ρ-schwach konvexen Funktionen (ρ < 1) ohne jegliche Modifikation, was eine theoretische Erklärung für seine überlegene empirische Leistung bietet.
Einheitliches Framework: Proximale Reue vereinheitlicht mehrere neue Konzepte (Gradienten-Gleichgewichte, halbgrobe CE usw.) und definiert ein neues Gleichgewichtskonzept PCE in Spielen.
Erweiterbarkeit: Die Theorie erstreckt sich natürlich auf:
Bregman-Einstellung (Mirror Descent)
Beschleunigte Konvergenz in Spielen (optimistische Gradienten)
DFF+25 Daskalakis et al. "Efficient learning and computation of linear correlated equilibrium in general convex games". STOC 2025. (Lineare Tausch-Reue)
CDL+24 Cai et al. "On Tractable Φ-Equilibria in Non-Concave Games". NeurIPS 2024. (Projektions- und Interpolationstyp-Reue)
SAL+15 Syrgkanis et al. "Fast convergence of regularized learning in games". NeurIPS 2015. (Beschleunigte Konvergenz in Spielen)
AJT25 Angelopoulos et al. "Gradient Equilibrium in Online Learning: Theory and Applications". arXiv 2025. (Gradienten-Gleichgewichte)
AB25 Ahunbay & Bichler. "Semicoarse Correlated Equilibria and LP-Based Guarantees for Gradient Dynamics". EC 2025. (Halbgrobe CE)
PB14 Parikh & Boyd. "Proximal algorithms". Foundations and Trends in Optimization 2014. (Proximale Operatoren Übersicht)
Gesamtbewertung: Dies ist eine hochwertige theoretische Arbeit, die ein innovatives Konzept (proximale Reue) einführt, ein elegantes theoretisches Framework etabliert und versteckte Eigenschaften klassischer Algorithmen offenbart. Hauptbeiträge liegen in theoretischen Einsichten und Konzept-Vereinigung, technisch nutzt sie geschickt Eigenschaften proximaler Operatoren zur Lösung nicht-teleskopierender Term-Probleme. Obwohl empirische Verifikation fehlt und einige technische Details verbessert werden könnten, ist der theoretische Wert und potenzielle Einfluss auf das Forschungsgebiet erheblich. Besonders bemerkenswert ist, dass diese Arbeit zeigt, dass der einfache GD-Algorithmus tatsächlich stärkere Garantien hat als traditionell verstanden – dies hat wichtige praktische Bedeutung. Empfohlen für Forscher mit Interesse an Online-Lerntheorie, Spieltheorie und Optimierungsalgorithmen.