Proximal Regret and Proximal Correlated Equilibria: A New Tractable Solution Concept for Online Learning and Games
Cai, Daskalakis, Luo et al.
Learning and computation of equilibria are central problems in game theory, theory of computation, and artificial intelligence. In this work, we introduce proximal regret, a new notion of regret based on proximal operators that lies strictly between external and swap regret. When every player employs a no-proximal-regret algorithm in a general convex game, the empirical distribution of play converges to proximal correlated equilibria (PCE), a refinement of coarse correlated equilibria. Our framework unifies several emerging notions in online learning and game theory-such as gradient equilibrium and semicoarse correlated equilibrium-and introduces new ones. Our main result shows that the classic Online Gradient Descent (GD) algorithm achieves an optimal $O(\sqrt{T})$ bound on proximal regret, revealing that GD, without modification, minimizes a stronger regret notion than external regret. This provides a new explanation for the empirically superior performance of gradient descent in online learning and games. We further extend our analysis to Mirror Descent in the Bregman setting and to Optimistic Gradient Descent, which yields faster convergence in smooth convex games.
academic
Arrepentimiento Proximal y Equilibrios Correlacionados Proximales: Un Nuevo Concepto de Solución Tratable para Aprendizaje en Línea y Juegos
El aprendizaje y el cálculo de equilibrios son problemas centrales en teoría de juegos, teoría computacional e inteligencia artificial. Este artículo introduce el arrepentimiento proximal (proximal regret), un nuevo concepto de arrepentimiento basado en operadores proximales que se sitúa estrictamente entre el arrepentimiento externo y el arrepentimiento de intercambio. Cuando todos los jugadores adoptan algoritmos sin arrepentimiento proximal en juegos convexos generales, la distribución empírica de estrategias converge a un equilibrio correlacionado proximal (PCE), que es un refinamiento del equilibrio correlacionado grueso. Este marco unifica varios conceptos emergentes en aprendizaje en línea y teoría de juegos (como equilibrio de gradientes y equilibrio correlacionado semicoarse) e introduce nuevos conceptos. Los resultados principales demuestran que el algoritmo clásico de descenso de gradiente en línea (GD) sin modificación alguna logra la cota óptima de arrepentimiento proximal de O(T), revelando que GD en realidad minimiza un concepto de arrepentimiento más fuerte que el arrepentimiento externo. Esto proporciona una nueva explicación para el desempeño empírico superior de GD en aprendizaje en línea y juegos. La investigación se extiende además al descenso de espejo en la configuración de Bregman y al descenso de gradiente optimista, que logra convergencia más rápida en juegos convexos suaves.
El problema central que este artículo aborda es: ¿Existe en juegos un concepto de equilibrio más fuerte que el equilibrio correlacionado grueso (CCE), pero que aún sea aprendible y computable eficientemente?
Dificultad Computacional del Equilibrio de Nash: Aunque el equilibrio de Nash proporciona una fuerte estabilidad estratégica, incluso calcular equilibrios de Nash en juegos bipartitos es un problema PPAD-completo, y las dinámicas de aprendizaje típicamente no convergen al conjunto de equilibrios de Nash.
Limitaciones del CCE:
Aunque el equilibrio correlacionado grueso (CCE) puede aprenderse eficientemente mediante algoritmos sin arrepentimiento externo, como concepto de equilibrio es relativamente débil
El CCE puede exhibir un alto precio de la anarquía (Price of Anarchy)
Los resultados del peor CCE pueden ser significativamente inferiores a los del equilibrio de Nash
Atractivo y Dificultad del CE:
El equilibrio correlacionado (CE) proporciona una estabilidad estratégica más fuerte y resultados superiores
Los algoritmos sin arrepentimiento de intercambio poseen propiedades deseables como inexplotabilidad y optimalidad de Pareto
Sin embargo, los algoritmos para calcular eficientemente CE en juegos convexos generales siguen siendo desconocidos
Dificultad de Minimizar Arrepentimiento de Intercambio:
Los algoritmos de arrepentimiento de intercambio más recientes tienen dependencia exponencial en el arrepentimiento admisible
Cualquier algoritmo de minimización de arrepentimiento de intercambio debe tener dependencia exponencial en la dimensión del problema o en el arrepentimiento admisible
Complejidad del Arrepentimiento de Intercambio Lineal:
El algoritmo de arrepentimiento de intercambio lineal propuesto por Daskalakis et al. DFF+25 se basa en el método del elipsoide, siendo excesivamente complejo
El artículo plantea la pregunta clave: ¿Existe un concepto de Φ-arrepentimiento más fuerte que el arrepentimiento externo, pero que aún sea eficientemente minimizable? Correspondientemente, ¿existe un concepto de Φ-equilibrio más fuerte que CCE, pero que aún sea eficientemente computable en juegos convexos generales?
El punto de partida de este trabajo es utilizar el operador proximal (proximal operator), una herramienta fundamental de la teoría de optimización, para construir un nuevo concepto de arrepentimiento que se sitúe entre el arrepentimiento externo y el arrepentimiento de intercambio.
Introducción del Concepto de Arrepentimiento Proximal: Se propone un nuevo concepto de Φ-arrepentimiento basado en operadores proximales, estrictamente más fuerte que el arrepentimiento externo, que unifica múltiples conceptos emergentes (equilibrio de gradientes, equilibrio correlacionado semicoarse, etc.).
Revelación de Garantías Fuertes de GD: Se demuestra que el algoritmo clásico de descenso de gradiente en línea (GD) logra simultáneamente la cota óptima de arrepentimiento proximal de O(T) para todas las funciones ρ-débilmente convexas (ρ<1), sin necesidad de modificación alguna.
Definición del Equilibrio Correlacionado Proximal (PCE): Cuando todos los jugadores utilizan algoritmos sin arrepentimiento proximal, la distribución de estrategias converge a PCE, que es un subconjunto estricto de CCE.
Extensión a la Configuración de Bregman: Se generaliza el análisis a la configuración de Bregman, demostrando que el algoritmo de descenso de espejo minimiza el arrepentimiento proximal de Bregman.
Convergencia Acelerada en Juegos:
El descenso de gradiente optimista logra arrepentimiento proximal individual de O(T−1/4)
Logra arrepentimiento proximal social de O(1) para funciones fuertemente convexas
Marco Teórico Unificado: Proporciona una explicación unificada para entender el desempeño superior de GD en múltiples escenarios de aplicación (predicción conforme en línea, subastas, etc.).
En cada ronda t≥1, el aprendiz elige una acción xt∈X (donde X⊆Rd es un conjunto convexo)
El adversario elige una función de pérdida convexa ℓt:X→R
El aprendiz sufre pérdida ℓt(xt) y recibe retroalimentación de gradiente ∇ℓt(xt)
Marco de Φ-Arrepentimiento:
Dado un conjunto de modificaciones de estrategia Φ (donde cada ϕ:X→X es un endomorfismo), el Φ-arrepentimiento se define como:
RegΦT:=maxϕ∈Φ(∑t=1Tℓt(xt)−ℓt(ϕ(xt)))
Arrepentimiento Externo: Eligiendo Fext={I{x}:x∈X} (conjunto de funciones indicadoras), entonces proxI{x}(⋅)=x es una función constante, y el arrepentimiento proximal se degenera en arrepentimiento externo.
Equilibrio de Gradientes: Eligiendo F={fv(x)=⟨v,x⟩:∥v∥=1} (funciones lineales acotadas), entonces proxfv(x)=ΠX[x−v], correspondiendo a arrepentimiento de tipo proyección. Cuando X=Rd sin restricciones, el arrepentimiento proximal sublineal implica la propiedad de equilibrio de gradientes:
T1∑t=1T∇ℓt(xt)=o(1)
Arrepentimiento de Intercambio Lineal Simétrico: Eligiendo F como funciones cuadráticas suaves (pero no necesariamente convexas), el operador proximal cubre todos los endomorfismos afines simétricos ϕ(x)=Ax+b (A simétrica). El Φ-arrepentimiento correspondiente se denomina arrepentimiento de intercambio lineal simétrico.
Teorema 1 (GD Minimiza Arrepentimiento Proximal):
Sea X⊆Rd un conjunto cerrado convexo, {ℓt} una secuencia de funciones de pérdida convexa, {xt} la secuencia de iteraciones generada por GD (con tamaños de paso no crecientes {ηt}). Para cualquier función ρ-débilmente convexa f∈Fwc(X) (ρ < 1), denotando pt=proxf(xt), se tiene:
Lema Clave (Lema 1):
Para una función ρ-débilmente convexa f y px=proxf(x), se tiene:
∥x−px∥2−∥x−p∥2≤2f(p)−2f(px)−(1−ρ)∥p−px∥2
Idea Central de la Prueba:
Punto de Partida del Análisis Estándar de GD: Utilizando el marco de análisis estándar del descenso de gradiente en línea, se obtiene:
∑t=1T⟨∇ℓt(xt),xt−pt⟩≤2η1∥x1−p1∥2+∑t=1T−12ηt1(∥xt+1−pt+1∥2−∥xt+1−pt∥2)+teˊrminos de gradiente
Tratamiento de Términos No Telescópicos: El término clave ∥xt+1−pt+1∥2−∥xt+1−pt∥2 no se telescopia. Utilizando el Lema 1, se acota como:
∥xt+1−pt+1∥2−∥xt+1−pt∥2≤2(f(pt)−f(pt+1))−(1−ρ)∥pt−pt+1∥2
Telescopio y Términos Negativos: La diferencia de valores de función f(pt)−f(pt+1) puede telescopiarse (la suma total está acotada por Bf), y el término negativo −∥pt−pt+1∥2 proporciona garantías de estabilidad adicionales.
Tratamiento del Arrepentimiento de Intercambio Lineal Simétrico (Teorema 2):
Para endomorfismos afines simétricos ϕ(x)=Ax+b:
Se construye una transformación interpolada ϕα=(1−α)Id+αϕ, donde α=3(1+∥A∥2)1
Utilizando la Proposición 1, cuando σmin(Aα)>21, ϕα puede representarse como el operador proximal de una función suave
El arrepentimiento original Regϕ(T)≤α1Regϕα(T)
Aplicando el Teorema 1 se obtiene la cota de O(T)
1. Arrepentimiento Proximal en Configuración Adversarial (Teorema 1)
Garantía de GD: RegfT=O(T) para todas las funciones ρ-débilmente convexas f (ρ < 1) simultáneamente
Optimalidad: Dado que incluye arrepentimiento externo, el límite inferior conocido Ω(T) implica que esta cota es óptima
Sin Modificación: El algoritmo GD estándar logra esta garantía sin cambio alguno
2. Arrepentimiento de Intercambio Lineal Simétrico (Teorema 2)
Dentro de la bola unitaria X⊆Bd(0,D), para cualquier endomorfismo afín simétrico ϕ(x)=Ax+b:
Regϕ(T)≤3(1+∥A∥2)(4D2+D∥b∥+G2)⋅T
Para el símplex X=Δd (donde D=1,∥A∥2≤1):
Regϕ(T)=O(GT)
3. Cotas Mejoradas en Juegos (Teorema 4)
En juegos convexos G-Lipschitz y L-suaves, cuando todos los jugadores utilizan descenso de gradiente optimista (con tamaño de paso η=T−1/4):
∑t=1T⟨∇xiui(xt),proxf(xit)−xit⟩≤(DXi2+2Bi,f+4nL2G2)T1/4
La convergencia a equilibrio Φ-aproximado ε requiere O(1/ε4/3) rondas.
4. Arrepentimiento Social (Teorema 5)
Para la familia de funciones α-fuertemente convexas Fα,sc, eligiendo tamaño de paso η≤8nL2min{α,1}:
∑i=1nRegfiT≤2η∑i(DXi+Bfi)+nηG2=O(1)
Esto mejora los resultados existentes de O(1) de arrepentimiento externo social, ya que la clase de funciones fuertemente convexas no incluye funciones indicadoras.
Extensión a la Configuración de Bregman (Teorema 7):
Para una función generadora de distancia 1-fuertemente convexa ϕ y algoritmo de descenso de espejo, para cualquier f ρ-débilmente convexa:
∑t=1T⟨∇ℓt(xt),xt−pt⟩≤ηTD+Bf+∑t=1T2ηt∥∇ℓt(xt)∥∗2−∑t=1T−12(1−ρ)∥pt−pt+1∥2
donde D=maxtDϕ(pt∣xt) es la divergencia de Bregman.
Mejora del Gradiente Optimista (Teorema 3):
El arrepentimiento de OG depende de la variación de gradientes PT=∑t=1T∥gt−gt−1∥2 en lugar de ∑t∥gt∥2, y en entornos estables PT≪T.
Particularidad de GD: GD no solo minimiza arrepentimiento externo, sino que simultáneamente minimiza el arrepentimiento proximal de todas las funciones débilmente convexas, lo que explica su desempeño superior en múltiples aplicaciones.
No-negatividad: Cuando F incluye funciones constantes, el arrepentimiento proximal es no-negativo (ya que proxc=Id).
Jerarquía: Arrepentimiento externo ⊂ Arrepentimiento proximal ⊂ Arrepentimiento de intercambio, y las inclusiones son estrictas.
El Arrepentimiento Proximal es Tratable: El Φ-arrepentimiento basado en operadores proximales es estrictamente más fuerte que el arrepentimiento externo, pero aún puede ser minimizado eficientemente por el simple algoritmo GD, logrando la cota óptima de O(T).
Garantías Fuertes de GD: El algoritmo GD clásico minimiza simultáneamente el arrepentimiento proximal para todas las funciones ρ-débilmente convexas (ρ < 1), sin necesidad de modificación alguna, lo que proporciona una explicación teórica para su desempeño empírico superior.
Marco Unificado: El arrepentimiento proximal unifica múltiples conceptos emergentes (equilibrio de gradientes, CE semicoarse, etc.) y define un nuevo concepto de equilibrio PCE en juegos.
Extensibilidad: La teoría se extiende naturalmente a:
Configuración de Bregman (descenso de espejo)
Convergencia acelerada en juegos (gradiente optimista)
Arrepentimiento social para funciones fuertemente convexas
DFF+25 Daskalakis et al. "Efficient learning and computation of linear correlated equilibrium in general convex games". STOC 2025. (Arrepentimiento de intercambio lineal)
CDL+24 Cai et al. "On Tractable Φ-Equilibria in Non-Concave Games". NeurIPS 2024. (Arrepentimiento de proyección e interpolación)
SAL+15 Syrgkanis et al. "Fast convergence of regularized learning in games". NeurIPS 2015. (Convergencia acelerada en juegos)
AJT25 Angelopoulos et al. "Gradient Equilibrium in Online Learning: Theory and Applications". arXiv 2025. (Equilibrio de gradientes)
AB25 Ahunbay & Bichler. "Semicoarse Correlated Equilibria and LP-Based Guarantees for Gradient Dynamics". EC 2025. (CE semicoarse)
PB14 Parikh & Boyd. "Proximal algorithms". Foundations and Trends in Optimization 2014. (Revisión de operadores proximales)
Zin03 Zinkevich. "Online convex programming and generalized infinitesimal gradient ascent". ICML 2003. (Análisis clásico de GD)
Evaluación General: Este es un trabajo teórico de alta calidad que propone un concepto innovador (arrepentimiento proximal), establece un marco teórico elegante, y revela propiedades profundas de algoritmos clásicos. Las principales contribuciones radican en perspectivas teóricas y unificación conceptual, con técnicas que utilizan ingeniosamente propiedades del operador proximal para resolver problemas de términos no telescópicos. Aunque carece de verificación empírica y algunos detalles técnicos podrían mejorarse, su valor teórico e impacto potencial en el campo son significativos. Particularmente digno de elogio es que demuestra que el simple algoritmo GD posee garantías más fuertes de lo que se reconocía convencionalmente, lo que tiene importancia significativa para la práctica. Se recomienda encarecidamente a investigadores interesados en teoría de aprendizaje en línea, teoría de juegos y algoritmos de optimización.