Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Models
Atanasov, Bordelon, Zavatone-Veth et al.
We derive a novel deterministic equivalence for the two-point function of a random matrix resolvent. Using this result, we give a unified derivation of the performance of a wide variety of high-dimensional linear models trained with stochastic gradient descent. This includes high-dimensional linear regression, kernel regression, and linear random feature models. Our results include previously known asymptotics as well as novel ones.
academic
Equivalencia Determinística de Dos Puntos para Dinámicas de Gradiente Estocástico en Modelos Lineales
Título: Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Models
Autores: Alexander Atanasov, Blake Bordelon, Jacob A. Zavatone-Veth, Courtney Paquette, Cengiz Pehlevan (de Harvard University, McGill University y otras instituciones)
Clasificación: cond-mat.dis-nn, cs.LG, stat.ML
Fecha de Publicación: arXiv v3, 10 de noviembre de 2025
Este artículo propone una nueva teoría de equivalencia determinística para funciones de dos puntos del resolvente de operadores de matrices aleatorias. Basándose en este resultado, los autores derivan de manera unificada el desempeño de múltiples modelos lineales de alta dimensión bajo entrenamiento con descenso de gradiente estocástico (SGD), incluyendo regresión lineal de alta dimensión, regresión kernel y modelos lineales de características aleatorias. Los resultados de investigación abarcan comportamientos asintóticos conocidos así como nuevos descubrimientos teóricos.
Existe un fenómeno central en el aprendizaje profundo moderno: el desempeño del modelo exhibe un comportamiento de ley de potencia predecible a medida que aumentan la escala de datos, el tamaño del modelo y la cantidad de cálculo (leyes de escalado neural). Comprender la base teórica de este comportamiento de escalado es un desafío importante para la teoría del aprendizaje automático.
Necesidad de un Marco Teórico Unificado: Los trabajos existentes han estudiado por separado los efectos de ancho finito, datos finitos y ruido SGD mediante diferentes métodos (como teoría de campo medio dinámico DMFT, técnicas de equivalencia determinística), careciendo de un marco unificado
Comprensión de la Dinámica: La mayoría de los análisis teóricos se concentran en el límite estático (tiempo infinito), con comprensión insuficiente del proceso de dinámica de entrenamiento
Desafío de No Conmutatividad: Cuando la matriz de covarianza de datos Σ, la covarianza empírica Σ̂ y la matriz de características aleatorias FF⊤ no conmutan, los métodos tradicionales de equivalencia determinística de un punto fallan
Equivalencia Determinística de Un Punto: Solo puede manejar casos donde las matrices conmutan (como datos infinitos P→∞ o regresión lineal sin características aleatorias)
Método DMFT: Aunque puede manejar casos generales, tiene alta complejidad técnica y carece de conexión directa con la teoría de matrices aleatorias
Resultados Dispersos: Diferentes trabajos utilizan técnicas distintas para obtener resultados parciales, careciendo de un marco matemático unificado
Este artículo tiene como objetivo desarrollar una teoría de equivalencia determinística de dos puntos para proporcionar un marco matemático unificado que analice el comportamiento dinámico completo de SGD en modelos lineales de alta dimensión, incluyendo los efectos conjuntos de datos finitos, tamaño de modelo finito y ruido SGD.
Nueva Teoría de Equivalencia Determinística de Dos Puntos: Primera derivación sistemática de fórmulas de equivalencia determinística para funciones de dos puntos del resolvente de operadores de matrices aleatorias en diferentes parámetros (λ, λ')
Marco Unificado de Análisis Dinámico: Descomposición de la dinámica SGD en término de forzamiento (término de flujo de gradiente) y término kernel SGD, con análisis en el dominio de frecuencias mediante transformada de Fourier
Recuperación y Extensión de Resultados Existentes:
Recupera resultados de Bordelon et al. 16 obtenidos mediante DMFT
Recupera resultados de Paquette et al. 17 usando equivalencia determinística de un punto
Extiende a nuevos escenarios como cambio de covariables (covariate shift)
Conexión con Teoría de Probabilidad Libre: Revela una nueva interpretación de la S-transformada como función de respuesta en sistemas dinámicos, estableciendo un puente entre equivalencia determinística y DMFT
Técnica de Expansión de Grafos Planares: Utiliza expansión de grafos planares y cumulantes libres para derivar sistemáticamente fórmulas de equivalencia de dos puntos
Al rastrear el segundo momento de la diferencia de pesos Ct=EBt[ΔwtΔwt⊤], en el límite de tiempo continuo se obtiene la ecuación integral de Volterra:
Para la matriz aleatoria (λ+AB)−1M(λ′+BA)−1, donde A, M son matrices determinísticas y B es una matriz Wishart blanca libre de A, existe equivalencia determinística:
Análisis de Bifrecuencia: Primera manipulación sistemática de la dependencia conjunta en (ω,ω′), capturando efectos de no conmutatividad
Método de Grafos Planares: Organiza claramente cálculos complejos de promedios de matrices mediante lenguaje de teoría de grafos
Nueva Interpretación de la S-Transformada: Revela el significado físico de la S-transformada como función de respuesta dinámica, conectando teoría de probabilidad libre con teoría de sistemas dinámicos
Renormalización Jerárquica: En modelos de características aleatorias, la frecuencia se renormaliza múltiples veces ω→ω1→ω2, cada una correspondiendo a una fuente aleatoria
Recuperación de Estática mediante Límite Suave: Mediante limt→∞F(t)=limω,ω′→0(iω)(iω′)F(ω,ω′) se recuperan elegantemente resultados estáticos
Nota: Este es un trabajo puramente teórico, verificado principalmente mediante derivación matemática. La verificación experimental se basa principalmente en experimentos numéricos de trabajos relacionados 16, 17.
Marco Unificado: La equivalencia determinística de dos puntos proporciona un marco matemático unificado para analizar datos finitos, tamaño de modelo finito y ruido SGD
Completitud Teórica: Recupera todos los resultados conocidos (regresión ridge estática, dinámicas DMFT, equivalencia determinística de un punto), y extiende a nuevos escenarios (dinámicas de cambio de covariables)
Contribución Metodológica: La combinación de expansión de grafos planares y teoría de probabilidad libre proporciona nuevas herramientas computacionales para teoría de matrices aleatorias
Perspectiva Física: Revela el significado profundo de la S-transformada como función de respuesta, estableciendo un puente entre equivalencia determinística y DMFT
16 B. Bordelon, A. Atanasov, and C. Pehlevan, "A dynamical model of neural scaling laws," ICML 2024.
17 E. Paquette, C. Paquette, L. Xiao, and J. Pennington, "4 + 3 phases of compute-optimal neural scaling laws," arXiv:2405.15074, 2024.
20 A. Atanasov, J. A. Zavatone-Veth, and C. Pehlevan, "Scaling and renormalization in high-dimensional regression," arXiv:2405.00592, 2024.
24 M. Potters and J.-P. Bouchaud, "A first course in random matrix theory," Cambridge University Press, 2020.
26 A. Atanasov, J. A. Zavatone-Veth, and C. Pehlevan, "Risk and cross validation in ridge regression with correlated samples," arXiv:2408.04607, 2024.
Evaluación General: Este es un artículo de excelencia con profundidad teórica extremadamente alta, proporcionando un marco matemático unificado y elegante para la dinámica SGD en modelos lineales de alta dimensión. La derivación de equivalencia determinística de dos puntos es una contribución teórica importante, y el método de grafos planares demuestra capacidad técnica fuerte. Aunque la aplicación directa es limitada y la legibilidad presenta desafíos, tiene valor importante para el desarrollo a largo plazo de la teoría del aprendizaje automático. Se recomienda que trabajo futuro complemente verificación numérica, proporcione algoritmos prácticos, y explore generalización a modelos no lineales.