Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Models
Atanasov, Bordelon, Zavatone-Veth et al.
We derive a novel deterministic equivalence for the two-point function of a random matrix resolvent. Using this result, we give a unified derivation of the performance of a wide variety of high-dimensional linear models trained with stochastic gradient descent. This includes high-dimensional linear regression, kernel regression, and linear random feature models. Our results include previously known asymptotics as well as novel ones.
academic
Zwei-Punkt-Deterministische Äquivalenz für Stochastische Gradientendynamik in Linearen Modellen
Titel: Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Models
Autoren: Alexander Atanasov, Blake Bordelon, Jacob A. Zavatone-Veth, Courtney Paquette, Cengiz Pehlevan (von Harvard University, McGill University und anderen Institutionen)
Klassifizierung: cond-mat.dis-nn, cs.LG, stat.ML
Veröffentlichungsdatum: arXiv v3, 10. November 2025
Diese Arbeit präsentiert eine neue Theorie der deterministischen Äquivalenz für Zwei-Punkt-Funktionen des Resolventen von zufälligen Matrizen. Basierend auf diesem Ergebnis leiten die Autoren einheitlich die Leistungscharakteristiken verschiedener hochdimensionaler linearer Modelle unter stochastischem Gradientenabstieg (SGD) ab, einschließlich hochdimensionaler linearer Regression, Kernregression und linearer Zufallsmerkmals-Modelle. Die Forschungsergebnisse umfassen bekannte asymptotische Verhaltensweisen sowie neue theoretische Erkenntnisse.
In modernem Deep Learning existiert ein zentrales Phänomen: Die Modellleistung zeigt vorhersagbares Potenzgesetz-Verhalten (Neural Scaling Laws) mit zunehmender Datengröße, Modellgröße und Rechenmenge. Das Verständnis der theoretischen Grundlagen dieses Skalierungsverhaltens ist eine wichtige Herausforderung der Maschinenlerntheorie.
Bedarf nach einheitlichem theoretischem Rahmen: Bestehende Arbeiten untersuchen durch verschiedene Methoden (wie dynamische Mittelfeldtheorie DMFT, deterministische Äquivalenztechniken) separat die Effekte endlicher Breite, endlicher Daten und SGD-Rauschen, ohne einen einheitlichen Rahmen zu bieten
Verständnis dynamischer Verhaltensweisen: Die meisten theoretischen Analysen konzentrieren sich auf statische (unendliche Zeit) Grenzwerte mit unzureichendem Verständnis des Trainingsdynamik-Prozesses
Nicht-Kommutativitäts-Herausforderung: Wenn die Datenkovarianzmatrix Σ, die empirische Kovarianz Σ̂ und die Zufallsmerkmals-Matrix FF^T nicht kommutativ sind, versagt die traditionelle Eins-Punkt-Deterministische-Äquivalenz-Methode
Eins-Punkt-Deterministische Äquivalenz: Kann nur Fälle mit kommutativen Matrizen behandeln (wie unendliche Daten P→∞ oder lineare Regression ohne Zufallsmerkmale)
DMFT-Methode: Obwohl sie allgemeine Fälle behandeln kann, ist die technische Komplexität hoch und es fehlt die direkte Verbindung zur Zufallsmatrixtheorie
Verstreute Ergebnisse: Verschiedene Arbeiten verwenden unterschiedliche Techniken, um Teilergebnisse zu erhalten, ohne einen einheitlichen mathematischen Rahmen
Diese Arbeit zielt darauf ab, durch die Entwicklung einer Zwei-Punkt-Deterministische-Äquivalenz-Theorie einen einheitlichen mathematischen Rahmen zur Analyse der vollständigen dynamischen Verhaltensweise von SGD in hochdimensionalen linearen Modellen bereitzustellen, einschließlich der gemeinsamen Effekte endlicher Daten, endlicher Modellgröße und SGD-Rauschens.
Neue Zwei-Punkt-Deterministische-Äquivalenz-Theorie: Erstmalige systematische Herleitung der deterministischen Äquivalenzformel für Zwei-Punkt-Funktionen des Resolventen von Zufallsmatrizen bei verschiedenen Parametern (λ, λ')
Einheitlicher dynamischer Analysrahmen: Zerlegung der SGD-Dynamik in Gradientenfluss-Term (Forcing Term) und SGD-Kern-Term (Kernel Term), mit Analyse im Frequenzbereich durch Fourier-Transformation
Wiederherstellung und Erweiterung bestehender Ergebnisse:
Wiederherstellung der Ergebnisse von Bordelon et al. 16 durch DMFT
Wiederherstellung der Ergebnisse von Paquette et al. 17 mit Eins-Punkt-Deterministischer Äquivalenz
Erweiterung auf neue Szenarien wie Kovariate Shift
Verbindung zur freien Wahrscheinlichkeitstheorie: Offenlegung einer neuen Interpretation der S-Transformation als Antwortfunktion in dynamischen Systemen, Etablierung einer Brücke zwischen deterministischer Äquivalenz und DMFT
Planare-Graph-Expansionstechnik: Systematische Herleitung der Zwei-Punkt-Äquivalenzformel unter Verwendung planarer Graph-Expansionen und freier Kumulanten
Durch Verfolgung des zweiten Moments der Gewichtsdifferenz Ct=EBt[ΔwtΔwt⊤] wird im kontinuierlichen Zeitlimit eine Volterra-Integralgleichung erhalten:
Für die Zufallsmatrix (λ+AB)−1M(λ′+BA)−1, wobei A, M deterministische Matrizen sind und B eine von A freie Wishart-Matrix ist, existiert eine deterministische Äquivalenz:
Doppelfrequenz-Analyse: Erstmalige systematische Behandlung der gemeinsamen Abhängigkeit von (ω,ω′), erfasst Nicht-Kommutativitäts-Effekte
Planare-Graph-Methode: Klare Organisierung komplexer Matrixmittelungs-Berechnungen durch Graphentheorie-Sprache
Neue Interpretation der S-Transformation: Offenlegung der physikalischen Bedeutung der S-Transformation als dynamische Antwortfunktion, Verbindung freier Wahrscheinlichkeitstheorie mit dynamischen Systemtheorien
Schichtige Renormalisierung: In Zufallsmerkmals-Modellen wird die Frequenz mehrfach renormalisiert: ω→ω1→ω2, jede Schicht entspricht einer Zufallsquelle
Sanfte Grenzwert-Wiederherstellung: Durch limt→∞F(t)=limω,ω′→0(iω)(iω′)F(ω,ω′) elegante Wiederherstellung statischer Ergebnisse
Hinweis: Diese Arbeit ist rein theoretisch; die Hauptverifizierung erfolgt durch mathematische Herleitung. Experimentelle Verifikation bezieht sich hauptsächlich auf numerische Experimente in verwandten Arbeiten 16, 17.
Einheitlicher Rahmen: Zwei-Punkt-Deterministische Äquivalenz bietet einen einheitlichen mathematischen Rahmen zur Analyse endlicher Daten, endlicher Modellgröße und SGD-Rauschens
Theoretische Vollständigkeit: Stellt alle bekannten Ergebnisse wieder her (statische Ridge-Regression, DMFT-Dynamik, Eins-Punkt-Deterministische Äquivalenz) und erweitert auf neue Szenarien (Kovariate-Shift-Dynamik)
Methodologischer Beitrag: Planare-Graph-Expansion und Kombination mit freier Wahrscheinlichkeitstheorie bieten neue Rechenwerkzeuge für Zufallsmatrixtheorie
Physikalische Einsicht: Offenlegung der tieferen Bedeutung der S-Transformation als Antwortfunktion, Etablierung der Brücke zwischen deterministischer Äquivalenz und DMFT
16 B. Bordelon, A. Atanasov, and C. Pehlevan, "A dynamical model of neural scaling laws," ICML 2024.
17 E. Paquette, C. Paquette, L. Xiao, and J. Pennington, "4 + 3 phases of compute-optimal neural scaling laws," arXiv:2405.15074, 2024.
20 A. Atanasov, J. A. Zavatone-Veth, and C. Pehlevan, "Scaling and renormalization in high-dimensional regression," arXiv:2405.00592, 2024.
24 M. Potters and J.-P. Bouchaud, "A first course in random matrix theory," Cambridge University Press, 2020.
26 A. Atanasov, J. A. Zavatone-Veth, and C. Pehlevan, "Risk and cross validation in ridge regression with correlated samples," arXiv:2408.04607, 2024.
Gesamtbewertung: Dies ist eine theoretisch hochwertige ausgezeichnete Arbeit, die einen einheitlichen und eleganten mathematischen Rahmen für SGD-Dynamik in hochdimensionalen linearen Modellen bietet. Die Herleitung der Zwei-Punkt-Deterministische Äquivalenz ist ein wichtiger theoretischer Beitrag, und die Planare-Graph-Methode zeigt starke technische Fähigkeiten. Obwohl direkte Anwendungen begrenzt sind und die Lesbarkeit Herausforderungen bietet, hat sie wichtigen Wert für die langfristige Entwicklung der Maschinenlerntheorie. Empfohlen werden nachfolgende Arbeiten zur Ergänzung numerischer Verifikationen, Bereitstellung praktischer Algorithmen und Erkundung von Erweiterungen zu nicht-linearen Modellen.