Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Models
Atanasov, Bordelon, Zavatone-Veth et al.
We derive a novel deterministic equivalence for the two-point function of a random matrix resolvent. Using this result, we give a unified derivation of the performance of a wide variety of high-dimensional linear models trained with stochastic gradient descent. This includes high-dimensional linear regression, kernel regression, and linear random feature models. Our results include previously known asymptotics as well as novel ones.
academic
रैखिक मॉडल में स्टोकेस्टिक ग्रेडिएंट गतिशीलता के लिए दो-बिंदु निर्धारक समतुल्यता
शीर्षक: Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Models
लेखक: Alexander Atanasov, Blake Bordelon, Jacob A. Zavatone-Veth, Courtney Paquette, Cengiz Pehlevan (Harvard University, McGill University आदि संस्थानों से)
यह पेपर यादृच्छिक मैट्रिक्स विश्लेषणात्मक संकारक (resolvent) के दो-बिंदु फलन के लिए एक नई निर्धारक समतुल्यता (deterministic equivalence) सिद्धांत प्रस्तुत करता है। इस परिणाम के आधार पर, लेखकों ने स्टोकेस्टिक ग्रेडिएंट डिसेंट (SGD) प्रशिक्षण के तहत कई उच्च-आयामी रैखिक मॉडल के प्रदर्शन को एकीकृत तरीके से प्राप्त किया है, जिसमें उच्च-आयामी रैखिक प्रतिगमन, कर्नल प्रतिगमन और रैखिक यादृच्छिक विशेषता मॉडल शामिल हैं। अनुसंधान परिणाम ज्ञात स्पर्शोन्मुख व्यवहार और नई सैद्धांतिक खोजों को कवर करते हैं।
आधुनिक गहन शिक्षा में एक मूल घटना मौजूद है: मॉडल का प्रदर्शन डेटा स्केल, मॉडल आकार और कम्प्यूटेशनल मात्रा में वृद्धि के साथ पूर्वानुमानित शक्ति-नियम व्यवहार (neural scaling laws) प्रदर्शित करता है। इस स्केलिंग व्यवहार के सैद्धांतिक आधार को समझना मशीन लर्निंग सिद्धांत की एक महत्वपूर्ण चुनौती है।
एकीकृत सैद्धांतिक ढांचे की आवश्यकता: मौजूदा कार्य विभिन्न विधियों (जैसे गतिशील माध्य-क्षेत्र सिद्धांत DMFT, निर्धारक समतुल्यता तकनीकें) के माध्यम से परिमित चौड़ाई, परिमित डेटा, SGD शोर आदि के प्रभावों का अलग से अध्ययन करते हैं, एकीकृत ढांचे की कमी है
गतिशील व्यवहार की समझ: अधिकांश सैद्धांतिक विश्लेषण स्थिर (अनंत समय) सीमा पर केंद्रित हैं, प्रशिक्षण गतिशील प्रक्रिया की समझ अपर्याप्त है
गैर-क्रमविनिमेय चुनौती: जब डेटा सहप्रसरण मैट्रिक्स Σ, अनुभवजन्य सहप्रसरण Σ̂ और यादृच्छिक विशेषता मैट्रिक्स FF⊤ क्रमविनिमेय नहीं हैं, तो पारंपरिक एकल-बिंदु निर्धारक समतुल्यता विधि विफल हो जाती है
यह पेपर दो-बिंदु निर्धारक समतुल्यता सिद्धांत विकसित करके एक एकीकृत गणितीय ढांचा प्रदान करने का लक्ष्य रखता है ताकि SGD की उच्च-आयामी रैखिक मॉडल में संपूर्ण गतिशील व्यवहार का विश्लेषण किया जा सके, जिसमें परिमित डेटा, परिमित मॉडल आकार और SGD शोर के संयुक्त प्रभाव शामिल हैं।
नई दो-बिंदु निर्धारक समतुल्यता सिद्धांत: पहली बार विभिन्न पैरामीटर (λ, λ') पर यादृच्छिक मैट्रिक्स विश्लेषणात्मक संकारक के दो-बिंदु फलन के निर्धारक समतुल्यता सूत्र को व्यवस्थित रूप से प्राप्त किया
एकीकृत गतिशील विश्लेषण ढांचा: SGD गतिशीलता को ग्रेडिएंट प्रवाह पद (forcing term) और SGD कर्नल पद (kernel term) में विघटित करता है, और फूरियर रूपांतर के माध्यम से आवृत्ति डोमेन में विश्लेषण करता है
मौजूदा परिणामों को पुनः प्राप्त और विस्तारित करना:
Bordelon आदि 16 द्वारा DMFT के माध्यम से प्राप्त परिणामों को पुनः प्राप्त किया
Paquette आदि 17 द्वारा एकल-बिंदु निर्धारक समतुल्यता का उपयोग करके प्राप्त परिणामों को पुनः प्राप्त किया
सहचर बदलाव (covariate shift) आदि नई परिस्थितियों तक विस्तारित किया
मुक्त संभाव्यता सिद्धांत के साथ संबंध: गतिशील प्रणालियों में प्रतिक्रिया फलन के रूप में S-रूपांतर की नई व्याख्या को प्रकट करता है, निर्धारक समतुल्यता और DMFT के बीच एक पुल स्थापित करता है
समतल ग्राफ विस्तार तकनीक: समतल ग्राफ विस्तार और मुक्त संचयी (free cumulants) का उपयोग करके दो-बिंदु समतुल्यता सूत्र को व्यवस्थित रूप से प्राप्त करता है
दोहरी-आवृत्ति विश्लेषण: पहली बार (ω,ω′) की संयुक्त निर्भरता को व्यवस्थित रूप से संभाला, गैर-क्रमविनिमेय प्रभावों को पकड़ा
समतल ग्राफ विधि: ग्राफ सिद्धांत भाषा के माध्यम से जटिल मैट्रिक्स औसत गणनाओं को स्पष्ट रूप से संगठित किया
S-रूपांतर की नई व्याख्या: गतिशील प्रतिक्रिया फलन के रूप में S-रूपांतर के भौतिक अर्थ को प्रकट किया, मुक्त संभाव्यता सिद्धांत को गतिशील प्रणाली सिद्धांत से जोड़ा
स्तरीय पुनर्सामान्यीकरण: यादृच्छिक विशेषता मॉडल में, आवृत्ति क्रमिक रूप से पुनर्सामान्यीकृत होती है ω→ω1→ω2, प्रत्येक एक यादृच्छिक स्रोत के अनुरूप
नरम सीमा स्थिर को पुनः प्राप्त करता है: limt→∞F(t)=limω,ω′→0(iω)(iω′)F(ω,ω′) के माध्यम से सुरुचिपूर्वक स्थिर परिणामों को पुनः प्राप्त करें
नोट: यह पेपर एक शुद्ध सैद्धांतिक कार्य है, मुख्य रूप से गणितीय व्युत्पत्ति के माध्यम से सिद्धांत की सत्यता को सत्यापित करता है। प्रायोगिक सत्यापन मुख्य रूप से संबंधित कार्य 16, 17 में संख्यात्मक प्रयोगों का संदर्भ देता है।
एकीकृत ढांचा: दो-बिंदु निर्धारक समतुल्यता परिमित डेटा, परिमित मॉडल आकार और SGD शोर के विश्लेषण के लिए एकीकृत गणितीय ढांचा प्रदान करता है
सैद्धांतिक पूर्णता: सभी ज्ञात परिणामों को पुनः प्राप्त करता है (स्थिर ridge प्रतिगमन, DMFT गतिशीलता, एकल-बिंदु निर्धारक समतुल्यता), और नई परिस्थितियों तक विस्तारित करता है (सहचर बदलाव की गतिशीलता)
पद्धति संबंधी योगदान: समतल ग्राफ विधि और मुक्त संभाव्यता सिद्धांत का संयोजन यादृच्छिक मैट्रिक्स सिद्धांत के लिए नई कम्प्यूटेशनल उपकरण प्रदान करता है
भौतिक अंतर्दृष्टि: S-रूपांतर के प्रतिक्रिया फलन के रूप में गहरे अर्थ को प्रकट करता है, निर्धारक समतुल्यता और DMFT के बीच एक पुल स्थापित करता है
16 B. Bordelon, A. Atanasov, and C. Pehlevan, "A dynamical model of neural scaling laws," ICML 2024.
17 E. Paquette, C. Paquette, L. Xiao, and J. Pennington, "4 + 3 phases of compute-optimal neural scaling laws," arXiv:2405.15074, 2024.
20 A. Atanasov, J. A. Zavatone-Veth, and C. Pehlevan, "Scaling and renormalization in high-dimensional regression," arXiv:2405.00592, 2024.
24 M. Potters and J.-P. Bouchaud, "A first course in random matrix theory," Cambridge University Press, 2020.
26 A. Atanasov, J. A. Zavatone-Veth, and C. Pehlevan, "Risk and cross validation in ridge regression with correlated samples," arXiv:2408.04607, 2024.
समग्र मूल्यांकन: यह अत्यंत उच्च सैद्धांतिक गहराई का एक उत्कृष्ट पेपर है, जो उच्च-आयामी रैखिक मॉडल की SGD गतिशीलता के लिए एक एकीकृत और सुरुचिपूर्ण गणितीय ढांचा प्रदान करता है। दो-बिंदु निर्धारक समतुल्यता की व्युत्पत्ति एक महत्वपूर्ण सैद्धांतिक योगदान है, समतल ग्राफ विधि मजबूत तकनीकी क्षमता प्रदर्शित करता है। हालांकि प्रत्यक्ष अनुप्रयोग सीमित है और पठनीयता चुनौतीपूर्ण है, लेकिन मशीन लर्निंग सिद्धांत के दीर्घकालीन विकास के लिए महत्वपूर्ण मूल्य है। अनुवर्ती कार्य संख्यात्मक सत्यापन, व्यावहारिक एल्गोरिदम प्रदान करने, और गैर-रैखिक मॉडल तक विस्तार की खोज करने की सिफारिश की जाती है।