We derive a novel deterministic equivalence for the two-point function of a random matrix resolvent. Using this result, we give a unified derivation of the performance of a wide variety of high-dimensional linear models trained with stochastic gradient descent. This includes high-dimensional linear regression, kernel regression, and linear random feature models. Our results include previously known asymptotics as well as novel ones.
معرّف الورقة : 2502.05074العنوان : Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Modelsالمؤلفون : Alexander Atanasov, Blake Bordelon, Jacob A. Zavatone-Veth, Courtney Paquette, Cengiz Pehlevan (من جامعة هارفارد وجامعة ماكجيل وغيرها)التصنيف : cond-mat.dis-nn, cs.LG, stat.MLتاريخ النشر : arXiv v3، 10 نوفمبر 2025رابط الورقة : https://arxiv.org/abs/2502.05074v3 تقدم هذه الورقة نظرية جديدة للتكافؤ الحتمي (deterministic equivalence) للدوال ثنائية النقطة لمحلل المصفوفات العشوائية (resolvent). بناءً على هذه النتيجة، يشتق المؤلفون بشكل موحد الأداء في عدة نماذج خطية عالية الأبعاد تحت تدريب الانحدار التدريجي العشوائي (SGD)، بما في ذلك الانحدار الخطي عالي الأبعاد، والانحدار النواة، ونماذج الميزات العشوائية الخطية. تغطي النتائج السلوكيات المقاربة المعروفة بالإضافة إلى اكتشافات نظرية جديدة.
يوجد ظاهرة أساسية في التعلم العميق الحديث: أداء النموذج تتبع سلوكاً قانونياً قابلاً للتنبؤ به (neural scaling laws) مع زيادة حجم البيانات وحجم النموذج وكمية الحساب. يعتبر فهم الأساس النظري لهذا السلوك من التحديات المهمة في نظرية التعلم الآلي.
الحاجة إلى إطار نظري موحد : تدرس الأعمال الموجودة بطرق مختلفة (مثل نظرية المتوسط الديناميكي DMFT، تقنيات التكافؤ الحتمي) تأثيرات العرض المحدود والبيانات المحدودة وضوضاء SGD بشكل منفصل، مما يفتقر إلى إطار موحدفهم السلوك الديناميكي : تركز معظم التحليلات النظرية على الحد الثابت (الزمن اللانهائي)، مع فهم غير كافٍ لعملية التدريب الديناميكيةتحدي عدم التبادل : عندما لا تكون مصفوفة التغاير Σ والتغاير التجريبي Σ̂ ومصفوفة الميزات العشوائية FF⊤ قابلة للتبادل، تفشل طرق التكافؤ الحتمي أحادي النقطة التقليديةالتكافؤ الحتمي أحادي النقطة : يمكنه فقط التعامل مع الحالات التي تكون فيها المصفوفات قابلة للتبادل (مثل البيانات اللانهائية P→∞ أو الانحدار الخطي بدون ميزات عشوائية)طريقة DMFT : على الرغم من أنها تستطيع التعامل مع الحالات العامة، إلا أن التعقيد التقني مرتفع وتفتقر إلى الارتباط المباشر بنظرية المصفوفات العشوائيةالنتائج المشتتة : تستخدم الأعمال المختلفة تقنيات مختلفة للحصول على نتائج جزئية، مما يفتقر إلى إطار رياضي موحدتهدف هذه الورقة إلى توفير إطار رياضي موحد لتحليل SGD في النماذج الخطية عالية الأبعاد من خلال تطوير نظرية التكافؤ الحتمي ثنائي النقطة، بما يشمل السلوك الديناميكي الكامل مع التأثيرات المشتركة للبيانات المحدودة وحجم النموذج المحدود وضوضاء SGD.
نظرية تكافؤ حتمي جديدة ثنائية النقطة : الاشتقاق الأول للصيغة الحتمية المكافئة للدوال ثنائية النقطة لمحلل المصفوفات العشوائية عند معاملات مختلفة (λ, λ')إطار تحليل ديناميكي موحد : تحليل ديناميكيات SGD إلى حد الإجبار (forcing term) وحد نواة SGD (kernel term)، مع التحليل في المجال الترددي عبر تحويل فورييهاسترجاع وتوسيع النتائج الموجودة :استرجاع النتائج التي حصل عليها Bordelon وآخرون 16 عبر DMFT استرجاع النتائج التي حصل عليها Paquette وآخرون 17 باستخدام التكافؤ الحتمي أحادي النقطة التوسع إلى سيناريوهات جديدة مثل انجراف المتغيرات (covariate shift) الارتباط بنظرية الاحتمالية الحرة : الكشف عن تفسير جديد لتحويل S كدالة استجابة في الأنظمة الديناميكية، وإنشاء جسر بين التكافؤ الحتمي و DMFTتقنية توسيع الرسوم البيانية المستوية : استخدام توسيع الرسوم البيانية المستوية والتراكمات الحرة (free cumulants) لاشتقاق صيغة التكافؤ ثنائية النقطة بشكل منهجيننظر في فئتين من النماذج:
1. الانحدار الخطي :
f ( x ) = x ⊤ w f(x) = x^\top w f ( x ) = x ⊤ w
2. نموذج الميزات العشوائية الخطية :
f ( x ) = x ⊤ F v = w ⊤ x , w = F v f(x) = x^\top Fv = w^\top x, \quad w = Fv f ( x ) = x ⊤ F v = w ⊤ x , w = F v
حيث:
الإدخال x ∈ R D ∼ N ( 0 , Σ ) x \in \mathbb{R}^D \sim \mathcal{N}(0, \Sigma) x ∈ R D ∼ N ( 0 , Σ ) مصفوفة الميزات العشوائية F ∈ R D × N F \in \mathbb{R}^{D \times N} F ∈ R D × N ، العناصر i.i.d. ∼ N ( 0 , 1 / N ) \sim \mathcal{N}(0, 1/N) ∼ N ( 0 , 1/ N ) يتم توليد التسميات من نموذج المعلم: y μ = w ˉ ⊤ x μ + ϵ μ y_\mu = \bar{w}^\top x_\mu + \epsilon_\mu y μ = w ˉ ⊤ x μ + ϵ μ ، حيث ϵ μ ∼ N ( 0 , σ ϵ 2 ) \epsilon_\mu \sim \mathcal{N}(0, \sigma_\epsilon^2) ϵ μ ∼ N ( 0 , σ ϵ 2 ) هدف التدريب : تقليل المخاطر التجريبية
R ^ = 1 P ∑ μ = 1 P ( y μ − f ( x μ ) ) 2 \hat{R} = \frac{1}{P}\sum_{\mu=1}^P (y_\mu - f(x_\mu))^2 R ^ = P 1 ∑ μ = 1 P ( y μ − f ( x μ ) ) 2
عبر تحديث SGD (حجم الدفعة B، معدل التعلم η):
v t + 1 = v t − η ∇ v R ^ B t v_{t+1} = v_t - \eta \nabla_v \hat{R}_{B_t} v t + 1 = v t − η ∇ v R ^ B t
مقاييس الأداء :
خسارة التدريب: R ^ t = Δ w t ⊤ Σ ^ Δ w t \hat{R}_t = \Delta w_t^\top \hat{\Sigma} \Delta w_t R ^ t = Δ w t ⊤ Σ ^ Δ w t خسارة الاختبار: R t = Δ w t ⊤ Σ Δ w t R_t = \Delta w_t^\top \Sigma \Delta w_t R t = Δ w t ⊤ ΣΔ w t حيث Δ w t = w ˉ − w t \Delta w_t = \bar{w} - w_t Δ w t = w ˉ − w t من خلال تتبع اللحظات الثانية لفرق الأوزان C t = E B t [ Δ w t Δ w t ⊤ ] C_t = \mathbb{E}_{B_t}[\Delta w_t \Delta w_t^\top] C t = E B t [ Δ w t Δ w t ⊤ ] ، في حد الزمن المستمر نحصل على معادلة فولتيرا التكاملية:
C t ≃ e − η t F F ⊤ Σ ^ w ˉ w ˉ ⊤ e − η t Σ ^ F F ⊤ + χ ∫ 0 t e − 2 ( t − s ) F F ⊤ Σ ^ F F ⊤ Σ ^ F F ⊤ Tr [ C s Σ ^ ] d s C_t \simeq e^{-\eta t FF^\top \hat{\Sigma}} \bar{w}\bar{w}^\top e^{-\eta t \hat{\Sigma}FF^\top} + \chi \int_0^t e^{-2(t-s)FF^\top\hat{\Sigma}} FF^\top \hat{\Sigma} FF^\top \text{Tr}[C_s\hat{\Sigma}]ds C t ≃ e − η tF F ⊤ Σ ^ w ˉ w ˉ ⊤ e − η t Σ ^ F F ⊤ + χ ∫ 0 t e − 2 ( t − s ) F F ⊤ Σ ^ F F ⊤ Σ ^ F F ⊤ Tr [ C s Σ ^ ] d s
حيث χ = η / B \chi = \eta/B χ = η / B هو معامل درجة حرارة SGD.
يمكن تحليل خسارة الاختبار إلى:
R t = w ˉ ⊤ e − t Σ ^ F F ⊤ Σ e − t F F ⊤ Σ ^ w ˉ ⏟ F ( t ) - حد الإجبار + χ ∫ 0 t tr [ e − 2 ( t − s ) F F ⊤ Σ ^ F F ⊤ Σ ^ F F ⊤ Σ ] ⏟ K ( t − s ) - حد النواة R ^ s d s R_t = \underbrace{\bar{w}^\top e^{-t\hat{\Sigma}FF^\top} \Sigma e^{-tFF^\top\hat{\Sigma}} \bar{w}}_{F(t) \text{ - حد الإجبار}} + \underbrace{\chi \int_0^t \text{tr}[e^{-2(t-s)FF^\top\hat{\Sigma}}FF^\top\hat{\Sigma}FF^\top\Sigma]}_{K(t-s) \text{ - حد النواة}} \hat{R}_s ds R t = F ( t ) - حد الإجبار w ˉ ⊤ e − t Σ ^ F F ⊤ Σ e − tF F ⊤ Σ ^ w ˉ + K ( t − s ) - حد النواة χ ∫ 0 t tr [ e − 2 ( t − s ) F F ⊤ Σ ^ F F ⊤ Σ ^ F F ⊤ Σ ] R ^ s d s
الرؤية الأساسية : في فضاء فورييه، تدخل جميع العشوائيات عبر منتجات المحللات:
F ( ω , ω ′ ) = w ˉ ⊤ ( Σ ^ F F ⊤ + i ω ) − 1 Σ ( F F ⊤ Σ ^ + i ω ′ ) − 1 w ˉ F(\omega, \omega') = \bar{w}^\top (\hat{\Sigma}FF^\top + i\omega)^{-1} \Sigma (FF^\top\hat{\Sigma} + i\omega')^{-1} \bar{w} F ( ω , ω ′ ) = w ˉ ⊤ ( Σ ^ F F ⊤ + iω ) − 1 Σ ( F F ⊤ Σ ^ + i ω ′ ) − 1 w ˉ
عندما لا تكون المصفوفات قابلة للتبادل، نحتاج إلى تقييم الدوال ثنائية النقطة عند ترددات مختلفة ( ω , ω ′ ) (\omega, \omega') ( ω , ω ′ ) .
بالنسبة للمصفوفة العشوائية ( λ + A B ) − 1 M ( λ ′ + B A ) − 1 (λ+AB)^{-1}M(λ'+BA)^{-1} ( λ + A B ) − 1 M ( λ ′ + B A ) − 1 ، حيث A و M مصفوفات حتمية و B مصفوفة Wishart بيضاء حرة من A، يوجد تكافؤ حتمي:
( λ + A B ) − 1 M ( λ ′ + B A ) − 1 ≃ S B S B ′ [ G A M G A ′ + G A A G A ′ q tr [ A G A M G A ′ ] 1 − q df 2 ( κ , κ ′ ) ] (λ+AB)^{-1}M(λ'+BA)^{-1} \simeq S_B S'_B \left[ G_A M G'_A + G_A A G'_A \frac{q \text{tr}[AG_A M G'_A]}{1 - q \text{df}_2(\kappa, \kappa')} \right] ( λ + A B ) − 1 M ( λ ′ + B A ) − 1 ≃ S B S B ′ [ G A M G A ′ + G A A G A ′ 1 − q df 2 ( κ , κ ′ ) q tr [ A G A M G A ′ ] ]
حيث:
S B = S B ( df 1 A B ( λ ) ) S_B = S_B(\text{df}_1^{AB}(λ)) S B = S B ( df 1 A B ( λ )) هو تحويل S لـ BG A = ( κ + A ) − 1 G_A = (\kappa + A)^{-1} G A = ( κ + A ) − 1 ، κ = λ S B \kappa = λS_B κ = λ S B هو عتبة التقاط الإشارةdf 2 ( κ , κ ′ ) = tr [ A 2 G A G A ′ ] \text{df}_2(\kappa, \kappa') = \text{tr}[A^2 G_A G'_A] df 2 ( κ , κ ′ ) = tr [ A 2 G A G A ′ ] هي درجات الحرية الثانيةq = N / P q = N/P q = N / P هو معامل Wishartالمتوسط المتعامد : كتابة B كـ B = O B ′ O ⊤ B = OB'O^\top B = O B ′ O ⊤ (B' قطرية)، والمتوسط على المجموعة المتعامدة Oتوسيع الرسوم البيانية غير القابلة للاختزال : توسيع المحلل إلى سلاسل رسوم بيانية غير قابلة للاختزال متصلة عبر A/λ:الرسم التوضيحي (مبسط):
[1/S_B] --A/λ--> [1/S_B] --A/λ--> ...
مجموع الرسوم البيانية المتصلة : كل رسم بياني غير قابل للاختزال هو مجموع الرسوم البيانية المتصلة بالكامل، يتضمن التراكمات الحرة κ B ( n ) \kappa_B^{(n)} κ B ( n ) :1 S B = ∑ n = 1 ∞ κ B ( n ) tr [ G A B A ] n − 1 \frac{1}{S_B} = \sum_{n=1}^\infty \kappa_B^{(n)} \text{tr}[G_A BA]^{n-1} S B 1 = ∑ n = 1 ∞ κ B ( n ) tr [ G A B A ] n − 1
معالجة إدراج M : تنتج الحدود التي تحتوي على M معادلة ذاتية الاتساق:X M = S B S B ′ R B [ g , g ′ ] ( tr [ G A M G A ′ ] + X M tr [ G A A 2 G A ′ ] ) X_M = S_B S'_B R_B[g, g'] \left( \text{tr}[G_A M G'_A] + X_M \text{tr}[G_A A^2 G'_A] \right) X M = S B S B ′ R B [ g , g ′ ] ( tr [ G A M G A ′ ] + X M tr [ G A A 2 G A ′ ] )
حيث تحويل R المختلط R B [ g , g ′ ] = ∑ n = 1 ∞ ∑ a + b = n κ B ( n ) g a − 1 g ′ b − 1 R_B[g, g'] = \sum_{n=1}^\infty \sum_{a+b=n} \kappa_B^{(n)} g^{a-1} g'^{b-1} R B [ g , g ′ ] = ∑ n = 1 ∞ ∑ a + b = n κ B ( n ) g a − 1 g ′ b − 1
تبسيط حالة Wishart : نظراً لأن κ B ( a + b ) = q κ B ( a ) κ B ( b ) \kappa_B^{(a+b)} = q\kappa_B^{(a)}\kappa_B^{(b)} κ B ( a + b ) = q κ B ( a ) κ B ( b ) ، يتحلل تحويل R المختلطحد الإجبار (ثنائي التردد):
F ( ω , ω ′ ) = S W S W ′ 1 − γ ( ω 1 , ω 1 ′ ) w ˉ ⊤ ( i ω 1 + Σ ) − 1 Σ ( i ω 1 ′ + Σ ) − 1 w ˉ F(\omega, \omega') = \frac{S_W S'_W}{1-\gamma(\omega_1, \omega'_1)} \bar{w}^\top (i\omega_1 + \Sigma)^{-1} \Sigma (i\omega'_1 + \Sigma)^{-1} \bar{w} F ( ω , ω ′ ) = 1 − γ ( ω 1 , ω 1 ′ ) S W S W ′ w ˉ ⊤ ( i ω 1 + Σ ) − 1 Σ ( i ω 1 ′ + Σ ) − 1 w ˉ
حيث:
S W = 1 / ( 1 − D P df 1 ) S_W = 1/(1 - \frac{D}{P}\text{df}_1) S W = 1/ ( 1 − P D df 1 ) هو تحويل S لـ Wishartω 1 = S W ω \omega_1 = S_W \omega ω 1 = S W ω هو التردد المعاد تطبيعهγ = D P df 2 ( ω 1 , ω 1 ′ ) \gamma = \frac{D}{P}\text{df}_2(\omega_1, \omega'_1) γ = P D df 2 ( ω 1 , ω 1 ′ ) حد نواة SGD (تردد واحد كافٍ):
K ( ω ) ≃ Tr [ Σ 2 ( Σ + i ω 1 ) − 1 ] K(\omega) \simeq \text{Tr}[\Sigma^2(\Sigma + i\omega_1)^{-1}] K ( ω ) ≃ Tr [ Σ 2 ( Σ + i ω 1 ) − 1 ]
يتطلب تطبيق التكافؤ الحتمي مرتين (أولاً على البيانات، ثم على الميزات):
حد الإجبار :
F ( ω , ω ′ ) ≃ S S ′ 1 − γ 1 [ w ˉ ⊤ ( i ω 2 + Σ ) − 1 Σ ( i ω 2 ′ + Σ ) − 1 w ˉ + حد التصحيح ] F(\omega, \omega') \simeq \frac{SS'}{1-\gamma_1} \left[ \bar{w}^\top (i\omega_2+\Sigma)^{-1}\Sigma(i\omega'_2+\Sigma)^{-1}\bar{w} + \text{حد التصحيح} \right] F ( ω , ω ′ ) ≃ 1 − γ 1 S S ′ [ w ˉ ⊤ ( i ω 2 + Σ ) − 1 Σ ( i ω 2 ′ + Σ ) − 1 w ˉ + حد التصحيح ]
حيث ω 2 = S F F ⊤ S W ω \omega_2 = S_{FF^\top} S_W \omega ω 2 = S F F ⊤ S W ω يمر عبر تطبيعين متتاليين.
التقنية الأساسية : استخدام هوية الدفع (push-through identity) A ( B A + λ ) − 1 = ( A B + λ ) − 1 A A(BA+λ)^{-1} = (AB+λ)^{-1}A A ( B A + λ ) − 1 = ( A B + λ ) − 1 A لتبسيط التعبيرات.
التحليل ثنائي التردد : المعالجة المنهجية الأولى للاعتماد المشترك على ( ω , ω ′ ) (\omega, \omega') ( ω , ω ′ ) ، مما يلتقط تأثيرات عدم التبادلطريقة الرسوم البيانية المستوية : تنظيم واضح للحسابات المعقدة لمتوسط المصفوفات من خلال لغة نظرية الرسوم البيانيةتفسير جديد لتحويل S : الكشف عن المعنى الفيزيائي لتحويل S كدالة استجابة ديناميكية، مما يربط نظرية الاحتمالية الحرة بنظرية الأنظمة الديناميكيةإعادة التطبيع الهرمية : في نموذج الميزات العشوائية، يمر التردد عبر إعادة تطبيع متعددة ω → ω 1 → ω 2 \omega \to \omega_1 \to \omega_2 ω → ω 1 → ω 2 ، كل واحدة تقابل مصدر عشوائياسترجاع الحد الثابت عبر الحد الناعم : استرجاع أنيق للنتائج الثابتة من خلال lim t → ∞ F ( t ) = lim ω , ω ′ → 0 ( i ω ) ( i ω ′ ) F ( ω , ω ′ ) \lim_{t\to\infty} F(t) = \lim_{\omega,\omega'\to 0} (i\omega)(i\omega')F(\omega,\omega') lim t → ∞ F ( t ) = lim ω , ω ′ → 0 ( iω ) ( i ω ′ ) F ( ω , ω ′ ) ملاحظة : هذه ورقة نظرية بحتة، يتم التحقق من صحة النظرية بشكل أساسي من خلال الاشتقاق الرياضي. يتم الاعتماد على التحقق التجريبي بشكل أساسي على التجارب الرقمية في الأعمال ذات الصلة 16, 17 .
المقارنة مع النتائج المعروفة :التحقق من استرجاع التكافؤ الحتمي أحادي النقطة في الحالات الخاصة (مثل λ=λ') التحقق من استرجاع النتائج المعروفة لانحدار ridge في الحد الثابت 20 فحوصات الاتساق الداخلي :التحقق من أن النتائج المشتقة من تفاضل الصيغة أحادية النقطة تتطابق مع الصيغة ثنائية النقطة عند λ=λ' التحقق من أن مسارات الاشتقاق المختلفة (تردد واحد مقابل تردد مزدوج) تعطي نتائج متطابقة المقارنة مع نتائج DMFT :تأكيد أن صيغ هذه الورقة متطابقة تماماً مع نتائج DMFT لـ Bordelon وآخرون 16 إنشاء المراسلات بين دوال الاستجابة وتحويل S النظام المقارب : D , N , P → ∞ D, N, P \to \infty D , N , P → ∞ ، مع النسب D / N , D / P D/N, D/P D / N , D / P ثابتةهيكل البيانات : Tr ( Σ ) = Θ ( D ζ ) \text{Tr}(\Sigma) = \Theta(D^\zeta) Tr ( Σ ) = Θ ( D ζ ) ، 0 ≤ ζ ≤ 1 0 \leq \zeta \leq 1 0 ≤ ζ ≤ 1 تحجيم حجم الدفعة : B = Θ ( D ζ ) B = \Theta(D^\zeta) B = Θ ( D ζ ) للحفاظ على ديناميكيات مستقرةمعدل التعلم : η = Θ ( 1 ) \eta = \Theta(1) η = Θ ( 1 ) مستقل عن البعداسترجاع الحد أحادي النقطة (الملحق A.1):
بالنسبة لـ Σ ^ ( λ + Σ ^ ) − 2 \hat{\Sigma}(λ+\hat{\Sigma})^{-2} Σ ^ ( λ + Σ ^ ) − 2 ، من خلال أخذ الصيغة ثنائية النقطة عند λ = λ ′ λ=λ' λ = λ ′ نحصل على:
Σ ^ ( Σ ^ + λ ) − 2 ≃ d κ d λ Σ ( Σ + κ ) − 2 \hat{\Sigma}(\hat{\Sigma}+λ)^{-2} \simeq \frac{d\kappa}{dλ} \Sigma(\Sigma+\kappa)^{-2} Σ ^ ( Σ ^ + λ ) − 2 ≃ d λ d κ Σ ( Σ + κ ) − 2
هذا متطابق تماماً مع تفاضل الصيغة أحادية النقطة Σ ^ ( Σ ^ + λ ) − 1 ≃ S Σ ( Σ + κ ) − 1 \hat{\Sigma}(\hat{\Sigma}+λ)^{-1} \simeq S\Sigma(\Sigma+\kappa)^{-1} Σ ^ ( Σ ^ + λ ) − 1 ≃ S Σ ( Σ + κ ) − 1 .
في الحد t → ∞ t \to \infty t → ∞ (يقابل ω , ω ′ → 0 \omega, \omega' \to 0 ω , ω ′ → 0 )، يسترجع حد الإجبار النتائج المعروفة لانحدار ridge:
lim t → ∞ R t = κ 2 w ˉ ⊤ Σ ( Σ + κ ) − 2 w ˉ + σ ϵ 2 \lim_{t\to\infty} R_t = \kappa^2 \bar{w}^\top \Sigma (\Sigma+\kappa)^{-2} \bar{w} + \sigma_\epsilon^2 lim t → ∞ R t = κ 2 w ˉ ⊤ Σ ( Σ + κ ) − 2 w ˉ + σ ϵ 2
حيث κ \kappa κ يحقق معادلة ذاتية الاتساق κ = lim ω → 0 S B ( df 1 Σ ( κ ) ) ⋅ ω \kappa = \lim_{\omega\to 0} S_B(\text{df}_1^\Sigma(\kappa)) \cdot \omega κ = lim ω → 0 S B ( df 1 Σ ( κ )) ⋅ ω
بالنسبة للحالة التي تختلف فيها توزيع الاختبار Σ ′ \Sigma' Σ ′ عن توزيع التدريب Σ \Sigma Σ ، يكون خطأ التعميم الثابت:
E Σ ′ , w ˉ O O D ≃ κ 2 [ w ˉ ⊤ ( Σ + κ ) − 1 Σ ′ ( Σ + κ ) − 1 w ˉ + w ˉ ⊤ Σ ( Σ + κ ) − 2 w ˉ γ ′ 1 − γ ] + σ ϵ 2 γ ′ 1 − γ E_{\Sigma',\bar{w}}^{OOD} \simeq \kappa^2 \left[ \bar{w}^\top (\Sigma+\kappa)^{-1}\Sigma'(\Sigma+\kappa)^{-1}\bar{w} + \bar{w}^\top \Sigma(\Sigma+\kappa)^{-2}\bar{w} \frac{\gamma'}{1-\gamma} \right] + \sigma_\epsilon^2 \frac{\gamma'}{1-\gamma} E Σ ′ , w ˉ OO D ≃ κ 2 [ w ˉ ⊤ ( Σ + κ ) − 1 Σ ′ ( Σ + κ ) − 1 w ˉ + w ˉ ⊤ Σ ( Σ + κ ) − 2 w ˉ 1 − γ γ ′ ] + σ ϵ 2 1 − γ γ ′
حيث γ ′ = D P tr [ Σ ( Σ + κ ) − 1 Σ ′ ( Σ + κ ) − 1 ] \gamma' = \frac{D}{P}\text{tr}[\Sigma(\Sigma+\kappa)^{-1}\Sigma'(\Sigma+\kappa)^{-1}] γ ′ = P D tr [ Σ ( Σ + κ ) − 1 Σ ′ ( Σ + κ ) − 1 ]
هذا يسترجع ويوسع نتائج Patil وآخرون 40 و Canatar وآخرون 41 إلى الحالة الديناميكية.
الطريقة P محدود N محدود ديناميكي انجراف متغيرات مسار تقني Bordelon وآخرون 16 ✓ ✓ ✓ ✗ DMFT Paquette وآخرون 17 ✓ ✗ ✓ ✗ تكافؤ حتمي أحادي النقطة هذه الورقة ✓ ✓ ✓ ✓ تكافؤ حتمي ثنائي النقطة
هيكل حد نواة SGD :نواة التدريب K ^ \hat{K} K ^ ونواة الاختبار K K K تختلفان فقط بحد إضافي هذا الحد غير سالب عند ω → 0 \omega \to 0 ω → 0 ، مما يفسر تأثير التنظيم الإضافي لـ SGD على خسارة التدريب التعميم الديناميكي للتحقق من الصحة المتقاطع المعمم (GCV) :تختلف خسارة التدريب والخسارة الكلية تحت تدفق التدرج بعامل S W S W ′ S_W S'_W S W S W ′ هذا هو التعميم الطبيعي للتحقق من الصحة المتقاطع المعمم في الحالة الديناميكية المعنى الفيزيائي لدالة الاستجابة :دوال الاستجابة R 1 , R 3 R_1, R_3 R 1 , R 3 في DMFT تقابل 1 / S W , 1 / S F F ⊤ 1/S_W, 1/S_{FF^\top} 1/ S W , 1/ S F F ⊤ يشفر تحويل S استجابة النظام لاضطرابات التردد إعادة التطبيع متعددة المستويات :يتم إعادة تطبيع التردد بشكل متتالي من خلال العشوائية في البيانات والميزات تقدم كل طبقة من العشوائية عامل تحويل S واحد التكافؤ الحتمي أحادي النقطة :Knowles & Yin 29 : إنشاء القانون المحلي الموحد Louart وآخرون 30 : التطبيق على تحليل الشبكات العصبية Bach 28 : الاستخدام في تحليل ظاهرة الانخفاض المزدوج Atanasov وآخرون 20 : مراجعة منهجية للتحجيم وإعادة التطبيع في الانحدار عالي الأبعاد نظرية الاحتمالية الحرة :Potters & Bouchaud 24 : كتاب نظرية المصفوفات العشوائية خصائص تحويل S: S A ∗ B = S A S B S_{A*B} = S_A S_B S A ∗ B = S A S B (الالتفاف الحر) الملاحظات التجريبية :Kaplan وآخرون 2 : قوانين التحجيم لنماذج اللغة Hoffmann وآخرون 3 : تدريب Chinchilla الأمثل Hestness وآخرون 1 : قابلية التنبؤ بتحجيم التعلم العميق التحليل النظري :Bordelon وآخرون 16 : تحليل DMFT لنماذج الميزات العشوائية Paquette وآخرون 17 : تحديد 4+3 مراحل حسابية مثلى Lin وآخرون 18 : قوانين التحجيم في الانحدار الخطي طرق النواة :Lin & Rosasco 13 : معدلات مثلى لـ SGD متعدد الجولات Pillaud-Vivien وآخرون 14 : الأمثلية الإحصائية لمشاكل التعلم الصعبة نماذج مبسطة :Bordelon & Pehlevan 21 : منحنيات التعلم على الميزات المنظمة Paquette وآخرون 35-37 : مسارات المخاطر الدقيقة لـ SGD عالي الأبعاد Canatar وآخرون 34 : الانحياز الطيفي والمحاذاة بين المهمة والنموذج انحدار Ridge :Hastie وآخرون 25 : الظاهرة المدهشة للاستيفاء بدون أبعاد في الانحدار عالي الأبعاد Defilippis وآخرون 32 : تكافؤ حتمي بدون أبعاد Misiakiewicz & Saeed 33 : نظرية غير مقاربة انجراف المتغيرات :Patil وآخرون 40 : تنظيم ridge الأمثل للتنبؤ خارج التوزيع Canatar وآخرون 41 : التعميم خارج التوزيع في انحدار النواة إطار موحد : يوفر التكافؤ الحتمي ثنائي النقطة إطار رياضي موحد لتحليل البيانات المحدودة وحجم النموذج المحدود وضوضاء SGDالاكتمال النظري : يسترجع جميع النتائج المعروفة (انحدار ridge الثابت، ديناميكيات DMFT، التكافؤ الحتمي أحادي النقطة)، ويوسع إلى سيناريوهات جديدة (ديناميكيات انجراف المتغيرات)المساهمة المنهجية : توفر طريقة الرسوم البيانية المستوية وتوحيد نظرية الاحتمالية الحرة أدوات حسابية جديدة لنظرية المصفوفات العشوائيةالرؤى الفيزيائية : الكشف عن المعنى العميق لتحويل S كدالة استجابة، وإنشاء جسر بين التكافؤ الحتمي و DMFTالطبيعة المقاربة :النتائج دقيقة في حد D , N , P → ∞ D, N, P \to \infty D , N , P → ∞ لم يتم تقديم حدود الخطأ للأبعاد المحدودة (على الرغم من أن التجارب الرقمية 16,17 تظهر تقريب جيد) لم يتم تحليل الرسوم البيانية غير المستوية (تقابل التقلبات والتصحيحات من الرتبة الثانية) قيود النموذج :ينطبق فقط على النماذج الخطية والميزات العشوائية الخطية يجب أن تكون مصفوفة الميزات F عشوائية غاوسية يجب أن تحقق مصفوفة التغاير البيانات Σ شروطاً طيفية معينة الافتراضات التقنية :يتطلب التخلص من حدود معينة في SGD (الحد الأوسط في المعادلة III.1) يجب أن يتحجم حجم الدفعة كـ B = Θ ( D ζ ) B = \Theta(D^\zeta) B = Θ ( D ζ ) يجب أن يبقى معدل التعلم η = Θ ( 1 ) \eta = \Theta(1) η = Θ ( 1 ) الصرامة :لم يتم إثبات تكافؤ النموذج المبسط (المعادلة III.2) بشكل صارم، بل يتم الاستشهاد بالأعمال السابقة 21, 35-37 يتم ترك اشتقاق حدود الخطأ الكمية للعمل المستقبلي التوسع إلى النماذج غير الخطية :تكافؤ ثنائي النقطة للشبكات العصبية الضحلة نسخة غير خطية من طرق النواة تصحيحات الأبعاد المحدودة :اشتقاق حدود التصحيح 1/N و 1/P إنشاء حدود خطأ كمية 24, 29-33 عشوائية أكثر عمومية :مصفوفات ميزات غير غاوسية مصفوفات عشوائية منظمة (مثل دورية، Toeplitz) خوارزميات التحسين :التوسع إلى momentum و Adam وغيرها من المحسنات تحليل معدلات التعلم التكيفية التطبيقات العملية :استخدام النظرية لتوجيه اختيار المعاملات الفائقة التنبؤ بأداء النماذج واسعة النطاق العمق النظري :أول اشتقاق منهجي للتكافؤ الحتمي ثنائي النقطة، ملء فجوة مهمة في نظرية المصفوفات العشوائية تنظم طريقة الرسوم البيانية المستوية الحسابات المعقدة بأناقة، مع قابلية توسع قوية إنشاء روابط عميقة بين عدة مجالات رياضية (مصفوفات عشوائية، احتمالية حرة، أنظمة ديناميكية، فيزياء إحصائية) الوحدة :إطار واحد يوحد عدة نتائج سابقة مستقلة توضيح التكافؤ بين مسارات تقنية مختلفة (DMFT مقابل التكافؤ الحتمي) انتقال سلس من الثابت إلى الديناميكي، من المحدود إلى اللانهائي الابتكار التقني :إدخال تحويل R المختلط يتعامل بذكاء مع الاقتران بين معاملين فكرة إعادة التطبيع الهرمية توضح بشكل واضح تأثيرات مصادر عشوائية متعددة يحول تحليل فضاء فورييه التطور الزمني المعقد إلى مشكلة جبرية الاكتمال :الملحق الشامل يحتوي على جميع صيغ المتغيرات فحوصات اتساق متعددة تتحقق من صحة النظرية نظام رموز واضح ورسوم توضيحية تساعد على الفهم إمكانية التأثير :توفير صندوق أدوات لتحليل نماذج أكثر تعقيداً قد تلهم خوارزميات رقمية جديدة (محاكاة سريعة بناءً على التكافؤ الحتمي) توفير أساس نظري لفهم قوانين التحجيم في التعلم العميق تحديات القراءة :يتطلب خلفية عميقة في نظرية المصفوفات العشوائية نظام الرموز معقد (منخفضات متعددة المستويات، تحويلات S متعددة) النتائج الرئيسية (المعادلات IV.2 و VI.2) معقدة الشكل، يصعب الفهم البديهي التحقق التجريبي غير كافٍ :لم تقدم الورقة تجارب رقمية جديدة تعتمد بالكامل على التحقق من الأدبيات المرجعية 16, 17 تفتقر إلى تقييم منهجي لدقة التنبؤات النظرية (مثل الخطأ تحت D و N و P مختلفة) التوجيه التطبيقي محدود :تتطلب النتائج النظرية حل معادلات ذاتية الاتساق معقدة (مثل حساب κ) لا توجد خوارزميات عملية أو تطبيقات برمجية الدلالة على التعلم العميق العملي غير واضحة بشكل كافٍ معقولية الافتراضات التقنية :الحجة لحذف الحد الأوسط في المعادلة III.1 ليست صارمة بما يكفي (خاصة في حالة ζ=0) لم يتم توصيف شروط تطبيق النموذج المبسط بالكامل الافتراضات حول هيكل البيانات (معدل تحلل الطيف) قوية جداً قيود التعميم :الافتراض الغاوسي غالباً ما لا يكون مرضياً في الممارسة الفجوة بين النماذج الخطية والشبكات العصبية الفعلية كبيرة متطلبات تحجيم حجم الدفعة قد لا تكون واقعية في الممارسة المساهمة في المجتمع الأكاديمي :
الأساس النظري : توفير أدوات جديدة للإحصائيات عالية الأبعاد وتعلم الآلة، من المتوقع أن تُستشهد بها على نطاق واسعالمنهجية : قد تلهم طريقة الرسوم البيانية والتقنية ثنائية النقطة دراسة مشاكل أخرىالمنظور الموحد : ربط عدة مجتمعات بحثية (الفيزياء الإحصائية، المصفوفات العشوائية، نظرية التعلم الآلي)القيمة العملية :
قصيرة الأجل : قيمة نظرية بشكل أساسي، التطبيق المباشر محدودمتوسطة الأجل : قد توجه تصميم النموذج واختيار المعاملات الفائقة (مثل نسبة P/N المثلى)طويلة الأجل : توفير أساس نظري لفهم والتنبؤ بسلوك النماذج واسعة النطاققابلية الاستنساخ :
الاشتقاقات النظرية مفصلة، يمكن استنساخها بالكامل من حيث المبدأ نقص تطبيقات البرامج يقلل من عتبة التطبيق العملي يتطلب التحقق المستقل من التحقق الرقمي عملاً إضافياً السيناريوهات الأكثر ملاءمة :
النماذج الخطية عالية الأبعاد : مشاكل الانحدار حيث P و N و D كبيرة جداً والنسب ثابتةالتحليل النظري : البحث النظري الذي يتطلب السلوك المقارب الدقيقالتنبؤ بقوانين التحجيم : التنبؤ بكيفية تغير أداء النموذج مع الحجمانجراف المتغيرات : السيناريوهات التي يختلف فيها توزيع التدريب والاختبارالسيناريوهات غير المناسبة :
مشاكل العينات الصغيرة : النظرية المقاربة غير قابلة للتطبيقالشبكات العصبية غير الخطية العميقة : يتطلب توسيع النظريةالبيانات غير الغاوسية : الافتراضات النظرية غير مرضيةالتطبيقات في الوقت الفعلي : قد يكون حل المعادلات ذاتية الاتساق بطيئاًالاتجاهات التطبيقية المحتملة :
البحث عن الهندسة المعمارية العصبية: التنبؤ بالأداء استراتيجيات جمع البيانات المثلى (متى نتوقف عن جمع البيانات) ضغط النموذج وتقطير المعرفة: التوجيه النظري نقل التعلم والتكيف مع المجال: الأساس النظري تحسين المعاملات الفائقة: التوجيه المستند إلى النظرية التقييم الشامل : هذه ورقة بحثية ممتازة ذات عمق نظري عالي جداً، توفر إطار رياضي موحد وأنيق لديناميكيات SGD في النماذج الخطية عالية الأبعاد. يعتبر اشتقاق التكافؤ الحتمي ثنائي النقطة مساهمة نظرية مهمة، وتظهر طريقة الرسوم البيانية المستوية قوة تقنية قوية. على الرغم من أن التطبيق المباشر محدود وتحديات القراءة موجودة، إلا أن القيمة النظرية للورقة كبيرة جداً بالنسبة للتطور طويل الأجل لنظرية التعلم الآلي. يُنصح بأن تتابع الأعمال المستقبلية بإضافة التحقق الرقمي وتوفير خوارزميات عملية واستكشاف التعميم إلى النماذج غير الخطية.