2025-11-29T05:16:19.247534

Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Models

Atanasov, Bordelon, Zavatone-Veth et al.

We derive a novel deterministic equivalence for the two-point function of a random matrix resolvent. Using this result, we give a unified derivation of the performance of a wide variety of high-dimensional linear models trained with stochastic gradient descent. This includes high-dimensional linear regression, kernel regression, and linear random feature models. Our results include previously known asymptotics as well as novel ones.

academic

রৈখিক মডেলে স্টোকাস্টিক গ্রেডিয়েন্ট ডায়নামিক্সের জন্য দ্বি-বিন্দু নির্ধারণীয় সমতুল্যতা

মৌলিক তথ্য

পেপার আইডি: 2502.05074
শিরোনাম: Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Models
লেখক: Alexander Atanasov, Blake Bordelon, Jacob A. Zavatone-Veth, Courtney Paquette, Cengiz Pehlevan (হার্ভার্ড বিশ্ববিদ্যালয়, ম্যাকগিল বিশ্ববিদ্যালয় এবং অন্যান্য প্রতিষ্ঠান থেকে)
শ্রেণীবিভাগ: cond-mat.dis-nn, cs.LG, stat.ML
প্রকাশনার সময়: arXiv v3, ২০২৫ সালের নভেম্বর ১০ তারিখ
পেপার লিঙ্ক: https://arxiv.org/abs/2502.05074v3

সারসংক্ষেপ

এই পেপারটি র‍্যান্ডম ম্যাট্রিক্স রেজোলভেন্টের দ্বি-বিন্দু ফাংশনের জন্য একটি নতুন ধরনের নির্ধারণীয় সমতুল্যতা (deterministic equivalence) তত্ত্ব উপস্থাপন করে। এই ফলাফলের উপর ভিত্তি করে, লেখকরা স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট (SGD) প্রশিক্ষণের অধীনে বিভিন্ন উচ্চ-মাত্রিক রৈখিক মডেলের কর্মক্ষমতা একীভূতভাবে অনুমান করেছেন, যার মধ্যে রয়েছে উচ্চ-মাত্রিক রৈখিক রিগ্রেশন, কার্নেল রিগ্রেশন এবং রৈখিক র‍্যান্ডম ফিচার মডেল। গবেষণার ফলাফল পরিচিত অ্যাসিম্পটোটিক আচরণ এবং নতুন তাত্ত্বিক আবিষ্কার উভয়ই অন্তর্ভুক্ত করে।

গবেষণা পটভূমি এবং প্রেরণা

সমাধান করার সমস্যা

আধুনিক গভীর শিক্ষায় একটি মূল ঘটনা বিদ্যমান: মডেল কর্মক্ষমতা ডেটা স্কেল, মডেল আকার এবং গণনার পরিমাণ বৃদ্ধির সাথে সাথে পূর্বাভাসযোগ্য শক্তি-আইন আচরণ প্রদর্শন করে (নিউরাল স্কেলিং আইন)। এই স্কেলিং আচরণের তাত্ত্বিক ভিত্তি বোঝা মেশিন লার্নিং তত্ত্বের একটি গুরুত্বপূর্ণ চ্যালেঞ্জ।

সমস্যার গুরুত্ব

একীভূত তাত্ত্বিক কাঠামোর প্রয়োজন: বিদ্যমান কাজ বিভিন্ন পদ্ধতি (যেমন গতিশীল গড় ক্ষেত্র তত্ত্ব DMFT, নির্ধারণীয় সমতুল্যতা কৌশল) ব্যবহার করে সীমিত প্রস্থ, সীমিত ডেটা, SGD শব্দ ইত্যাদি প্রভাব আলাদাভাবে অধ্যয়ন করেছে, একটি একীভূত কাঠামোর অভাব রয়েছে।
গতিশীল আচরণ বোঝা: বেশিরভাগ তাত্ত্বিক বিশ্লেষণ স্থির (অসীম সময়) সীমায় কেন্দ্রীভূত, প্রশিক্ষণ গতিশীল প্রক্রিয়া সম্পর্কে বোঝা অপর্যাপ্ত।
অ-বিনিময়যোগ্যতা চ্যালেঞ্জ: যখন ডেটা সহভেরিয়েন্স ম্যাট্রিক্স Σ, অভিজ্ঞতামূলক সহভেরিয়েন্স Σ̂ এবং র‍্যান্ডম ফিচার ম্যাট্রিক্স FF⊤ বিনিময়যোগ্য নয়, তখন ঐতিহ্যবাহী একক-বিন্দু নির্ধারণীয় সমতুল্যতা পদ্ধতি ব্যর্থ হয়।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

একক-বিন্দু নির্ধারণীয় সমতুল্যতা: শুধুমাত্র ম্যাট্রিক্স বিনিময়যোগ্য ক্ষেত্রে পরিচালনা করতে পারে (যেমন অসীম ডেটা P→∞ বা র‍্যান্ডম ফিচার ছাড়া রৈখিক রিগ্রেশন)।
DMFT পদ্ধতি: যদিও সাধারণ ক্ষেত্রে পরিচালনা করতে পারে, কিন্তু প্রযুক্তিগত জটিলতা বেশি এবং র‍্যান্ডম ম্যাট্রিক্স তত্ত্বের সাথে সরাসরি সংযোগের অভাব রয়েছে।
বিচ্ছিন্ন ফলাফল: বিভিন্ন কাজ বিভিন্ন কৌশল ব্যবহার করে আংশিক ফলাফল পেয়েছে, একটি একীভূত গাণিতিক কাঠামোর অভাব রয়েছে।

গবেষণা প্রেরণা

এই পেপারটি দ্বি-বিন্দু নির্ধারণীয় সমতুল্যতা তত্ত্ব বিকাশের মাধ্যমে, উচ্চ-মাত্রিক রৈখিক মডেলে SGD-এর সম্পূর্ণ গতিশীল আচরণ বিশ্লেষণ করার জন্য একটি একীভূত গাণিতিক কাঠামো প্রদান করার লক্ষ্য রাখে, যার মধ্যে সীমিত ডেটা, সীমিত মডেল আকার এবং SGD শব্দের যৌথ প্রভাব অন্তর্ভুক্ত।

মূল অবদান

নতুন দ্বি-বিন্দু নির্ধারণীয় সমতুল্যতা তত্ত্ব: প্রথমবারের মতো বিভিন্ন পরামিতি (λ, λ') এ র‍্যান্ডম ম্যাট্রিক্স রেজোলভেন্টের দ্বি-বিন্দু ফাংশনের নির্ধারণীয় সমতুল্যতা সূত্র পদ্ধতিগতভাবে অনুমান করা হয়েছে।
একীভূত গতিশীল বিশ্লেষণ কাঠামো: SGD গতিশীলতাকে গ্রেডিয়েন্ট প্রবাহ পদ (forcing term) এবং SGD কার্নেল পদ (kernel term) এ বিভক্ত করা হয়েছে এবং ফ্রিকোয়েন্সি ডোমেইনে ফুরিয়ার রূপান্তরের মাধ্যমে বিশ্লেষণ করা হয়েছে।
বিদ্যমান ফলাফল পুনরুদ্ধার এবং সম্প্রসারণ:
- Bordelon এবং অন্যদের 16 দ্বারা DMFT এর মাধ্যমে পাওয়া ফলাফল পুনরুদ্ধার করা হয়েছে।
- Paquette এবং অন্যদের 17 দ্বারা একক-বিন্দু নির্ধারণীয় সমতুল্যতা ব্যবহার করে পাওয়া ফলাফল পুনরুদ্ধার করা হয়েছে।
- সহভেরিয়েট শিফট (covariate shift) এর মতো নতুন পরিস্থিতিতে সম্প্রসারিত করা হয়েছে।
মুক্ত সম্ভাব্যতা তত্ত্বের সাথে সংযোগ: গতিশীল সিস্টেমে প্রতিক্রিয়া ফাংশন হিসাবে S-রূপান্তরের নতুন ব্যাখ্যা প্রকাশ করা হয়েছে, নির্ধারণীয় সমতুল্যতা এবং DMFT-এর মধ্যে একটি সেতু স্থাপন করা হয়েছে।
প্ল্যানার গ্রাফ সম্প্রসারণ কৌশল: প্ল্যানার গ্রাফ সম্প্রসারণ এবং মুক্ত সংগ্রহকারী (free cumulants) ব্যবহার করে দ্বি-বিন্দু সমতুল্যতা সূত্র পদ্ধতিগতভাবে অনুমান করা হয়েছে।

পদ্ধতির বিস্তারিত বর্ণনা

কাজের সংজ্ঞা

দুটি ধরনের মডেল বিবেচনা করুন:

1. রৈখিক রিগ্রেশন: $f(x) = x^\top w$

2. রৈখিক র‍্যান্ডম ফিচার মডেল: $f(x) = x^\top Fv = w^\top x, \quad w = Fv$

যেখানে:

ইনপুট $x \in \mathbb{R}^D \sim \mathcal{N}(0, \Sigma)$
র‍্যান্ডম ফিচার ম্যাট্রিক্স $F \in \mathbb{R}^{D \times N}$ , উপাদান i.i.d. $\sim \mathcal{N}(0, 1/N)$
লেবেল শিক্ষক মডেল দ্বারা উৎপন্ন: $y_\mu = \bar{w}^\top x_\mu + \epsilon_\mu$ , যেখানে $\epsilon_\mu \sim \mathcal{N}(0, \sigma_\epsilon^2)$

প্রশিক্ষণ উদ্দেশ্য: অভিজ্ঞতামূলক ঝুঁকি কমান $\hat{R} = \frac{1}{P}\sum_{\mu=1}^P (y_\mu - f(x_\mu))^2$

SGD আপডেটের মাধ্যমে (ব্যাচ আকার B, শেখার হার η): $v_{t+1} = v_t - \eta \nabla_v \hat{R}_{B_t}$

কর্মক্ষমতা পরিমাপ:

প্রশিক্ষণ ক্ষতি: $\hat{R}_t = \Delta w_t^\top \hat{\Sigma} \Delta w_t$
পরীক্ষা ক্ষতি: $R_t = \Delta w_t^\top \Sigma \Delta w_t$
যেখানে $\Delta w_t = \bar{w} - w_t$

মূল তাত্ত্বিক কাঠামো

1. SGD গতিশীলতার সরলীকৃত মডেল

ওজন পার্থক্যের দ্বিতীয়-ক্রম মুহূর্ত $C_t = \mathbb{E}_{B_t}[\Delta w_t \Delta w_t^\top]$ ট্র্যাক করে, ক্রমাগত সময় সীমায় Volterra অবিচ্ছেদ্য সমীকরণ পাওয়া যায়:

$C_t \simeq e^{-\eta t FF^\top \hat{\Sigma}} \bar{w}\bar{w}^\top e^{-\eta t \hat{\Sigma}FF^\top} + \chi \int_0^t e^{-2(t-s)FF^\top\hat{\Sigma}} FF^\top \hat{\Sigma} FF^\top \text{Tr}[C_s\hat{\Sigma}]ds$

যেখানে $\chi = \eta/B$ হল SGD তাপমাত্রা পরামিতি।

2. বাধ্যকারী পদ এবং কার্নেল পদ বিভাজন

পরীক্ষা ক্ষতি বিভক্ত করা যায়:

$R_t = \underbrace{\bar{w}^\top e^{-t\hat{\Sigma}FF^\top} \Sigma e^{-tFF^\top\hat{\Sigma}} \bar{w}}_{F(t) \text{ - গ্রেডিয়েন্ট প্রবাহ পদ}} + \underbrace{\chi \int_0^t \text{tr}[e^{-2(t-s)FF^\top\hat{\Sigma}}FF^\top\hat{\Sigma}FF^\top\Sigma]}_{K(t-s) \text{ - SGD কার্নেল পদ}} \hat{R}_s ds$

মূল অন্তর্দৃষ্টি: ফুরিয়ার স্থানে, সমস্ত র‍্যান্ডমতা রেজোলভেন্টের পণ্যের মাধ্যমে প্রবেশ করে:

$F(\omega, \omega') = \bar{w}^\top (\hat{\Sigma}FF^\top + i\omega)^{-1} \Sigma (FF^\top\hat{\Sigma} + i\omega')^{-1} \bar{w}$

যখন ম্যাট্রিক্স বিনিময়যোগ্য নয়, তখন বিভিন্ন ফ্রিকোয়েন্সি $(\omega, \omega')$ এ দ্বি-বিন্দু ফাংশন মূল্যায়ন করা প্রয়োজন।

দ্বি-বিন্দু নির্ধারণীয় সমতুল্যতার অনুমান

মূল উপপাদ্য

র‍্যান্ডম ম্যাট্রিক্সের জন্য $(λ+AB)^{-1}M(λ'+BA)^{-1}$ , যেখানে A, M নির্ধারণীয় ম্যাট্রিক্স, B হল A থেকে স্বাধীন সাদা Wishart ম্যাট্রিক্স, একটি নির্ধারণীয় সমতুল্যতা রয়েছে:

$(λ+AB)^{-1}M(λ'+BA)^{-1} \simeq S_B S'_B \left[ G_A M G'_A + G_A A G'_A \frac{q \text{tr}[AG_A M G'_A]}{1 - q \text{df}_2(\kappa, \kappa')} \right]$

যেখানে:

$S_B = S_B(\text{df}_1^{AB}(λ))$ হল B-এর S-রূপান্তর
$G_A = (\kappa + A)^{-1}$ , $\kappa = λS_B$ হল সংকেত ক্যাপচার থ্রেশহোল্ড
$\text{df}_2(\kappa, \kappa') = \text{tr}[A^2 G_A G'_A]$ হল দ্বিতীয়-ক্রম স্বাধীনতার ডিগ্রি
$q = N/P$ হল Wishart পরামিতি

অনুমান চিন্তাধারা (প্ল্যানার গ্রাফ সম্প্রসারণ)

অর্থোগোনাল গড়: B কে $B = OB'O^\top$ (B' তির্যক) হিসাবে লিখুন, অর্থোগোনাল গ্রুপ O এর উপর গড় করুন।
অপরিবর্তনীয় গ্রাফ সম্প্রসারণ: রেজোলভেন্ট A/λ এর মাধ্যমে সংযুক্ত অপরিবর্তনীয় গ্রাফ চেইনে সম্প্রসারিত করুন:

গ্রাফ (সরলীকৃত):
[1/S_B] --A/λ--> [1/S_B] --A/λ--> ...

সংযুক্ত গ্রাফ যোগ: প্রতিটি অপরিবর্তনীয় গ্রাফ সম্পূর্ণ সংযুক্ত গ্রাফের যোগ, মুক্ত সংগ্রহকারী $\kappa_B^{(n)}$ জড়িত:

$\frac{1}{S_B} = \sum_{n=1}^\infty \kappa_B^{(n)} \text{tr}[G_A BA]^{n-1}$

M সন্নিবেশের চিকিৎসা: M সম্বলিত পদগুলি স্ব-সামঞ্জস্যপূর্ণ সমীকরণ উৎপন্ন করে:

$X_M = S_B S'_B R_B[g, g'] \left( \text{tr}[G_A M G'_A] + X_M \text{tr}[G_A A^2 G'_A] \right)$

যেখানে মিশ্র R-রূপান্তর $R_B[g, g'] = \sum_{n=1}^\infty \sum_{a+b=n} \kappa_B^{(n)} g^{a-1} g'^{b-1}$

Wishart ক্ষেত্রে সরলীকরণ: $\kappa_B^{(a+b)} = q\kappa_B^{(a)}\kappa_B^{(b)}$ হওয়ায়, মিশ্র R-রূপান্তর ফ্যাক্টরাইজ করে।

রৈখিক মডেলে প্রয়োগ

রৈখিক রিগ্রেশন (র‍্যান্ডম ফিচার ছাড়া)

গ্রেডিয়েন্ট প্রবাহ পদ (দ্বি-ফ্রিকোয়েন্সি): $F(\omega, \omega') = \frac{S_W S'_W}{1-\gamma(\omega_1, \omega'_1)} \bar{w}^\top (i\omega_1 + \Sigma)^{-1} \Sigma (i\omega'_1 + \Sigma)^{-1} \bar{w}$

যেখানে:

$S_W = 1/(1 - \frac{D}{P}\text{df}_1)$ হল Wishart-এর S-রূপান্তর
$\omega_1 = S_W \omega$ হল পুনর্নিয়ন্ত্রিত ফ্রিকোয়েন্সি
$\gamma = \frac{D}{P}\text{df}_2(\omega_1, \omega'_1)$

SGD কার্নেল পদ (একক-ফ্রিকোয়েন্সি যথেষ্ট): $K(\omega) \simeq \text{Tr}[\Sigma^2(\Sigma + i\omega_1)^{-1}]$

রৈখিক র‍্যান্ডম ফিচার মডেল

নির্ধারণীয় সমতুল্যতা দুইবার প্রয়োগ করা প্রয়োজন (প্রথমে ডেটার জন্য, তারপর ফিচারের জন্য):

গ্রেডিয়েন্ট প্রবাহ পদ: $F(\omega, \omega') \simeq \frac{SS'}{1-\gamma_1} \left[ \bar{w}^\top (i\omega_2+\Sigma)^{-1}\Sigma(i\omega'_2+\Sigma)^{-1}\bar{w} + \text{সংশোধন পদ} \right]$

যেখানে $\omega_2 = S_{FF^\top} S_W \omega$ দুইবার পুনর্নিয়ন্ত্রিত।

মূল কৌশল: push-through পরিচয় $A(BA+λ)^{-1} = (AB+λ)^{-1}A$ ব্যবহার করে অভিব্যক্তি সরল করুন।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

দ্বি-ফ্রিকোয়েন্সি বিশ্লেষণ: প্রথমবারের মতো $(\omega, \omega')$ এর যৌথ নির্ভরতা পদ্ধতিগতভাবে পরিচালনা করা হয়েছে, অ-বিনিময়যোগ্য প্রভাব ক্যাপচার করে।
প্ল্যানার গ্রাফ পদ্ধতি: গ্রাফ তত্ত্ব ভাষার মাধ্যমে জটিল ম্যাট্রিক্স গড় গণনা স্পষ্টভাবে সংগঠিত করা হয়েছে।
S-রূপান্তরের নতুন ব্যাখ্যা: গতিশীল প্রতিক্রিয়া ফাংশন হিসাবে S-রূপান্তরের ভৌত অর্থ প্রকাশ করা হয়েছে, মুক্ত সম্ভাব্যতা তত্ত্ব এবং গতিশীল সিস্টেম তত্ত্ব সংযুক্ত করা হয়েছে।
স্তরযুক্ত পুনর্নিয়ন্ত্রণ: র‍্যান্ডম ফিচার মডেলে, ফ্রিকোয়েন্সি ক্রমাগত ডেটা এবং ফিচারের র‍্যান্ডমতা দ্বারা পুনর্নিয়ন্ত্রিত হয়। প্রতিটি র‍্যান্ডম উৎস একটি S-রূপান্তর ফ্যাক্টর প্রবর্তন করে।
নরম সীমা স্থির পুনরুদ্ধার: $\lim_{t\to\infty} F(t) = \lim_{\omega,\omega'\to 0} (i\omega)(i\omega')F(\omega,\omega')$ এর মাধ্যমে মসৃণভাবে স্থির ফলাফল পুনরুদ্ধার করা হয়েছে।

পরীক্ষামূলক সেটআপ

নোট: এটি একটি বিশুদ্ধ তাত্ত্বিক কাজ, প্রধানত গাণিতিক অনুমানের মাধ্যমে তত্ত্বের সঠিকতা যাচাই করা হয়েছে। পরীক্ষামূলক যাচাইকরণ প্রধানত সম্পর্কিত কাজ 16, 17 এ সংখ্যাসূচক পরীক্ষা উদ্ধৃত করা হয়েছে।

তাত্ত্বিক যাচাইকরণ কৌশল

পরিচিত ফলাফলের সাথে তুলনা:
- বিশেষ ক্ষেত্রে (যেমন λ=λ') পরিচিত একক-বিন্দু নির্ধারণীয় সমতুল্যতা পুনরুদ্ধার করা যাচাই করা হয়েছে।
- স্থির সীমা ridge রিগ্রেশনের পরিচিত ফলাফল 20 পুনরুদ্ধার করা যাচাই করা হয়েছে।
অভ্যন্তরীণ সামঞ্জস্য পরীক্ষা:
- একক-বিন্দু সূত্র পার্থক্য করে পাওয়া ফলাফল λ=λ' এ দ্বি-বিন্দু সূত্রের সাথে সামঞ্জস্যপূর্ণ যাচাই করা হয়েছে।
- বিভিন্ন অনুমান পথ (একক-ফ্রিকোয়েন্সি বনাম দ্বি-ফ্রিকোয়েন্সি) একই ফলাফল দেয় যাচাই করা হয়েছে।
DMFT ফলাফলের সাথে তুলনা:
- এই পেপারের সূত্র Bordelon এবং অন্যদের 16 DMFT ফলাফলের সাথে সম্পূর্ণভাবে সামঞ্জস্যপূর্ণ নিশ্চিত করা হয়েছে।
- প্রতিক্রিয়া ফাংশন এবং S-রূপান্তরের মধ্যে সংযোগ স্থাপন করা হয়েছে।

তাত্ত্বিক প্রযোজ্যতার পরিসীমা

অ্যাসিম্পটোটিক শাসন: $D, N, P \to \infty$ , অনুপাত $D/N, D/P$ স্থির
ডেটা কাঠামো: $\text{Tr}(\Sigma) = \Theta(D^\zeta)$ , $0 \leq \zeta \leq 1$
ব্যাচ আকার স্কেলিং: $B = \Theta(D^\zeta)$ স্থিতিশীল গতিশীলতা বজায় রাখতে
শেখার হার: $\eta = \Theta(1)$ মাত্রা থেকে স্বাধীন

পরীক্ষামূলক ফলাফল

প্রধান তাত্ত্বিক ফলাফল

1. সামঞ্জস্য যাচাইকরণ

একক-বিন্দু সীমার পুনরুদ্ধার (পরিশিষ্ট A.1): $\hat{\Sigma}(λ+\hat{\Sigma})^{-2}$ এর জন্য, দ্বি-বিন্দু সূত্র থেকে $λ=λ'$ নিয়ে:

$\hat{\Sigma}(\hat{\Sigma}+λ)^{-2} \simeq \frac{d\kappa}{dλ} \Sigma(\Sigma+\kappa)^{-2}$

এটি একক-বিন্দু সূত্র $\hat{\Sigma}(\hat{\Sigma}+λ)^{-1} \simeq S\Sigma(\Sigma+\kappa)^{-1}$ পার্থক্য করে পাওয়া ফলাফলের সাথে সম্পূর্ণভাবে সামঞ্জস্যপূর্ণ।

2. স্থির সীমার পুনরুদ্ধার

$t \to \infty$ সীমায় (সংশ্লিষ্ট $\omega, \omega' \to 0$ ), গ্রেডিয়েন্ট প্রবাহ পদ ridge রিগ্রেশনের পরিচিত ফলাফল পুনরুদ্ধার করে:

$\lim_{t\to\infty} R_t = \kappa^2 \bar{w}^\top \Sigma (\Sigma+\kappa)^{-2} \bar{w} + \sigma_\epsilon^2$

যেখানে $\kappa$ স্ব-সামঞ্জস্যপূর্ণ সমীকরণ সন্তুষ্ট করে $\kappa = \lim_{\omega\to 0} S_B(\text{df}_1^\Sigma(\kappa)) \cdot \omega$

3. সহভেরিয়েট শিফট ফলাফল

পরীক্ষা বিতরণ $\Sigma'$ প্রশিক্ষণ বিতরণ $\Sigma$ থেকে আলাদা হওয়ার ক্ষেত্রে, স্থির সাধারণীকরণ ত্রুটি:

$E_{\Sigma',\bar{w}}^{OOD} \simeq \kappa^2 \left[ \bar{w}^\top (\Sigma+\kappa)^{-1}\Sigma'(\Sigma+\kappa)^{-1}\bar{w} + \bar{w}^\top \Sigma(\Sigma+\kappa)^{-2}\bar{w} \frac{\gamma'}{1-\gamma} \right] + \sigma_\epsilon^2 \frac{\gamma'}{1-\gamma}$

যেখানে $\gamma' = \frac{D}{P}\text{tr}[\Sigma(\Sigma+\kappa)^{-1}\Sigma'(\Sigma+\kappa)^{-1}]$

এটি Patil এবং অন্যদের 40 এবং Canatar এবং অন্যদের 41 ফলাফল পুনরুদ্ধার এবং গতিশীল ক্ষেত্রে সম্প্রসারিত করে।

বিদ্যমান কাজের সাথে তুলনা

পদ্ধতি	সীমিত P	সীমিত N	গতিশীল	সহভেরিয়েট শিফট	প্রযুক্তিগত পথ
Bordelon এবং অন্যরা 16	✓	✓	✓	✗	DMFT
Paquette এবং অন্যরা 17	✓	✗	✓	✗	একক-বিন্দু নির্ধারণীয় সমতুল্যতা
এই পেপার	✓	✓	✓	✓	দ্বি-বিন্দু নির্ধারণীয় সমতুল্যতা

মূল তাত্ত্বিক আবিষ্কার

SGD কার্নেল পদের কাঠামো:
- প্রশিক্ষণ কার্নেল $\hat{K}$ এবং পরীক্ষা কার্নেল $K$ শুধুমাত্র একটি অতিরিক্ত পদে পার্থক্য করে।
- এই অতিরিক্ত পদ $\omega \to 0$ এ অ-নেতিবাচক, প্রশিক্ষণ ক্ষতির উপর SGD-এর অতিরিক্ত নিয়মিতকরণ প্রভাব ব্যাখ্যা করে।
GCV-এর গতিশীল সম্প্রসারণ:
- অভিজ্ঞতামূলক ক্ষতি এবং সামগ্রিক ক্ষতি গ্রেডিয়েন্ট প্রবাহের অধীনে ফ্যাক্টর $S_W S'_W$ দ্বারা পার্থক্য করে।
- এটি গতিশীল ক্ষেত্রে সাধারণীকৃত ক্রস-যাচাইকরণ (GCV) এর প্রাকৃতিক সম্প্রসারণ।
প্রতিক্রিয়া ফাংশনের ভৌত অর্থ:
- DMFT-এ প্রতিক্রিয়া ফাংশন $R_1, R_3$ সংশ্লিষ্ট $1/S_W, 1/S_{FF^\top}$ ।
- S-রূপান্তর ফ্রিকোয়েন্সি বিঘ্নের প্রতি সিস্টেমের প্রতিক্রিয়া এনকোড করে।
বহু-স্কেল পুনর্নিয়ন্ত্রণ:
- ফ্রিকোয়েন্সি ক্রমাগত ডেটা এবং ফিচারের র‍্যান্ডমতা দ্বারা পুনর্নিয়ন্ত্রিত হয়।
- প্রতিটি স্তরের র‍্যান্ডমতা একটি S-রূপান্তর ফ্যাক্টর প্রবর্তন করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

একীভূত কাঠামো: দ্বি-বিন্দু নির্ধারণীয় সমতুল্যতা সীমিত ডেটা, সীমিত মডেল আকার এবং SGD শব্দ বিশ্লেষণের জন্য একটি একীভূত গাণিতিক কাঠামো প্রদান করে।
তাত্ত্বিক সম্পূর্ণতা: সমস্ত পরিচিত ফলাফল পুনরুদ্ধার করা হয়েছে (স্থির ridge রিগ্রেশন, DMFT গতিশীলতা, একক-বিন্দু নির্ধারণীয় সমতুল্যতা), এবং নতুন পরিস্থিতিতে সম্প্রসারিত করা হয়েছে (সহভেরিয়েট শিফটের গতিশীলতা)।
পদ্ধতিগত অবদান: প্ল্যানার গ্রাফ সম্প্রসারণ এবং মুক্ত সম্ভাব্যতা তত্ত্বের সমন্বয় র‍্যান্ডম ম্যাট্রিক্স তত্ত্বের জন্য নতুন গণনা সরঞ্জাম প্রদান করে।
ভৌত অন্তর্দৃষ্টি: প্রতিক্রিয়া ফাংশন হিসাবে S-রূপান্তরের গভীর অর্থ প্রকাশ করা হয়েছে, নির্ধারণীয় সমতুল্যতা এবং DMFT-এর মধ্যে সেতু স্থাপন করা হয়েছে।

সীমাবদ্ধতা

অ্যাসিম্পটোটিক প্রকৃতি:
- ফলাফল $D, N, P \to \infty$ সীমায় সঠিক।
- সীমিত মাত্রার ত্রুটি সীমা দেওয়া হয়নি (যদিও সংখ্যাসূচক পরীক্ষা 16,17 ভাল আনুমানিকতা দেখায়)।
- অ-প্ল্যানার গ্রাফ (ওঠানামা এবং পরবর্তী-নেতৃস্থানীয় সংশোধন সংশ্লিষ্ট) বিশ্লেষণ করা হয়নি।
মডেল সীমাবদ্ধতা:
- শুধুমাত্র রৈখিক মডেল এবং রৈখিক র‍্যান্ডম ফিচারে প্রযোজ্য।
- ফিচার ম্যাট্রিক্স F অবশ্যই উচ্চ-গাউসীয় র‍্যান্ডম হতে হবে।
- ডেটা সহভেরিয়েন্স Σ নির্দিষ্ট বর্ণক্রমীয় শর্ত পূরণ করতে হবে।
প্রযুক্তিগত অনুমান:
- নির্দিষ্ট SGD পদ বাদ দিতে হবে (Eq III.1-এ মধ্য পদ)।
- ব্যাচ আকার $B = \Theta(D^\zeta)$ অনুযায়ী স্কেল করতে হবে।
- শেখার হার $\eta = \Theta(1)$ বজায় রাখতে হবে।
কঠোরতা:
- সরলীকৃত মডেলের সমতুল্যতা (Eq III.2) কঠোরভাবে প্রমাণ করা হয়নি, প্রধানত পূর্ববর্তী কাজ 21, 35-37 উদ্ধৃত করা হয়েছে।
- পরিমাণগত ত্রুটি সীমার অনুমান ভবিষ্যত কাজের জন্য রেখে দেওয়া হয়েছে।

ভবিষ্যত দিকনির্দেশনা

অ-রৈখিক মডেলে সম্প্রসারণ:
- অগভীর নিউরাল নেটওয়ার্কের দ্বি-বিন্দু সমতুল্যতা।
- কার্নেল পদ্ধতির অ-রৈখিক সংস্করণ।
সীমিত মাত্রার সংশোধন:
- 1/N, 1/P সংশোধন পদ অনুমান করা।
- পরিমাণগত ত্রুটি সীমা প্রতিষ্ঠা করা 24, 29-33।
আরও সাধারণ র‍্যান্ডমতা:
- অ-গাউসীয় ফিচার ম্যাট্রিক্স।
- কাঠামোগত র‍্যান্ডম ম্যাট্রিক্স (যেমন সার্কুলেন্ট, Toeplitz)।
অপ্টিমাইজেশন অ্যালগরিদম:
- momentum, Adam ইত্যাদি অপ্টিমাইজারে সম্প্রসারণ।
- অভিযোজিত শেখার হারের বিশ্লেষণ।
ব্যবহারিক প্রয়োগ:
- তত্ত্ব ব্যবহার করে হাইপারপ্যারামিটার নির্বাচন নির্দেশনা।
- বড় আকারের মডেলের কর্মক্ষমতা পূর্বাভাস।

গভীর মূল্যায়ন

সুবিধা

তাত্ত্বিক গভীরতা:
- প্রথমবারের মতো দ্বি-বিন্দু নির্ধারণীয় সমতুল্যতা পদ্ধতিগতভাবে অনুমান করা হয়েছে, র‍্যান্ডম ম্যাট্রিক্স তত্ত্বের একটি গুরুত্বপূর্ণ ফাঁক পূরণ করে।
- প্ল্যানার গ্রাফ পদ্ধতি জটিল গণনা মসৃণভাবে সংগঠিত করে, শক্তিশালী সম্প্রসারণযোগ্যতা প্রদর্শন করে।
- একাধিক গাণিতিক ক্ষেত্রের (র‍্যান্ডম ম্যাট্রিক্স, মুক্ত সম্ভাব্যতা, গতিশীল সিস্টেম, পরিসংখ্যানগত পদার্থবিজ্ঞান) গভীর সংযোগ প্রতিষ্ঠা করে।
একীভূতকরণ:
- একক কাঠামো একাধিক পূর্ববর্তী স্বাধীন ফলাফল একীভূত করে।
- বিভিন্ন প্রযুক্তিগত পথ (DMFT বনাম নির্ধারণীয় সমতুল্যতা) এর সমতুল্যতা স্পষ্ট করা হয়েছে।
- স্থির থেকে গতিশীল, সীমিত থেকে অসীম পর্যন্ত মসৃণ রূপান্তর।
প্রযুক্তিগত উদ্ভাবন:
- মিশ্র R-রূপান্তরের প্রবর্তন দুটি পরামিতির সংযোগ চতুরভাবে পরিচালনা করে।
- স্তরযুক্ত পুনর্নিয়ন্ত্রণের ধারণা বহু-র‍্যান্ডম-উৎসের প্রভাব স্পষ্টভাবে প্রদর্শন করে।
- ফুরিয়ার স্থান বিশ্লেষণ জটিল সময় বিবর্তনকে বীজগণিত সমস্যায় রূপান্তরিত করে।
সম্পূর্ণতা:
- বিস্তৃত পরিশিষ্ট সমস্ত ভেরিয়েন্ট সূত্র অন্তর্ভুক্ত করে।
- একাধিক সামঞ্জস্য পরীক্ষা তাত্ত্বিক সঠিকতা যাচাই করে।
- স্পষ্ট প্রতীক সিস্টেম এবং চিত্র বোঝা সহায়তা করে।
প্রভাব সম্ভাবনা:
- আরও জটিল মডেল বিশ্লেষণের জন্য সরঞ্জাম বাক্স প্রদান করে।
- নতুন সংখ্যাসূচক অ্যালগরিদম অনুপ্রাণিত করতে পারে (নির্ধারণীয় সমতুল্যতার উপর ভিত্তি করে দ্রুত সিমুলেশন)।
- গভীর শিক্ষার স্কেলিং আইন বোঝার জন্য তাত্ত্বিক ভিত্তি প্রদান করে।

অপূর্ণতা

পাঠযোগ্যতা চ্যালেঞ্জ:
- র‍্যান্ডম ম্যাট্রিক্স তত্ত্বের গভীর পটভূমি প্রয়োজন।
- প্রতীক সিস্টেম জটিল (বহু-স্তরের সাবস্ক্রিপ্ট, একাধিক S-রূপান্তর)।
- প্রধান ফলাফল (Eq IV.2, VI.2) জটিল আকার, সরাসরি বোঝা কঠিন।
পরীক্ষামূলক যাচাইকরণ অপর্যাপ্ত:
- পেপার নতুন সংখ্যাসূচক পরীক্ষা প্রদান করে না।
- সম্পূর্ণভাবে উদ্ধৃত সাহিত্য 16, 17 এর যাচাইকরণের উপর নির্ভর করে।
- তাত্ত্বিক পূর্বাভাসের নির্ভুলতার পদ্ধতিগত মূল্যায়ন অনুপস্থিত (যেমন বিভিন্ন D, N, P-এ ত্রুটি)।
প্রয়োগ নির্দেশনা সীমিত:
- তাত্ত্বিক ফলাফল জটিল স্ব-সামঞ্জস্যপূর্ণ সমীকরণ সমাধান প্রয়োজন (যেমন κ গণনা)।
- ব্যবহারিক অ্যালগরিদম বা কোড বাস্তবায়ন প্রদান করা হয়নি।
- প্রকৃত গভীর শিক্ষার জন্য নির্দেশনা পরিষ্কার নয়।
প্রযুক্তিগত অনুমানের যুক্তিসঙ্গততা:
- Eq III.1-এ মধ্য পদ বাদ দেওয়ার যুক্তি সম্পূর্ণ কঠোর নয় (বিশেষত ζ=0 ক্ষেত্রে)।
- সরলীকৃত মডেলের প্রযোজ্যতার শর্ত সম্পূর্ণভাবে চিহ্নিত করা হয়নি।
- ডেটা কাঠামোর অনুমান (বর্ণক্রমীয় ক্ষয় গতি) শক্তিশালী।
সাধারণীকরণ সীমাবদ্ধতা:
- গাউসীয় অনুমান বাস্তবে প্রায়ই পূরণ হয় না।
- রৈখিক মডেল এবং প্রকৃত নিউরাল নেটওয়ার্কের মধ্যে বড় ব্যবধান।
- ব্যাচ আকারের স্কেলিং প্রয়োজন বাস্তবে অবাস্তব হতে পারে।

প্রভাব মূল্যায়ন

একাডেমিক সম্প্রদায়ের অবদান:

তাত্ত্বিক ভিত্তি: উচ্চ-মাত্রিক পরিসংখ্যান এবং মেশিন লার্নিং তত্ত্বের জন্য নতুন সরঞ্জাম প্রদান করে, ব্যাপক উদ্ধৃতি প্রত্যাশিত।
পদ্ধতিবিদ্যা: প্ল্যানার গ্রাফ পদ্ধতি এবং দ্বি-বিন্দু কৌশল অন্যান্য সমস্যার গবেষণা অনুপ্রাণিত করতে পারে।
একীভূত দৃষ্টিভঙ্গি: একাধিক গবেষণা সম্প্রদায় সংযুক্ত করে (পরিসংখ্যানগত পদার্থবিজ্ঞান, র‍্যান্ডম ম্যাট্রিক্স, মেশিন লার্নিং তত্ত্ব)।

ব্যবহারিক মূল্য:

স্বল্পমেয়াদী: প্রধানত তাত্ত্বিক মূল্য, সরাসরি প্রয়োগ সীমিত।
মধ্যমেয়াদী: মডেল ডিজাইন এবং হাইপারপ্যারামিটার নির্বাচনে নির্দেশনা দিতে পারে (যেমন সর্বোত্তম P/N অনুপাত)।
দীর্ঘমেয়াদী: বড় আকারের মডেল আচরণ বোঝা এবং পূর্বাভাসের জন্য তাত্ত্বিক ভিত্তি প্রদান করে।

পুনরুৎপাদনযোগ্যতা:

তাত্ত্বিক অনুমান বিস্তারিত, নীতিগতভাবে সম্পূর্ণভাবে পুনরুৎপাদনযোগ্য।
কোড বাস্তবায়নের অভাব ব্যবহারিক প্রয়োগের প্রবেশদ্বার কমায়।
সংখ্যাসূচক যাচাইকরণ পূর্ববর্তী কাজের উপর নির্ভর করে, স্বাধীন যাচাইকরণ অতিরিক্ত কাজ প্রয়োজন।

প্রযোজ্য পরিস্থিতি

সবচেয়ে উপযুক্ত পরিস্থিতি:

উচ্চ-মাত্রিক রৈখিক মডেল: P, N, D সব বড় এবং অনুপাত স্থির রিগ্রেশন সমস্যা।
তাত্ত্বিক বিশ্লেষণ: সঠিক অ্যাসিম্পটোটিক আচরণ প্রয়োজনীয় তাত্ত্বিক গবেষণা।
স্কেলিং আইন পূর্বাভাস: মডেল কর্মক্ষমতা স্কেল পরিবর্তনের প্রবণতা পূর্বাভাস।
সহভেরিয়েট শিফট: প্রশিক্ষণ এবং পরীক্ষা বিতরণ ভিন্ন পরিস্থিতি।

কম উপযুক্ত পরিস্থিতি:

ছোট নমুনা সমস্যা: অ্যাসিম্পটোটিক তত্ত্ব প্রযোজ্য নয়।
অ-রৈখিক গভীর নেটওয়ার্ক: তত্ত্ব আরও সম্প্রসারণ প্রয়োজন।
অ-গাউসীয় ডেটা: তাত্ত্বিক অনুমান পূরণ হয় না।
রিয়েল-টাইম প্রয়োগ: স্ব-সামঞ্জস্যপূর্ণ সমীকরণ সমাধান ধীর হতে পারে।

সম্ভাব্য প্রয়োগ দিকনির্দেশনা:

নিউরাল আর্কিটেকচার অনুসন্ধানে কর্মক্ষমতা পূর্বাভাস।
ডেটা অধিগ্রহণ কৌশল অপ্টিমাইজেশন (কখন ডেটা সংগ্রহ বন্ধ করতে হবে)।
মডেল সংকোচন এবং জ্ঞান পাতন এর তাত্ত্বিক নির্দেশনা।
স্থানান্তর শিক্ষা এবং ডোমেইন অভিযোজনের তাত্ত্বিক ভিত্তি।

নির্বাচিত রেফারেন্স

16 B. Bordelon, A. Atanasov, and C. Pehlevan, "A dynamical model of neural scaling laws," ICML 2024.

17 E. Paquette, C. Paquette, L. Xiao, and J. Pennington, "4 + 3 phases of compute-optimal neural scaling laws," arXiv:2405.15074, 2024.

20 A. Atanasov, J. A. Zavatone-Veth, and C. Pehlevan, "Scaling and renormalization in high-dimensional regression," arXiv:2405.00592, 2024.

24 M. Potters and J.-P. Bouchaud, "A first course in random matrix theory," Cambridge University Press, 2020.

26 A. Atanasov, J. A. Zavatone-Veth, and C. Pehlevan, "Risk and cross validation in ridge regression with correlated samples," arXiv:2408.04607, 2024.

সামগ্রিক মূল্যায়ন: এটি একটি অসাধারণ উচ্চ তাত্ত্বিক গভীরতার পেপার, যা উচ্চ-মাত্রিক রৈখিক মডেলে SGD গতিশীলতার জন্য একটি একীভূত এবং মার্জিত গাণিতিক কাঠামো প্রদান করে। দ্বি-বিন্দু নির্ধারণীয় সমতুল্যতার অনুমান একটি গুরুত্বপূর্ণ তাত্ত্বিক অবদান, প্ল্যানার গ্রাফ পদ্ধতি শক্তিশালী প্রযুক্তিগত দক্ষতা প্রদর্শন করে। যদিও সরাসরি প্রয়োগ সীমিত এবং পাঠযোগ্যতা চ্যালেঞ্জিং, তবে মেশিন লার্নিং তত্ত্বের দীর্ঘমেয়াদী উন্নয়নের জন্য গুরুত্বপূর্ণ মূল্য রয়েছে। পরবর্তী কাজ সংখ্যাসূচক যাচাইকরণ সম্পূরক করা, ব্যবহারিক অ্যালগরিদম প্রদান করা এবং অ-রৈখিক মডেলে সম্প্রসারণ অন্বেষণ করা সুপারিশ করা হয়।