Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Models
Atanasov, Bordelon, Zavatone-Veth et al.
We derive a novel deterministic equivalence for the two-point function of a random matrix resolvent. Using this result, we give a unified derivation of the performance of a wide variety of high-dimensional linear models trained with stochastic gradient descent. This includes high-dimensional linear regression, kernel regression, and linear random feature models. Our results include previously known asymptotics as well as novel ones.
academic
রৈখিক মডেলে স্টোকাস্টিক গ্রেডিয়েন্ট ডায়নামিক্সের জন্য দ্বি-বিন্দু নির্ধারণীয় সমতুল্যতা
শিরোনাম: Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Models
লেখক: Alexander Atanasov, Blake Bordelon, Jacob A. Zavatone-Veth, Courtney Paquette, Cengiz Pehlevan (হার্ভার্ড বিশ্ববিদ্যালয়, ম্যাকগিল বিশ্ববিদ্যালয় এবং অন্যান্য প্রতিষ্ঠান থেকে)
শ্রেণীবিভাগ: cond-mat.dis-nn, cs.LG, stat.ML
প্রকাশনার সময়: arXiv v3, ২০২৫ সালের নভেম্বর ১০ তারিখ
এই পেপারটি র্যান্ডম ম্যাট্রিক্স রেজোলভেন্টের দ্বি-বিন্দু ফাংশনের জন্য একটি নতুন ধরনের নির্ধারণীয় সমতুল্যতা (deterministic equivalence) তত্ত্ব উপস্থাপন করে। এই ফলাফলের উপর ভিত্তি করে, লেখকরা স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট (SGD) প্রশিক্ষণের অধীনে বিভিন্ন উচ্চ-মাত্রিক রৈখিক মডেলের কর্মক্ষমতা একীভূতভাবে অনুমান করেছেন, যার মধ্যে রয়েছে উচ্চ-মাত্রিক রৈখিক রিগ্রেশন, কার্নেল রিগ্রেশন এবং রৈখিক র্যান্ডম ফিচার মডেল। গবেষণার ফলাফল পরিচিত অ্যাসিম্পটোটিক আচরণ এবং নতুন তাত্ত্বিক আবিষ্কার উভয়ই অন্তর্ভুক্ত করে।
আধুনিক গভীর শিক্ষায় একটি মূল ঘটনা বিদ্যমান: মডেল কর্মক্ষমতা ডেটা স্কেল, মডেল আকার এবং গণনার পরিমাণ বৃদ্ধির সাথে সাথে পূর্বাভাসযোগ্য শক্তি-আইন আচরণ প্রদর্শন করে (নিউরাল স্কেলিং আইন)। এই স্কেলিং আচরণের তাত্ত্বিক ভিত্তি বোঝা মেশিন লার্নিং তত্ত্বের একটি গুরুত্বপূর্ণ চ্যালেঞ্জ।
একীভূত তাত্ত্বিক কাঠামোর প্রয়োজন: বিদ্যমান কাজ বিভিন্ন পদ্ধতি (যেমন গতিশীল গড় ক্ষেত্র তত্ত্ব DMFT, নির্ধারণীয় সমতুল্যতা কৌশল) ব্যবহার করে সীমিত প্রস্থ, সীমিত ডেটা, SGD শব্দ ইত্যাদি প্রভাব আলাদাভাবে অধ্যয়ন করেছে, একটি একীভূত কাঠামোর অভাব রয়েছে।
অ-বিনিময়যোগ্যতা চ্যালেঞ্জ: যখন ডেটা সহভেরিয়েন্স ম্যাট্রিক্স Σ, অভিজ্ঞতামূলক সহভেরিয়েন্স Σ̂ এবং র্যান্ডম ফিচার ম্যাট্রিক্স FF⊤ বিনিময়যোগ্য নয়, তখন ঐতিহ্যবাহী একক-বিন্দু নির্ধারণীয় সমতুল্যতা পদ্ধতি ব্যর্থ হয়।
একক-বিন্দু নির্ধারণীয় সমতুল্যতা: শুধুমাত্র ম্যাট্রিক্স বিনিময়যোগ্য ক্ষেত্রে পরিচালনা করতে পারে (যেমন অসীম ডেটা P→∞ বা র্যান্ডম ফিচার ছাড়া রৈখিক রিগ্রেশন)।
DMFT পদ্ধতি: যদিও সাধারণ ক্ষেত্রে পরিচালনা করতে পারে, কিন্তু প্রযুক্তিগত জটিলতা বেশি এবং র্যান্ডম ম্যাট্রিক্স তত্ত্বের সাথে সরাসরি সংযোগের অভাব রয়েছে।
বিচ্ছিন্ন ফলাফল: বিভিন্ন কাজ বিভিন্ন কৌশল ব্যবহার করে আংশিক ফলাফল পেয়েছে, একটি একীভূত গাণিতিক কাঠামোর অভাব রয়েছে।
এই পেপারটি দ্বি-বিন্দু নির্ধারণীয় সমতুল্যতা তত্ত্ব বিকাশের মাধ্যমে, উচ্চ-মাত্রিক রৈখিক মডেলে SGD-এর সম্পূর্ণ গতিশীল আচরণ বিশ্লেষণ করার জন্য একটি একীভূত গাণিতিক কাঠামো প্রদান করার লক্ষ্য রাখে, যার মধ্যে সীমিত ডেটা, সীমিত মডেল আকার এবং SGD শব্দের যৌথ প্রভাব অন্তর্ভুক্ত।
নতুন দ্বি-বিন্দু নির্ধারণীয় সমতুল্যতা তত্ত্ব: প্রথমবারের মতো বিভিন্ন পরামিতি (λ, λ') এ র্যান্ডম ম্যাট্রিক্স রেজোলভেন্টের দ্বি-বিন্দু ফাংশনের নির্ধারণীয় সমতুল্যতা সূত্র পদ্ধতিগতভাবে অনুমান করা হয়েছে।
একীভূত গতিশীল বিশ্লেষণ কাঠামো: SGD গতিশীলতাকে গ্রেডিয়েন্ট প্রবাহ পদ (forcing term) এবং SGD কার্নেল পদ (kernel term) এ বিভক্ত করা হয়েছে এবং ফ্রিকোয়েন্সি ডোমেইনে ফুরিয়ার রূপান্তরের মাধ্যমে বিশ্লেষণ করা হয়েছে।
বিদ্যমান ফলাফল পুনরুদ্ধার এবং সম্প্রসারণ:
Bordelon এবং অন্যদের 16 দ্বারা DMFT এর মাধ্যমে পাওয়া ফলাফল পুনরুদ্ধার করা হয়েছে।
Paquette এবং অন্যদের 17 দ্বারা একক-বিন্দু নির্ধারণীয় সমতুল্যতা ব্যবহার করে পাওয়া ফলাফল পুনরুদ্ধার করা হয়েছে।
সহভেরিয়েট শিফট (covariate shift) এর মতো নতুন পরিস্থিতিতে সম্প্রসারিত করা হয়েছে।
মুক্ত সম্ভাব্যতা তত্ত্বের সাথে সংযোগ: গতিশীল সিস্টেমে প্রতিক্রিয়া ফাংশন হিসাবে S-রূপান্তরের নতুন ব্যাখ্যা প্রকাশ করা হয়েছে, নির্ধারণীয় সমতুল্যতা এবং DMFT-এর মধ্যে একটি সেতু স্থাপন করা হয়েছে।
প্ল্যানার গ্রাফ সম্প্রসারণ কৌশল: প্ল্যানার গ্রাফ সম্প্রসারণ এবং মুক্ত সংগ্রহকারী (free cumulants) ব্যবহার করে দ্বি-বিন্দু সমতুল্যতা সূত্র পদ্ধতিগতভাবে অনুমান করা হয়েছে।
র্যান্ডম ম্যাট্রিক্সের জন্য (λ+AB)−1M(λ′+BA)−1, যেখানে A, M নির্ধারণীয় ম্যাট্রিক্স, B হল A থেকে স্বাধীন সাদা Wishart ম্যাট্রিক্স, একটি নির্ধারণীয় সমতুল্যতা রয়েছে:
দ্বি-ফ্রিকোয়েন্সি বিশ্লেষণ: প্রথমবারের মতো (ω,ω′) এর যৌথ নির্ভরতা পদ্ধতিগতভাবে পরিচালনা করা হয়েছে, অ-বিনিময়যোগ্য প্রভাব ক্যাপচার করে।
প্ল্যানার গ্রাফ পদ্ধতি: গ্রাফ তত্ত্ব ভাষার মাধ্যমে জটিল ম্যাট্রিক্স গড় গণনা স্পষ্টভাবে সংগঠিত করা হয়েছে।
S-রূপান্তরের নতুন ব্যাখ্যা: গতিশীল প্রতিক্রিয়া ফাংশন হিসাবে S-রূপান্তরের ভৌত অর্থ প্রকাশ করা হয়েছে, মুক্ত সম্ভাব্যতা তত্ত্ব এবং গতিশীল সিস্টেম তত্ত্ব সংযুক্ত করা হয়েছে।
স্তরযুক্ত পুনর্নিয়ন্ত্রণ: র্যান্ডম ফিচার মডেলে, ফ্রিকোয়েন্সি ক্রমাগত ডেটা এবং ফিচারের র্যান্ডমতা দ্বারা পুনর্নিয়ন্ত্রিত হয়। প্রতিটি র্যান্ডম উৎস একটি S-রূপান্তর ফ্যাক্টর প্রবর্তন করে।
নরম সীমা স্থির পুনরুদ্ধার: limt→∞F(t)=limω,ω′→0(iω)(iω′)F(ω,ω′) এর মাধ্যমে মসৃণভাবে স্থির ফলাফল পুনরুদ্ধার করা হয়েছে।
নোট: এটি একটি বিশুদ্ধ তাত্ত্বিক কাজ, প্রধানত গাণিতিক অনুমানের মাধ্যমে তত্ত্বের সঠিকতা যাচাই করা হয়েছে। পরীক্ষামূলক যাচাইকরণ প্রধানত সম্পর্কিত কাজ 16, 17 এ সংখ্যাসূচক পরীক্ষা উদ্ধৃত করা হয়েছে।
একীভূত কাঠামো: দ্বি-বিন্দু নির্ধারণীয় সমতুল্যতা সীমিত ডেটা, সীমিত মডেল আকার এবং SGD শব্দ বিশ্লেষণের জন্য একটি একীভূত গাণিতিক কাঠামো প্রদান করে।
তাত্ত্বিক সম্পূর্ণতা: সমস্ত পরিচিত ফলাফল পুনরুদ্ধার করা হয়েছে (স্থির ridge রিগ্রেশন, DMFT গতিশীলতা, একক-বিন্দু নির্ধারণীয় সমতুল্যতা), এবং নতুন পরিস্থিতিতে সম্প্রসারিত করা হয়েছে (সহভেরিয়েট শিফটের গতিশীলতা)।
পদ্ধতিগত অবদান: প্ল্যানার গ্রাফ সম্প্রসারণ এবং মুক্ত সম্ভাব্যতা তত্ত্বের সমন্বয় র্যান্ডম ম্যাট্রিক্স তত্ত্বের জন্য নতুন গণনা সরঞ্জাম প্রদান করে।
ভৌত অন্তর্দৃষ্টি: প্রতিক্রিয়া ফাংশন হিসাবে S-রূপান্তরের গভীর অর্থ প্রকাশ করা হয়েছে, নির্ধারণীয় সমতুল্যতা এবং DMFT-এর মধ্যে সেতু স্থাপন করা হয়েছে।
16 B. Bordelon, A. Atanasov, and C. Pehlevan, "A dynamical model of neural scaling laws," ICML 2024.
17 E. Paquette, C. Paquette, L. Xiao, and J. Pennington, "4 + 3 phases of compute-optimal neural scaling laws," arXiv:2405.15074, 2024.
20 A. Atanasov, J. A. Zavatone-Veth, and C. Pehlevan, "Scaling and renormalization in high-dimensional regression," arXiv:2405.00592, 2024.
24 M. Potters and J.-P. Bouchaud, "A first course in random matrix theory," Cambridge University Press, 2020.
26 A. Atanasov, J. A. Zavatone-Veth, and C. Pehlevan, "Risk and cross validation in ridge regression with correlated samples," arXiv:2408.04607, 2024.
সামগ্রিক মূল্যায়ন: এটি একটি অসাধারণ উচ্চ তাত্ত্বিক গভীরতার পেপার, যা উচ্চ-মাত্রিক রৈখিক মডেলে SGD গতিশীলতার জন্য একটি একীভূত এবং মার্জিত গাণিতিক কাঠামো প্রদান করে। দ্বি-বিন্দু নির্ধারণীয় সমতুল্যতার অনুমান একটি গুরুত্বপূর্ণ তাত্ত্বিক অবদান, প্ল্যানার গ্রাফ পদ্ধতি শক্তিশালী প্রযুক্তিগত দক্ষতা প্রদর্শন করে। যদিও সরাসরি প্রয়োগ সীমিত এবং পাঠযোগ্যতা চ্যালেঞ্জিং, তবে মেশিন লার্নিং তত্ত্বের দীর্ঘমেয়াদী উন্নয়নের জন্য গুরুত্বপূর্ণ মূল্য রয়েছে। পরবর্তী কাজ সংখ্যাসূচক যাচাইকরণ সম্পূরক করা, ব্যবহারিক অ্যালগরিদম প্রদান করা এবং অ-রৈখিক মডেলে সম্প্রসারণ অন্বেষণ করা সুপারিশ করা হয়।