2025-11-21T22:28:16.015152

Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models

Han
Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
academic

গভীর নিউরাল নেটওয়ার্ক এবং বৃহৎ ভাষা মডেলে ওজন আরম্ভীকরণ এবং ভেরিয়েন্স গতিশীলতা

মৌলিক তথ্য

  • পেপার আইডি: 2510.09423
  • শিরোনাম: Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
  • লেখক: Yankun Han (ফ্লোরিডা বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.LG (মেশিন লার্নিং)
  • প্রকাশনার সময়: ২০২৫ সালের ১০ অক্টোবর (arXiv প্রাক-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.09423

সারসংক্ষেপ

ওজন আরম্ভীকরণ প্রশিক্ষণের শুরুতে সংকেত প্রচার এবং গ্রেডিয়েন্ট প্রবাহ নিয়ন্ত্রণ করে। এই পেপারটি দুটি ক্ষেত্রে একটি তাত্ত্বিকভাবে দৃঢ় এবং অভিজ্ঞতামূলকভাবে যাচাইকৃত গবেষণা প্রদান করে: সংক্ষিপ্ত ReLU বহুস্তরীয় পারসেপ্ট্রন এবং GPT-2 শৈলীর ট্রান্সফর্মার। প্রথমত, প্রাথমিক মান বিচ্যুতির লগারিদমিক স্ক্যানের মাধ্যমে, গ্রেডিয়েন্ট অন্তর্ধান এবং বিস্ফোরণ অঞ্চল ম্যাপ করা হয়েছে এবং ১e-২ থেকে ১e-১ এর মধ্যে মান বিচ্যুতির একটি বিস্তৃত স্থিতিশীল ব্যান্ড চিহ্নিত করা হয়েছে। দ্বিতীয়ত, নিয়ন্ত্রিত তুলনা দেখায় যে ReLU সক্রিয়করণ ফাংশনের অধীনে, Kaiming (fan-in) আরম্ভীকরণ Xavier আরম্ভীকরণের চেয়ে দ্রুত এবং আরও স্থিতিশীলভাবে সংযুক্ত হয়, যা ভেরিয়েন্স সংরক্ষণ তত্ত্বের সাথে সামঞ্জস্যপূর্ণ। তৃতীয়ত, শূন্য থেকে নির্মিত ১২-স্তরীয় GPT-2 শৈলীর মডেলে, এই পেপারটি প্রাক-প্রশিক্ষণ প্রক্রিয়ার সময় সমস্ত স্তরের Q/K/V ওজন ভেরিয়েন্সের পরিবর্তন ট্র্যাক করে, গভীরতা-সম্পর্কিত ভারসাম্য ঘটনা পর্যবেক্ষণ করে: অগভীর স্তরগুলি দ্রুত প্রসারিত হয়, যখন গভীর স্তরগুলি আরও ক্রমান্বয়ে পরিবর্তিত হয়।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণা যে মূল সমস্যা সমাধান করতে চায় তা হল গভীর নিউরাল নেটওয়ার্ক এবং বৃহৎ ভাষা মডেলে ওজন আরম্ভীকরণের প্রশিক্ষণ স্থিতিশীলতা এবং সংযোগের উপর প্রভাব। এতে নির্দিষ্টভাবে অন্তর্ভুক্ত রয়েছে:

১. আরম্ভীকরণ স্কেল সংবেদনশীলতা: বিভিন্ন প্রাথমিক মান বিচ্যুতি প্রশিক্ষণের স্থিতিশীলতাকে কীভাবে প্রভাবিত করে २. সক্রিয়করণ ফাংশন বিশেষত্ব: ReLU এবং GELU এর মতো সক্রিয়করণ ফাংশনগুলির জন্য নির্দিষ্ট আরম্ভীকরণ কৌশল প্রয়োজন কিনা ३. আধুনিক ট্রান্সফর্মারের ভেরিয়েন্স গতিশীলতা: বৃহৎ ট্রান্সফর্মার মডেলে ভেরিয়েন্স স্থিতিশীলকরণ অব্যাহত থাকে কিনা

গুরুত্ব

ওজন আরম্ভীকরণ গভীর শেখার প্রশিক্ষণ সাফল্যের একটি মূল কারণ, অনুপযুক্ত আরম্ভীকরণ নিম্নলিখিত ঘটায়:

  • গ্রেডিয়েন্ট অন্তর্ধান: সংকেত গভীর নেটওয়ার্কে স্তর দ্বারা স্তর হ্রাস পায়
  • গ্রেডিয়েন্ট বিস্ফোরণ: সংকেত প্রচারের সময় সূচকীয়ভাবে বৃদ্ধি পায়
  • প্রশিক্ষণ অস্থিতিশীলতা: অপ্টিমাইজেশন প্রক্রিয়ায় দোলন এবং বিচ্যুতি

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

ক্লাসিক্যাল আরম্ভীকরণ পদ্ধতি (LeCun, Xavier/Glorot, He/Kaiming) যদিও তাত্ত্বিকভাবে ভেরিয়েন্স সংরক্ষণের স্বজ্ঞা রয়েছে, তবুও বাস্তব প্রয়োগে নিম্নলিখিত সমস্যা রয়েছে: १. আদর্শ স্কেলের বিচ্যুতির প্রতি সংবেদনশীলতা পর্যাপ্তভাবে পরিমাণ করা হয়নি २. নির্দিষ্ট সক্রিয়করণ ফাংশন (যেমন ReLU, GELU) এর প্রভাব প্রক্রিয়া অস্পষ্ট ३. বৃহৎ ট্রান্সফর্মারে কর্মক্ষমতা সিস্টেমেটিক গবেষণার অভাব

মূল অবদান

१. একীভূত ভেরিয়েন্স বিশ্লেষণ কাঠামো: সাধারণ সক্রিয়করণ ফাংশন (ReLU, GELU) এর সামনের এবং পিছনের ভেরিয়েন্স প্রচার শর্ত উদ্ভাবন করা হয়েছে, ব্যাখ্যা করে কীভাবে fan-in স্কেলিং সংকেত প্রশস্ততা সংরক্ষণ করে এবং ReLU তে ফ্যাক্টর ২ এর উৎস

२. স্কেল সংবেদনশীলতা পরিমাণকরণ: ২৫টি মান বিচ্যুতি মানের লগারিদমিক স্ক্যানের মাধ্যমে, গ্রেডিয়েন্ট অন্তর্ধান/বিস্ফোরণ অঞ্চল ম্যাপ করা হয়েছে, স্থিতিশীল প্রশিক্ষণ ব্যান্ড σ ∈ 10⁻², 10⁻¹ চিহ্নিত করা হয়েছে

३. সক্রিয়করণ ফাংশন সচেতন আরম্ভীকরণ যাচাইকরণ: নিয়ন্ত্রিত ReLU MLP প্রশিক্ষণে, Kaiming normal (fan-in) Xavier normal এর চেয়ে দ্রুত সংযুক্ত হয় এবং ক্ষতি ভেরিয়েন্স ছোট হয় তা প্রমাণিত হয়েছে

४. ট্রান্সফর্মার ভেরিয়েন্স গতিশীলতা বিশ্লেষণ: শূন্য থেকে নির্মিত ১२-স্তরীয় GPT-२ শৈলীর মডেলে, স্পষ্ট গভীরতা-সম্পর্কিত প্যাটার্ন আবিষ্কৃত হয়েছে: অগভীর স্তরের ওজন মান বিচ্যুতি দ্রুত প্রসারিত হয়, গভীর স্তর আরও ক্রমান্বয়ে, চূড়ান্তভাবে সবাই সংকীর্ণ ভেরিয়েন্স ব্যান্ডে স্থিতিশীল হয়

পদ্ধতি বিস্তারিত

তাত্ত্বিক কাঠামো

সামনের প্রচার ভেরিয়েন্স বিশ্লেষণ

রৈখিক ম্যাপিংয়ের জন্য:

Var[z_l] = n_in σ²_W Var[x_{l-1}]

অরৈখিক সক্রিয়করণের পরে:

Var[x_l] ≈ c_φ n_in σ²_W Var[x_{l-1}]

যেখানে c_φ = E[φ(z)²]/Var[z] সক্রিয়করণ ফাংশন সম্পর্কিত ধ্রুবক।

সক্রিয়করণ মান অন্তর্ধান বা বিস্ফোরণ এড়াতে, σ²_W ≈ 1/(c_φ n_in) নির্বাচন করুন:

  • ReLU: c_φ ≈ 1/2, তাই σ²_W ≈ 2/n_in (He/Kaiming)
  • GELU: c_φ ≈ 0.45-0.5, ReLU এর চেয়ে সামান্য ছোট

পিছনের প্রচার ভেরিয়েন্স বিশ্লেষণ

বিপরীত প্রচার দেয়:

Var[δ_{l-1}] ≈ n_out σ²_W d_φ Var[δ_l]

যেখানে d_φ = E[φ'(z)²]। ReLU এর জন্য, d_φ = 1/2, গ্রেডিয়েন্ট ভেরিয়েন্স ভারসাম্যের জন্য σ²_W ≈ 2/n_out প্রয়োজন।

ভারসাম্য এবং ব্যবহারিক পছন্দ

সামনের এবং পিছনের সংরক্ষণ শর্ত সাধারণত একসাথে সন্তুষ্ট করা যায় না, যদি না n_in ≈ n_out এবং c_φ ≈ d_φ। ব্যবহারিকভাবে, সামনের সংকেত স্থিতিশীলতা সংরক্ষণ সাধারণত আরও গুরুত্বপূর্ণ, যা ব্যাখ্যা করে কেন fan-in He/Kaiming Xavier এর চেয়ে দ্রুত সংযুক্ত হয়।

পরীক্ষামূলক ডিজাইন

পরীক্ষা E1: মান বিচ্যুতি স্ক্যান

  • নেটওয়ার্ক আর্কিটেকচার: 784→64→32→32→10 এর ReLU MLP
  • ডেটাসেট: MNIST
  • স্ক্যান পরিসীমা: ২५টি মান বিচ্যুতি মান, 10⁻⁴ থেকে 10, লগারিদমিক ব্যবধান
  • মূল্যায়ন মেট্রিক্স: ক্ষতি ট্র্যাজেক্টরি, শ্রেণীবিভাগ নির্ভুলতা

পরীক্ষা E2: Xavier বনাম Kaiming তুলনা

  • নেটওয়ার্ক আর্কিটেকচার: 11→16→32→32→1 এর ReLU নেটওয়ার্ক
  • ডেটাসেট: UCI Wine দ্বিশ্রেণী কাজ
  • তুলনা স্কিম: Xavier normal বনাম Kaiming uniform
  • পরিসংখ্যানগত যাচাইকরণ: १० বার র্যান্ডম চালানো, জোড়া t পরীক্ষা

পরীক্ষা E3: GPT-2 ভেরিয়েন্স গতিশীলতা

  • মডেল স্কেল: १२-স্তরীয় GPT-२ শৈলী ট্রান্সফর্মার
  • আরম্ভীকরণ: মান কনফিগারেশন (বেশিরভাগ মডিউল std=0.02, এম্বেডিং স্তর xavier normal)
  • অপ্টিমাইজার: AdamW, শেখার হার १×१०⁻⁴, ব্যাচ আকার १६
  • ট্র্যাকিং লক্ষ্য: সমস্ত স্তরের Q/K/V প্রজেকশন ওজন মান বিচ্যুতি

পরীক্ষামূলক ফলাফল

E1: মান বিচ্যুতি স্ক্যান ফলাফল

  • স্থিতিশীল ব্যবধান: σ ∈ 10⁻², 10⁻¹ এর মধ্যে প্রশিক্ষণ মসৃণ, গ্রেডিয়েন্ট কর্মক্ষমতা ভাল, নির্ভুলতা এই ব্যবধানে শীর্ষে পৌঁছায়
  • গ্রেডিয়েন্ট অন্তর্ধান: অত্যন্ত ছোট স্কেল (σ ≲ 10⁻³) আপডেট অন্তর্ধান এবং নির্ভুলতা হ্রাস ঘটায়
  • গ্রেডিয়েন্ট বিস্ফোরণ: অত্যন্ত বড় স্কেল (σ ≳ 1) অস্থির ক্ষতি এবং মাঝেমধ্যে বিচ্যুতি উৎপন্ন করে

E2: আরম্ভীকরণ পদ্ধতি তুলনা

Kaiming আরম্ভীকরণ একাধিক মাত্রায় ধারাবাহিকভাবে Xavier এর চেয়ে উন্নত:

  • সংযোগ গতি: লক্ষ্য অর্জনের মধ্যম সংখ্যক পুনরাবৃত্তি কম, প্রাথমিক ক্ষতি হ্রাস আরও খাড়া
  • নির্ভুলতা: চূড়ান্ত যাচাইকরণ নির্ভুলতা Xavier এর সাথে মেলে বা সামান্য অতিক্রম করে
  • পরিসংখ্যানগত তাৎপর্য: জোড়া t পরীক্ষা ক্ষতি এবং প্রশিক্ষণ নির্ভুলতা পার্থক্য উল্লেখযোগ্য দেখায় (p < 0.05)

E3: ট্রান্সফর্মার ভেরিয়েন্স গতিশীলতা আবিষ্কার

  • গভীরতা-সম্পর্কিত প্যাটার্ন: অগভীর স্তরগুলি প্রাথমিক প্রশিক্ষণে দ্রুত এবং উল্লেখযোগ্য ওজন মান বিচ্যুতি প্রসার প্রদর্শন করে, গভীর স্তরগুলি আরও ধীর এবং মসৃণ প্রসার প্রদর্শন করে
  • ভেরিয়েন্স ভারসাম্য: সমস্ত স্তর চূড়ান্তভাবে সংকীর্ণ ভেরিয়েন্স ব্যান্ডে স্থিতিশীল হয়
  • বিতরণ বিরলতা: প্রশিক্ষণের পরে ওজন বিতরণ আরও বিরল হয়ে ওঠে, অনেক শূন্যের কাছাকাছি প্রবেশ অপরিবর্তিত থাকে, কয়েকটি বড় ওজন প্রাধান্য বিস্তার করে

তাত্ত্বিক অন্তর্দৃষ্টি এবং ব্যবহারিক তাৎপর্য

গভীরতা-সম্পর্কিত ভেরিয়েন্স ভারসাম্য প্রক্রিয়া

পেপারটি ট্রান্সফর্মারে ক্রমান্বয়ী ভারসাম্য প্যাটার্ন প্রকাশ করে: १. অগভীর স্তর দ্রুত অভিযোজন: ইনপুটের কাছাকাছি স্তরগুলি উচ্চ সংকেত-থেকে-শব্দ অনুপাত গ্রেডিয়েন্ট রয়েছে, প্রাথমিক আক্রমণাত্মক স্কেলিং উৎসাহিত করে २. গভীর স্তর ক্রমান্বয় সমন্বয়: অবশিষ্ট পথ দৈর্ঘ্য এবং প্রাক-নর্মালাইজেশন গভীর স্তরের কার্যকর পদক্ষেপ সীমাবদ্ধ করে ३. অন্তর্নিহিত সীমাবদ্ধতা: মনোযোগ softmax স্যাচুরেশন এবং AdamW তে ওজন ক্ষয় বড় প্যারামিটার স্কেল প্রতিরোধ করে

ব্যবহারিক নির্দেশনা নীতি

१. ReLU/GELU MLP: fan-in He/Kaiming থেকে শুরু করুন; যদি অত্যন্ত অসম স্তরগুলি গ্রেডিয়েন্ট বিচ্যুতি ঘটায়, fan-average পছন্দের দিকে সামান্য সরান २. গভীর অবশিষ্ট স্ট্যাক: অবশিষ্ট স্কেলিং (যেমন १/√L) বা নর্মালাইজেশন গভীর ভেরিয়েন্স বিচ্যুতি প্রতিরোধে সহায়তা করে ३. ট্রান্সফর্মার প্রজেকশন: ছোট মান বিচ্যুতি আরম্ভীকরণ ব্যবহার করুন (যেমন ०.०२), প্রতিটি স্তরের মান বিচ্যুতি এবং গ্রেডিয়েন্ট নর্ম পর্যবেক্ষণ করুন

সম্পর্কিত কাজের তুলনা

মৌলিক আরম্ভীকরণ কৌশল

  • LeCun পদ্ধতি: রৈখিক সক্রিয়করণের জন্য ভেরিয়েন্স সংরক্ষণ নিয়ম
  • Glorot/Xavier: tanh/sigmoid স্কেলিংয়ের জন্য fan-ভিত্তিক
  • He/Kaiming: ReLU এর অধীনে অর্ধেক দ্বিতীয় মুহূর্ত ক্ষতিপূরণ করার জন্য সক্রিয়করণ সচেতন স্কেলিং

আধুনিক উন্নয়ন

  • Fixup আরম্ভীকরণ: সাবধানে নির্বাচিত আরম্ভীকরণ এবং অবশিষ্ট স্কেলিংয়ের মাধ্যমে, অত্যন্ত গভীর নেটওয়ার্কে নর্মালাইজেশন প্রয়োজন অপসারণ করে
  • DeepNet: হাজার-স্তরীয় প্রশিক্ষণের অনুমতি দেয় এমন নীতিগত গভীর স্কেলিং নিয়ম প্রস্তাব করে
  • প্রাক-নর্মালাইজেশন সুবিধা: পোস্ট-নর্মালাইজেশনের তুলনায়, মসৃণ গ্রেডিয়েন্ট প্রবাহের মাধ্যমে অপ্টিমাইজেশন স্থিতিশীলতা উন্নত করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. স্থিতিশীলতা ব্যান্ড বিদ্যমান: σ ∈ 10⁻², 10⁻¹ পরিসরে একটি বিস্তৃত কিন্তু সংবেদনশীল স্থিতিশীলতা ব্যান্ড বিদ্যমান २. সক্রিয়করণ ফাংশন বিশেষত্ব গুরুত্বপূর্ণ: Kaiming আরম্ভীকরণ ReLU নেটওয়ার্কে সত্যিই Xavier এর চেয়ে উন্নত ३. গভীরতা-সম্পর্কিত গতিশীলতা: ট্রান্সফর্মার গভীরতা-সম্পর্কিত ভেরিয়েন্স ভারসাম্য প্রদর্শন করে, অগভীর স্তর দ্রুত অভিযোজন, গভীর স্তর ক্রমান্বয় সমন্বয়

সীমাবদ্ধতা

१. পরীক্ষামূলক স্কেল: GPT-२ পরীক্ষা তুলনামূলকভাবে ছোট (१२ স্তর), বৃহৎ মডেলের আচরণ ভিন্ন হতে পারে २. সক্রিয়করণ ফাংশন কভারেজ: প্রধানত ReLU এবং GELU এ ফোকাস, অন্যান্য সক্রিয়করণ ফাংশনের বিশ্লেষণ সীমিত ३. অপ্টিমাইজার নির্ভরতা: ফলাফল নির্দিষ্ট অপ্টিমাইজার (AdamW) এবং হাইপারপ্যারামিটার সেটিংসের প্রতি সংবেদনশীল হতে পারে

ভবিষ্যত দিকনির্দেশনা

१. স্ব-অভিযোজনশীল গভীরতা-সচেতন আরম্ভীকরণ: প্রতিটি স্তর বা প্রতিটি মাথার জন্য স্কেল শিখুন, অগভীর স্তরগুলি চূড়ান্ত ভেরিয়েন্স স্তরের কাছাকাছি করুন २. অপ্টিমাইজার এবং সময়সূচী সংযোগ: প্রি-ওয়ার্মিং দৈর্ঘ্য, ওজন ক্ষয় এবং গ্রেডিয়েন্ট ক্লিপিং যৌথভাবে সুর করুন ३. গভীরতা এবং প্রস্থ স্কেলিং: বৃহত্তর মডেলে গভীরতা-সম্পর্কিত ভারসাম্যের ধারাবাহিকতা মূল্যায়ন করুন

গভীর মূল্যায়ন

শক্তি

१. তত্ত্ব এবং অনুশীলনের সমন্বয়: ক্লাসিক্যাল ভেরিয়েন্স প্রচার তত্ত্বকে আধুনিক ট্রান্সফর্মার আচরণের সাথে জৈবিকভাবে একীভূত করে २. সিস্টেমেটিক পরীক্ষামূলক ডিজাইন: সরল MLP থেকে জটিল ট্রান্সফর্মার পর্যন্ত ক্রমান্বয়ী যাচাইকরণ ३. উচ্চ ব্যবহারিক মূল্য: নির্দিষ্ট আরম্ভীকরণ সুপারিশ এবং নির্ণয় পদ্ধতি প্রদান করে ४. পরিসংখ্যানগত কঠোরতা: জোড়া t পরীক্ষা ইত্যাদি পরিসংখ্যানগত পদ্ধতি ব্যবহার করে ফলাফলের তাৎপর্য যাচাই করে

অপূর্ণতা

१. তাত্ত্বিক বিশ্লেষণ গভীরতা সীমিত: গভীরতা-সম্পর্কিত ঘটনার আরও গভীর তাত্ত্বিক ব্যাখ্যার অভাব २. পরীক্ষামূলক স্কেল সীমাবদ্ধতা: গণনা সম্পদ সীমাবদ্ধতার কারণে, সত্যিকারের বৃহৎ মডেলে যাচাই করা যায়নি ३. সাধারণীকরণ সমস্যা: ফলাফল প্রধানত নির্দিষ্ট আর্কিটেকচার এবং কাজের উপর ভিত্তি করে, সাধারণীকরণ ক্ষমতা আরও যাচাইকরণ প্রয়োজন

প্রভাব মূল্যায়ন

१. একাডেমিক অবদান: আরম্ভীকরণ তত্ত্বে আধুনিক দৃষ্টিভঙ্গি প্রদান করে, ক্লাসিক্যাল তত্ত্ব এবং বর্তমান অনুশীলন সংযুক্ত করে २. ব্যবহারিক মূল্য: অনুশীলনকারীদের স্পষ্ট আরম্ভীকরণ কৌশল এবং নির্ণয় সরঞ্জাম প্রদান করে ३. পুনরুৎপাদনযোগ্যতা: পরীক্ষামূলক ডিজাইন স্পষ্ট, কোড এবং প্যারামিটার সেটিং বিস্তারিত, পুনরুৎপাদন সহজ করে

প্রযোজ্য পরিস্থিতি

१. গভীর নেটওয়ার্ক প্রশিক্ষণ: বিশেষত ReLU/GELU সক্রিয়করণ সহ গভীর নেটওয়ার্কের জন্য প্রযোজ্য २. ট্রান্সফর্মার অপ্টিমাইজেশন: বৃহৎ ভাষা মডেলের প্রশিক্ষণের জন্য আরম্ভীকরণ নির্দেশনা প্রদান করে ३. গবেষণা সরঞ্জাম: গবেষকদের জন্য ওজন গতিশীলতা বিশ্লেষণের জন্য পদ্ধতিগত কাঠামো প্রদান করে

সংদর্ভ

পেপারটি আরম্ভীকরণ ক্ষেত্রের মূল কাজ উদ্ধৃত করে, যার মধ্যে LeCun, Glorot, He এবং অন্যদের ভিত্তিপ্রস্তর গবেষণা, এবং ট্রান্সফর্মার অপ্টিমাইজেশনে সাম্প্রতিক অগ্রগতি রয়েছে, এই গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।