Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
Han
Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
academic
تهيئة الأوزان وديناميكيات التباين في الشبكات العصبية العميقة ونماذج اللغة الكبيرة
تتحكم تهيئة الأوزان بانتشار الإشارة وتدفق التدرجات في بداية التدريب. تقدم هذه الورقة دراسة مدعومة بأساس نظري قوي وتحقق تجريبي شامل، تغطي مجالين: شبكات الإدراك متعددة الطبقات المدمجة بـ ReLU و Transformers بأسلوب GPT-2. أولاً، من خلال مسح لوغاريتمي للانحراف المعياري الأولي، تم تعيين مناطق اختفاء التدرجات والانفجار، وتحديد نطاق استقرار واسع مع انحراف معياري بين 1e-2 و 1e-1. ثانياً، تُظهر المقارنات المضبوطة أن تهيئة Kaiming (fan-in) تتقارب بشكل أسرع وأكثر استقراراً من تهيئة Xavier تحت دالة التفعيل ReLU، وهذا يتوافق مع نظرية الحفاظ على التباين. ثالثاً، في نموذج GPT-2 بـ 12 طبقة مبني من الصفر، تتبعت الورقة التغييرات في تباين أوزان Q/K/V عبر جميع الطبقات أثناء التدريب المسبق، مع ملاحظة ظاهرة توازن مرتبطة بالعمق: توسع سريع في الطبقات الضحلة، بينما تتغير الطبقات العميقة بشكل أكثر تدرجياً.
تركز هذه الدراسة على حل المشكلة الأساسية المتمثلة في تأثير تهيئة الأوزان على استقرار التدريب والتقارب في الشبكات العصبية العميقة ونماذج اللغة الكبيرة. وتشمل بشكل محدد:
حساسية مقياس التهيئة: كيف يؤثر الانحراف المعياري الأولي المختلف على استقرار التدريب
خصوصية دالة التفعيل: هل تتطلب دوال التفعيل مثل ReLU و GELU استراتيجيات تهيئة محددة
ديناميكيات التباين في Transformers الحديثة: هل يستمر استقرار التباين في نماذج Transformer الكبيرة
على الرغم من أن طرق التهيئة الكلاسيكية (LeCun و Xavier/Glorot و He/Kaiming) لها حدس نظري حول الحفاظ على التباين، إلا أنها لا تزال تعاني من المشاكل التالية في التطبيق العملي:
لم يتم تحديد كمي كافٍ لحساسية الانحراف عن المقياس المثالي
آليات تأثير دوال التفعيل المحددة (مثل ReLU و GELU) غير واضحة
الأداء في Transformers الكبيرة يفتقر إلى البحث المنهجي
إطار عمل موحد للتحليل التباين: اشتقاق شروط انتشار التباين الأمامي والخلفي لدوال التفعيل الشائعة (ReLU و GELU)، مع شرح كيفية حفظ مقياس fan-in لسعة الإشارة ومصدر العامل 2 في ReLU
تحديد كمي لحساسية المقياس: من خلال مسح لوغاريتمي لـ 25 قيمة انحراف معياري، تم تعيين مناطق اختفاء/انفجار التدرجات، مع تحديد نطاق التدريب المستقر σ ∈ 10⁻², 10⁻¹
التحقق من التهيئة الواعية بدالة التفعيل: في تدريب ReLU MLP المضبوط، تم تأكيد أن Kaiming normal (fan-in) يتقارب بشكل أسرع من Xavier normal مع تباين خسارة أقل
تحليل ديناميكيات تباين Transformer: في نموذج GPT-2 بـ 12 طبقة مبني من الصفر، تم اكتشاف نمط واضح مرتبط بالعمق: الانحراف المعياري للأوزان في الطبقات الضحلة يتوسع بسرعة، بينما يكون التوسع في الطبقات العميقة أكثر تدرجياً، وفي النهاية تستقر جميعها في نطاق تباين ضيق
لا يمكن عادة تلبية شروط الحفاظ الأمامي والخلفي في نفس الوقت، إلا إذا كان n_in ≈ n_out و c_φ ≈ d_φ. في الممارسة العملية، الحفاظ على استقرار الإشارة الأمامية عادة ما يكون أكثر أهمية، وهذا يشرح لماذا يتقارب He/Kaiming fan-in بشكل أسرع من Xavier.
النمط المرتبط بالعمق: تُظهر الطبقات الضحلة توسعاً سريعاً وملحوظاً في الانحراف المعياري للأوزان في التدريب المبكر، بينما يكون التوسع في الطبقات العميقة أبطأ وأكثر سلاسة
توازن التباين: تستقر جميع الطبقات في النهاية في نطاق تباين ضيق
تناثر التوزيع: بعد التدريب، تصبح توزيعات الأوزان أكثر تناثراً، مع بقاء العديد من الإدخالات القريبة من الصفر دون تغيير، بينما يهيمن عدد قليل من الأوزان الكبيرة
تستشهد الورقة بالأعمال الرئيسية في مجال التهيئة، بما في ذلك الأبحاث الأساسية لـ LeCun و Glorot و He وغيرهم، بالإضافة إلى التطورات الحديثة في تحسين Transformers، مما يوفر أساساً نظرياً متيناً لهذه الدراسة.