2025-11-21T22:28:16.015152

Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models

Han
Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
academic

تهيئة الأوزان وديناميكيات التباين في الشبكات العصبية العميقة ونماذج اللغة الكبيرة

المعلومات الأساسية

  • معرّف الورقة: 2510.09423
  • العنوان: تهيئة الأوزان وديناميكيات التباين في الشبكات العصبية العميقة ونماذج اللغة الكبيرة
  • المؤلف: يانكون هان (جامعة فلوريدا)
  • التصنيف: cs.LG (التعلم الآلي)
  • تاريخ النشر: 10 أكتوبر 2025 (نسخة أولية من arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.09423

الملخص

تتحكم تهيئة الأوزان بانتشار الإشارة وتدفق التدرجات في بداية التدريب. تقدم هذه الورقة دراسة مدعومة بأساس نظري قوي وتحقق تجريبي شامل، تغطي مجالين: شبكات الإدراك متعددة الطبقات المدمجة بـ ReLU و Transformers بأسلوب GPT-2. أولاً، من خلال مسح لوغاريتمي للانحراف المعياري الأولي، تم تعيين مناطق اختفاء التدرجات والانفجار، وتحديد نطاق استقرار واسع مع انحراف معياري بين 1e-2 و 1e-1. ثانياً، تُظهر المقارنات المضبوطة أن تهيئة Kaiming (fan-in) تتقارب بشكل أسرع وأكثر استقراراً من تهيئة Xavier تحت دالة التفعيل ReLU، وهذا يتوافق مع نظرية الحفاظ على التباين. ثالثاً، في نموذج GPT-2 بـ 12 طبقة مبني من الصفر، تتبعت الورقة التغييرات في تباين أوزان Q/K/V عبر جميع الطبقات أثناء التدريب المسبق، مع ملاحظة ظاهرة توازن مرتبطة بالعمق: توسع سريع في الطبقات الضحلة، بينما تتغير الطبقات العميقة بشكل أكثر تدرجياً.

الخلفية البحثية والدافع

تعريف المشكلة

تركز هذه الدراسة على حل المشكلة الأساسية المتمثلة في تأثير تهيئة الأوزان على استقرار التدريب والتقارب في الشبكات العصبية العميقة ونماذج اللغة الكبيرة. وتشمل بشكل محدد:

  1. حساسية مقياس التهيئة: كيف يؤثر الانحراف المعياري الأولي المختلف على استقرار التدريب
  2. خصوصية دالة التفعيل: هل تتطلب دوال التفعيل مثل ReLU و GELU استراتيجيات تهيئة محددة
  3. ديناميكيات التباين في Transformers الحديثة: هل يستمر استقرار التباين في نماذج Transformer الكبيرة

الأهمية

تهيئة الأوزان هي عامل حاسم في نجاح تدريب التعلم العميق، حيث أن التهيئة غير الصحيحة تؤدي إلى:

  • اختفاء التدرجات: تتناقص الإشارة تدريجياً عبر الطبقات العميقة
  • انفجار التدرجات: تنمو الإشارة بشكل أسي أثناء الانتشار
  • عدم استقرار التدريب: التذبذب والانحراف في عملية التحسين

قيود الطرق الموجودة

على الرغم من أن طرق التهيئة الكلاسيكية (LeCun و Xavier/Glorot و He/Kaiming) لها حدس نظري حول الحفاظ على التباين، إلا أنها لا تزال تعاني من المشاكل التالية في التطبيق العملي:

  1. لم يتم تحديد كمي كافٍ لحساسية الانحراف عن المقياس المثالي
  2. آليات تأثير دوال التفعيل المحددة (مثل ReLU و GELU) غير واضحة
  3. الأداء في Transformers الكبيرة يفتقر إلى البحث المنهجي

المساهمات الأساسية

  1. إطار عمل موحد للتحليل التباين: اشتقاق شروط انتشار التباين الأمامي والخلفي لدوال التفعيل الشائعة (ReLU و GELU)، مع شرح كيفية حفظ مقياس fan-in لسعة الإشارة ومصدر العامل 2 في ReLU
  2. تحديد كمي لحساسية المقياس: من خلال مسح لوغاريتمي لـ 25 قيمة انحراف معياري، تم تعيين مناطق اختفاء/انفجار التدرجات، مع تحديد نطاق التدريب المستقر σ ∈ 10⁻², 10⁻¹
  3. التحقق من التهيئة الواعية بدالة التفعيل: في تدريب ReLU MLP المضبوط، تم تأكيد أن Kaiming normal (fan-in) يتقارب بشكل أسرع من Xavier normal مع تباين خسارة أقل
  4. تحليل ديناميكيات تباين Transformer: في نموذج GPT-2 بـ 12 طبقة مبني من الصفر، تم اكتشاف نمط واضح مرتبط بالعمق: الانحراف المعياري للأوزان في الطبقات الضحلة يتوسع بسرعة، بينما يكون التوسع في الطبقات العميقة أكثر تدرجياً، وفي النهاية تستقر جميعها في نطاق تباين ضيق

شرح الطريقة

الإطار النظري

تحليل تباين الانتشار الأمامي

للخريطة الخطية:

Var[z_l] = n_in σ²_W Var[x_{l-1}]

بعد التفعيل غير الخطي:

Var[x_l] ≈ c_φ n_in σ²_W Var[x_{l-1}]

حيث c_φ = E[φ(z)²]/Var[z] هو ثابت مرتبط بدالة التفعيل.

لتجنب اختفاء أو انفجار قيم التفعيل، نختار σ²_W ≈ 1/(c_φ n_in):

  • ReLU: c_φ ≈ 1/2، وبالتالي σ²_W ≈ 2/n_in (He/Kaiming)
  • GELU: c_φ ≈ 0.45-0.5، أصغر قليلاً من ReLU

تحليل تباين الانتشار الخلفي

الانتشار العكسي يعطي:

Var[δ_{l-1}] ≈ n_out σ²_W d_φ Var[δ_l]

حيث d_φ = E[φ'(z)²]. بالنسبة لـ ReLU، d_φ = 1/2، وموازنة تباين التدرج تتطلب σ²_W ≈ 2/n_out.

المقارنة والاختيار العملي

لا يمكن عادة تلبية شروط الحفاظ الأمامي والخلفي في نفس الوقت، إلا إذا كان n_in ≈ n_out و c_φ ≈ d_φ. في الممارسة العملية، الحفاظ على استقرار الإشارة الأمامية عادة ما يكون أكثر أهمية، وهذا يشرح لماذا يتقارب He/Kaiming fan-in بشكل أسرع من Xavier.

تصميم التجارب

التجربة E1: مسح الانحراف المعياري

  • معمارية الشبكة: 784→64→32→32→10 شبكة ReLU MLP
  • مجموعة البيانات: MNIST
  • نطاق المسح: 25 قيمة انحراف معياري، من 10⁻⁴ إلى 10، بفواصل لوغاريتمية
  • مقاييس التقييم: مسارات الخسارة، دقة التصنيف

التجربة E2: مقارنة Xavier مقابل Kaiming

  • معمارية الشبكة: شبكة ReLU بـ 11→16→32→32→1
  • مجموعة البيانات: مهمة التصنيف الثنائي UCI Wine
  • خطط المقارنة: Xavier normal مقابل Kaiming uniform
  • التحقق الإحصائي: 10 تشغيلات عشوائية، اختبار t المقترن

التجربة E3: ديناميكيات تباين GPT-2

  • حجم النموذج: Transformer بأسلوب GPT-2 بـ 12 طبقة
  • التهيئة: الإعدادات القياسية (معظم الوحدات std=0.02، طبقة التضمين xavier normal)
  • المحسّن: AdamW، معدل التعلم 1×10⁻⁴، حجم الدفعة 16
  • أهداف التتبع: الانحراف المعياري لأوزان إسقاط Q/K/V عبر جميع الطبقات

نتائج التجارب

نتائج التجربة E1: مسح الانحراف المعياري

  • الفترة المستقرة: التدريب سلس وتدرجات جيدة ضمن σ ∈ 10⁻², 10⁻¹، مع دقة تصل إلى ذروتها في هذا النطاق
  • اختفاء التدرجات: المقاييس الصغيرة جداً (σ ≲ 10⁻³) تؤدي إلى اختفاء التحديثات وانخفاض الدقة
  • انفجار التدرجات: المقاييس الكبيرة جداً (σ ≳ 1) تنتج خسارة غير مستقرة وانحراف عرضي

نتائج التجربة E2: مقارنة طرق التهيئة

تتفوق تهيئة Kaiming باستمرار على Xavier في عدة أبعاد:

  • سرعة التقارب: عدد الحقب الوسيط للوصول إلى الهدف أقل، مع انخفاض خسارة أكثر حدة في المراحل المبكرة
  • الدقة: دقة التحقق النهائية متطابقة أو تتجاوز Xavier قليلاً
  • الأهمية الإحصائية: يُظهر اختبار t المقترن فروقات ذات دلالة إحصائية في الخسارة والدقة التدريبية (p < 0.05)

نتائج التجربة E3: اكتشافات ديناميكيات تباين Transformer

  • النمط المرتبط بالعمق: تُظهر الطبقات الضحلة توسعاً سريعاً وملحوظاً في الانحراف المعياري للأوزان في التدريب المبكر، بينما يكون التوسع في الطبقات العميقة أبطأ وأكثر سلاسة
  • توازن التباين: تستقر جميع الطبقات في النهاية في نطاق تباين ضيق
  • تناثر التوزيع: بعد التدريب، تصبح توزيعات الأوزان أكثر تناثراً، مع بقاء العديد من الإدخالات القريبة من الصفر دون تغيير، بينما يهيمن عدد قليل من الأوزان الكبيرة

الرؤى النظرية والأهمية العملية

آلية توازن التباين المرتبطة بالعمق

تكشف الورقة عن نمط توازن تدريجي في Transformers:

  1. التكيف السريع للطبقات الضحلة: الطبقات القريبة من الإدخال لها تدرجات نسبة إشارة إلى ضوضاء عالية، مما يشجع على إعادة تحجيم نشطة مبكرة
  2. التعديل التدريجي للطبقات العميقة: طول مسار البقايا والتطبيع المسبق يحد من حجم الخطوة الفعال للطبقات العميقة
  3. القيود الضمنية: تشبع softmax الانتباه وتضاؤل الأوزان في AdamW يمنع مقاييس المعاملات الكبيرة

مبادئ التوجيه العملية

  1. ReLU/GELU MLP: ابدأ من He/Kaiming fan-in؛ إذا تسببت الطبقات غير المتوازنة جداً في انجراف التدرجات، انتقل قليلاً نحو اختيار fan-average
  2. أكوام البقايا العميقة: يساعد إعادة تحجيم البقايا (مثل 1/√L) أو التطبيع في منع انجراف التباين العميق
  3. إسقاطات Transformer: استخدم تهيئة بانحراف معياري صغير (مثل 0.02)، مع مراقبة الانحراف المعياري لكل طبقة ونطاقات التدرجات

مقارنة الأعمال ذات الصلة

استراتيجيات التهيئة الأساسية

  • طريقة LeCun: قاعدة الحفاظ على التباين للتفعيل الخطي
  • Glorot/Xavier: تحجيم قائم على fan لـ tanh/sigmoid
  • He/Kaiming: تحجيم واعٍ بالتفعيل يعوض عن تقليل اللحظة الثانية تحت ReLU

التطورات الحديثة

  • تهيئة Fixup: إزالة الحاجة للتطبيع في الشبكات العميقة جداً من خلال اختيار دقيق للتهيئة وإعادة تحجيم البقايا
  • DeepNet: اقتراح قواعد تحجيم عميقة منطقية تسمح بتدريب آلاف الطبقات
  • مزايا التطبيع المسبق: تحسين استقرار التحسين من خلال تدفق تدرجات أكثر سلاسة مقارنة بالتطبيع اللاحق

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. وجود نطاق الاستقرار: يوجد نطاق استقرار واسع لكن حساس ضمن σ ∈ 10⁻², 10⁻¹
  2. أهمية خصوصية دالة التفعيل: تهيئة Kaiming تتفوق بالفعل على Xavier في شبكات ReLU
  3. الديناميكيات المرتبطة بالعمق: تُظهر Transformers توازن تباين مرتبط بالعمق، مع تكيف سريع للطبقات الضحلة وتعديل تدريجي للطبقات العميقة

القيود

  1. حجم التجارب: تجارب GPT-2 نسبياً صغيرة (12 طبقة)، قد تختلف السلوكيات في النماذج الأكبر حجماً
  2. تغطية دالة التفعيل: التركيز الأساسي على ReLU و GELU، مع تحليل محدود لدوال التفعيل الأخرى
  3. الاعتماد على المحسّن: قد تكون النتائج حساسة لمحسّن محدد (AdamW) وإعدادات المعاملات

الاتجاهات المستقبلية

  1. التهيئة التكيفية الواعية بالعمق: تعلم المقاييس لكل طبقة أو رأس، مما يجعل الطبقات الضحلة أقرب إلى مستوى التباين النهائي
  2. الاقتران بين المحسّن والجدولة: التحسين المشترك لطول الإحماء وتضاؤل الأوزان وقص التدرجات
  3. تحجيم العمق والعرض: تقييم استمرارية التوازن المرتبط بالعمق في النماذج الأكبر

التقييم المتعمق

المزايا

  1. دمج النظرية والممارسة: دمج نظرية انتشار التباين الكلاسيكية مع سلوك Transformers الحديث بشكل عضوي
  2. تصميم تجريبي منهجي: التحقق التدريجي من شبكات MLP البسيطة إلى Transformers المعقدة
  3. قيمة عملية عالية: توفير توصيات تهيئة محددة وأدوات تشخيصية
  4. صرامة إحصائية: استخدام طرق إحصائية مثل اختبار t المقترن للتحقق من أهمية النتائج

أوجه القصور

  1. عمق التحليل النظري محدود: نقص التفسيرات النظرية الأعمق للظواهر المرتبطة بالعمق
  2. قيود حجم التجارب: محدودية الموارد الحسابية، عدم التحقق على نماذج كبيرة الحجم حقاً
  3. مشاكل التعميم: النتائج تستند أساساً على معماريات وتطبيقات محددة، تحتاج القابلية للتعميم إلى التحقق الإضافي

تقييم التأثير

  1. المساهمة الأكاديمية: توفير منظور حديث لنظرية التهيئة، ربط النظرية الكلاسيكية بالممارسة الحالية
  2. القيمة العملية: توفير استراتيجيات تهيئة واضحة وأدوات تشخيصية للممارسين
  3. إمكانية التكرار: تصميم تجريبي واضح، إعدادات معاملات وأكواد مفصلة، تسهل التكرار

السيناريوهات القابلة للتطبيق

  1. تدريب الشبكات العميقة: مناسب بشكل خاص للشبكات العميقة بتفعيل ReLU/GELU
  2. تحسين Transformer: توفير إرشادات تهيئة لتدريب نماذج اللغة الكبيرة
  3. أداة البحث: توفير إطار عمل منهجي للباحثين لتحليل ديناميكيات الأوزان

المراجع

تستشهد الورقة بالأعمال الرئيسية في مجال التهيئة، بما في ذلك الأبحاث الأساسية لـ LeCun و Glorot و He وغيرهم، بالإضافة إلى التطورات الحديثة في تحسين Transformers، مما يوفر أساساً نظرياً متيناً لهذه الدراسة.