2025-11-12T01:28:29.133817

Stability of Transformers under Layer Normalization

Kan, Li, Zhang et al.
Despite their widespread use, training deep Transformers can be unstable. Layer normalization, a standard component, improves training stability, but its placement has often been ad-hoc. In this paper, we conduct a principled study on the forward (hidden states) and backward (gradient) stability of Transformers under different layer normalization placements. Our theory provides key insights into the training dynamics: whether training drives Transformers toward regular solutions or pathological behaviors. For forward stability, we derive explicit bounds on the growth of hidden states in trained Transformers. For backward stability, we analyze how layer normalization affects the backpropagation of gradients, thereby explaining the training dynamics of each layer normalization placement. Our analysis also guides the scaling of residual steps in Transformer blocks, where appropriate choices can further improve stability and performance. Our numerical results corroborate our theoretical findings. Beyond these results, our framework provides a principled way to sanity-check the stability of Transformers under new architectural modifications, offering guidance for future designs.
academic

استقرار محولات الانتباه تحت التطبيع الطبقي

المعلومات الأساسية

  • معرّف الورقة: 2510.09904
  • العنوان: استقرار محولات الانتباه تحت التطبيع الطبقي
  • المؤلفون: كيلفن كان (جامعة كاليفورنيا لوس أنجلوس)، شينجيان لي (جامعة تكساس أوستن)، بنجامين جي. تشانج (جامعة نورث كارولينا تشابل هيل)، توهين ساهاي (معهد ستانفورد للأبحاث الدولية)، ستانلي أوشر (جامعة كاليفورنيا لوس أنجلوس)، كريشنا كومار (جامعة تكساس أوستن)، ماركوس أ. كاتسولاكيس (جامعة ماساتشوستس أمهرست)
  • التصنيف: cs.LG, cs.AI, math.OC
  • تاريخ النشر: 10 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.09904

الملخص

على الرغم من الاستخدام الواسع لمحولات الانتباه، قد يكون تدريب محولات الانتباه العميقة غير مستقر. يعمل التطبيع الطبقي (Layer Normalization) كمكون معياري على تحسين استقرار التدريب، لكن اختيار موضعه غالباً ما يكون مؤقتاً. تقدم هذه الورقة دراسة منهجية للاستقرار الأمامي (الحالات المخفية) والاستقرار الخلفي (التدرجات) لمحولات الانتباه تحت مواضع تطبيع طبقي مختلفة. يكشف التحليل النظري عن رؤى حاسمة في ديناميكيات التدريب: ما إذا كان التدريب يدفع محولات الانتباه نحو حلول منتظمة أو سلوك مرضي. فيما يتعلق بالاستقرار الأمامي، تم اشتقاق حدود صريحة لنمو الحالات المخفية في محولات الانتباه المدربة. فيما يتعلق بالاستقرار الخلفي، تم تحليل كيفية تأثير التطبيع الطبقي على انتشار التدرج العكسي، مما يفسر ديناميكيات التدريب لكل موضع تطبيع طبقي. يوجه التحليل أيضاً تحجيم خطوات البقايا في كتل محولات الانتباه، حيث يمكن للاختيار المناسب أن يحسن الاستقرار والأداء بشكل أكبر.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية التي يسعى هذا البحث لحلها هي: آليات تأثير مواضع التطبيع الطبقي المختلفة على استقرار تدريب محولات الانتباه. وتشمل بشكل محدد:

  1. مشكلة الاستقرار الأمامي: التحكم في نمو الحالات المخفية في الشبكات العميقة
  2. مشكلة الاستقرار الخلفي: استقرار التدرجات أثناء الانتشار العكسي
  3. إرشادات تصميم المعمارية: كيفية توفير إرشادات نظرية لمتغيرات محولات الانتباه الجديدة

تحليل الأهمية

  1. القيمة العملية: محولات الانتباه هي أساس التعلم العميق الحديث، واستقرار تدريبها يؤثر مباشرة على أداء النموذج وكفاءة التدريب
  2. النقص النظري: اختيار موضع التطبيع الطبقي الحالي يعتمد بشكل أساسي على التجربة، ويفتقر إلى أساس نظري
  3. الطلب الصناعي: مع استمرار زيادة حجم النموذج، تصبح مشاكل استقرار التدريب أكثر حدة

قيود الطرق الموجودة

  1. Post-LN: يتطلب جدولة تحسين دقيقة، والأداء غالباً ما يكون دون الأمثل
  2. Pre-LN: على الرغم من تحسين استقرار التدريب المبكر، ينتج عنه حالات مخفية كبيرة جداً، مما يؤدي إلى عدم استقرار عددي
  3. Peri-LN: على الرغم من الأداء الجيد في الممارسة العملية، فإن الخصائص النظرية غير مفهومة بشكل كافٍ

دافع البحث

يعتمد المؤلفون على منظور جديد باستخدام الديناميكيات المستمرة في الوقت ونظرية التحكم الأمثل، حيث يقومون بنمذجة مشكلة تدريب محولات الانتباه كمشكلة تحكم حقل متوسط، مما يسمح بتحليل خصائص النموذج بعد تقارب التدريب، بدلاً من التركيز فقط على السلوك عند التهيئة.

المساهمات الأساسية

  1. ابتكار الإطار النظري: اقتراح إطار عمل جديد قائم على نظرية التحكم الأمثل، يحلل بشكل منهجي استقرار محولات الانتباه تحت مواضع تطبيع طبقي مختلفة
  2. تحليل الاستقرار الأمامي: اشتقاق حدود صريحة لنمو الحالات المخفية، مما يثبت أن Pre-LN يؤدي إلى نمو غير محدود بينما Peri-LN يحافظ على نمو مضبوط
  3. تحليل الاستقرار الخلفي: الكشف عن آليات تأثير التطبيع الطبقي على انتشار التدرج العكسي
  4. تحجيم خطوات البقايا: اقتراح طريقة تحجيم خطوات البقايا لتحسين الاستقرار والأداء
  5. التحقق التجريبي: التحقق من النتائج النظرية على نماذج سلسلة GPT-2

شرح الطريقة

تعريف المهمة

دراسة استقرار محولات الانتباه تحت مواضع تطبيع طبقي مختلفة، بما في ذلك:

  • الإدخال: التسلسل بعد التضمين وترميز الموضع X0Rd×nX_0 \in \mathbb{R}^{d \times n}
  • الإخراج: الحالات المخفية بعد مرور D طبقة من كتل محولات الانتباه XDX_D
  • الهدف: تحليل استقرار الانتشار الأمامي والعكسي

النمذجة المستمرة في الوقت

التمثيل المستمر في الوقت لمحولات الانتباه

تفسير بنية الاتصال المتخطي لكتلة محولات الانتباه القياسية كتمييز أويلر للديناميكيات المستمرة في الوقت:

f_{attn}(X(t), t; \theta_{attn}(t)), & t \in [t_i, t_i + \Delta t) \\ f_{ffn}(X(t), t; \theta_{ffn}(t)), & t \in [t_i + \Delta t, t_{i+1}) \end{cases}$$ حيث $\Delta t = \frac{T}{2D}$، $t_i = 2i\Delta t$. #### نمذجة مشكلة التحكم الحقل المتوسط صياغة مشكلة التدريب كمشكلة تحكم حقل متوسط مستمرة في الوقت: $$\min_\theta \mathbb{E}_{(X_0,y)} G(X(T), y)$$ $$\text{s.t. } \frac{dX(t)}{dt} = f(X(t), t; \theta(t))$$ حيث $f \in \{f_{Pre}, f_{Peri}\}$ تتوافق مع مواضع تطبيع طبقي مختلفة. ### الخصائص الهندسية للتطبيع الطبقي **اللمة الرئيسية 1**: مخرجات التطبيع الطبقي تقع على سطح إهليلجي $$\mathcal{E} = \{z \in \mathbb{R}^d : (z - \beta)^T\Gamma^{-2}(z - \beta) = d\}$$ حيث $\Gamma = \text{diag}(\gamma)$. ### تحليل الاستقرار الأمامي #### عدم الحدود في Pre-LN **النظرية 2**: الحل الأمثل لمشكلة تدريب Pre-LN غير محدود في الحجم. **فكرة الإثبات**: من خلال تحليل معادلة هاميلتون-جاكوبي-بيلمان (HJB) التفاضلية الجزئية، يتم إثبات أن هاميلتونيان المقابل غير موجود، مما يؤدي إلى تدهور مشكلة التدريب. **النظرية 3**: حتى مع استخدام تسوس الأوزان، تنمو الحالات المخفية لمحول الانتباه Pre-LN بشكل أسي: $$MA(X_D) \leq (1 + C(\lambda))^D \frac{\|X_0\|_F}{\sqrt{nd}} = O(e^D)$$ #### النمو المضبوط في Peri-LN **النظرية 4**: الحالات المخفية لمحول الانتباه Peri-LN تنمو بشكل خطي: $$MA(X_D) \leq \frac{\|X_0\|_F}{\sqrt{nd}} + 2D(\gamma_{max} + \beta_{max}) = O(D)$$ التباين ينمو بشكل تربيعي: $$\text{Var}(X_D) \leq \frac{(\|X_0\|_F + 2D\sqrt{nd}(\gamma_{max} + \beta_{max}))^2}{nd - 1} = O(D^2)$$ ### تحليل الاستقرار الخلفي صيغة حساب التدرج: $$\nabla_{\theta_i} G(X_D) = \nabla_{\theta_i} X_{i+1} \cdot J_{i:D} \cdot \nabla_{X_D} G(X_D)$$ حيث مصفوفة جاكوبيان: $$J_{i:D} = \prod_{j=i+1}^D (I + \nabla_{X_{j-1}} f(X_{j-1}; \theta_{j-1}))$$ **القضية 7**: تحت Pre-LN، الحساسية $\nabla_{X_{j-1}} f_{Pre}$ تنمو بشكل متناسب مع قيم التفعيل. **القضية 8**: تحت Peri-LN، الحساسية $\nabla_{X_{j-1}} f_{Peri}$ لا تتغير بالنسبة لحجم التفعيل. ## إعداد التجارب ### مجموعات البيانات - **مجموعة بيانات OpenWebText**: حوالي 9 مليارات رمز تدريب، 4 ملايين رمز تحقق - استخدام معمارية سلسلة GPT-2 للتدريب المسبق ### تكوين النموذج - **GPT-2** (124 مليون معامل) - **GPT-2 Large** (774 مليون معامل) - **GPT-2 XL** (1.5 مليار معامل) ### مقاييس التقييم - **الارتباك (Perplexity)** - **درجات ROUGE** (Rouge1, Rouge2, RougeL) - **درجات BERT** (BertP, BertR, BertF1) - **استقرار التدريب**: إحصائيات عمليات التشغيل المتباعدة ### تفاصيل التنفيذ - استخدام المعاملات الفائقة المحسّنة لـ Pre-LN، بدون تحسين منفصل لـ Peri-LN - تحجيم خطوات البقايا: $\Delta t \in \{0.1, 1\}$ - الأجهزة: وحدة معالجة رسومات NVIDIA H200 ## نتائج التجارب ### مقارنة استقرار التدريب | إعداد التطبيع الطبقي | تسوس الأوزان مفعّل | تسوس الأوزان معطّل | |-------------|-------------|-------------| | Pre-LN | 1/5 متباعد | 3/5 متباعد | | Peri-LN | 0/5 متباعد | 0/5 متباعد | | بدون LN | 5/5 متباعد | — | ### نتائج مقارنة الأداء **نتائج نموذج GPT-2 (124M)**: - Pre-LN ($\Delta t=1$): خسارة التحقق 5.43، ارتباك 247.52 - Pre-LN ($\Delta t=0.1$): خسارة التحقق 3.13، ارتباك 24.43 - Peri-LN ($\Delta t=1$): خسارة التحقق 3.12، ارتباك 24.17 - Peri-LN ($\Delta t=0.1$): خسارة التحقق 3.10، ارتباك 23.63 ### تحليل نمو الحالات المخفية التجارب تتحقق من التنبؤات النظرية: - Pre-LN يظهر نمواً سريعاً عند $\Delta t$ أكبر - Peri-LN يحافظ على نمو خطي أكثر انتظاماً - تحجيم خطوات البقايا يتحكم بشكل فعال في معدل النمو ### تأثير تحجيم خطوات البقايا 1. **تحسن الأداء**: Peri-LN + $\Delta t=0.1$ يظهر أفضل أداء في جميع المقاييس 2. **تحسن الاستقرار**: Pre-LN يتحول من غير مستقر إلى مستقر عند $\Delta t=0.1$ 3. **التحكم في النمو**: يقلل بشكل فعال من معدل نمو المتوسط والتباين للحالات المخفية ## الأعمال ذات الصلة ### أبحاث التطبيع الطبقي - **Post-LN**: أول تصميم لمحولات الانتباه، يتطلب جدولة دقيقة - **Pre-LN**: تحسين استقرار التدريب لكن ينتج عنه قيم تفعيل كبيرة - **Peri-LN**: مؤخراً تم اعتماده في نماذج واسعة النطاق، مثل Gemma2 و OLMo2 ### طرق التحليل النظري - تركز الأعمال الموجودة بشكل أساسي على السلوك عند التهيئة أو تعتمد على الملاحظات التجريبية - تقدم هذه الورقة بشكل مبتكر تحليل خصائص النموذج بعد تقارب التدريب - المنظور المستمر في الوقت يوفر أداة جديدة لتحليل المعمارية ## الاستنتاجات والمناقشة ### الاستنتاجات الرئيسية 1. **عيب نظري في Pre-LN**: مشكلة التدريب مرضية بطبيعتها، مما يؤدي إلى حلول غير محدودة 2. **مزايا Peri-LN**: توفر مشكلة تحسين محددة بشكل جيد ونمو حالات مخفية مضبوط 3. **قيمة تحجيم البقايا**: طريقة بسيطة وفعالة لتحسين الاستقرار ### القيود 1. **افتراضات مبسطة**: يعتمد التحليل النظري على تقريب الوقت المستمر 2. **الاعتماد على المعاملات الفائقة**: تستخدم التجارب معاملات فائقة محسّنة لـ Pre-LN 3. **قيود الحجم**: تركز التجارب بشكل أساسي على نماذج بحجم متوسط ### الاتجاهات المستقبلية 1. **إطار عمل لاختيار المعمارية**: توفير معايير نظرية لاختيار تعديلات المعمارية الجديدة 2. **التحقق على نطاق أوسع**: التحقق من النتائج النظرية على نماذج أكبر 3. **طرق تطبيع أخرى**: توسيع التحليل إلى متغيرات مثل RMSNorm ## التقييم المتعمق ### المزايا 1. **قوة الابتكار النظري**: أول استخدام لنظرية التحكم الأمثل لتحليل مشكلة موضع التطبيع الطبقي 2. **الصرامة الرياضية**: توفير اشتقاق نظري كامل وإثباتات 3. **قيمة عملية عالية**: طريقة تحجيم خطوات البقايا بسيطة وفعالة 4. **تصميم تجريبي معقول**: التحقق من النظرية على أحجام نماذج متعددة ### أوجه القصور 1. **الفجوة بين النظرية والممارسة**: افتراض الوقت المستمر مقابل التنفيذ المنفصل الفعلي 2. **نطاق تجريبي محدود**: التحقق بشكل أساسي على سلسلة GPT-2، مع نقص التحقق من معماريات أخرى 3. **عدالة المعاملات الفائقة**: عدم إجراء تحسين معاملات فائقة منفصل لـ Peri-LN ### تقييم التأثير 1. **المساهمة الأكاديمية**: توفير إطار نظري جديد لتحليل استقرار محولات الانتباه 2. **القيمة العملية**: توجيه تصميم النموذج الفعلي واستراتيجيات التدريب 3. **قابلية إعادة الإنتاج**: الالتزام بنشر الكود والنماذج ### السيناريوهات المعمول بها 1. **تدريب محولات الانتباه العميقة**: مناسب بشكل خاص للنماذج العميقة واسعة النطاق 2. **إرشادات تصميم المعمارية**: توفير أساس نظري لتعديلات المعمارية الجديدة 3. **تحسن استقرار التدريب**: تحسين استقرار التدريب من خلال تحجيم البقايا ## المراجع تستشهد الورقة بأعمال مهمة متعددة، بما في ذلك: - Ba et al. (2016): الورقة الأصلية للتطبيع الطبقي - Xiong et al. (2020): دراسة مقارنة بين Pre-LN و Post-LN - Kim et al. (2025): دراسة تجريبية لـ Peri-LN - He et al. (2016): العمل الرائد في الاتصالات المتخطية --- **التقييم الشامل**: هذه ورقة عالية الجودة تجمع بين النظرية والممارسة بشكل جيد، وتوفر إطار عمل رياضي جديد لتحليل استقرار محولات الانتباه، مع قيمة أكاديمية وعملية مهمة. يتسم التحليل النظري بالصرامة والعمق، والتحقق التجريبي كافٍ، ويوفر إرشادات قيمة لتصميم معمارية التعلم العميق.