على الرغم من الاستخدام الواسع لمحولات الانتباه، قد يكون تدريب محولات الانتباه العميقة غير مستقر. يعمل التطبيع الطبقي (Layer Normalization) كمكون معياري على تحسين استقرار التدريب، لكن اختيار موضعه غالباً ما يكون مؤقتاً. تقدم هذه الورقة دراسة منهجية للاستقرار الأمامي (الحالات المخفية) والاستقرار الخلفي (التدرجات) لمحولات الانتباه تحت مواضع تطبيع طبقي مختلفة. يكشف التحليل النظري عن رؤى حاسمة في ديناميكيات التدريب: ما إذا كان التدريب يدفع محولات الانتباه نحو حلول منتظمة أو سلوك مرضي. فيما يتعلق بالاستقرار الأمامي، تم اشتقاق حدود صريحة لنمو الحالات المخفية في محولات الانتباه المدربة. فيما يتعلق بالاستقرار الخلفي، تم تحليل كيفية تأثير التطبيع الطبقي على انتشار التدرج العكسي، مما يفسر ديناميكيات التدريب لكل موضع تطبيع طبقي. يوجه التحليل أيضاً تحجيم خطوات البقايا في كتل محولات الانتباه، حيث يمكن للاختيار المناسب أن يحسن الاستقرار والأداء بشكل أكبر.
المشكلة الأساسية التي يسعى هذا البحث لحلها هي: آليات تأثير مواضع التطبيع الطبقي المختلفة على استقرار تدريب محولات الانتباه. وتشمل بشكل محدد:
يعتمد المؤلفون على منظور جديد باستخدام الديناميكيات المستمرة في الوقت ونظرية التحكم الأمثل، حيث يقومون بنمذجة مشكلة تدريب محولات الانتباه كمشكلة تحكم حقل متوسط، مما يسمح بتحليل خصائص النموذج بعد تقارب التدريب، بدلاً من التركيز فقط على السلوك عند التهيئة.
دراسة استقرار محولات الانتباه تحت مواضع تطبيع طبقي مختلفة، بما في ذلك:
تفسير بنية الاتصال المتخطي لكتلة محولات الانتباه القياسية كتمييز أويلر للديناميكيات المستمرة في الوقت:
f_{attn}(X(t), t; \theta_{attn}(t)), & t \in [t_i, t_i + \Delta t) \\ f_{ffn}(X(t), t; \theta_{ffn}(t)), & t \in [t_i + \Delta t, t_{i+1}) \end{cases}$$ حيث $\Delta t = \frac{T}{2D}$، $t_i = 2i\Delta t$. #### نمذجة مشكلة التحكم الحقل المتوسط صياغة مشكلة التدريب كمشكلة تحكم حقل متوسط مستمرة في الوقت: $$\min_\theta \mathbb{E}_{(X_0,y)} G(X(T), y)$$ $$\text{s.t. } \frac{dX(t)}{dt} = f(X(t), t; \theta(t))$$ حيث $f \in \{f_{Pre}, f_{Peri}\}$ تتوافق مع مواضع تطبيع طبقي مختلفة. ### الخصائص الهندسية للتطبيع الطبقي **اللمة الرئيسية 1**: مخرجات التطبيع الطبقي تقع على سطح إهليلجي $$\mathcal{E} = \{z \in \mathbb{R}^d : (z - \beta)^T\Gamma^{-2}(z - \beta) = d\}$$ حيث $\Gamma = \text{diag}(\gamma)$. ### تحليل الاستقرار الأمامي #### عدم الحدود في Pre-LN **النظرية 2**: الحل الأمثل لمشكلة تدريب Pre-LN غير محدود في الحجم. **فكرة الإثبات**: من خلال تحليل معادلة هاميلتون-جاكوبي-بيلمان (HJB) التفاضلية الجزئية، يتم إثبات أن هاميلتونيان المقابل غير موجود، مما يؤدي إلى تدهور مشكلة التدريب. **النظرية 3**: حتى مع استخدام تسوس الأوزان، تنمو الحالات المخفية لمحول الانتباه Pre-LN بشكل أسي: $$MA(X_D) \leq (1 + C(\lambda))^D \frac{\|X_0\|_F}{\sqrt{nd}} = O(e^D)$$ #### النمو المضبوط في Peri-LN **النظرية 4**: الحالات المخفية لمحول الانتباه Peri-LN تنمو بشكل خطي: $$MA(X_D) \leq \frac{\|X_0\|_F}{\sqrt{nd}} + 2D(\gamma_{max} + \beta_{max}) = O(D)$$ التباين ينمو بشكل تربيعي: $$\text{Var}(X_D) \leq \frac{(\|X_0\|_F + 2D\sqrt{nd}(\gamma_{max} + \beta_{max}))^2}{nd - 1} = O(D^2)$$ ### تحليل الاستقرار الخلفي صيغة حساب التدرج: $$\nabla_{\theta_i} G(X_D) = \nabla_{\theta_i} X_{i+1} \cdot J_{i:D} \cdot \nabla_{X_D} G(X_D)$$ حيث مصفوفة جاكوبيان: $$J_{i:D} = \prod_{j=i+1}^D (I + \nabla_{X_{j-1}} f(X_{j-1}; \theta_{j-1}))$$ **القضية 7**: تحت Pre-LN، الحساسية $\nabla_{X_{j-1}} f_{Pre}$ تنمو بشكل متناسب مع قيم التفعيل. **القضية 8**: تحت Peri-LN، الحساسية $\nabla_{X_{j-1}} f_{Peri}$ لا تتغير بالنسبة لحجم التفعيل. ## إعداد التجارب ### مجموعات البيانات - **مجموعة بيانات OpenWebText**: حوالي 9 مليارات رمز تدريب، 4 ملايين رمز تحقق - استخدام معمارية سلسلة GPT-2 للتدريب المسبق ### تكوين النموذج - **GPT-2** (124 مليون معامل) - **GPT-2 Large** (774 مليون معامل) - **GPT-2 XL** (1.5 مليار معامل) ### مقاييس التقييم - **الارتباك (Perplexity)** - **درجات ROUGE** (Rouge1, Rouge2, RougeL) - **درجات BERT** (BertP, BertR, BertF1) - **استقرار التدريب**: إحصائيات عمليات التشغيل المتباعدة ### تفاصيل التنفيذ - استخدام المعاملات الفائقة المحسّنة لـ Pre-LN، بدون تحسين منفصل لـ Peri-LN - تحجيم خطوات البقايا: $\Delta t \in \{0.1, 1\}$ - الأجهزة: وحدة معالجة رسومات NVIDIA H200 ## نتائج التجارب ### مقارنة استقرار التدريب | إعداد التطبيع الطبقي | تسوس الأوزان مفعّل | تسوس الأوزان معطّل | |-------------|-------------|-------------| | Pre-LN | 1/5 متباعد | 3/5 متباعد | | Peri-LN | 0/5 متباعد | 0/5 متباعد | | بدون LN | 5/5 متباعد | — | ### نتائج مقارنة الأداء **نتائج نموذج GPT-2 (124M)**: - Pre-LN ($\Delta t=1$): خسارة التحقق 5.43، ارتباك 247.52 - Pre-LN ($\Delta t=0.1$): خسارة التحقق 3.13، ارتباك 24.43 - Peri-LN ($\Delta t=1$): خسارة التحقق 3.12، ارتباك 24.17 - Peri-LN ($\Delta t=0.1$): خسارة التحقق 3.10، ارتباك 23.63 ### تحليل نمو الحالات المخفية التجارب تتحقق من التنبؤات النظرية: - Pre-LN يظهر نمواً سريعاً عند $\Delta t$ أكبر - Peri-LN يحافظ على نمو خطي أكثر انتظاماً - تحجيم خطوات البقايا يتحكم بشكل فعال في معدل النمو ### تأثير تحجيم خطوات البقايا 1. **تحسن الأداء**: Peri-LN + $\Delta t=0.1$ يظهر أفضل أداء في جميع المقاييس 2. **تحسن الاستقرار**: Pre-LN يتحول من غير مستقر إلى مستقر عند $\Delta t=0.1$ 3. **التحكم في النمو**: يقلل بشكل فعال من معدل نمو المتوسط والتباين للحالات المخفية ## الأعمال ذات الصلة ### أبحاث التطبيع الطبقي - **Post-LN**: أول تصميم لمحولات الانتباه، يتطلب جدولة دقيقة - **Pre-LN**: تحسين استقرار التدريب لكن ينتج عنه قيم تفعيل كبيرة - **Peri-LN**: مؤخراً تم اعتماده في نماذج واسعة النطاق، مثل Gemma2 و OLMo2 ### طرق التحليل النظري - تركز الأعمال الموجودة بشكل أساسي على السلوك عند التهيئة أو تعتمد على الملاحظات التجريبية - تقدم هذه الورقة بشكل مبتكر تحليل خصائص النموذج بعد تقارب التدريب - المنظور المستمر في الوقت يوفر أداة جديدة لتحليل المعمارية ## الاستنتاجات والمناقشة ### الاستنتاجات الرئيسية 1. **عيب نظري في Pre-LN**: مشكلة التدريب مرضية بطبيعتها، مما يؤدي إلى حلول غير محدودة 2. **مزايا Peri-LN**: توفر مشكلة تحسين محددة بشكل جيد ونمو حالات مخفية مضبوط 3. **قيمة تحجيم البقايا**: طريقة بسيطة وفعالة لتحسين الاستقرار ### القيود 1. **افتراضات مبسطة**: يعتمد التحليل النظري على تقريب الوقت المستمر 2. **الاعتماد على المعاملات الفائقة**: تستخدم التجارب معاملات فائقة محسّنة لـ Pre-LN 3. **قيود الحجم**: تركز التجارب بشكل أساسي على نماذج بحجم متوسط ### الاتجاهات المستقبلية 1. **إطار عمل لاختيار المعمارية**: توفير معايير نظرية لاختيار تعديلات المعمارية الجديدة 2. **التحقق على نطاق أوسع**: التحقق من النتائج النظرية على نماذج أكبر 3. **طرق تطبيع أخرى**: توسيع التحليل إلى متغيرات مثل RMSNorm ## التقييم المتعمق ### المزايا 1. **قوة الابتكار النظري**: أول استخدام لنظرية التحكم الأمثل لتحليل مشكلة موضع التطبيع الطبقي 2. **الصرامة الرياضية**: توفير اشتقاق نظري كامل وإثباتات 3. **قيمة عملية عالية**: طريقة تحجيم خطوات البقايا بسيطة وفعالة 4. **تصميم تجريبي معقول**: التحقق من النظرية على أحجام نماذج متعددة ### أوجه القصور 1. **الفجوة بين النظرية والممارسة**: افتراض الوقت المستمر مقابل التنفيذ المنفصل الفعلي 2. **نطاق تجريبي محدود**: التحقق بشكل أساسي على سلسلة GPT-2، مع نقص التحقق من معماريات أخرى 3. **عدالة المعاملات الفائقة**: عدم إجراء تحسين معاملات فائقة منفصل لـ Peri-LN ### تقييم التأثير 1. **المساهمة الأكاديمية**: توفير إطار نظري جديد لتحليل استقرار محولات الانتباه 2. **القيمة العملية**: توجيه تصميم النموذج الفعلي واستراتيجيات التدريب 3. **قابلية إعادة الإنتاج**: الالتزام بنشر الكود والنماذج ### السيناريوهات المعمول بها 1. **تدريب محولات الانتباه العميقة**: مناسب بشكل خاص للنماذج العميقة واسعة النطاق 2. **إرشادات تصميم المعمارية**: توفير أساس نظري لتعديلات المعمارية الجديدة 3. **تحسن استقرار التدريب**: تحسين استقرار التدريب من خلال تحجيم البقايا ## المراجع تستشهد الورقة بأعمال مهمة متعددة، بما في ذلك: - Ba et al. (2016): الورقة الأصلية للتطبيع الطبقي - Xiong et al. (2020): دراسة مقارنة بين Pre-LN و Post-LN - Kim et al. (2025): دراسة تجريبية لـ Peri-LN - He et al. (2016): العمل الرائد في الاتصالات المتخطية --- **التقييم الشامل**: هذه ورقة عالية الجودة تجمع بين النظرية والممارسة بشكل جيد، وتوفر إطار عمل رياضي جديد لتحليل استقرار محولات الانتباه، مع قيمة أكاديمية وعملية مهمة. يتسم التحليل النظري بالصرامة والعمق، والتحقق التجريبي كافٍ، ويوفر إرشادات قيمة لتصميم معمارية التعلم العميق.