2025-11-16T03:28:12.300331

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

Abreu, Vyas, Kakade et al.

Recent efforts to accelerate LLM pretraining have focused on computationally-efficient approximations that exploit second-order structure. This raises a key question for large-scale training: how much performance is forfeited by these approximations? To probe this question, we establish a practical upper bound on iteration complexity by applying full Gauss-Newton (GN) preconditioning to transformer models of up to 150M parameters. Our experiments show that full GN updates yield substantial gains over existing optimizers, achieving a 5.4x reduction in training iterations compared to strong baselines like SOAP and Muon. Furthermore, we find that a precise layerwise GN preconditioner, which ignores cross-layer information, nearly matches the performance of the full GN method. Collectively, our results suggest: (1) the GN approximation is highly effective for preconditioning, implying higher-order loss terms may not be critical for convergence speed; (2) the layerwise Hessian structure contains sufficient information to achieve most of these potential gains; and (3) a significant performance gap exists between current approximate methods and an idealized layerwise oracle.

academic

إمكانيات تحسين الرتبة الثانية لنماذج اللغة الكبيرة: دراسة مع Gauss-Newton الكامل

المعلومات الأساسية

معرّف الورقة: 2510.09378
العنوان: The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
المؤلفون: Natalie Abreu (جامعة هارفارد)، Nikhil Vyas (جامعة هارفارد/OpenAI)، Sham Kakade (جامعة هارفارد)، Depen Morwani (جامعة هارفارد)
التصنيف: cs.LG cs.AI
تاريخ النشر: 10 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.09378

الملخص

تبحث هذه الورقة عن مقدار الأداء الذي تفقده التقريبات الحسابية الفعالة للطرق الحالية من الرتبة الثانية في التدريب المسبق لنماذج اللغة الكبيرة (LLM). يقوم المؤلفون بتطبيق تحسين Gauss-Newton (GN) الكامل على نموذج Transformer بـ 150 مليون معامل، مما يؤسس حدوداً عملية لتعقيد التكرار. تُظهر التجارب أن تحديثات Gauss-Newton الكاملة حققت تقليلاً بمعامل 5.4 في تكرارات التدريب مقارنة بخطوط الأساس القوية مثل SOAP و Muon. علاوة على ذلك، فإن مُحسِّن Gauss-Newton الدقيق الموزع على كل طبقة، الذي يتجاهل المعلومات عبر الطبقات، يحقق أداءً قريباً جداً من طريقة Gauss-Newton الكاملة.

السياق البحثي والدافع

تعريف المشكلة

مع النمو المستمر في متطلبات الحوسبة لنماذج اللغة الكبيرة، أصبح تحسين طرق التحسين استراتيجية أساسية لزيادة كفاءة التدريب. بينما تُستخدم الطرق من الرتبة الأولى التقليدية (مثل SGD و Adam) على نطاق واسع، فإن طرق الرتبة الثانية تتمتع نظرياً بسرعة تقارب أسرع وقدرة أفضل على التوسع مع الدفعات الكبيرة.

دافع البحث

قيود طرق الرتبة الثانية الحالية: تستخدم محسِّنات الرتبة الثانية الحالية (مثل Shampoo و SOAP و Muon) تقريبات Hessian للحفاظ على الجدوى الحسابية، لكن مقدار الأداء الذي تفقده هذه التقريبات لا يزال غير واضح.
الفجوة بين النظرية والممارسة: بينما تتفوق طرق الرتبة الثانية نظرياً، فإن التكاليف العالية للتخزين والحوسبة لـ Hessian الكامل تجعل استخدام التقريبات ضرورياً في التطبيقات العملية.
السؤال البحثي الأساسي: "ما هي حدود الأداء الأساسية لتحسين الرتبة الثانية في نماذج اللغة الكبيرة؟ أي الخصائص الهيكلية لـ Hessian ضرورية لتحقيق هذه الحدود؟"

المساهمات الأساسية

تأسيس حدود الأداء: تأسيس حدود أداء عملية لتحسين الرتبة الثانية من خلال طريقة Gauss-Newton الكاملة، مع تحقيق تحسن بمعامل 5.4 في تعقيد التكرار مقارنة بـ SOAP.
الكشف عن الهياكل الرئيسية: اكتشاف أن هيكل Hessian الموزع على كل طبقة يحتوي على معلومات كافية لتحقيق معظم مكاسب الأداء، مع أهمية محدودة لمعلومات الانحناء عبر الطبقات.
الرؤى النظرية: إثبات أن تقريب GN فعال للغاية في التحسين المسبق، مما يشير إلى أن حدود الخسارة من الرتب الأعلى قد لا تكون حاسمة لسرعة التقارب.
توسع حجم الدفعة: توسيع كبير للحجم الحرج للدفعة، مما يُظهر أداء توسع قريب من الأمثل.

شرح الطريقة

تعريف المهمة

بالنظر إلى معاملات النموذج θ والمدخلات x والعلامات y، يتم تعريف دالة الخسارة L(f(θ,x), y). الهدف هو تقليل الخسارة المتوقعة، مع التركيز على تعقيد التكرار (عدد الخطوات المطلوبة للوصول إلى خسارة الهدف).

مبادئ طريقة Gauss-Newton

الأساس الرياضي

يمكن تحليل مصفوفة Hessian الكاملة إلى:

∇²θL(θ) = ∇θf(θ)ᵀ∇²zL(θ)∇θf(θ) + Σₐ(δL/δzₐ)∇²θ[f(θ)]ₐ

حيث الحد الأول هو مصفوفة Gauss-Newton G، والحد الثاني هو انحناء النموذج.

تنفيذ الخوارزمية

الخوارزمية 1: طريقة Gauss-Newton

إجراء توسع Taylor من الرتبة الأولى للنموذج: f⁽¹⁾θₜ(θ,x) := f(θₜ,x) + ∇f(θₜ,x)ᵀ(θ-θₜ)
تحويل الخسارة إلى محدبة: L̃θₜ(θ) := (1/b)Σ₍ₓ,ᵧ₎∈B ℓ(f⁽¹⁾θₜ(θ,x), y)
بناء تقريب Taylor من الرتبة الثانية: L̃⁽²⁾θₜ(θ)
حل مشكلة المربعات الصغرى: θ̂ = argminθ L̃⁽²⁾θₜ(θ)
البحث الخطي: θₜ₊₁ ← θₜ + α*(θ̂ - θₜ)

التنفيذ الممكن من حيث الذاكرة

لتجنب تخزين مصفوفة Hessian بشكل صريح، يتم استخدام منتجات Jacobian-Vector (JVPs) لتنفيذ طريقة معادلة وظيفياً. الفكرة الأساسية هي تحسين تقريب Taylor من الرتبة الثانية للخسارة L وتقريب Taylor من الرتبة الأولى للنموذج f.

الطرق البديلة

طريقة GN-prox-linear

تقليل الخسارة مباشرة على النموذج الخطي: θ* = argminθ L̃θₜ(θ)، للتحقيق في تأثير حدود الخسارة من الرتب الأعلى.

Gauss-Newton الموزع على كل طبقة

بشكل مستقل لكل طبقة l:

حساب توسع Taylor من الرتبة الأولى لهذه الطبقة f⁽¹⁾θₗ,ₜ(θₗ)
الحل: θₗ,ₜ₊₁ = argminθₗ L̃⁽²⁾θₗ,ₜ(θₗ)
دمج تحديثات جميع الطبقات وتطبيق البحث الخطي

إعداد التجارب

مجموعات البيانات والنماذج

النموذج: معمارية LLaMA بـ 45 مليون و 150 مليون معامل
مجموعة البيانات: مجموعة بيانات C4
طول التسلسل: 1024

طرق المقارنة

AdamW: محسِّن LLM الأكثر استخداماً على نطاق واسع
Muon: طريقة تستخدم التقويم المتعامد Newton-Schulz
SOAP: أحدث متغير من Shampoo

إعدادات التجربة

محسِّن داخلي: استخدام Muon لحل مشكلة المربعات الصغرى
حجم الدفعة: يتم التحكم فيه من خلال تراكم التدرجات، bᵢₙₙₑᵣ = 32(45M) / 128(150M)
جدول معدل التعلم: ثلاث استراتيجيات - جيب تمام عام، جيب تمام عام + داخلي، ثابت + داخلي
التنظيم: تحلل الأوزان والبحث الخطي وغيرها من الاستراتيجيات المتعددة

نتائج التجارب

النتائج الرئيسية

تعقيد التكرار

في التجربة التي تصل إلى خسارة 3.25:

Gauss-Newton: 54 خطوة
SOAP: 292 خطوة (فرق 5.4 مرات)
Muon: فرق حوالي 16 مرة
GN الموزع على كل طبقة: 78 خطوة (فرق 1.4 مرة فقط)

توسع حجم الدفعة

في التدريب بـ 3 مليار رمز ثابت:

يحافظ Gauss-Newton على أداء جيدة عند حجم دفعة 120 مليون (خسارة 3.45)
يتدهور أداء AdamW بشكل خطير عند نفس حجم الدفعة (خسارة > 4.4)
توسع كبير للحجم الحرج للدفعة، قريب من اتجاه التوسع الأمثل

تجارب الاستئصال

GN مقابل GN-prox-linear

تُظهر الطريقتان أداءً متقارباً تقريباً، مما يشير إلى أن مساهمة حدود الخسارة من الرتب الأعلى محدودة.

GN الكامل مقابل GN الموزع على كل طبقة

تحقق الطريقة الموزعة أداءً قريباً من GN الكامل في معظم الإعدادات، مما يشير إلى أهمية محدودة لمعلومات الانحناء عبر الطبقات.

الاكتشافات الرئيسية

أهمية جدول معدل التعلم: يُظهر جدول جيب التمام العام أفضل أداء عند الدفعات الصغيرة والمتوسطة
ضرورة البحث الخطي: حاسم لتقارب GN المستقر
اختيار المحسِّن الداخلي: يتفوق Muon على AdamW كمحسِّن داخلي

الأعمال ذات الصلة

طرق تحسين الرتبة الثانية

تحسين خالي من Hessian: طريقة التدرج المترافق المقترحة من قبل Martens (2010)
تقريبات Hessian القطرية: طرق خفيفة الوزن مثل AdaHessian و Sophia
التقريبات الموزعة على كل طبقة: الفكرة الأساسية لسلسلة طرق Shampoo

تطور محسِّنات نماذج اللغة الكبيرة

الطرق التقليدية: سلسلة SGD و Adam
طرق الرتبة الثانية الحديثة: فاز Shampoo بـ 28% في مسابقة AlgoPerf
الطرق المتخصصة: Muon و SOAP المصممة خصيصاً لنماذج اللغة الكبيرة

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

تأسيس حدود الأداء: توفر طريقة GN الكاملة هدفاً واضحاً للأداء لتحسين الرتبة الثانية
أهمية الهيكل: يحتوي هيكل Hessian الموزع على كل طبقة على معلومات كافية لتحقيق معظم المكاسب
فعالية التقريب: توجد فجوة أداء كبيرة بين الطرق التقريبية الحالية والآلة الموحية المثالية الموزعة على كل طبقة

القيود

التكاليف الحسابية: التنفيذ الحالي أبطأ 4-5 مرات من التدريب القياسي
قيود الحجم: تقتصر التجارب على نماذج بـ 150 مليون معامل
الجدوى العملية: تعمل بشكل أساسي كأداة تحليل وليس كمحسِّن عملي مباشر

الاتجاهات المستقبلية

التنفيذ الفعال: تطوير طرق دقيقة من الرتبة الثانية محسِّنة حسابياً
تقريبات أفضل: تحسين طرق تقريب Hessian الموزعة على كل طبقة
توسع الحجم: التحقق من الاكتشافات على نماذج أكبر

التقييم المتعمق

المميزات

العمق النظري: توفير رؤى نظرية مهمة حول حدود أداء تحسين الرتبة الثانية
صرامة التجارب: بحث شامل عن المعاملات الفائقة واستراتيجيات تنظيم متعددة
القيمة العملية: توفير أهداف واضحة لتحسين طرق الرتبة الثانية الحالية
ابتكار الطريقة: استخدام ذكي لـ JVPs لتجنب تخزين Hessian الصريح

أوجه القصور

التكاليف الحسابية: التكاليف الحسابية العالية تحد من التطبيق العملي
قيود الحجم: عدم التحقق على نماذج لغة كبيرة حقيقية
التحليل النظري: نقص التحليل النظري المتعمق لسبب فعالية التقريب الموزع على كل طبقة

التأثير

المساهمة الأكاديمية: توفير معيار مهم لأبحاث تحسين الرتبة الثانية
التوجيه العملي: الإشارة إلى اتجاهات تحسين الطرق الحالية
القيمة المنهجية: تأسيس إطار عمل جديد لتقييم طرق الرتبة الثانية

السيناريوهات المناسبة

التحليل النظري لطرق تحسين الرتبة الثانية
معايير الأداء لخوارزميات التحسين الجديدة
خيارات التحسين لسيناريوهات التدريب بدفعات كبيرة

المراجع

تستشهد هذه الورقة بأعمال مهمة في مجال التحسين، بما في ذلك:

Martens (2010): العمل الرائد في تحسين خالي من Hessian
Gupta et al. (2018): محسِّن Shampoo
Jordan et al. (2024): محسِّن Muon
Vyas et al. (2025): محسِّن SOAP

التقييم الشامل: هذه ورقة بحثية عالية الجودة تؤسس حدود أداء تحسين الرتبة الثانية في تدريب نماذج اللغة الكبيرة من خلال تجارب صارمة، مما توفر رؤى نظرية مهمة وتوجيهات عملية للمجال. على الرغم من وجود قيود في التكاليف الحسابية وحجم النماذج، فإن قيمتها الأكاديمية وأهميتها التوجيهية للأبحاث المستقبلية كبيرة جداً.