2025-11-16T03:28:12.300331

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

Abreu, Vyas, Kakade et al.

Recent efforts to accelerate LLM pretraining have focused on computationally-efficient approximations that exploit second-order structure. This raises a key question for large-scale training: how much performance is forfeited by these approximations? To probe this question, we establish a practical upper bound on iteration complexity by applying full Gauss-Newton (GN) preconditioning to transformer models of up to 150M parameters. Our experiments show that full GN updates yield substantial gains over existing optimizers, achieving a 5.4x reduction in training iterations compared to strong baselines like SOAP and Muon. Furthermore, we find that a precise layerwise GN preconditioner, which ignores cross-layer information, nearly matches the performance of the full GN method. Collectively, our results suggest: (1) the GN approximation is highly effective for preconditioning, implying higher-order loss terms may not be critical for convergence speed; (2) the layerwise Hessian structure contains sufficient information to achieve most of these potential gains; and (3) a significant performance gap exists between current approximate methods and an idealized layerwise oracle.

academic

LLMs के लिए द्वितीय-क्रम अनुकूलन की संभावना: पूर्ण गॉस-न्यूटन के साथ एक अध्ययन

मूल जानकारी

पेपर ID: 2510.09378
शीर्षक: The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
लेखक: नेटली एब्रेउ (हार्वर्ड), निखिल व्यास (हार्वर्ड/OpenAI), शाम काकेड़े (हार्वर्ड), डेपन मोरवानी (हार्वर्ड)
वर्गीकरण: cs.LG cs.AI
प्रकाशन तिथि: 25 अक्टूबर 10 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.09378

सारांश

यह पेपर बड़े भाषा मॉडल (LLM) पूर्व-प्रशिक्षण में मौजूदा द्वितीय-क्रम अनुकूलन विधियों के कम्प्यूटेशनल रूप से कुशल सन्निकटन द्वारा कितना प्रदर्शन खोया जाता है, इसका अध्ययन करता है। लेखकों ने 150M पैरामीटर के Transformer मॉडल पर पूर्ण गॉस-न्यूटन (GN) पूर्वशर्त लागू करके पुनरावृत्ति जटिलता के लिए व्यावहारिक ऊपरी सीमा स्थापित की है। प्रयोग दर्शाते हैं कि पूर्ण GN अपडेट SOAP और Muon जैसी मजबूत आधार रेखाओं की तुलना में प्रशिक्षण पुनरावृत्तियों में 5.4 गुना कमी प्राप्त करते हैं। इसके अलावा, परतों के बीच की जानकारी को अनदेखा करने वाली सटीक परत-दर-परत GN पूर्वशर्त लगभग पूर्ण GN विधि के प्रदर्शन तक पहुंचती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

LLM की कम्प्यूटेशनल आवश्यकताओं में निरंतर वृद्धि के साथ, अनुकूलन विधियों में सुधार प्रशिक्षण दक्षता बढ़ाने की मूल रणनीति बन गया है। पारंपरिक प्रथम-क्रम विधियां (जैसे SGD और Adam) व्यापक रूप से उपयोग की जाती हैं, लेकिन द्वितीय-क्रम विधियां सैद्धांतिक रूप से तेजी से अभिसरण और बेहतर बड़े-बैच स्केलिंग क्षमता प्रदान करती हैं।

अनुसंधान प्रेरणा

मौजूदा द्वितीय-क्रम विधियों की सीमाएं: वर्तमान द्वितीय-क्रम अनुकूलक (जैसे Shampoo, SOAP, Muon) कम्प्यूटेशनल व्यवहार्यता बनाए रखने के लिए Hessian के सन्निकटन का उपयोग करते हैं, लेकिन ये सन्निकटन कितना प्रदर्शन खोते हैं यह स्पष्ट नहीं है।
सिद्धांत और व्यवहार का अंतराल: हालांकि द्वितीय-क्रम विधियां सैद्धांतिक रूप से उत्तम हैं, पूर्ण Hessian के भंडारण और कम्प्यूटेशनल लागत के कारण, व्यावहारिक अनुप्रयोगों में सन्निकटन विधियों का उपयोग करना आवश्यक है।
मूल अनुसंधान प्रश्न: "LLM में द्वितीय-क्रम अनुकूलन की मौलिक प्रदर्शन सीमा क्या है? इन सीमाओं को प्राप्त करने के लिए Hessian के कौन से संरचनात्मक गुण आवश्यक हैं?"

मूल योगदान

प्रदर्शन ऊपरी सीमा स्थापित करना: पूर्ण गॉस-न्यूटन विधि के माध्यम से द्वितीय-क्रम अनुकूलन के लिए व्यावहारिक प्रदर्शन ऊपरी सीमा स्थापित की गई है, पुनरावृत्ति जटिलता में SOAP की तुलना में 5.4 गुना सुधार प्राप्त किया गया है।
मुख्य संरचना का खुलासा: पता चला कि परत-दर-परत Hessian संरचना में अधिकांश प्रदर्शन लाभ प्राप्त करने के लिए पर्याप्त जानकारी है, परतों के बीच की वक्रता जानकारी की सीमित महत्ता है।
सैद्धांतिक अंतर्दृष्टि: साबित किया कि GN सन्निकटन पूर्वशर्त के लिए अत्यधिक प्रभावी है, जो सुझाता है कि उच्च-क्रम हानि शर्तें अभिसरण गति के लिए महत्वपूर्ण नहीं हो सकती हैं।
बैच आकार स्केलिंग: महत्वपूर्ण रूप से महत्वपूर्ण बैच आकार का विस्तार किया, लगभग इष्टतम स्केलिंग प्रदर्शन प्रदर्शित किया।

विधि विवरण

कार्य परिभाषा

मॉडल पैरामीटर θ, इनपुट x और लेबल y दिए गए हैं, हानि फ़ंक्शन L(f(θ,x), y) को परिभाषित करें। लक्ष्य अपेक्षित हानि को कम करना है, पुनरावृत्ति जटिलता (लक्ष्य हानि तक पहुंचने के लिए आवश्यक चरणों की संख्या) पर ध्यान केंद्रित करते हुए।

गॉस-न्यूटन विधि सिद्धांत

गणितीय आधार

पूर्ण Hessian मैट्रिक्स को इस प्रकार विघटित किया जा सकता है:

∇²θL(θ) = ∇θf(θ)ᵀ∇²zL(θ)∇θf(θ) + Σₐ(δL/δzₐ)∇²θ[f(θ)]ₐ

जहां पहला पद गॉस-न्यूटन मैट्रिक्स G है, दूसरा पद मॉडल की वक्रता है।

एल्गोरिथ्म कार्यान्वयन

एल्गोरिथ्म 1: गॉस-न्यूटन विधि

मॉडल पर प्रथम-क्रम टेलर विस्तार: f⁽¹⁾θₜ(θ,x) := f(θₜ,x) + ∇f(θₜ,x)ᵀ(θ-θₜ)
हानि को उत्तल बनाएं: L̃θₜ(θ) := (1/b)Σ₍ₓ,ᵧ₎∈B ℓ(f⁽¹⁾θₜ(θ,x), y)
द्वितीय-क्रम टेलर सन्निकटन का निर्माण: L̃⁽²⁾θₜ(θ)
न्यूनतम वर्ग समस्या को हल करें: θ̂ = argminθ L̃⁽²⁾θₜ(θ)
रेखा खोज: θₜ₊₁ ← θₜ + α*(θ̂ - θₜ)

मेमोरी-व्यवहार्य कार्यान्वयन

Hessian मैट्रिक्स को स्पष्ट रूप से संग्रहीत करने से बचने के लिए, Jacobian-वेक्टर गुणन (JVPs) का उपयोग करके कार्यात्मक रूप से समतुल्य विधि को लागू करें। मूल विचार हानि फ़ंक्शन L के द्वितीय-क्रम टेलर सन्निकटन और मॉडल f के प्रथम-क्रम टेलर सन्निकटन को अनुकूलित करना है।

भिन्न विधियां

GN-prox-linear विधि

रैखिकीकृत मॉडल पर हानि को सीधे कम करें: θ* = argminθ L̃θₜ(θ), उच्च-क्रम हानि शर्तों के प्रभाव का अध्ययन करने के लिए उपयोग किया जाता है।

परत-दर-परत गॉस-न्यूटन

प्रत्येक परत l के लिए स्वतंत्र रूप से:

उस परत के प्रथम-क्रम टेलर विस्तार की गणना करें f⁽¹⁾θₗ,ₜ(θₗ)
हल करें: θₗ,ₜ₊₁ = argminθₗ L̃⁽²⁾θₗ,ₜ(θₗ)
सभी परतों के अपडेट को मर्ज करें और रेखा खोज लागू करें

प्रयोगात्मक सेटअप

डेटासेट और मॉडल

मॉडल: 45M और 150M पैरामीटर के LLaMA आर्किटेक्चर
डेटासेट: C4 डेटासेट
अनुक्रम लंबाई: 1024

आधार रेखा विधियां

AdamW: सबसे व्यापक रूप से उपयोग किया जाने वाला LLM अनुकूलक
Muon: Newton-Schulz ऑर्थोगोनलाइजेशन का उपयोग करने वाली विधि
SOAP: Shampoo का नवीनतम संस्करण

प्रयोगात्मक कॉन्फ़िगरेशन

आंतरिक अनुकूलक: न्यूनतम वर्ग समस्या को हल करने के लिए Muon का उपयोग करें
बैच आकार: ग्रेडिएंट संचय द्वारा नियंत्रित, bᵢₙₙₑᵣ = 32(45M) / 128(150M)
शिक्षण दर अनुसूची: वैश्विक कोसाइन, वैश्विक + आंतरिक कोसाइन, स्थिर + आंतरिक कोसाइन तीन रणनीतियां
नियमितीकरण: वजन क्षय, रेखा खोज आदि कई रणनीतियां

प्रयोगात्मक परिणाम

मुख्य परिणाम

पुनरावृत्ति जटिलता

हानि 3.25 तक पहुंचने के प्रयोग में:

गॉस-न्यूटन: 54 चरण
SOAP: 292 चरण (5.4 गुना अंतर)
Muon: लगभग 16 गुना अंतर
परत-दर-परत GN: 78 चरण (केवल 1.4 गुना अंतर)

बैच आकार स्केलिंग

निश्चित 3B टोकन प्रशिक्षण में:

गॉस-न्यूटन 120M बैच आकार पर अच्छा प्रदर्शन बनाए रखता है (हानि 3.45)
AdamW समान बैच आकार पर गंभीर प्रदर्शन गिरावट (हानि >4.4)
महत्वपूर्ण बैच आकार में उल्लेखनीय विस्तार, लगभग इष्टतम स्केलिंग प्रवृत्ति

विलोपन प्रयोग

GN बनाम GN-prox-linear

दोनों विधियों का प्रदर्शन लगभग समान है, जो दर्शाता है कि उच्च-क्रम हानि शर्तें प्रदर्शन सुधार में सीमित योगदान देती हैं।

पूर्ण GN बनाम परत-दर-परत GN

परत-दर-परत विधि अधिकांश सेटिंग्स में पूर्ण GN प्रदर्शन के करीब है, जो दर्शाता है कि परतों के बीच की वक्रता जानकारी की सीमित महत्ता है।

मुख्य निष्कर्ष

शिक्षण दर अनुसूची की महत्ता: वैश्विक कोसाइन अनुसूची मध्यम बैच आकार में सर्वश्रेष्ठ प्रदर्शन करती है
रेखा खोज की आवश्यकता: GN विधि के स्थिर अभिसरण के लिए महत्वपूर्ण है
आंतरिक अनुकूलक चयन: Muon AdamW से बेहतर आंतरिक अनुकूलक के रूप में कार्य करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रदर्शन ऊपरी सीमा स्थापित: पूर्ण GN विधि द्वितीय-क्रम अनुकूलन के लिए स्पष्ट प्रदर्शन लक्ष्य प्रदान करती है
संरचना महत्ता: परत-दर-परत Hessian संरचना में अधिकांश लाभ प्राप्त करने के लिए पर्याप्त जानकारी है
सन्निकटन प्रभाव: वर्तमान सन्निकटन विधियां और आदर्श परत-दर-परत भविष्यवाणीकार के बीच महत्वपूर्ण प्रदर्शन अंतर है

सीमाएं

कम्प्यूटेशनल ओवरहेड: वर्तमान कार्यान्वयन मानक प्रशिक्षण से 4-5 गुना धीमा है
स्केल सीमा: प्रयोग केवल 150M पैरामीटर मॉडल तक सीमित हैं
व्यावहारिकता: मुख्य रूप से विश्लेषण उपकरण के रूप में कार्य करता है, सीधे व्यावहारिक अनुकूलक नहीं

भविष्य की दिशाएं

कुशल कार्यान्वयन: कम्प्यूटेशनल रूप से कुशल सटीक द्वितीय-क्रम विधियां विकसित करें
बेहतर सन्निकटन: परत-दर-परत Hessian सन्निकटन विधियों में सुधार करें
स्केल विस्तार: बड़े मॉडल पर निष्कर्षों को सत्यापित करें

गहन मूल्यांकन

शक्तियां

सैद्धांतिक गहराई: द्वितीय-क्रम अनुकूलन प्रदर्शन सीमा की महत्वपूर्ण सैद्धांतिक अंतर्दृष्टि प्रदान करता है
प्रयोगात्मक कठोरता: व्यापक हाइपरपैरामीटर खोज और कई नियमितीकरण रणनीतियां
व्यावहारिक मूल्य: मौजूदा द्वितीय-क्रम विधियों में सुधार के लिए स्पष्ट लक्ष्य प्रदान करता है
विधि नवाचार: JVPs का उपयोग करके स्पष्ट Hessian भंडारण से बचने का चतुर तरीका

कमियां

कम्प्यूटेशनल लागत: उच्च कम्प्यूटेशनल ओवरहेड व्यावहारिक अनुप्रयोग को सीमित करता है
स्केल सीमा: वास्तविक बड़े पैमाने के LLM पर सत्यापित नहीं किया गया है
सैद्धांतिक विश्लेषण: परत-दर-परत सन्निकटन इतनी प्रभावी क्यों है इसके गहन सैद्धांतिक व्याख्या की कमी

प्रभाव

शैक्षणिक योगदान: द्वितीय-क्रम अनुकूलन अनुसंधान के लिए महत्वपूर्ण बेंचमार्क प्रदान करता है
व्यावहारिक मार्गदर्शन: मौजूदा विधियों में सुधार की दिशा निर्दिष्ट करता है
पद्धति मूल्य: द्वितीय-क्रम विधियों का मूल्यांकन करने के लिए नई रूपरेखा स्थापित करता है

लागू दृश्य

द्वितीय-क्रम अनुकूलन विधियों का सैद्धांतिक विश्लेषण
नए अनुकूलन एल्गोरिथ्म के प्रदर्शन बेंचमार्क
बड़े-बैच प्रशिक्षण परिदृश्य में अनुकूलन विकल्प

संदर्भ

यह पेपर अनुकूलन क्षेत्र के महत्वपूर्ण कार्यों का उद्धरण देता है, जिनमें शामिल हैं:

Martens (2010): Hessian-मुक्त अनुकूलन का अग्रणी कार्य
Gupta et al. (2018): Shampoo अनुकूलक
Jordan et al. (2024): Muon अनुकूलक
Vyas et al. (2025): SOAP अनुकूलक

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पत्र है जो कठोर प्रयोगों के माध्यम से LLM प्रशिक्षण में द्वितीय-क्रम अनुकूलन की प्रदर्शन ऊपरी सीमा स्थापित करता है, इस क्षेत्र को महत्वपूर्ण सैद्धांतिक अंतर्दृष्टि और व्यावहारिक मार्गदर्शन प्रदान करता है। कम्प्यूटेशनल लागत और स्केल सीमाओं के बावजूद, इसका शैक्षणिक मूल्य और भविष्य के अनुसंधान के लिए मार्गदर्शन महत्वपूर्ण है।