A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent
Xie, Wang, Wu et al.
Adaptive optimizers can reduce to normalized steepest descent (NSD) when only adapting to the current gradient, suggesting a close connection between the two algorithmic families. A key distinction between their analyses, however, lies in the geometries, e.g., smoothness notions, they rely on. In the convex setting, adaptive optimizers are governed by a stronger adaptive smoothness condition, while NSD relies on the standard notion of smoothness. We extend the theory of adaptive smoothness to the nonconvex setting and show that it precisely characterizes the convergence of adaptive optimizers. Moreover, we establish that adaptive smoothness enables acceleration of adaptive optimizers with Nesterov momentum in the convex setting, a guarantee unattainable under standard smoothness for certain non-Euclidean geometry. We further develop an analogous comparison for stochastic optimization by introducing adaptive gradient variance, which parallels adaptive smoothness and leads to dimension-free convergence guarantees that cannot be achieved under standard gradient variance for certain non-Euclidean geometry.
academic
दो ज्यामितियों की कथा: अनुकूली अनुकूलक और गैर-यूक्लिडीय वंश
शीर्षक: A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent
लेखक: Shuo Xie (Toyota Technological Institute at Chicago), Tianhao Wang (UC San Diego), Beining Wu (University of Chicago), Zhiyuan Li (Toyota Technological Institute at Chicago)
यह पेपर अनुकूली अनुकूलकों (जैसे Adam, Shampoo) और सामान्यीकृत सबसे तीव्र वंश (NSD, जैसे Lion, Muon) के दो एल्गोरिदम परिवारों के बीच गैर-यूक्लिडीय ज्यामितीय संरचनाओं के उपयोग में आवश्यक अंतर का व्यवस्थित रूप से अध्ययन करता है। अनुसंधान से पता चलता है कि हालांकि दोनों घातीय गतिशील औसत (EMA) को बंद करने पर समतुल्य हो सकते हैं, लेकिन उनके सैद्धांतिक विश्लेषण विभिन्न ज्यामितीय मान्यताओं पर निर्भर करते हैं: अनुकूली अनुकूलकों को अधिक मजबूत "अनुकूली चिकनाई" (adaptive smoothness) की आवश्यकता होती है, जबकि NSD को केवल मानक चिकनाई की आवश्यकता होती है। यह पेपर अनुकूली चिकनाई सिद्धांत को गैर-उत्तल सेटिंग तक विस्तारित करता है और अनुकूली अनुकूलकों की अभिसरण को सटीक रूप से चिह्नित करता है। अधिक महत्वपूर्ण रूप से, अनुसंधान से पता चलता है कि अनुकूली चिकनाई अनुकूली अनुकूलकों को Nesterov गति के साथ उत्तल सेटिंग में त्वरण (O(T⁻²)) प्राप्त करने में सक्षम बनाती है, जबकि मानक चिकनाई कुछ गैर-यूक्लिडीय ज्यामितियों के तहत इस गारंटी को प्राप्त नहीं कर सकती है। इसके अलावा, पेपर "अनुकूली ढाल विचरण" की अवधारणा प्रस्तुत करता है, जो NSD के लिए आयाम-स्वतंत्र अभिसरण गारंटी प्रदान करता है, जो मानक ढाल विचरण मान्यता के तहत प्राप्य नहीं है।
यह पेपर दो मौलिक प्रश्नों का उत्तर देने का लक्ष्य रखता है:
Q1: क्या अनुकूली विधियां (जैसे Adam, Shampoo) और संबंधित गैर-यूक्लिडीय वंश विधियां (जैसे Lion, Muon) हानि फ़ंक्शन की गैर-यूक्लिडीय ज्यामिति का समान तरीके से उपयोग करती हैं?
Q2: क्या अनुकूली विधियों में अधिक मजबूत चिकनाई मान्यता वास्तविक अनुकूलन लाभ ला सकती है?
व्यावहारिक मूल्य: Adam जैसे अनुकूली अनुकूलक बड़े पैमाने पर मशीन लर्निंग मॉडल प्रशिक्षण में अपरिहार्य हैं (जैसे LLaMA, DeepSeek आदि), लेकिन हाल ही में Lion, Muon जैसी सरल NSD विधियां आश्चर्यजनक प्रभावशीलता प्रदर्शित करती हैं, जो दोनों विधियों के आवश्यक अंतर के बारे में सोच को प्रेरित करती है।
सैद्धांतिक कमी: हालांकि Bernstein & Newhouse (2024) ने इंगित किया कि दोनों विधियां EMA को बंद करने पर समतुल्य हैं (जैसे Adam ℓ∞-NSD के बराबर है, Shampoo वर्णक्रमीय मानदंड NSD के बराबर है), लेकिन व्यवस्थित सैद्धांतिक लक्षण वर्णन की कमी है।
ज्यामितीय दृष्टिकोण: दोनों विधियों की उच्च कार्यक्षमता हानि फ़ंक्शन की गैर-यूक्लिडीय ज्यामिति के उपयोग से संबंधित है, लेकिन उनके सैद्धांतिक विश्लेषण विभिन्न ज्यामितीय मान्यताओं पर निर्भर करते हैं।
अधूरा अभिसरण सिद्धांत: अनुकूली चिकनाई सिद्धांत केवल उत्तल सेटिंग में स्थापित है (Xie et al., 2025b), गैर-उत्तल स्थिति में लक्षण वर्णन की कमी है।
अस्पष्ट मान्यता शक्ति: अनुकूली चिकनाई हमेशा मानक चिकनाई से कम नहीं होती है, लेकिन यह अधिक मजबूत मान्यता वास्तविक लाभ लाती है या नहीं यह साबित नहीं हुआ है।
आयाम निर्भरता समस्या: NSD को यादृच्छिक अनुकूलन में आयाम निर्भरता समस्या है (जैसे SignGD का √d कारक), अधिक सूक्ष्म शोर मान्यता की कमी है।
गैर-उत्तल अभिसरण सिद्धांत: अनुकूली चिकनाई सिद्धांत को गैर-उत्तल सेटिंग तक विस्तारित करता है, अनुकूली अनुकूलकों के अभिसरण दर को सटीक रूप से चिह्नित करता है (Theorems C.2, C.7, C.8), इष्टतम Õ(T⁻¹/⁴) गति प्राप्त करता है।
त्वरित अभिसरण गारंटी: साबित करता है कि अनुकूली चिकनाई Nesterov गति के साथ अनुकूली अनुकूलकों को उत्तल सेटिंग में Õ(T⁻²) त्वरित दर प्राप्त करने में सक्षम बनाती है (Theorem 4.4), जबकि मानक ℓ∞ चिकनाई के तहत कोई भी अनुकूलक केवल Ω(T⁻¹) प्राप्त कर सकता है (Guzmán & Nemirovski, 2015)।
अनुकूली ढाल विचरण: अनुकूली ढाल विचरण की अवधारणा प्रस्तुत करता है (Definition 4.1), साबित करता है कि यह गति के साथ NSD के लिए आयाम-स्वतंत्र अभिसरण गारंटी प्रदान करता है (Theorem 4.6), और निचली सीमा (Theorem 4.9) के माध्यम से साबित करता है कि मानक ढाल विचरण के तहत आयाम निर्भरता अपरिहार्य है।
एकीकृत विश्लेषण ढांचा: AdaGrad, AdaGrad-Norm, एकतरफा Shampoo आदि सहित व्यापक अनुकूली विधियों को कवर करने वाला एकीकृत विश्लेषण ढांचा प्रदान करता है, मूल तकनीकी योगदान गैर-क्रमविनिमेय पूर्वशर्त को संभालने के लिए नई मैट्रिक्स असमानताएं हैं (Lemma 3.3, 3.4)।
सैद्धांतिक पृथक्करण: दोनों ज्यामितीय मान्यताओं (मानक बनाम अनुकूली) को चिकनाई और शोर दोनों आयामों पर मात्रात्मक रूप से अलग करता है, अनुकूलता के सैद्धांतिक समझ को गहरा करता है।
जहां f:Rd→R संभवतः गैर-उत्तल है। यादृच्छिक सेटिंग में, यादृच्छिक ढाल ∇ft(x) के माध्यम से लक्ष्य फ़ंक्शन तक पहुंचा जाता है, जो E[∇ft(x)]=∇f(x) को संतुष्ट करता है।
धनात्मक निश्चित मैट्रिक्स X,Y के लिए जो Y⪯X को संतुष्ट करते हैं, किसी भी 0≤c≤C के लिए:
X−1/2(X−Y)X−1/2⪯π23(logC−logc)(logX−logY)+(π2λmin(X)212cd+π212C−1d)Tr(X−Y)⋅I
महत्व:
जब मैट्रिक्स क्रमविनिमेय हों, तो लघुगणकीय स्केलिंग का उपयोग करके तंग सीमा प्राप्त की जा सकती है
गैर-क्रमविनिमेय स्थिति में, दूसरा पद "गैर-क्रमविनिमेय लागत" को मापता है, logd कारक प्रस्तुत करता है
मापदंडों को सावधानीपूर्वक चुनकर, लागत को logd में नियंत्रित किया जाता है
संबंध (Proposition 4.2):
σ∥⋅∥H,∗({ft})2≤σH({ft})2≤d⋅σ∥⋅∥H,∗({ft})2
अंतर्ज्ञान: अनुकूली विचरण सभी पूर्वशर्त-प्रेरित ज्यामितियों में शोर को समान रूप से नियंत्रित करने की आवश्यकता है, जो केवल एक निश्चित मानदंड में नियंत्रण से अधिक मजबूत है।
Nesterov गति के साथ अनुकूली अनुकूलकों के लिए (Algorithm 2), उत्तल फ़ंक्शन पर αt=t+22 और η=D चुनते समय:
E[f(xˉT)−f(x∗)]=O~(T2ΛH(f)D2log2d+T2dϵD+TσHDlogd)
तुलना:
अनुकूली चिकनाई के तहत: O(T−2) त्वरित दर (निर्धारणात्मक भाग)
मानक ℓ∞ चिकनाई के तहत: Guzmán & Nemirovski (2015) साबित करते हैं कि कोई भी प्रथम-क्रम विधि केवल Ω(T−1) प्राप्त कर सकती है
महत्व: साबित करता है कि अनुकूली चिकनाई का व्यावहारिक लाभ—त्वरण प्राप्त करने की क्षमता, जबकि मानक चिकनाई नहीं कर सकती।
NSD (Algorithm 3) के लिए अनुकूली ढाल विचरण σH के तहत:
E[T1∑t=0T−1∥∇f(xt)∥H,∗]≤ηTΔ0+α2ηL∥⋅∥H(f)+αT2σH+2σHα
इष्टतम विकल्प α=σHTΔ0L∥⋅∥H(f) और η=L∥⋅∥H(f)1/4σH1/2Δ03/4T−3/4 के साथ:
दर=O(T1/4(Δ0L∥⋅∥H(f))1/4σH)
आयाम-स्वतंत्र निर्भरता: Pethick et al. (2025) के O~(ρd/T1/4) की तुलना में (जहां ρ=supx∥x∥2∥x∥H,∗Θ(d) तक पहुंच सकता है), यह परिणाम पूरी तरह से आयाम निर्भरता को समाप्त करता है।
मानक ℓ₁ विचरण मान्यता E[∥∇ft(x)−∇f(x)∥12]≤σ2 के तहत, SignGD (ℓ∞-NSD) के लिए कठिन उदाहरण मौजूद हैं जैसे:
E[mint∈[T]∥∇f(xt)∥1]=min{e−25−41(dLΔ0σ2)1/4T−1/2,e−25−21σ}
महत्व:
त्रुटि ϵ<e−25−1/2σ प्राप्त करने के लिए T=Ω(ϵ−2(dLΔ0σ2)1/2) चरणों की आवश्यकता है
आयाम निर्भरता Ω(d1/2) मानक विचरण मान्यता के तहत अपरिहार्य है
Theorem 4.6 की आयाम-स्वतंत्र ऊपरी सीमा के साथ विरोधाभास, अनुकूली विचरण की आवश्यक श्रेष्ठता साबित करता है
ज्यामितीय द्वैत: अनुकूली अनुकूलक और NSD दोनों गैर-यूक्लिडीय ज्यामिति का उपयोग करते हैं, लेकिन आवश्यक रूप से विभिन्न ज्यामितीय मान्यताओं पर निर्भर करते हैं:
अनुकूली अनुकूलक: अनुकूली चिकनाई ΛH(f) की आवश्यकता है, स्वचालित रूप से इष्टतम पूर्वशर्त के अनुकूल हो सकते हैं
NSD: केवल मानक चिकनाई L∥⋅∥H(f) की आवश्यकता है, लेकिन मानदंड को पहले से निर्दिष्ट करने की आवश्यकता है
अनुकूलता का मूल्य: अधिक मजबूत अनुकूली मान्यता व्यावहारिक लाभ लाती है:
त्वरण: उत्तल स्थिति में O(T⁻²) बनाम मानक मान्यता के तहत Ω(T⁻¹)
आयाम-स्वतंत्र: यादृच्छिक स्थिति में आयाम निर्भरता को समाप्त करना
एकीकृत सैद्धांतिक ढांचा: एकतरफा Shampoo सहित व्यापक अनुकूली विधियों के लिए पहली बार गैर-उत्तल अभिसरण सिद्धांत स्थापित करता है, मूल तकनीक गैर-क्रमविनिमेय पूर्वशर्त को संभालने के लिए नई मैट्रिक्स असमानता है।
तंगता: निचली सीमा साबित करते हैं कि:
मानक विचरण मान्यता के तहत आयाम निर्भरता अपरिहार्य है (Theorem 4.9)
अनुकूली विचरण की श्रेष्ठता केवल तकनीकी मान्यता नहीं है, बल्कि आवश्यक अंतर है
Xie et al. (2025b): "Structured Preconditioners in Adaptive Optimization: A Unified Analysis" - इस पेपर का उत्तल स्थिति आधार
Guzmán & Nemirovski (2015): "On lower complexity bounds for large-scale smooth convex optimization" - ℓ∞ चिकनाई के तहत निचली सीमा
Pethick et al. (2025): "Training deep learning models with norm-constrained lmos" - NSD का नवीनतम विश्लेषण
Kovalev (2025a): "SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration" - समानांतर कार्य
Bernstein & Newhouse (2024): "Old optimizer, new norm: An anthology" - Adam और NSD की समतुल्यता
Gupta et al. (2017): "A unified approach to adaptive regularization" - अनुकूली अनुकूलक ढांचा
Lieb (1973): "Convex trace functions and the wigner-yanase-dyson conjecture" - Lemma A.7 की अवतलता आधार
सारांश: यह पेपर अनुकूली अनुकूलन सिद्धांत में महत्वपूर्ण प्रगति है, जो अनुकूली विधियों और NSD के बीच ज्यामितीय मान्यताओं में आवश्यक अंतर को व्यवस्थित रूप से प्रकट करता है, और कठोर सैद्धांतिक विश्लेषण के माध्यम से अनुकूलता के व्यावहारिक मूल्य को साबित करता है। हालांकि प्रायोगिक सत्यापन की कमी है, इसकी सैद्धांतिक गहराई और तकनीकी नवाचार इसे इस क्षेत्र का महत्वपूर्ण संदर्भ बनाते हैं। मूल योगदान "दो ज्यामितियों" का संपूर्ण सैद्धांतिक प्रणाली स्थापित करने में निहित है, जो अनुकूली अनुकूलन एल्गोरिदम को समझने और डिजाइन करने के लिए नया दृष्टिकोण प्रदान करता है।