2025-11-21T08:19:15.669983

Convergence of optimizers implies eigenvalues filtering at equilibrium

Bolte, Le, Pauwels
Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.
academic

अनुकूलकों का अभिसरण संतुलन पर eigenvalues निस्पंदन को दर्शाता है

बुनियादी जानकारी

  • पेपर ID: 2510.09034
  • शीर्षक: Convergence of optimizers implies eigenvalues filtering at equilibrium
  • लेखक: Jérôme Bolte, Quoc-Tung Le, Edouard Pauwels
  • वर्गीकरण: cs.LG math.DS math.OC
  • प्रकाशन समय: 13 अक्टूबर, 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.09034

सारांश

गहन तंत्रिका नेटवर्क प्रशिक्षण के विशाल अनुभवजन्य साक्ष्य से पता चलता है कि विभिन्न अनुकूलक वैश्विक इष्टतम के निकट समाधान खोजने की प्रवृत्ति रखते हैं। यह पेपर विपरीत दृष्टिकोण अपनाता है, किसी भी बिंदु पर अभिसरण को मानता है और अभिसरण को सिद्ध करने के बजाय इस धारणा के परिणामों पर ध्यान केंद्रित करता है। इस दृष्टिकोण से, सीमांत स्थिरता घटना की हाल की प्रगति के साथ मिलकर, लेखक तर्क देते हैं कि विभिन्न अनुकूलक वास्तव में उनके हाइपरपैरामीटर द्वारा निर्धारित eigenvalue निस्पंदन के रूप में कार्य करते हैं। विशेष रूप से, मानक ग्रेडिएंट डिसेंट विधि स्वाभाविक रूप से सबसे तीव्र न्यूनतम से बचती है, जबकि तीव्रता-जागरूक न्यूनीकरण (SAM) एल्गोरिथ्म आगे व्यापक बेसिन को सक्रिय रूप से प्राथमिकता देता है। इन अंतर्दृष्टि के आधार पर, लेखक दो नए एल्गोरिदम प्रस्तावित करते हैं, जो बेहतर eigenvalue निस्पंदन क्षमता प्रदर्शित करते हैं, जो प्रभावी रूप से व्यापक न्यूनतम को बढ़ावा देते हैं। सैद्धांतिक विश्लेषण सामान्यीकृत Hadamard-Perron स्थिर बहुविध प्रमेय का उपयोग करता है, जो सामान्य अर्धबीजीय C² फलनों पर लागू होता है, बिना अतिरिक्त गैर-अपकर्षण शर्तों या वैश्विक Lipschitz सीमा धारणा के।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

यह अनुसंधान गहन शिक्षा में अनुकूलन एल्गोरिदम के अभिसरण व्यवहार को समझने की मूल समस्या को संबोधित करता है, विशेष रूप से वे हानि फलन के जटिल परिदृश्य में विशिष्ट न्यूनतम को कैसे चुनते हैं। पारंपरिक अनुसंधान अभिसरण को सिद्ध करने पर ध्यान केंद्रित करता है, जबकि यह पेपर "विपरीत" दृष्टिकोण अपनाता है: अभिसरण पहले से हुआ मानकर, इस अभिसरण का विश्लेषण करता है कि यह प्राप्त बिंदु के ज्यामितीय गुणों (विशेष रूप से Hessian eigenvalues) पर क्या प्रतिबंध लगाता है।

महत्व

  1. स्थिरता और सामान्यीकरण का संबंध: स्थिर प्रशिक्षण व्यापक आकर्षण बेसिन और समतल न्यूनतम से संबंधित है, ये विशेषताएं सामान्यीकरण प्रदर्शन से निकटता से जुड़ी हैं
  2. सीमांत स्थिरता घटना: अनुभवजन्य अवलोकन से पता चलता है कि मानक प्रशिक्षण आमतौर पर स्थिरता सीमा के पास संचालित होता है
  3. व्यावहारिक महत्व: अनुकूलकों की निहित प्राथमिकताओं को समझना बेहतर प्रशिक्षण एल्गोरिदम डिजाइन करने में मदद करता है

मौजूदा विधियों की सीमाएं

  • मौजूदा सिद्धांत आमतौर पर कठोर धारणा शर्तों की आवश्यकता होती है (जैसे वैश्विक Lipschitz सीमा, गैर-अपकर्षण शर्तें)
  • विभिन्न अनुकूलकों के eigenvalue निस्पंदन व्यवहार को समझने के लिए एकीकृत ढांचे की कमी
  • SAM-जैसे एल्गोरिदम के सैद्धांतिक समझ में सीमाएं

अनुसंधान प्रेरणा

पिछले दशक में, गहन शिक्षा अभ्यास में सफल प्रशिक्षण लगभग सामान्य हो गया है, जिससे अनुसंधान दृष्टिकोण "कब अभिसरण होता है" से "क्यों सफलतापूर्वक अभिसरण होता है और हाइपरपैरामीटर इसे कैसे संभव बनाते हैं" की ओर स्थानांतरित हुआ है।

मूल योगदान

  1. एकीकृत सैद्धांतिक ढांचा: सामान्यीकृत Hadamard-Perron स्थिर बहुविध प्रमेय के आधार पर एकीकृत विश्लेषण ढांचा प्रस्तावित करता है, जो अनुकूलन एल्गोरिदम की विस्तृत श्रेणी पर लागू होता है
  2. Eigenvalue निस्पंदन सिद्धांत: सिद्ध करता है कि सफल अभिसरण वाले अनुकूलक अनिवार्य रूप से प्राप्त बिंदु के Hessian eigenvalues पर बाधाएं लगाते हैं, जो "eigenvalue निस्पंदन" प्रभाव बनाते हैं
  3. एल्गोरिदम विश्लेषण: ग्रेडिएंट डिसेंट, भारी गेंद विधि, Nesterov त्वरित ग्रेडिएंट विधि और USAM के eigenvalue निस्पंदन गुणों का व्यवस्थित विश्लेषण
  4. नए एल्गोरिदम प्रस्ताव: Two-step USAM और Hessian USAM दो नए एल्गोरिदम डिजाइन करता है, जो मजबूत eigenvalue निस्पंदन क्षमता प्रदर्शित करते हैं
  5. सैद्धांतिक विस्तार: मौजूदा परिणामों को अधिक सामान्य अर्धबीजीय फलन वर्ग तक विस्तारित करता है, अमूर्त गैर-अपकर्षण धारणा को हटाता है

विधि विवरण

कार्य परिभाषा

सामान्य रूप के पुनरावृत्तिमूलक अनुकूलन एल्गोरिदम पर विचार करें: xk+1=Gα(xk)=Dxkαg(xk),k=0,1,2,x_{k+1} = G_\alpha(x_k) = Dx_k - \alpha g(x_k), \quad k = 0, 1, 2, \ldots

जहां:

  • DRm×mD \in \mathbb{R}^{m \times m} व्युत्क्रमणीय मैट्रिक्स है
  • g:RmRmg: \mathbb{R}^m \to \mathbb{R}^m C1C^1 सतत अवकलनीय अर्धबीजीय मानचित्र है
  • α>0\alpha > 0 चरण आकार पैरामीटर है

मूल सैद्धांतिक परिणाम

मुख्य प्रमेय (Eigenvalue निस्पंदन)

प्रमेय 1.1: DRm×mD \in \mathbb{R}^{m \times m} व्युत्क्रमणीय मैट्रिक्स हो, g:RmRmg: \mathbb{R}^m \to \mathbb{R}^m C1C^1 अर्धबीजीय मानचित्र हो। लगभग सभी x0Rmx_0 \in \mathbb{R}^m और α>0\alpha > 0 के लिए, यदि अनुक्रम (xk)kN(x_k)_{k \in \mathbb{N}} किसी बिंदु xˉ\bar{x} पर अभिसरित होता है, तो DαgD - \alpha g के xˉ\bar{x} पर Jacobian का वर्णक्रमीय त्रिज्या अधिकतम 1 है: ρ(JacGα(xˉ))1\rho(\text{Jac}G_\alpha(\bar{x})) \leq 1

स्थिर बहुविध प्रमेय विस्तार

प्रमेय 2.1: ΛR+\Lambda \subset \mathbb{R}_+ मौजूद है, जिसका पूरक परिमित समुच्चय है, ऐसा कि किसी भी αΛ\alpha \in \Lambda के लिए, समुच्चय Wα={x0Rmxˉ s.t. Gα(xˉ)=xˉ,ρ(JacGα(xˉ))>1,xkxˉ}W_\alpha = \{x_0 \in \mathbb{R}^m | \exists \bar{x} \text{ s.t. } G_\alpha(\bar{x}) = \bar{x}, \rho(\text{Jac}G_\alpha(\bar{x})) > 1, x_k \to \bar{x}\} अधिकतम m1m-1 आयामी C1C^1 उप-बहुविध के गणनीय संघ में निहित है।

तकनीकी नवाचार बिंदु

  1. अर्धबीजीय धारणा: अर्धबीजीय फलन वर्ग को पर्याप्त शर्त के रूप में उपयोग करता है, जो गहन शिक्षा में लगभग सभी सामान्य फलनों को शामिल करता है
  2. वैश्विक शर्तों की आवश्यकता नहीं: वैश्विक Lipschitz सीमा या गैर-अपकर्षण धारणा की आवश्यकता नहीं है
  3. एकीकृत विश्लेषण ढांचा: DD और gg के एकीकृत मैट्रिक्स रूप के माध्यम से, कई अनुकूलन एल्गोरिदम को शामिल करता है

विशिष्ट एल्गोरिदम विश्लेषण

ग्रेडिएंट डिसेंट

प्रस्ताव 3.1: ग्रेडिएंट डिसेंट xk+1=xkαf(xk)x_{k+1} = x_k - \alpha \nabla f(x_k) के लिए, यदि xˉ\bar{x} पर अभिसरित होता है, तो 2f(xˉ)\nabla^2f(\bar{x}) के सभी eigenvalues λ\lambda संतुष्ट करते हैं: 0λ2α0 \leq \lambda \leq \frac{2}{\alpha}

भारी गेंद विधि

प्रस्ताव 3.2: भारी गेंद विधि के लिए, eigenvalue बाधा है: 0λ2(1+β)α0 \leq \lambda \leq \frac{2(1+\beta)}{\alpha}

USAM एल्गोरिदम

प्रस्ताव 3.4: USAM एल्गोरिदम xk+1=xkαf(xk+ρf(xk))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k)) के लिए, eigenvalue λ\lambda संतुष्ट करता है: 0λ(1+ρλ)2(1+β)α0 \leq \lambda(1 + \rho\lambda) \leq \frac{2(1+\beta)}{\alpha}

समतुल्य रूप से: 0λ1+8(1+β)ρ/α12ρ0 \leq \lambda \leq \frac{\sqrt{1 + 8(1+\beta)\rho/\alpha} - 1}{2\rho}

नए एल्गोरिदम डिजाइन

Two-step USAM

अद्यतन नियम: xk+1=xkαf(xk+ρf(xk)+ρf(xk+ρf(xk)))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k) + \rho \nabla f(x_k + \rho \nabla f(x_k)))

Eigenvalue बाधा: 0λ(1+ρλ)22(1+β)α0 \leq \lambda(1 + \rho\lambda)^2 \leq \frac{2(1+\beta)}{\alpha}

Hessian USAM

अद्यतन नियम: xk+1=xkαf(xk+ρ2f(xk)f(xk))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla^2f(x_k)\nabla f(x_k))

Eigenvalue बाधा: 0λ(1+ρλ2)2(1+β)α0 \leq \lambda(1 + \rho\lambda^2) \leq \frac{2(1+\beta)}{\alpha}

प्रायोगिक सेटअप

डेटासेट

  1. MNIST + MLP: छिपी परत आयाम {128, 64, 10, 10}, ReLU सक्रियण, क्रॉस-एंट्रॉपी हानि
  2. Fashion-MNIST + MLP: समान सेटअप
  3. CIFAR10 + WideResNet-16-8: बैच सामान्यीकरण परत के बिना WideResNet आर्किटेक्चर

प्रायोगिक कॉन्फ़िगरेशन

  • बैच आकार: 128
  • सीखने की दर: α=0.01\alpha = 0.01
  • वजन क्षय: 5×1045 \times 10^{-4}
  • गति: β{0,0.9}\beta \in \{0, 0.9\}
  • SAM पैरामीटर: ρ\rho ग्रिड खोज के माध्यम से चुना गया

मूल्यांकन मेट्रिक्स

  • परीक्षण सटीकता
  • Hessian मैट्रिक्स के शीर्ष तीन सबसे बड़े eigenvalues

प्रायोगिक परिणाम

मुख्य निष्कर्ष

  1. Eigenvalue निस्पंदन सत्यापन: प्रायोगिक परिणाम सैद्धांतिक भविष्यवाणियों के साथ अत्यधिक सुसंगत हैं, USAM, Two-step USAM और Hessian USAM वास्तव में अधिक समतल न्यूनतम पाते हैं
  2. एल्गोरिदम तुलना:
    • मानक ग्रेडिएंट डिसेंट: आधारभूत प्रदर्शन
    • USAM: Hessian eigenvalues में महत्वपूर्ण कमी
    • Two-step USAM: eigenvalue निस्पंदन में आगे सुधार
    • Hessian USAM: समान सुधार प्रभाव
  3. आर्किटेक्चर निर्भरता:
    • MLP आर्किटेक्चर: सैद्धांतिक भविष्यवाणी और प्रायोगिक परिणाम अत्यधिक सुसंगत
    • WideResNet: छोटे अंतर, संभवतः प्रशिक्षण कठिनाई में वृद्धि के कारण

प्रायोगिक अवलोकन

  1. स्थिरता आवश्यकताएं: Two-step USAM और Hessian USAM को प्रशिक्षण विफलता से बचने के लिए छोटे ρ\rho मान की आवश्यकता होती है, जो सैद्धांतिक भविष्यवाणी के अनुरूप है कि अधिक कठोर वक्रता बाधाएं हैं
  2. बैच सामान्यीकरण प्रभाव: बैच सामान्यीकरण वाले आर्किटेक्चर में, SAM-जैसे एल्गोरिदम का समतलन प्रभाव स्पष्ट नहीं है, यह सिद्धांत के विरुद्ध नहीं है, क्योंकि बैच सामान्यीकरण एल्गोरिदम गतिविज्ञान को बदलता है

संबंधित कार्य

स्थिर बहुविध प्रमेय

  • Hadamard (1901), Perron (1929) के शास्त्रीय परिणाम
  • आधुनिक अनुकूलन में अनुप्रयोग: Lee et al. (2016), Panageas & Piliouras (2017), Ahn et al. (2022)

सीमांत स्थिरता घटना

  • Cohen et al. (2021, 2022): ग्रेडिएंट डिसेंट और अनुकूली विधियों की सीमांत स्थिरता
  • Andreyev & Beneventano (2024): यादृच्छिक एल्गोरिदम का विस्तार

तीव्रता-जागरूक न्यूनीकरण

  • Foret et al. (2021): मूल SAM एल्गोरिदम
  • Andriushchenko & Flammarion (2022): USAM वेरिएंट
  • बाद के सैद्धांतिक विश्लेषण: Zhou et al. (2025), Marion & Chizat (2024)

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. एकीकृत दृष्टिकोण: सफल अनुकूलक प्रशिक्षण मूलतः eigenvalue निस्पंदन प्रक्रिया है, विभिन्न एल्गोरिदम हाइपरपैरामीटर के माध्यम से विभिन्न डिग्री का निस्पंदन प्राप्त करते हैं
  2. सैद्धांतिक विस्तार: सामान्यीकृत स्थिर बहुविध प्रमेय अनुकूलन एल्गोरिदम को समझने के लिए शक्तिशाली सैद्धांतिक उपकरण प्रदान करता है
  3. व्यावहारिक मार्गदर्शन: सैद्धांतिक परिणाम नए अनुकूलन एल्गोरिदम डिजाइन के लिए सिद्धांत-आधारित मार्गदर्शन प्रदान करते हैं

सीमाएं

  1. अर्धबीजीय धारणा: हालांकि व्यापक कवरेज है, फिर भी कुछ सीमाएं हैं
  2. नए एल्गोरिदम की कम्प्यूटेशनल लागत: Two-step USAM और Hessian USAM की एकल पुनरावृत्ति लागत अधिक है
  3. बैच सामान्यीकरण संगतता: सैद्धांतिक ढांचा अभी तक बैच सामान्यीकरण संचालन को शामिल नहीं करता है

भविष्य की दिशाएं

  1. अधिक सामान्य फलन वर्गों तक विस्तार: अर्धबीजीय धारणा के बिना सैद्धांतिक विस्तार की खोज
  2. बैच सामान्यीकरण सिद्धांत: सैद्धांतिक ढांचे को बैच सामान्यीकरण वाले आर्किटेक्चर तक विस्तारित करना
  3. व्यावहारिक एल्गोरिदम अनुकूलन: सैद्धांतिक लाभों को बनाए रखते हुए नए एल्गोरिदम की कम्प्यूटेशनल लागत को कम करना

गहन मूल्यांकन

शक्तियां

  1. सैद्धांतिक नवाचार: अनुकूलन एल्गोरिदम को समझने के लिए पूरी तरह से नया दृष्टिकोण प्रदान करता है, "अभिसरण प्रमाण" से "अभिसरण परिणाम विश्लेषण" की ओर स्थानांतरण
  2. एकीकृत ढांचा: पहली बार कई अनुकूलन एल्गोरिदम के eigenvalue निस्पंदन व्यवहार का विश्लेषण करने के लिए एकीकृत सैद्धांतिक ढांचा प्रदान करता है
  3. व्यावहारिक मूल्य: सैद्धांतिक परिणाम सीधे नए एल्गोरिदम के डिजाइन को निर्देशित करते हैं और प्रायोगिक सत्यापन प्राप्त करते हैं
  4. तकनीकी कठोरता: गणितीय व्युत्पत्ति सुदृढ़, धारणा शर्तें स्पष्ट और उचित हैं

कमियां

  1. सीमित प्रायोगिक पैमाना: प्रयोग मुख्य रूप से अपेक्षाकृत सरल आर्किटेक्चर और डेटासेट पर किए गए हैं, बड़े पैमाने पर प्रायोगिक सत्यापन अपर्याप्त है
  2. नए एल्गोरिदम मूल्यांकन: Two-step USAM और Hessian USAM का व्यापक प्रदर्शन मूल्यांकन (सामान्यीकरण क्षमता सहित) अभी भी अधिक कार्य की आवश्यकता है
  3. सैद्धांतिक अंतराल: SAM एल्गोरिदम का वास्तविक प्रदर्शन सैद्धांतिक भविष्यवाणी से कुछ अंतर दिखाता है (जैसे कठोर सैडल बिंदु समस्या)

प्रभाव

  1. सैद्धांतिक योगदान: अनुकूलन सिद्धांत को नए विश्लेषण उपकरण और दृष्टिकोण प्रदान करता है
  2. व्यावहारिक मूल्य: अनुकूलन एल्गोरिदम डिजाइन के लिए सिद्धांत-आधारित मार्गदर्शन प्रदान करता है
  3. अंतःविषय महत्व: गतिशील प्रणाली सिद्धांत को मशीन लर्निंग अभ्यास से जोड़ता है

लागू परिस्थितियां

  1. गहन शिक्षा अनुकूलन: विशेष रूप से तंत्रिका नेटवर्क प्रशिक्षण एल्गोरिदम को समझने और सुधारने के लिए उपयुक्त
  2. गैर-उत्तल अनुकूलन: सामान्य गैर-उत्तल अनुकूलन समस्याओं के लिए नए विश्लेषण उपकरण प्रदान करता है
  3. एल्गोरिदम डिजाइन: नए प्रकार के अनुकूलन एल्गोरिदम के डिजाइन और विश्लेषण को निर्देशित करता है

संदर्भ

यह पेपर बड़ी संख्या में संबंधित कार्यों का हवाला देता है, मुख्य रूप से शामिल हैं:

  • शास्त्रीय गतिशील प्रणाली सिद्धांत साहित्य
  • आधुनिक अनुकूलन सिद्धांत प्रगति
  • गहन शिक्षा में स्थिरता और सामान्यीकरण अनुसंधान
  • तीव्रता-जागरूक न्यूनीकरण संबंधित कार्य
  • सीमांत स्थिरता घटना के सैद्धांतिक और प्रायोगिक अनुसंधान

समग्र मूल्यांकन: यह सैद्धांतिक गहराई और व्यावहारिक मूल्य दोनों को संतुलित करने वाला एक उत्कृष्ट पेपर है, जो गहन शिक्षा में अनुकूलन घटनाओं को समझने के लिए नए सैद्धांतिक उपकरण प्रदान करता है, और सिद्धांत-निर्देशित एल्गोरिदम डिजाइन की सफलता का प्रदर्शन करता है। हालांकि बड़े पैमाने पर प्रायोगिक सत्यापन के पहलू में सुधार की गुंजाइश है, लेकिन इसके सैद्धांतिक योगदान और नवीन दृष्टिकोण इसे अनुकूलन सिद्धांत क्षेत्र में महत्वपूर्ण प्रगति बनाते हैं।