Convergence of optimizers implies eigenvalues filtering at equilibrium
Bolte, Le, Pauwels
Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.
academic
تقارب المحسّنات يعني تصفية القيم الذاتية عند التوازن
تشير الأدلة التجريبية الوفيرة من تدريب الشبكات العصبية العميقة إلى أن مختلف المحسّنات تميل إلى إيجاد حلول قريبة من الأمثل العام. تتبنى هذه الورقة منظوراً معاكساً، حيث تفترض التقارب إلى نقطة عشوائية بدلاً من إثبات التقارب، مع التركيز على عواقب هذا الافتراض. من هذا المنطلق، وبالاستفادة من التطورات الحديثة في ظاهرة الاستقرار الهامشي، يجادل المؤلفون بأن المحسّنات المختلفة تعمل فعلياً كمصافي للقيم الذاتية يحددها فرط المعاملات. بشكل محدد، تتجنب طرق الانحدار التدريجي المعياري بطبيعتها الحدود الدنيا الأكثر حدة، بينما تفضل خوارزمية تقليل الحدة الواعية (SAM) بنشاط الأحواض الأوسع. بناءً على هذه الرؤى، يقترح المؤلفون خوارزميتين جديدتين تظهران قدرة محسّنة على تصفية القيم الذاتية، مما يعزز فعلياً الحدود الدنيا الأوسع. يستخدم التحليل النظري نظرية متعددة الطيات Hadamard-Perron المستقرة المعممة، والمطبقة على دوال C² شبه جبرية عامة، دون الحاجة إلى شروط عدم انحطاط إضافية أو افتراضات حدود Lipschitz عامة.
تعالج هذه الدراسة المشكلة الأساسية المتمثلة في فهم سلوك تقارب خوارزميات التحسين في التعلم العميق، خاصة كيفية اختيارها لحدود دنيا محددة في المناظر الطبيعية المعقدة لدالة الخسارة. يركز البحث التقليدي على إثبات التقارب، بينما تتبنى هذه الورقة منظوراً "معكوساً": افتراض حدوث التقارب وتحليل القيود التي يفرضها هذا التقارب على الخصائص الهندسية للنقطة المُحققة (خاصة القيم الذاتية لمصفوفة هسيان).
على مدى العقد الماضي، أصبح التدريب الناجح للشبكات العميقة معياراً في الممارسة العملية، مما دفع المنظور البحثي من "متى يحدث التقارب" إلى "لماذا يحدث التقارب الناجح وكيف تجعله فرط المعاملات ممكناً".
إطار عمل نظري موحد: اقتراح إطار تحليل موحد بناءً على نظرية متعددة الطيات Hadamard-Perron المستقرة المعممة، قابل للتطبيق على فئة واسعة من خوارزميات التحسين
نظرية تصفية القيم الذاتية: إثبات أن المحسّنات الناجحة في التقارب تفرض بالضرورة قيوداً على القيم الذاتية لمصفوفة هسيان عند النقطة المُحققة، مما يشكل تأثير "تصفية القيم الذاتية"
تحليل الخوارزميات: تحليل منهجي لخصائص تصفية القيم الذاتية للانحدار التدريجي والطريقة الثقيلة وتسارع Nesterov وUSAM
اقتراح خوارزميات جديدة: تصميم خوارزميتين جديدتين هما Two-step USAM و Hessian USAM، تظهران قدرة محسّنة على تصفية القيم الذاتية
توسيع النظرية: توسيع النتائج الموجودة إلى فئة أكثر عمومية من الدوال شبه الجبرية، مع إزالة الافتراضات المجردة لعدم الانحطاط
النظرية 1.1: لتكن D∈Rm×m مصفوفة قابلة للعكس، و g:Rm→Rm دالة شبه جبرية من الدرجة الأولى. بالنسبة لجميع x0∈Rm و α>0 تقريباً، إذا تقاربت المتسلسلة (xk)k∈N إلى نقطة ما xˉ، فإن نصف قطر الطيف لمصفوفة جاكوبيان D−αg عند xˉ يكون على الأكثر مساوياً لـ 1:
ρ(JacGα(xˉ))≤1
النظرية 2.1: توجد مجموعة Λ⊂R+ بحيث يكون مكملتها مجموعة منتهية، بحيث لأي α∈Λ، المجموعة
Wα={x0∈Rm∣∃xˉ s.t. Gα(xˉ)=xˉ,ρ(JacGα(xˉ))>1,xk→xˉ}
مضمنة في اتحاد قابل للعد من متعددات الطيات من الدرجة الأولى بحد أقصى m−1 بعد.
التحقق من تصفية القيم الذاتية: تتوافق نتائج التجارب بشكل كبير مع التنبؤات النظرية، حيث تجد USAM و Two-step USAM و Hessian USAM بالفعل حدوداً دنيا أكثر تسطيحاً
مقارنة الخوارزميات:
الانحدار التدريجي المعياري: الأداء الأساسي
USAM: تقليل كبير في القيم الذاتية لهسيان
Two-step USAM: تحسين إضافي في تصفية القيم الذاتية
Hessian USAM: تأثيرات تحسين مماثلة
الاعتماد على المعمارية:
معمارية MLP: توافق عالي بين التنبؤات النظرية والنتائج التجريبية
WideResNet: اختلافات أصغر، ربما بسبب زيادة صعوبة التدريب
متطلبات الاستقرار: تتطلب Two-step USAM و Hessian USAM قيماً أصغر لـ ρ لتجنب فشل التدريب، وهو ما يتوافق مع قيود الانحناء الأكثر صرامة المتنبأ بها نظرياً
تأثير تطبيع الدفعة: في المعماريات التي تستخدم تطبيع الدفعة، لا يكون تأثير التسطيح لخوارزميات من نوع SAM واضحاً، وهذا لا يتعارض مع النظرية لأن تطبيع الدفعة يغير ديناميكيات الخوارزمية
منظور موحد: التدريب الناجح للمحسّنات هو في الأساس عملية تصفية للقيم الذاتية، حيث تحقق الخوارزميات المختلفة درجات مختلفة من التصفية من خلال فرط المعاملات
التوسيع النظري: توفر نظرية متعددات الطيات المستقرة المعممة أداة نظرية قوية لفهم خوارزميات التحسين
التوجيه العملي: توفر النتائج النظرية توجيهاً أساسياً لتصميم خوارزميات تحسين جديدة
تستشهد هذه الورقة بعدد كبير من الأعمال ذات الصلة، تشمل بشكل أساسي:
أدبيات نظرية الأنظمة الديناميكية الكلاسيكية
التطورات الحديثة في نظرية التحسين
البحث في الاستقرار والتعميم في التعلم العميق
الأعمال المتعلقة بتقليل الحدة الواعية
الدراسات النظرية والتجريبية لظاهرة الاستقرار الهامشي
التقييم الإجمالي: هذه ورقة ممتازة تجمع بين العمق النظري والقيمة العملية، توفر أدوات نظرية جديدة لفهم ظواهر التحسين في التعلم العميق، وتوضح حالة ناجحة لتوجيه النظرية لتصميم الخوارزميات. على الرغم من وجود مجال للتحسين في التحقق التجريبي على نطاق واسع، فإن مساهماتها النظرية ومنظورها المبتكر تجعلها تقدماً مهماً في مجال نظرية التحسين.