2025-11-21T08:19:15.669983

Convergence of optimizers implies eigenvalues filtering at equilibrium

Bolte, Le, Pauwels

Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.

academic

تقارب المحسّنات يعني تصفية القيم الذاتية عند التوازن

المعلومات الأساسية

معرّف الورقة: 2510.09034
العنوان: تقارب المحسّنات يعني تصفية القيم الذاتية عند التوازن
المؤلفون: Jérôme Bolte, Quoc-Tung Le, Edouard Pauwels
التصنيف: cs.LG math.DS math.OC
تاريخ النشر: 13 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.09034

الملخص

تشير الأدلة التجريبية الوفيرة من تدريب الشبكات العصبية العميقة إلى أن مختلف المحسّنات تميل إلى إيجاد حلول قريبة من الأمثل العام. تتبنى هذه الورقة منظوراً معاكساً، حيث تفترض التقارب إلى نقطة عشوائية بدلاً من إثبات التقارب، مع التركيز على عواقب هذا الافتراض. من هذا المنطلق، وبالاستفادة من التطورات الحديثة في ظاهرة الاستقرار الهامشي، يجادل المؤلفون بأن المحسّنات المختلفة تعمل فعلياً كمصافي للقيم الذاتية يحددها فرط المعاملات. بشكل محدد، تتجنب طرق الانحدار التدريجي المعياري بطبيعتها الحدود الدنيا الأكثر حدة، بينما تفضل خوارزمية تقليل الحدة الواعية (SAM) بنشاط الأحواض الأوسع. بناءً على هذه الرؤى، يقترح المؤلفون خوارزميتين جديدتين تظهران قدرة محسّنة على تصفية القيم الذاتية، مما يعزز فعلياً الحدود الدنيا الأوسع. يستخدم التحليل النظري نظرية متعددة الطيات Hadamard-Perron المستقرة المعممة، والمطبقة على دوال C² شبه جبرية عامة، دون الحاجة إلى شروط عدم انحطاط إضافية أو افتراضات حدود Lipschitz عامة.

خلفية البحث والدافع

المشكلة الأساسية

تعالج هذه الدراسة المشكلة الأساسية المتمثلة في فهم سلوك تقارب خوارزميات التحسين في التعلم العميق، خاصة كيفية اختيارها لحدود دنيا محددة في المناظر الطبيعية المعقدة لدالة الخسارة. يركز البحث التقليدي على إثبات التقارب، بينما تتبنى هذه الورقة منظوراً "معكوساً": افتراض حدوث التقارب وتحليل القيود التي يفرضها هذا التقارب على الخصائص الهندسية للنقطة المُحققة (خاصة القيم الذاتية لمصفوفة هسيان).

الأهمية

الربط بين الاستقرار والتعميم: يرتبط التدريب المستقر بأحواض جذب واسعة وحدود دنيا مسطحة، وهذه الخصائص مرتبطة ارتباطاً وثيقاً بأداء التعميم
ظاهرة الاستقرار الهامشي: تشير الملاحظات التجريبية إلى أن التدريب المعياري يعمل عادة بالقرب من حدود الاستقرار
الأهمية العملية: فهم التفضيلات الضمنية للمحسّنات يساعد في تصميم خوارزميات تدريب أفضل

قيود الطرق الموجودة

تتطلب النظريات الموجودة عادة شروطاً صارمة (مثل حدود Lipschitz العامة وشروط عدم الانحطاط)
تفتقر إلى إطار عمل موحد لفهم سلوك تصفية القيم الذاتية للمحسّنات المختلفة
الفهم النظري لخوارزميات من نوع SAM محدود

دافع البحث

على مدى العقد الماضي، أصبح التدريب الناجح للشبكات العميقة معياراً في الممارسة العملية، مما دفع المنظور البحثي من "متى يحدث التقارب" إلى "لماذا يحدث التقارب الناجح وكيف تجعله فرط المعاملات ممكناً".

المساهمات الأساسية

إطار عمل نظري موحد: اقتراح إطار تحليل موحد بناءً على نظرية متعددة الطيات Hadamard-Perron المستقرة المعممة، قابل للتطبيق على فئة واسعة من خوارزميات التحسين
نظرية تصفية القيم الذاتية: إثبات أن المحسّنات الناجحة في التقارب تفرض بالضرورة قيوداً على القيم الذاتية لمصفوفة هسيان عند النقطة المُحققة، مما يشكل تأثير "تصفية القيم الذاتية"
تحليل الخوارزميات: تحليل منهجي لخصائص تصفية القيم الذاتية للانحدار التدريجي والطريقة الثقيلة وتسارع Nesterov وUSAM
اقتراح خوارزميات جديدة: تصميم خوارزميتين جديدتين هما Two-step USAM و Hessian USAM، تظهران قدرة محسّنة على تصفية القيم الذاتية
توسيع النظرية: توسيع النتائج الموجودة إلى فئة أكثر عمومية من الدوال شبه الجبرية، مع إزالة الافتراضات المجردة لعدم الانحطاط

شرح الطريقة

تعريف المهمة

ننظر في خوارزمية تحسين تكرارية بالشكل العام: $x_{k+1} = G_\alpha(x_k) = Dx_k - \alpha g(x_k), \quad k = 0, 1, 2, \ldots$

حيث:

$D \in \mathbb{R}^{m \times m}$ مصفوفة قابلة للعكس
$g: \mathbb{R}^m \to \mathbb{R}^m$ دالة شبه جبرية قابلة للتفاضل بشكل مستمر من الدرجة الأولى
$\alpha > 0$ معامل الخطوة

النتائج النظرية الأساسية

النظرية الرئيسية (تصفية القيم الذاتية)

النظرية 1.1: لتكن $D \in \mathbb{R}^{m \times m}$ مصفوفة قابلة للعكس، و $g: \mathbb{R}^m \to \mathbb{R}^m$ دالة شبه جبرية من الدرجة الأولى. بالنسبة لجميع $x_0 \in \mathbb{R}^m$ و $\alpha > 0$ تقريباً، إذا تقاربت المتسلسلة $(x_k)_{k \in \mathbb{N}}$ إلى نقطة ما $\bar{x}$ ، فإن نصف قطر الطيف لمصفوفة جاكوبيان $D - \alpha g$ عند $\bar{x}$ يكون على الأكثر مساوياً لـ 1: $\rho(\text{Jac}G_\alpha(\bar{x})) \leq 1$

توسيع نظرية متعددة الطيات المستقرة

النظرية 2.1: توجد مجموعة $\Lambda \subset \mathbb{R}_+$ بحيث يكون مكملتها مجموعة منتهية، بحيث لأي $\alpha \in \Lambda$ ، المجموعة $W_\alpha = \{x_0 \in \mathbb{R}^m | \exists \bar{x} \text{ s.t. } G_\alpha(\bar{x}) = \bar{x}, \rho(\text{Jac}G_\alpha(\bar{x})) > 1, x_k \to \bar{x}\}$ مضمنة في اتحاد قابل للعد من متعددات الطيات من الدرجة الأولى بحد أقصى $m-1$ بعد.

نقاط الابتكار التقني

الافتراض شبه الجبري: استخدام فئة الدوال شبه الجبرية كشرط كافٍ، يشمل جميع الدوال الشائعة تقريباً في التعلم العميق
عدم الحاجة إلى شروط عامة: لا يتطلب حدود Lipschitz عامة أو افتراضات عدم انحطاط
إطار تحليل موحد: من خلال شكل موحد للمصفوفة $D$ والدالة $g$ ، يغطي خوارزميات تحسين متعددة

تحليل الخوارزميات المحددة

الانحدار التدريجي

القضية 3.1: بالنسبة للانحدار التدريجي $x_{k+1} = x_k - \alpha \nabla f(x_k)$ ، إذا تقاربت إلى $\bar{x}$ ، فإن جميع القيم الذاتية $\lambda$ لمصفوفة هسيان $\nabla^2f(\bar{x})$ تحقق: $0 \leq \lambda \leq \frac{2}{\alpha}$

الطريقة الثقيلة

القضية 3.2: بالنسبة للطريقة الثقيلة، قيود القيم الذاتية هي: $0 \leq \lambda \leq \frac{2(1+\beta)}{\alpha}$

خوارزمية USAM

القضية 3.4: بالنسبة لخوارزمية USAM $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k))$ ، القيمة الذاتية $\lambda$ تحقق: $0 \leq \lambda(1 + \rho\lambda) \leq \frac{2(1+\beta)}{\alpha}$

أو بشكل مكافئ: $0 \leq \lambda \leq \frac{\sqrt{1 + 8(1+\beta)\rho/\alpha} - 1}{2\rho}$

تصميم الخوارزميات الجديدة

Two-step USAM

قاعدة التحديث: $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k) + \rho \nabla f(x_k + \rho \nabla f(x_k)))$

قيود القيم الذاتية: $0 \leq \lambda(1 + \rho\lambda)^2 \leq \frac{2(1+\beta)}{\alpha}$

Hessian USAM

قاعدة التحديث: $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla^2f(x_k)\nabla f(x_k))$

قيود القيم الذاتية: $0 \leq \lambda(1 + \rho\lambda^2) \leq \frac{2(1+\beta)}{\alpha}$

إعداد التجارب

مجموعات البيانات

MNIST + MLP: أبعاد الطبقات المخفية {128, 64, 10, 10}، تفعيل ReLU، خسارة الإنتروبيا المتقاطعة
Fashion-MNIST + MLP: نفس الإعدادات أعلاه
CIFAR10 + WideResNet-16-8: معمارية WideResNet بدون طبقات تطبيع الدفعة

تكوين التجارب

حجم الدفعة: 128
معدل التعلم: $\alpha = 0.01$
تحلل الأوزان: $5 \times 10^{-4}$
الزخم: $\beta \in \{0, 0.9\}$
معاملات SAM: يتم اختيار $\rho$ من خلال البحث الشبكي

مؤشرات التقييم

دقة الاختبار
أكبر ثلاث قيم ذاتية لمصفوفة هسيان

نتائج التجارب

الاكتشافات الرئيسية

التحقق من تصفية القيم الذاتية: تتوافق نتائج التجارب بشكل كبير مع التنبؤات النظرية، حيث تجد USAM و Two-step USAM و Hessian USAM بالفعل حدوداً دنيا أكثر تسطيحاً
مقارنة الخوارزميات:
- الانحدار التدريجي المعياري: الأداء الأساسي
- USAM: تقليل كبير في القيم الذاتية لهسيان
- Two-step USAM: تحسين إضافي في تصفية القيم الذاتية
- Hessian USAM: تأثيرات تحسين مماثلة
الاعتماد على المعمارية:
- معمارية MLP: توافق عالي بين التنبؤات النظرية والنتائج التجريبية
- WideResNet: اختلافات أصغر، ربما بسبب زيادة صعوبة التدريب

ملاحظات التجارب

متطلبات الاستقرار: تتطلب Two-step USAM و Hessian USAM قيماً أصغر لـ $\rho$ لتجنب فشل التدريب، وهو ما يتوافق مع قيود الانحناء الأكثر صرامة المتنبأ بها نظرياً
تأثير تطبيع الدفعة: في المعماريات التي تستخدم تطبيع الدفعة، لا يكون تأثير التسطيح لخوارزميات من نوع SAM واضحاً، وهذا لا يتعارض مع النظرية لأن تطبيع الدفعة يغير ديناميكيات الخوارزمية

الأعمال ذات الصلة

نظرية متعددات الطيات المستقرة

النتائج الكلاسيكية لـ Hadamard (1901) و Perron (1929)
التطبيقات في التحسين الحديث: Lee et al. (2016)، Panageas & Piliouras (2017)، Ahn et al. (2022)

ظاهرة الاستقرار الهامشي

Cohen et al. (2021, 2022): الاستقرار الهامشي للانحدار التدريجي والطرق التكيفية
Andreyev & Beneventano (2024): التوسيع للخوارزميات العشوائية

تقليل الحدة الواعية

Foret et al. (2021): خوارزمية SAM الأصلية
Andriushchenko & Flammarion (2022): متغيرات USAM
التحليل النظري اللاحق: Zhou et al. (2025)، Marion & Chizat (2024)

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

منظور موحد: التدريب الناجح للمحسّنات هو في الأساس عملية تصفية للقيم الذاتية، حيث تحقق الخوارزميات المختلفة درجات مختلفة من التصفية من خلال فرط المعاملات
التوسيع النظري: توفر نظرية متعددات الطيات المستقرة المعممة أداة نظرية قوية لفهم خوارزميات التحسين
التوجيه العملي: توفر النتائج النظرية توجيهاً أساسياً لتصميم خوارزميات تحسين جديدة

القيود

الافتراض شبه الجبري: على الرغم من نطاق واسع، إلا أنه لا يزال هناك قيود معينة
التكلفة الحسابية للخوارزميات الجديدة: تتطلب Two-step USAM و Hessian USAM تكلفة تكرار واحد أعلى
توافق تطبيع الدفعة: لم يتم بعد توسيع إطار العمل النظري ليشمل عمليات تطبيع الدفعة

الاتجاهات المستقبلية

التوسيع إلى فئات دوال أكثر عمومية: استكشاف توسيعات نظرية بدون افتراض شبه جبري
نظرية تطبيع الدفعة: توسيع إطار العمل النظري ليشمل المعماريات التي تتضمن تطبيع الدفعة
تحسين الخوارزميات العملية: تقليل التكلفة الحسابية للخوارزميات الجديدة مع الحفاظ على المزايا النظرية

التقييم المتعمق

المزايا

الابتكار النظري: توفير منظور جديد تماماً لفهم خوارزميات التحسين، الانتقال من "إثبات التقارب" إلى "تحليل عواقب التقارب"
إطار عمل موحد: توفير إطار عمل نظري موحد لأول مرة لتحليل سلوك تصفية القيم الذاتية لخوارزميات تحسين متعددة
القيمة العملية: توجيه النتائج النظرية مباشرة تصميم خوارزميات جديدة والتحقق التجريبي منها
الدقة التقنية: الاشتقاقات الرياضية دقيقة والشروط واضحة ومعقولة

أوجه القصور

نطاق التجارب محدود: تركز التجارب بشكل أساسي على معماريات وبيانات نسبياً بسيطة، مع نقص التحقق التجريبي على نطاق واسع
تقييم الخوارزميات الجديدة: لا يزال التقييم الشامل لأداء Two-step USAM و Hessian USAM (بما في ذلك القدرة على التعميم) يتطلب عملاً إضافياً
الفجوة النظرية: توجد فجوة معينة بين الأداء الفعلي لخوارزمية SAM والتنبؤات النظرية (مثل مشكلة نقاط السرج الصارمة)

التأثير

المساهمة النظرية: توفير أدوات تحليل جديدة ومنظور جديد لنظرية التحسين
القيمة العملية: توفير توجيه أساسي لتصميم خوارزميات تحسين جديدة
الأهمية عبر المجالات: ربط نظرية الأنظمة الديناميكية بممارسة التعلم العميق

السيناريوهات المطبقة

تحسين التعلم العميق: مناسب بشكل خاص لفهم وتحسين خوارزميات تدريب الشبكات العصبية
التحسين غير المحدب: توفير أدوات تحليل جديدة لمشاكل التحسين غير المحدبة العامة
تصميم الخوارزميات: توجيه تصميم وتحليل خوارزميات تحسين جديدة

المراجع

تستشهد هذه الورقة بعدد كبير من الأعمال ذات الصلة، تشمل بشكل أساسي:

أدبيات نظرية الأنظمة الديناميكية الكلاسيكية
التطورات الحديثة في نظرية التحسين
البحث في الاستقرار والتعميم في التعلم العميق
الأعمال المتعلقة بتقليل الحدة الواعية
الدراسات النظرية والتجريبية لظاهرة الاستقرار الهامشي

التقييم الإجمالي: هذه ورقة ممتازة تجمع بين العمق النظري والقيمة العملية، توفر أدوات نظرية جديدة لفهم ظواهر التحسين في التعلم العميق، وتوضح حالة ناجحة لتوجيه النظرية لتصميم الخوارزميات. على الرغم من وجود مجال للتحسين في التحقق التجريبي على نطاق واسع، فإن مساهماتها النظرية ومنظورها المبتكر تجعلها تقدماً مهماً في مجال نظرية التحسين.