A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent
Xie, Wang, Wu et al.
Adaptive optimizers can reduce to normalized steepest descent (NSD) when only adapting to the current gradient, suggesting a close connection between the two algorithmic families. A key distinction between their analyses, however, lies in the geometries, e.g., smoothness notions, they rely on. In the convex setting, adaptive optimizers are governed by a stronger adaptive smoothness condition, while NSD relies on the standard notion of smoothness. We extend the theory of adaptive smoothness to the nonconvex setting and show that it precisely characterizes the convergence of adaptive optimizers. Moreover, we establish that adaptive smoothness enables acceleration of adaptive optimizers with Nesterov momentum in the convex setting, a guarantee unattainable under standard smoothness for certain non-Euclidean geometry. We further develop an analogous comparison for stochastic optimization by introducing adaptive gradient variance, which parallels adaptive smoothness and leads to dimension-free convergence guarantees that cannot be achieved under standard gradient variance for certain non-Euclidean geometry.
academic
حكاية هندستين: محسّنات تكيفية والنزول غير الإقليدي
تدرس هذه الورقة بشكل منهجي الفروقات الأساسية بين عائلتي الخوارزميات: المحسّنات التكيفية (مثل Adam و Shampoo) والنزول بأقصى سرعة المعيّن (NSD، مثل Lion و Muon) في استخدام البنى الهندسية غير الإقليدية. تكتشف الدراسة أنه على الرغم من إمكانية تكافؤ الطريقتين عند إيقاف المتوسط المتحرك الأسي (EMA)، فإن تحليلهما النظري يعتمد على افتراضات هندسية مختلفة: تتطلب المحسّنات التكيفية "سلاسة تكيفية" أقوى (adaptive smoothness)، بينما يتطلب NSD فقط السلاسة المعيارية. توسّع هذه الورقة نظرية السلاسة التكيفية إلى الحالة غير المحدبة، وتثبت أنها تميز بدقة معدل التقارب للمحسّنات التكيفية. والأهم من ذلك، تُظهر الدراسة أن السلاسة التكيفية تمكّن المحسّنات التكيفية من تحقيق تسريع من خلال زخم Nesterov في الحالة المحدبة (O(T⁻²))، بينما لا تستطيع السلاسة المعيارية تحت بعض الهندسات غير الإقليدية تحقيق هذا الضمان. بالإضافة إلى ذلك، تقدّم الورقة مفهوم "تباين التدرج التكيفي"، وتثبت أنه يوفر ضمانات تقارب خالية من الاعتماد على البعد لـ NSD، وهو غير قابل للتحقيق تحت افتراضات تباين التدرج المعيارية.
السؤال 1: هل تستخدم الطرق التكيفية (مثل Adam و Shampoo) والطرق المقابلة للنزول غير الإقليدي (مثل Lion و Muon) الهندسة غير الإقليدية لدالة الخسارة بنفس الطريقة؟
السؤال 2: هل الافتراضات الأقوى للسلاسة في الطرق التكيفية تحقق فوائد فعلية في التحسين؟
القيمة العملية: محسّنات تكيفية مثل Adam ضرورية في تدريب نماذج التعلم الآلي واسعة النطاق (مثل LLaMA و DeepSeek)، لكن طرق NSD البسيطة مثل Lion و Muon أظهرت فعالية مذهلة مؤخراً، مما أثار تساؤلات حول الفروقات الأساسية بين الطريقتين.
النقص النظري: على الرغم من أن Bernstein & Newhouse (2024) أشاروا إلى تكافؤ الطريقتين عند إيقاف EMA (مثل Adam يعادل ℓ∞-NSD و Shampoo يعادل NSD بالقاعدة الطيفية)، إلا أن هناك نقصاً في التوصيف النظري المنهجي.
المنظور الهندسي: يرتبط التفوق الأداء لكلا الطريقتين باستخدام الهندسة غير الإقليدية لدالة الخسارة، لكن تحليلهما النظري يعتمد على افتراضات هندسية مختلفة بشكل أساسي.
نظرية التقارب غير المحدبة: توسيع نظرية السلاسة التكيفية إلى الحالة غير المحدبة، وإثبات أنها تميز بدقة معدل التقارب للمحسّنات التكيفية (Theorems C.2, C.7, C.8)، مع تحقيق معدل أمثل Õ(T⁻¹/⁴).
ضمانات التقارب المسرّع: إثبات أن السلاسة التكيفية تمكّن المحسّنات التكيفية مع زخم Nesterov من تحقيق معدل تسريع Õ(T⁻²) في الحالة المحدبة (Theorem 4.4)، بينما تحت السلاسة ℓ∞ المعيارية يمكن لأي محسّن تحقيق فقط Ω(T⁻¹) (Guzmán & Nemirovski, 2015).
تباين التدرج التكيفي: إدخال مفهوم تباين التدرج التكيفي (Definition 4.1)، وإثبات أنه يوفر ضمانات تقارب خالية من الاعتماد على البعد لـ NSD مع الزخم (Theorem 4.6)، وإثبات من خلال حد أدنى (Theorem 4.9) أن الاعتماد على البعد تحت تباين التدرج المعياري لا مفر منه.
إطار تحليل موحد: توفير إطار تحليل موحد يغطي AdaGrad و AdaGrad-Norm و Shampoo أحادي الجانب وطرق تكيفية واسعة أخرى، مع المساهمة التقنية الأساسية وهي عدم مساواة مصفوفة جديدة (Lemma 3.3, 3.4) للتعامل مع المكيّفات غير التبادلية.
فصل نظري: إنشاء فصل منهجي بين نوعي الافتراضات الهندسية (معياري مقابل تكيفي) على بعدي السلاسة والضوضاء، مما يعمّق الفهم النظري للتكيفية.
لـ NSD (Algorithm 3) تحت تباين التدرج التكيفي σH:
E[T1∑t=0T−1∥∇f(xt)∥H,∗]≤ηTΔ0+α2ηL∥⋅∥H(f)+αT2σH+2σHα
عند الاختيار الأمثل α=σHTΔ0L∥⋅∥H(f) و η=L∥⋅∥H(f)1/4σH1/2Δ03/4T−3/4:
المعدل=O(T1/4(Δ0L∥⋅∥H(f))1/4σH)
خالي من الاعتماد على البعد: بالمقارنة مع O~(ρd/T1/4) من Pethick et al. (2025) (حيث ρ=supx∥x∥2∥x∥H,∗ يمكن أن يصل إلى Θ(d))، تزيل هذه النتيجة الاعتماد على البعد بالكامل.
تحت افتراض تباين ℓ₁ المعياري E[∥∇ft(x)−∇f(x)∥12]≤σ2، لـ SignGD (ℓ∞-NSD) توجد حالات صعبة بحيث:
E[mint∈[T]∥∇f(xt)∥1]=min{e−25−41(dLΔ0σ2)1/4T−1/2,e−25−21σ}
الأهمية:
تحقيق خطأ ϵ<e−25−1/2σ يتطلب T=Ω(ϵ−2(dLΔ0σ2)1/2) خطوة
الاعتماد على البعد Ω(d1/2) تحت افتراض التباين المعياري لا مفر منه
يشكل تناقضاً مع الحد الأعلى الخالي من البعد في Theorem 4.6، مما يثبت التفوق الجوهري لتباين التدرج التكيفي
الثنائية الهندسية: على الرغم من أن محسّنات تكيفية و NSD كلاهما يستخدم الهندسة غير الإقليدية، فإنهما يعتمدان على افتراضات هندسية مختلفة بشكل أساسي:
محسّنات تكيفية: تتطلب سلاسة تكيفية ΛH(f) أقوى، تتكيف تلقائياً مع أفضل مكيّف
NSD: تتطلب فقط سلاسة معيارية L∥⋅∥H(f)، لكن يجب تحديد القاعدة مسبقاً
قيمة التكيفية: الافتراضات الأقوى للتكيفية تحقق فوائد جوهرية:
التسريع: تحقيق O(T⁻²) في الحالة المحدبة مقابل Ω(T⁻¹) تحت الافتراضات المعيارية
خالي من البعد: إزالة الاعتماد على البعد في الحالة العشوائية
إطار نظري موحد: أول إثبات لنظرية تقارب غير محدبة لمجموعة واسعة من محسّنات تكيفية بما فيها Shampoo أحادي الجانب، مع المساهمة التقنية الأساسية وهي عدم مساواة مصفوفة جديدة للتعامل مع المكيّفات غير التبادلية.
الإحكام: إثباتات الحد الأدنى تظهر:
الاعتماد على البعد Ω(d1/2) تحت افتراض التباين المعياري لا مفر منه (Theorem 4.9)
تفوق تباين التدرج التكيفي ليس مجرد افتراض تقني، بل فرق جوهري
Xie et al. (2025b): "Structured Preconditioners in Adaptive Optimization: A Unified Analysis" - أساس هذه الورقة للحالة المحدبة
Guzmán & Nemirovski (2015): "On lower complexity bounds for large-scale smooth convex optimization" - حد أدنى تحت سلاسة ℓ∞
Pethick et al. (2025): "Training deep learning models with norm-constrained lmos" - أحدث تحليل لـ NSD
Kovalev (2025a): "SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration" - عمل متوازي
Bernstein & Newhouse (2024): "Old optimizer, new norm: An anthology" - تكافؤ Adam و NSD
Gupta et al. (2017): "A unified approach to adaptive regularization" - إطار محسّنات تكيفية
Lieb (1973): "Convex trace functions and the wigner-yanase-dyson conjecture" - أساس Lemma A.7 للتقعر
الملخص: هذه الورقة تمثل تقدماً مهماً في نظرية التحسين التكيفي، تكشف بشكل منهجي عن الفروقات الأساسية بين الطرق التكيفية و NSD في الافتراضات الهندسية، وتثبت من خلال تحليل نظري صارم القيمة الجوهرية للتكيفية. على الرغم من نقص التحقق التجريبي، فإن عمقها النظري والابتكار التقني يجعلها مرجعاً مهماً في هذا المجال. المساهمة الأساسية تكمن في بناء نظام نظري كامل "للهندستين"، مما يوفر منظوراً جديداً لفهم وتصميم خوارزميات التحسين التكيفي.