Rigorous dynamical mean field theory for stochastic gradient descent methods
Gerbelot, Troiani, Mignacco et al.
We prove closed-form equations for the exact high-dimensional asymptotics of a family of first order gradient-based methods, learning an estimator (e.g. M-estimator, shallow neural network, ...) from observations on Gaussian data with empirical risk minimization. This includes widely used algorithms such as stochastic gradient descent (SGD) or Nesterov acceleration. The obtained equations match those resulting from the discretization of dynamical mean-field theory (DMFT) equations from statistical physics when applied to gradient flow. Our proof method allows us to give an explicit description of how memory kernels build up in the effective dynamics, and to include non-separable update functions, allowing datasets with non-identity covariance matrices. Finally, we provide numerical implementations of the equations for SGD with generic extensive batch-size and with constant learning rates.
academic
نظرية المجال المتوسط الديناميكية الصارمة لطرق الانحدار العشوائي
تؤسس هذه الورقة معادلات مغلقة صارمة للسلوك التقاربي عالي الأبعاد لطرق التحسين من الدرجة الأولى (مثل SGD وتسريع Nesterov وغيرها). تتطابق هذه المعادلات تماماً مع الشكل المنفصل لنظرية المجال المتوسط الديناميكية (DMFT) من الفيزياء الإحصائية. تعتمد طريقة الإثبات على تقنية التكييف الغاوسي التكراري، التي توضح بشكل صريح آلية تكوين نوى الذاكرة في الديناميكا الفعالة، وتدعم دوال التحديث غير القابلة للفصل، مما يسمح بمعالجة مجموعات البيانات ذات مصفوفات التغاير غير الوحدوية. توفر الورقة أيضاً تطبيقاً عددياً للمعادلات المتسقة ذاتياً لـ SGD مع أحجام دفعات واسعة ومعدلات تعلم ثابتة.
تهدف هذه الورقة إلى توفير إثبات رياضي صارم للسلوك الديناميكي الدقيق للانحدار العشوائي (SGD) ومتغيراته على البيانات عالية الأبعاد. بشكل محدد، يتعين توصيف الخصائص التقاربية لهذه الخوارزميات عند تعلم مقدرات M والشبكات العصبية الضحلة وغيرها من النماذج.
غياب الأساس النظري: على الرغم من أن SGD هي أداة التحسين الأساسية في التعلم الآلي الحديث، فإن الفهم الدقيق لديناميكيتها عالية الأبعاد ظل طويلاً على مستوى الطرق الفيزيائية الاستكشافية
الحاجة إلى التوجيه العملي: يمكن للوصف النظري الدقيق أن يوجه اختيار المعاملات الفائقة مثل معدل التعلم وحجم الدفعة
جسر بين الفيزياء والرياضيات: تصريح طريقة DMFT من الفيزياء الإحصائية يوفر أساساً متيناً للبحث متعدد التخصصات
عدم صرامة الطرق الفيزيائية: تستند الاشتقاقات المبكرة لـ DMFT 40,41,14,15 إلى حجج استكشافية تفتقر إلى الصرامة الرياضية
قيود الوقت المستمر: يركز العمل الصارم الموجود 11 بشكل أساسي على الحد المستمر للتدفق المتدرج، بينما تعمل الخوارزميات الفعلية في الوقت المنفصل
قيود مصفوفة البيانات: تتطلب النتائج الصارمة السابقة 11 أن تحتوي مصفوفة البيانات على عناصر موزعة بشكل مستقل وفرعي غاوسي مع تغاير وحدوي، مما يحد من نطاق التطبيق
الخوارزميات الحتمية: لم تتمكن من التعامل مع العشوائية في SGD (مثل أخذ العينات من الدفعات الصغيرة والضوضاء الحرارية)
تهدف هذه الورقة إلى التغلب على هذه القيود بإنشاء معادلات DMFT صارمة للوقت المنفصل لخوارزميات التحسين العشوائية، والتوسع إلى توزيعات بيانات وفئات خوارزميات أوسع.
معادلات DMFT صارمة للوقت المنفصل: للمرة الأولى، تؤسس معادلات تقاربية دقيقة عالية الأبعاد لطرق الدرجة الأولى للوقت المنفصل (بما في ذلك SGD وطرق الزخم وخوارزميات Langevin)
تقنية إثبات التكييف الغاوسي التكراري: تقترح إطار عمل إثبات أكثر مباشرة وبساطة من طرق AMP (نقل الرسائل التقريبي) الموجودة، مع عرض صريح لآلية تكوين نوى الذاكرة
دعم دوال التحديث غير القابلة للفصل: يسمح بمعالجة البيانات ذات مصفوفات التغاير الحسنة التصرف بشكل تعسفي، من خلال دوال التحديث غير القابلة للفصل
تغطية خوارزمية واسعة: يشمل الإطار الموحد:
SGD متعدد الجولات مع أحجام دفعات واسعة
طريقة Polyak للكرة الثقيلة وتدرج Nesterov المسرع
ديناميكا Langevin (تتضمن الضوضاء الحرارية)
معدلات التعلم المتغيرة بمرور الوقت والتنظيم
التطبيق العددي: يوفر محلل الحل للمعادلات المتسقة ذاتياً، مع التحقق من التنبؤات النظرية على نموذج الإدراك الحسي للمعلم والطالب
قيود توزيع البيانات: يتطلب حالياً بيانات غاوسية (التغاير يمكن أن يكون تعسفياً)، على الرغم من أن الطرق الفيزيائية تشير إلى عمومية أوسع
عدم معالجة التغاير المتغير بمرور الوقت: العديد من المشاكل العملية حيث يتغير التعيين الخاص بالميزات بمرور الوقت (مثل الطبقات الوسيطة في الشبكات العصبية)
عدم الاستقرار العددي على المدى الطويل: من الصعب حل المعادلات المتسقة ذاتياً بشكل مستقر عند t كبير (توجد محللات أكثر نضجاً في فيزياء الحالة المكثفة)
11 Celentano et al. (2021): أول إثبات DMFT صارم قائم على AMP، الكائن الرئيسي للمقارنة في هذه الورقة
2,8 Ben Arous et al. (2001, 2006): DMFT صارم لديناميكا Langevin للأنظمة الزجاجية الدوارة
31,33 Mignacco et al. (2020, 2021): تطبيقات فيزيائية لـ DMFT على SGD
7 Bayati & Montanari (2011): معادلات تطور الحالة لـ AMP، أساس تقنية الإثبات في هذه الورقة
25,30 طرق cavity الديناميكية: الشكل الفيزيائي الأصلي للاشتقاق، مع ارتباط عميق بإثبات هذه الورقة
الملخص: تمثل هذه الورقة علامة فارقة مهمة في تصريح نظرية التحسين، حيث تحول الرؤى العميقة من الفيزياء الإحصائية إلى نظريات رياضية. على الرغم من القيود المتعلقة بافتراض غاوسي والنماذج البسيطة، فإن تقنية الإثبات والإطار الموحد يوفران أساساً متيناً للبحث اللاحق. بالنسبة للباحثين النظريين، هذه ورقة يجب قراءتها؛ بالنسبة للممارسين، توفر أدواتها العددية ورؤاها حول المعاملات الفائقة أيضاً قيمة مرجعية. إذا تمكن العمل المستقبلي من التوسع إلى الشبكات العميقة والبيانات غير الغاوسية، فسيكون له تأثير أوسع بكثير.