Double descent is a phenomenon of over-parameterized statistical models such as deep neural networks which have a re-descending property in their risk function. As the complexity of the model increases, risk exhibits a U-shaped region due to the traditional bias-variance trade-off, then as the number of parameters equals the number of observations and the model becomes one of interpolation where the risk can be unbounded and finally, in the over-parameterized region, it re-descends -- the double descent effect. Our goal is to show that this has a natural Bayesian interpretation. We also show that this is not in conflict with the traditional Occam's razor -- simpler models are preferred to complex ones, all else being equal. Our theoretical foundations use Bayesian model selection, the Dickey-Savage density ratio, and connect generalized ridge regression and global-local shrinkage methods with double descent. We illustrate our approach for high dimensional neural networks and provide detailed treatments of infinite Gaussian means models and non-parametric regression. Finally, we conclude with directions for future research.
الانحدار المزدوج (Double Descent) هو خاصية إعادة الانحدار التي تظهرها نماذج إحصائية فوق المعاملات (مثل الشبكات العصبية العميقة) في دالة المخاطرة الخاصة بها. مع زيادة تعقيد النموذج، تظهر دالة المخاطرة منطقة على شكل حرف U بسبب المقايضة التقليدية بين الانحياز والتباين. عندما يساوي عدد المعاملات عدد الملاحظات، يصبح النموذج نموذج استيفاء، وقد تكون المخاطرة غير محدودة، وأخيراً تنحدر مرة أخرى في منطقة فوق المعاملات — وهذا هو تأثير الانحدار المزدوج. تهدف هذه الورقة إلى إثبات أن هذه الظاهرة لها تفسير بايزي طبيعي، وإثبات أن هذا لا يتعارض مع مبدأ أوكام الكلاسيكي. يستخدم الأساس النظري اختيار النموذج البايزي، ونسبة كثافة ديكي-سافاج، وربط الانحدار المعمم والطرق الانكماشية العامة-المحلية بالانحدار المزدوج.
غياب التفسير البايزي لظاهرة الانحدار المزدوج: تمت دراسة ظاهرة الانحدار المزدوج بشكل أساسي من منظور تكراري، مع افتقار إطار نظري بايزي منهجي
التضارب الظاهري بين حلاقة أوكام والانحدار المزدوج: تفضل الطرق البايزية النماذج البسيطة، بينما يشير الانحدار المزدوج إلى أن النماذج المعقدة قد تكون أفضل
فهم نظري غير كافٍ للنماذج فوق المعاملات: عندما يتجاوز عدد المعاملات عدد العينات، تفشل النظرية الإحصائية التقليدية
دراسة سلوك دالة المخاطرة في نماذج الانحدار فوق المعاملات، خاصة ظاهرة الانحدار المزدوج لمخاطرة بايز الشرطية R(M) عندما يتغير تعقيد النموذج M:
تعريف الانحدار المزدوج البايزي: دع R(M) = E_{y,θ|M}(θ̂_M(y) - θ)² تكون مخاطرة بايز الشرطية للمقدر تحت النموذج M. عندما يكون M > n، يظهر R(M) سلوك انحدار متكرر.
تستشهد هذه الورقة بعدد كبير من الأدبيات المهمة، بما في ذلك:
Belkin et al. (2019): العمل الرائد في ظاهرة الانحدار المزدوج
MacKay (1992): الأدب الكلاسيكي للاستيفاء البايزي
Polson & Scott (2012): طريقة الانكماش العام-المحلي
Young (1977), Deaton (1980): الأعمال المبكرة للانحدار متعدد الحدود البايزي
تتمتع هذه الورقة بأهمية نظرية كبيرة، حيث توفر منظوراً بايزياً جديداً لفهم ظاهرة الانحدار المزدوج في التعلم الآلي الحديث. على الرغم من وجود تحديات في التطبيق العملي، فإنها تضع أساساً نظرياً متيناً للبحث المستقبلي.