Double descent is a phenomenon of over-parameterized statistical models such as deep neural networks which have a re-descending property in their risk function. As the complexity of the model increases, risk exhibits a U-shaped region due to the traditional bias-variance trade-off, then as the number of parameters equals the number of observations and the model becomes one of interpolation where the risk can be unbounded and finally, in the over-parameterized region, it re-descends -- the double descent effect. Our goal is to show that this has a natural Bayesian interpretation. We also show that this is not in conflict with the traditional Occam's razor -- simpler models are preferred to complex ones, all else being equal. Our theoretical foundations use Bayesian model selection, the Dickey-Savage density ratio, and connect generalized ridge regression and global-local shrinkage methods with double descent. We illustrate our approach for high dimensional neural networks and provide detailed treatments of infinite Gaussian means models and non-parametric regression. Finally, we conclude with directions for future research.
이중 하강(Double descent)은 과매개변수화된 통계 모델(예: 심층 신경망)이 위험 함수에서 나타내는 재하강 특성이다. 모델 복잡도가 증가함에 따라 위험 함수는 전통적인 편향-분산 트레이드오프로 인해 U자형 영역을 나타내고, 매개변수 수가 관측치 수와 같을 때 모델이 보간 모델이 되어 위험이 무한할 수 있으며, 마지막으로 과매개변수화 영역에서 다시 하강한다. 이것이 이중 하강 효과이다. 본 논문의 목표는 이 현상이 자연스러운 베이지안 해석을 가지며, 전통적인 오캄의 면도날 원리와 충돌하지 않음을 증명하는 것이다. 이론적 기초는 베이지안 모델 선택, Dickey-Savage 밀도비를 사용하며, 일반화된 능선 회귀와 전역-국소 수축 방법을 이중 하강과 연결한다.