Double descent is a phenomenon of over-parameterized statistical models such as deep neural networks which have a re-descending property in their risk function. As the complexity of the model increases, risk exhibits a U-shaped region due to the traditional bias-variance trade-off, then as the number of parameters equals the number of observations and the model becomes one of interpolation where the risk can be unbounded and finally, in the over-parameterized region, it re-descends -- the double descent effect. Our goal is to show that this has a natural Bayesian interpretation. We also show that this is not in conflict with the traditional Occam's razor -- simpler models are preferred to complex ones, all else being equal. Our theoretical foundations use Bayesian model selection, the Dickey-Savage density ratio, and connect generalized ridge regression and global-local shrinkage methods with double descent. We illustrate our approach for high dimensional neural networks and provide detailed treatments of infinite Gaussian means models and non-parametric regression. Finally, we conclude with directions for future research.
Двойной спуск (Double descent) — это явление повторного снижения риска в переопараметризованных статистических моделях (таких как глубокие нейронные сети). С увеличением сложности модели функция риска демонстрирует U-образную область из-за традиционного компромисса смещение-дисперсия. Когда количество параметров равно количеству наблюдений, модель становится интерполирующей, и риск может быть неограниченным. Затем в переопараметризованной области риск снова снижается — это и есть эффект двойного спуска. Целью данной работы является доказательство того, что это явление имеет естественную байесовскую интерпретацию и не противоречит традиционному принципу бритвы Оккама. Теоретическая база использует байесовский выбор модели, отношение плотности Дикки-Сэвиджа и связывает обобщённую гребневую регрессию и методы глобально-локального сжатия с двойным спуском.
Отсутствие байесовской интерпретации явления двойного спуска: Явление двойного спуска изучается в основном с частотистской точки зрения, отсутствует систематическая байесовская теоретическая база
Кажущееся противоречие между бритвой Оккама и двойным спуском: Байесовские методы предпочитают простые модели, в то время как двойной спуск предполагает, что сложные модели могут быть лучше
Недостаточное теоретическое понимание переопараметризованных моделей: Когда количество параметров превышает количество выборок, традиционная статистическая теория не применима
Ограничения частотистского подхода: Существующие исследования сосредоточены в основном на оценивателе минимальной нормы L2, игнорируя роль априорной регуляризации
Неэффективность приближения BIC: Когда p > n, приближение Лапласа (BIC) работает плохо
Недействительность границ эмпирического риска: Для интерполяторов эмпирический риск равен нулю, что делает традиционные границы бесполезными
Установление байесовской теоретической базы для двойного спуска: Доказательство того, что условное априорное распределение p(θ_M|M) является ключевым фактором, вызывающим явление двойного спуска
Разрешение парадокса бритвы Оккама: Доказательство того, что байесовская бритва Оккама не противоречит явлению двойного спуска
Связь классических методов с современными технологиями: Связывание обобщённой гребневой регрессии, методов глобально-локального сжатия с двойным спуском
Предоставление теоремы вычислительной эквивалентности: Реализация вычислительной эквивалентности вложенных моделей через отношение плотности Дикки-Сэвиджа
Расширение на нейронные сети: Применение теоретической базы к высокомерной регрессии нейронных сетей
Исследование поведения функции риска в переопараметризованных моделях регрессии, в частности явления двойного спуска байесовского риска R(M) при изменении сложности модели M:
Определение байесовского двойного спуска: Пусть R(M) = E_{y,θ|M}(θ̂_M(y) - θ)² — условный априорный байесовский риск оценивателя при модели M. Когда M > n, R(M) демонстрирует поведение повторного снижения.
Ключевое понимание: Условное априорное распределение p(θ_M|M) влияет на байесовский риск через процесс маргинализации, выполняя роль неявной регуляризации в переопараметризованной области.
Для модели с истинной степенью полинома p_true = 10 маргинальное правдоподобие достигает пика при соответствующей сложности, подтверждая эффективность байесовской бритвы Оккама.
Совместимость с бритвой Оккама: Маргинальное правдоподобие по-прежнему предпочитает простые модели, но условное априорное распределение может обеспечить хорошие свойства риска в переопараметризованной области
Практическое руководство: Рекомендуется использовать максимально возможную модель, полагаясь на автоматическую регуляризацию байесовской структуры
Ограничения применения: Главным образом ограничивается относительно простыми регрессионными условиями, применение к глубокому обучению требует дальнейшего развития
Вычислительные вызовы: Практические вычисления в высокомерных случаях остаются затруднительными
Чувствительность к априорному распределению: Успех метода в значительной степени зависит от надлежащей спецификации априорного распределения
Данная работа цитирует большое количество важной литературы, включая:
Belkin et al. (2019): Основополагающая работа по явлению двойного спуска
MacKay (1992): Классическая литература по байесовской интерполяции
Polson & Scott (2012): Методы глобально-локального сжатия
Young (1977), Deaton (1980): Ранние работы по байесовской полиномиальной регрессии
Данная статья имеет важное теоретическое значение, предоставляя новую байесовскую перспективу для понимания явления двойного спуска в современном машинном обучении. Хотя в практическом применении остаются вызовы, работа закладывает прочную теоретическую базу для будущих исследований.