2025-11-23T19:58:17.144226

Bayesian Double Descent

Polson, Sokolov

Double descent is a phenomenon of over-parameterized statistical models such as deep neural networks which have a re-descending property in their risk function. As the complexity of the model increases, risk exhibits a U-shaped region due to the traditional bias-variance trade-off, then as the number of parameters equals the number of observations and the model becomes one of interpolation where the risk can be unbounded and finally, in the over-parameterized region, it re-descends -- the double descent effect. Our goal is to show that this has a natural Bayesian interpretation. We also show that this is not in conflict with the traditional Occam's razor -- simpler models are preferred to complex ones, all else being equal. Our theoretical foundations use Bayesian model selection, the Dickey-Savage density ratio, and connect generalized ridge regression and global-local shrinkage methods with double descent. We illustrate our approach for high dimensional neural networks and provide detailed treatments of infinite Gaussian means models and non-parametric regression. Finally, we conclude with directions for future research.

academic

Байесовский двойной спуск

Основная информация

ID статьи: 2507.07338
Название: Bayesian Double Descent
Авторы: Nick Polson (University of Chicago Booth School), Vadim Sokolov (George Mason University)
Классификация: stat.ML cs.LG stat.CO
Дата публикации: Первый вариант: 25 декабря 2024 г.; Текущий вариант: 16 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2507.07338

Аннотация

Двойной спуск (Double descent) — это явление повторного снижения риска в переопараметризованных статистических моделях (таких как глубокие нейронные сети). С увеличением сложности модели функция риска демонстрирует U-образную область из-за традиционного компромисса смещение-дисперсия. Когда количество параметров равно количеству наблюдений, модель становится интерполирующей, и риск может быть неограниченным. Затем в переопараметризованной области риск снова снижается — это и есть эффект двойного спуска. Целью данной работы является доказательство того, что это явление имеет естественную байесовскую интерпретацию и не противоречит традиционному принципу бритвы Оккама. Теоретическая база использует байесовский выбор модели, отношение плотности Дикки-Сэвиджа и связывает обобщённую гребневую регрессию и методы глобально-локального сжатия с двойным спуском.

Исследовательский контекст и мотивация

Основные проблемы

Отсутствие байесовской интерпретации явления двойного спуска: Явление двойного спуска изучается в основном с частотистской точки зрения, отсутствует систематическая байесовская теоретическая база
Кажущееся противоречие между бритвой Оккама и двойным спуском: Байесовские методы предпочитают простые модели, в то время как двойной спуск предполагает, что сложные модели могут быть лучше
Недостаточное теоретическое понимание переопараметризованных моделей: Когда количество параметров превышает количество выборок, традиционная статистическая теория не применима

Значимость исследования

Теоретическое единство: Предоставить единую байесовскую теоретическую базу для явления двойного спуска
Практическое руководство: Обеспечить теоретическую поддержку современных методов машинного обучения, таких как глубокое обучение
Методологический вклад: Связать классическую статистическую теорию с современной практикой машинного обучения

Ограничения существующих методов

Ограничения частотистского подхода: Существующие исследования сосредоточены в основном на оценивателе минимальной нормы L2, игнорируя роль априорной регуляризации
Неэффективность приближения BIC: Когда p > n, приближение Лапласа (BIC) работает плохо
Недействительность границ эмпирического риска: Для интерполяторов эмпирический риск равен нулю, что делает традиционные границы бесполезными

Основные вклады

Установление байесовской теоретической базы для двойного спуска: Доказательство того, что условное априорное распределение p(θ_M|M) является ключевым фактором, вызывающим явление двойного спуска
Разрешение парадокса бритвы Оккама: Доказательство того, что байесовская бритва Оккама не противоречит явлению двойного спуска
Связь классических методов с современными технологиями: Связывание обобщённой гребневой регрессии, методов глобально-локального сжатия с двойным спуском
Предоставление теоремы вычислительной эквивалентности: Реализация вычислительной эквивалентности вложенных моделей через отношение плотности Дикки-Сэвиджа
Расширение на нейронные сети: Применение теоретической базы к высокомерной регрессии нейронных сетей

Детальное описание методов

Определение задачи

Исследование поведения функции риска в переопараметризованных моделях регрессии, в частности явления двойного спуска байесовского риска R(M) при изменении сложности модели M:

Определение байесовского двойного спуска: Пусть R(M) = E_{y,θ|M}(θ̂_M(y) - θ)² — условный априорный байесовский риск оценивателя при модели M. Когда M > n, R(M) демонстрирует поведение повторного снижения.

Теоретическая база

1. Байесовская структура сложности модели

Разложение совместного апостериорного распределения:

P(θ_M, M | D) = P(θ_M | M, D)P(M | D)

Свидетельство (маргинальное правдоподобие):

p(D|M) = ∫_{Θ_M} p(D | θ_M, M)p(θ_M|M)dθ_M

Ключевое понимание: Условное априорное распределение p(θ_M|M) влияет на байесовский риск через процесс маргинализации, выполняя роль неявной регуляризации в переопараметризованной области.

2. Вложение моделей и теорема вычислительной эквивалентности

Теорема 3.1 (Вложение моделей и вычислительная эквивалентность): При условиях согласованности:

p(θ_m|m) = p(θ_m|θ_{m+1:M} = 0, y)
p(y|θ_m, m) = p(y|θ_m, θ_{m+1:M} = 0)

Функциональную оценку подмодели m можно вычислить из переопараметризованной полной модели M:

f̂_m(x) = E[f̂_m(x)|θ_{m+1:M} = 0, M, y]

Отношение плотности Дикки-Сэвиджа:

p(y|m)/p(y|M) = p(θ_{m+1:M} = 0|y, M)/p(θ_{m+1:M} = 0|M)

3. Ограничения приближения BIC

Когда p < n, приближение Лапласа даёт:

log p(D|M) ≈ log p(D|θ̂, M) - (k/2)log n

Однако когда p > n, это приближение не работает, и влияние априорного распределения p(θ|M) на байесовский риск становится значительным.

Связь с обобщённой гребневой регрессией

Представление ортогонального разложения

Для SVD-разложения матрицы плана X: PXTXQ = Λ², получаем:

γ*_i = (λ²_i)/(λ²_i + k_i) γ̂_i

где k_i — параметр локального сжатия, соответствующий локальной шкале модели глобально-локального сжатия.

Оптимальные параметры сжатия

Путём оптимизации маргинального правдоподобия z_i|k_i, σ² получаем:

k̂_i = (λ²_i σ²)/(z²_i - σ²) для z²_i > σ²

Расширение на нейронные сети

Иерархическая байесовская спецификация:

y_i = Σ_{j=1}^M θ_j φ_j(x_i; w) + ε_i
θ_j ~ N(0, σ²_j)
w ~ p(w)
σ²_j ~ p(σ²_j)

Это позволяет адаптивно обучать базисные функции, сохраняя при этом байесовскую структуру выбора модели.

Экспериментальная установка

Эксперимент полиномиальной регрессии

Генерация данных:

Истинная функция: y_i = sin(5x_i) + ε, ε ~ N(0, 0.3²)
Размер выборки: n = 20
Сложность модели: d = 1, 2, ..., 50

Выбор базисных функций: Использование ортогональных полиномов Лежандра, обеспечивающих численно устойчивый ортогональный базис.

Метод оценивания: Использование псевдообратной матрицы Мура-Пенроуза, обеспечивающей решение минимальной нормы в переопараметризованном случае.

Байесовская полиномиальная регрессия

Метод Янга:

Априорное распределение: C = diag(δ², τ²/λ²₁, ..., τ²/λ²_q)
Апостериорное распределение: θ | D, σ², C ~ N(θ̂_post, Σ_post)

Метод Дитона:

Ограничения упорядочения: σ²₀ ≥ σ²₁ ≥ ... ≥ σ²_p
Корректировка монотонной регрессии (PAVA) неограниченной оценки MAP

Результаты экспериментов

Проверка явления двойного спуска

Три этапа:

Классическая область (d < 5): Увеличение сложности снижает смещение и ошибку тестирования
Кризис интерполяции (d ≈ n = 20): Ошибка тестирования достигает пика, модель идеально подгоняет обучающие данные, но плохо обобщается
Переопараметризованная область (d > 30): Ошибка тестирования снова снижается, экстремальная переопараметризация улучшает обобщение

Ключевые находки

Эффект неявной регуляризации: Решение минимальной нормы в переопараметризованных условиях имеет неявное смещение в сторону простых функций
Преимущество байесовского подхода: При надлежащей спецификации априорного распределения байесовские методы хорошо работают во всех областях
Вычислительная эффективность: Можно напрямую использовать максимально возможную модель, избегая затратного выбора модели

Поведение маргинального правдоподобия

Для модели с истинной степенью полинома p_true = 10 маргинальное правдоподобие достигает пика при соответствующей сложности, подтверждая эффективность байесовской бритвы Оккама.

Связанные работы

Частотистские исследования

Belkin et al. (2019): Первое наблюдение двойного спуска в линейной регрессии
Bach (2024): Расширение на модели случайной регрессии
Hastie et al. (2022): Исследование свойств интерполяторов

Байесовские методы

MacKay (1992): Байесовская интерполяция и гиперпараметрическая регуляризация
Polson & Scott (2012): Структура глобально-локального сжатия
Young (1977), Deaton (1980): Байесовские методы полиномиальной регрессии

Компромисс смещение-дисперсия

Geman et al. (1992): Компромисс смещение-дисперсия в нейронных сетях
Efron & Morris (1973): Преимущества оценивателей сжатия

Заключение и обсуждение

Основные выводы

Теоретическое единство: Явление двойного спуска имеет естественную байесовскую интерпретацию, обусловленную условным априорным распределением p(θ_M|M)
Совместимость с бритвой Оккама: Маргинальное правдоподобие по-прежнему предпочитает простые модели, но условное априорное распределение может обеспечить хорошие свойства риска в переопараметризованной области
Практическое руководство: Рекомендуется использовать максимально возможную модель, полагаясь на автоматическую регуляризацию байесовской структуры

Ограничения

Вызовы спецификации априорного распределения: Требуется задание совместного параметрического априорного распределения в сложном пространстве
Вычислительная сложность: Вычисление маргинального правдоподобия для базисных функций нейронной сети затруднено
Теоретический разрыв: Полный теоретический анализ в высокомерных случаях требует дальнейшего развития

Направления будущих исследований

Адаптивные априорные распределения: Разработка спецификаций априорных распределений, которые автоматически адаптируются к структуре данных
Расширение на глубокое обучение: Распространение структуры на глубокое обучение, где количество параметров значительно превышает количество выборок
Вычислительные методы: Разработка эффективных методов приближённого вывода в высокомерных условиях

Глубокая оценка

Преимущества

Теоретическая инновация: Первое систематическое предоставление байесовской теоретической базы для явления двойного спуска
Решение проблемы: Элегантное разрешение кажущегося противоречия между бритвой Оккама и двойным спуском
Связь методов: Успешное связывание классических статистических методов с современным машинным обучением
Достаточные эксперименты: Ясная демонстрация теоретических предсказаний на полиномиальной регрессии

Недостатки

Ограничения применения: Главным образом ограничивается относительно простыми регрессионными условиями, применение к глубокому обучению требует дальнейшего развития
Вычислительные вызовы: Практические вычисления в высокомерных случаях остаются затруднительными
Чувствительность к априорному распределению: Успех метода в значительной степени зависит от надлежащей спецификации априорного распределения

Влияние

Теоретический вклад: Предоставление важной байесовской перспективы для понимания явлений в современном машинном обучении
Практическая ценность: Обеспечение теоретической поддержки использования переопараметризованных моделей
Исследовательское вдохновение: Открытие новых направлений применения байесовских методов в современном машинном обучении

Применимые сценарии

Задачи регрессии: Особенно высокомерная регрессия и аппроксимация функций
Выбор модели: Сценарии, требующие выбора между несколькими уровнями сложности
Квантификация неопределённости: Приложения, требующие одновременного прогнозирования и оценки неопределённости

Библиография

Данная работа цитирует большое количество важной литературы, включая:

Belkin et al. (2019): Основополагающая работа по явлению двойного спуска
MacKay (1992): Классическая литература по байесовской интерполяции
Polson & Scott (2012): Методы глобально-локального сжатия
Young (1977), Deaton (1980): Ранние работы по байесовской полиномиальной регрессии

Данная статья имеет важное теоретическое значение, предоставляя новую байесовскую перспективу для понимания явления двойного спуска в современном машинном обучении. Хотя в практическом применении остаются вызовы, работа закладывает прочную теоретическую базу для будущих исследований.