2025-11-23T19:58:17.144226

Bayesian Double Descent

Polson, Sokolov

Double descent is a phenomenon of over-parameterized statistical models such as deep neural networks which have a re-descending property in their risk function. As the complexity of the model increases, risk exhibits a U-shaped region due to the traditional bias-variance trade-off, then as the number of parameters equals the number of observations and the model becomes one of interpolation where the risk can be unbounded and finally, in the over-parameterized region, it re-descends -- the double descent effect. Our goal is to show that this has a natural Bayesian interpretation. We also show that this is not in conflict with the traditional Occam's razor -- simpler models are preferred to complex ones, all else being equal. Our theoretical foundations use Bayesian model selection, the Dickey-Savage density ratio, and connect generalized ridge regression and global-local shrinkage methods with double descent. We illustrate our approach for high dimensional neural networks and provide detailed treatments of infinite Gaussian means models and non-parametric regression. Finally, we conclude with directions for future research.

academic

Bayesian Double Descent

基本信息

论文ID: 2507.07338
标题: Bayesian Double Descent
作者: Nick Polson (University of Chicago Booth School), Vadim Sokolov (George Mason University)
分类: stat.ML cs.LG stat.CO
发表时间: First Draft: December 25, 2024; This Draft: October 16, 2025
论文链接: https://arxiv.org/abs/2507.07338

双下降现象的贝叶斯解释缺失：双下降现象主要从频率学角度研究，缺乏系统的贝叶斯理论框架
奥卡姆剃刀与双下降的表面冲突：贝叶斯方法偏好简单模型，而双下降暗示复杂模型可能更好
过参数化模型的理论理解不足：当参数数量超过样本数量时，传统统计理论失效

研究重要性

理论统一：为双下降现象提供统一的贝叶斯理论框架
实践指导：为深度学习等现代机器学习方法提供理论支撑
方法论贡献：连接经典统计理论与现代机器学习实践

现有方法局限性

频率学视角局限：现有研究主要关注最小L2范数估计器，忽视了先验正则化的作用
BIC近似失效：当p > n时，拉普拉斯近似(BIC)表现不佳
经验风险界限无效：对于插值器，经验风险为零，使得传统界限失去意义

核心贡献

建立双下降的贝叶斯理论框架：证明条件先验p(θ_M|M)是驱动双下降现象的关键因素
解决奥卡姆剃刀悖论：证明贝叶斯奥卡姆剃刀与双下降现象并不冲突
连接经典方法与现代技术：将广义岭回归、全局-局部收缩方法与双下降联系
提供计算等价性定理：通过Dickey-Savage密度比实现嵌套模型的计算等价性
扩展到神经网络：将理论框架应用于高维神经网络回归

P(θ_M, M | D) = P(θ_M | M, D)P(M | D)

证据(边际似然)：

p(D|M) = ∫_{Θ_M} p(D | θ_M, M)p(θ_M|M)dθ_M

关键洞察：条件先验p(θ_M|M)通过边际化过程影响贝叶斯风险，在过参数化区域起到隐式正则化作用。

2. 模型嵌套与计算等价性定理

定理3.1（模型嵌套与计算等价性）：在一致性条件下：

p(θ_m|m) = p(θ_m|θ_{m+1:M} = 0, y)
p(y|θ_m, m) = p(y|θ_m, θ_{m+1:M} = 0)

可以从过参数化完整模型M计算子模型m的函数估计：

f̂_m(x) = E[f̂_m(x)|θ_{m+1:M} = 0, M, y]

Dickey-Savage密度比：

p(y|m)/p(y|M) = p(θ_{m+1:M} = 0|y, M)/p(θ_{m+1:M} = 0|M)

3. BIC近似的局限性

当p < n时，拉普拉斯近似给出：

log p(D|M) ≈ log p(D|θ̂, M) - (k/2)log n

但当p > n时，此近似失效，先验p(θ|M)对贝叶斯风险的影响变得显著。

广义岭回归连接

正交分解表示

设计矩阵X的SVD分解：PXTXQ = Λ²，得到：

γ*_i = (λ²_i)/(λ²_i + k_i) γ̂_i

其中k_i为局部收缩参数，对应全局-局部收缩模型的局部尺度。

最优收缩参数

通过优化边际似然z_i|k_i, σ²得到：

k̂_i = (λ²_i σ²)/(z²_i - σ²) for z²_i > σ²

神经网络扩展

层次贝叶斯规范：

y_i = Σ_{j=1}^M θ_j φ_j(x_i; w) + ε_i
θ_j ~ N(0, σ²_j)
w ~ p(w)
σ²_j ~ p(σ²_j)

这允许自适应学习基函数，同时保持贝叶斯模型选择框架。

实验设置

多项式回归实验

数据生成：

真实函数：y_i = sin(5x_i) + ε, ε ~ N(0, 0.3²)
样本大小：n = 20
模型复杂度：d = 1, 2, ..., 50

基函数选择：使用Legendre多项式基函数，提供数值稳定的正交基。

估计方法：使用Moore-Penrose伪逆，在过参数化时提供最小范数解。

贝叶斯多项式回归

Young方法：

先验：C = diag(δ², τ²/λ²₁, ..., τ²/λ²_q)
后验：θ | D, σ², C ~ N(θ̂_post, Σ_post)

Deaton方法：

排序约束：σ²₀ ≥ σ²₁ ≥ ... ≥ σ²_p
等调回归(PAVA)调整无约束MAP估计

实验结果

双下降现象验证

三个阶段：

经典区域(d < 5)：增加复杂度降低偏差和测试误差
插值危机(d ≈ n = 20)：测试误差达到峰值，模型完美拟合训练数据但泛化差
过参数化区域(d > 30)：测试误差再次下降，极端过参数化改善泛化

关键发现

隐式正则化效应：最小范数解在过参数化设置中具有向简单函数的隐式偏差
贝叶斯优势：通过适当的先验规范，贝叶斯方法在所有区域都表现良好
计算效率：可以直接使用最大可能的模型，避免耗时的模型选择

理论统一：双下降现象具有自然的贝叶斯解释，由条件先验p(θ_M|M)驱动
奥卡姆剃刀兼容性：边际似然仍然偏好简单模型，但条件先验可在过参数化区域提供良好的风险性质
实践指导：建议使用最大可能的模型，依赖贝叶斯框架的自动正则化

局限性

先验规范挑战：需要在复杂空间上指定联合参数先验
计算复杂性：神经网络基函数的边际似然计算困难
理论gap：高维情况下的完整理论分析仍需发展

未来方向

自适应先验：开发能自动调整数据结构的先验规范
深度学习扩展：将框架扩展到参数数量远超样本数量的深度学习
计算方法：开发高维设置下的高效近似推断技术

深度评价

优点

理论创新：首次为双下降现象提供系统的贝叶斯理论框架
问题解决：优雅地解决了奥卡姆剃刀与双下降的表面冲突
方法连接：成功连接了经典统计方法与现代机器学习
实验充分：通过多项式回归清晰展示了理论预测

不足

应用局限：主要局限于相对简单的回归设置，深度学习应用仍需发展
计算挑战：高维情况下的实际计算仍然困难
先验敏感性：方法的成功高度依赖于适当的先验选择

影响力

理论贡献：为理解现代机器学习现象提供了重要的贝叶斯视角
实用价值：为过参数化模型的使用提供了理论支撑
研究启发：开辟了贝叶斯方法在现代机器学习中的新应用方向

适用场景

回归问题：特别是高维回归和函数逼近
模型选择：需要在多个复杂度级别间选择的场景
不确定性量化：需要同时进行预测和不确定性估计的应用

参考文献

本文引用了大量重要文献，包括：

Belkin et al. (2019): 双下降现象的开创性工作
MacKay (1992): 贝叶斯插值的经典文献
Polson & Scott (2012): 全局-局部收缩方法
Young (1977), Deaton (1980): 贝叶斯多项式回归的早期工作

这篇论文在理论上具有重要意义，为理解现代机器学习中的双下降现象提供了新的贝叶斯视角，虽然在实际应用方面仍有挑战，但为未来研究奠定了坚实的理论基础。

Bayesian Double Descent

Bayesian Double Descent

基本信息

摘要

研究背景与动机

核心问题

研究重要性

现有方法局限性

核心贡献

方法详解

任务定义

理论框架

1. 贝叶斯模型复杂度框架

2. 模型嵌套与计算等价性定理

3. BIC近似的局限性

广义岭回归连接

正交分解表示

最优收缩参数

神经网络扩展

实验设置

多项式回归实验

贝叶斯多项式回归

实验结果

双下降现象验证

关键发现

边际似然行为

相关工作

频率学研究

贝叶斯方法

偏差-方差权衡

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献