2025-11-23T19:58:17.144226

Bayesian Double Descent

Polson, Sokolov
Double descent is a phenomenon of over-parameterized statistical models such as deep neural networks which have a re-descending property in their risk function. As the complexity of the model increases, risk exhibits a U-shaped region due to the traditional bias-variance trade-off, then as the number of parameters equals the number of observations and the model becomes one of interpolation where the risk can be unbounded and finally, in the over-parameterized region, it re-descends -- the double descent effect. Our goal is to show that this has a natural Bayesian interpretation. We also show that this is not in conflict with the traditional Occam's razor -- simpler models are preferred to complex ones, all else being equal. Our theoretical foundations use Bayesian model selection, the Dickey-Savage density ratio, and connect generalized ridge regression and global-local shrinkage methods with double descent. We illustrate our approach for high dimensional neural networks and provide detailed treatments of infinite Gaussian means models and non-parametric regression. Finally, we conclude with directions for future research.
academic

Bayesian Double Descent

基本信息

  • 论文ID: 2507.07338
  • 标题: Bayesian Double Descent
  • 作者: Nick Polson (University of Chicago Booth School), Vadim Sokolov (George Mason University)
  • 分类: stat.ML cs.LG stat.CO
  • 发表时间: First Draft: December 25, 2024; This Draft: October 16, 2025
  • 论文链接: https://arxiv.org/abs/2507.07338

摘要

双下降(Double descent)是过参数化统计模型(如深度神经网络)在其风险函数中表现出的再下降特性。随着模型复杂度的增加,风险函数由于传统的偏差-方差权衡表现出U型区域,当参数数量等于观测数量时模型成为插值模型,风险可能无界,最后在过参数化区域中再次下降——这就是双下降效应。本文目标是证明这一现象具有自然的贝叶斯解释,并证明这与传统的奥卡姆剃刀原理并不冲突。理论基础使用贝叶斯模型选择、Dickey-Savage密度比,并将广义岭回归和全局-局部收缩方法与双下降联系起来。

研究背景与动机

核心问题

  1. 双下降现象的贝叶斯解释缺失:双下降现象主要从频率学角度研究,缺乏系统的贝叶斯理论框架
  2. 奥卡姆剃刀与双下降的表面冲突:贝叶斯方法偏好简单模型,而双下降暗示复杂模型可能更好
  3. 过参数化模型的理论理解不足:当参数数量超过样本数量时,传统统计理论失效

研究重要性

  1. 理论统一:为双下降现象提供统一的贝叶斯理论框架
  2. 实践指导:为深度学习等现代机器学习方法提供理论支撑
  3. 方法论贡献:连接经典统计理论与现代机器学习实践

现有方法局限性

  1. 频率学视角局限:现有研究主要关注最小L2范数估计器,忽视了先验正则化的作用
  2. BIC近似失效:当p > n时,拉普拉斯近似(BIC)表现不佳
  3. 经验风险界限无效:对于插值器,经验风险为零,使得传统界限失去意义

核心贡献

  1. 建立双下降的贝叶斯理论框架:证明条件先验p(θ_M|M)是驱动双下降现象的关键因素
  2. 解决奥卡姆剃刀悖论:证明贝叶斯奥卡姆剃刀与双下降现象并不冲突
  3. 连接经典方法与现代技术:将广义岭回归、全局-局部收缩方法与双下降联系
  4. 提供计算等价性定理:通过Dickey-Savage密度比实现嵌套模型的计算等价性
  5. 扩展到神经网络:将理论框架应用于高维神经网络回归

方法详解

任务定义

研究过参数化回归模型中的风险函数行为,特别是当模型复杂度M变化时贝叶斯风险R(M)的双下降现象:

贝叶斯双下降定义:设R(M) = E_{y,θ|M}(θ̂_M(y) - θ)²为模型M下估计器的条件先验贝叶斯风险,当M > n时R(M)表现出再下降行为。

理论框架

1. 贝叶斯模型复杂度框架

联合后验分解

P(θ_M, M | D) = P(θ_M | M, D)P(M | D)

证据(边际似然)

p(D|M) = ∫_{Θ_M} p(D | θ_M, M)p(θ_M|M)dθ_M

关键洞察:条件先验p(θ_M|M)通过边际化过程影响贝叶斯风险,在过参数化区域起到隐式正则化作用。

2. 模型嵌套与计算等价性定理

定理3.1(模型嵌套与计算等价性): 在一致性条件下:

  • p(θ_m|m) = p(θ_m|θ_{m+1:M} = 0, y)
  • p(y|θ_m, m) = p(y|θ_m, θ_{m+1:M} = 0)

可以从过参数化完整模型M计算子模型m的函数估计:

f̂_m(x) = E[f̂_m(x)|θ_{m+1:M} = 0, M, y]

Dickey-Savage密度比

p(y|m)/p(y|M) = p(θ_{m+1:M} = 0|y, M)/p(θ_{m+1:M} = 0|M)

3. BIC近似的局限性

当p < n时,拉普拉斯近似给出:

log p(D|M) ≈ log p(D|θ̂, M) - (k/2)log n

但当p > n时,此近似失效,先验p(θ|M)对贝叶斯风险的影响变得显著。

广义岭回归连接

正交分解表示

设计矩阵X的SVD分解:PXTXQ = Λ²,得到:

γ*_i = (λ²_i)/(λ²_i + k_i) γ̂_i

其中k_i为局部收缩参数,对应全局-局部收缩模型的局部尺度。

最优收缩参数

通过优化边际似然z_i|k_i, σ²得到:

k̂_i = (λ²_i σ²)/(z²_i - σ²) for z²_i > σ²

神经网络扩展

层次贝叶斯规范

y_i = Σ_{j=1}^M θ_j φ_j(x_i; w) + ε_i
θ_j ~ N(0, σ²_j)
w ~ p(w)
σ²_j ~ p(σ²_j)

这允许自适应学习基函数,同时保持贝叶斯模型选择框架。

实验设置

多项式回归实验

数据生成

  • 真实函数:y_i = sin(5x_i) + ε, ε ~ N(0, 0.3²)
  • 样本大小:n = 20
  • 模型复杂度:d = 1, 2, ..., 50

基函数选择:使用Legendre多项式基函数,提供数值稳定的正交基。

估计方法:使用Moore-Penrose伪逆,在过参数化时提供最小范数解。

贝叶斯多项式回归

Young方法

  • 先验:C = diag(δ², τ²/λ²₁, ..., τ²/λ²_q)
  • 后验:θ | D, σ², C ~ N(θ̂_post, Σ_post)

Deaton方法

  • 排序约束:σ²₀ ≥ σ²₁ ≥ ... ≥ σ²_p
  • 等调回归(PAVA)调整无约束MAP估计

实验结果

双下降现象验证

三个阶段

  1. 经典区域(d < 5):增加复杂度降低偏差和测试误差
  2. 插值危机(d ≈ n = 20):测试误差达到峰值,模型完美拟合训练数据但泛化差
  3. 过参数化区域(d > 30):测试误差再次下降,极端过参数化改善泛化

关键发现

  1. 隐式正则化效应:最小范数解在过参数化设置中具有向简单函数的隐式偏差
  2. 贝叶斯优势:通过适当的先验规范,贝叶斯方法在所有区域都表现良好
  3. 计算效率:可以直接使用最大可能的模型,避免耗时的模型选择

边际似然行为

对于真实多项式度数p_true = 10的模型,边际似然在对应复杂度处达到峰值,验证了贝叶斯奥卡姆剃刀的有效性。

相关工作

频率学研究

  1. Belkin et al. (2019):首次在线性回归中观察到双下降
  2. Bach (2024):扩展到随机回归模型
  3. Hastie et al. (2022):研究插值器的性质

贝叶斯方法

  1. MacKay (1992):贝叶斯插值和超参数正则化
  2. Polson & Scott (2012):全局-局部收缩框架
  3. Young (1977), Deaton (1980):多项式回归的贝叶斯方法

偏差-方差权衡

  1. Geman et al. (1992):神经网络中的偏差-方差权衡
  2. Efron & Morris (1973):收缩估计器的优势

结论与讨论

主要结论

  1. 理论统一:双下降现象具有自然的贝叶斯解释,由条件先验p(θ_M|M)驱动
  2. 奥卡姆剃刀兼容性:边际似然仍然偏好简单模型,但条件先验可在过参数化区域提供良好的风险性质
  3. 实践指导:建议使用最大可能的模型,依赖贝叶斯框架的自动正则化

局限性

  1. 先验规范挑战:需要在复杂空间上指定联合参数先验
  2. 计算复杂性:神经网络基函数的边际似然计算困难
  3. 理论gap:高维情况下的完整理论分析仍需发展

未来方向

  1. 自适应先验:开发能自动调整数据结构的先验规范
  2. 深度学习扩展:将框架扩展到参数数量远超样本数量的深度学习
  3. 计算方法:开发高维设置下的高效近似推断技术

深度评价

优点

  1. 理论创新:首次为双下降现象提供系统的贝叶斯理论框架
  2. 问题解决:优雅地解决了奥卡姆剃刀与双下降的表面冲突
  3. 方法连接:成功连接了经典统计方法与现代机器学习
  4. 实验充分:通过多项式回归清晰展示了理论预测

不足

  1. 应用局限:主要局限于相对简单的回归设置,深度学习应用仍需发展
  2. 计算挑战:高维情况下的实际计算仍然困难
  3. 先验敏感性:方法的成功高度依赖于适当的先验选择

影响力

  1. 理论贡献:为理解现代机器学习现象提供了重要的贝叶斯视角
  2. 实用价值:为过参数化模型的使用提供了理论支撑
  3. 研究启发:开辟了贝叶斯方法在现代机器学习中的新应用方向

适用场景

  1. 回归问题:特别是高维回归和函数逼近
  2. 模型选择:需要在多个复杂度级别间选择的场景
  3. 不确定性量化:需要同时进行预测和不确定性估计的应用

参考文献

本文引用了大量重要文献,包括:

  • Belkin et al. (2019): 双下降现象的开创性工作
  • MacKay (1992): 贝叶斯插值的经典文献
  • Polson & Scott (2012): 全局-局部收缩方法
  • Young (1977), Deaton (1980): 贝叶斯多项式回归的早期工作

这篇论文在理论上具有重要意义,为理解现代机器学习中的双下降现象提供了新的贝叶斯视角,虽然在实际应用方面仍有挑战,但为未来研究奠定了坚实的理论基础。