2025-11-23T20:10:17.105054

Sampling the Bayesian Elastic Net

Hans, Liu

The Bayesian elastic net regression model is characterized by the regression coefficient prior distribution, the negative log density of which corresponds to the elastic net penalty function. While Markov chain Monte Carlo (MCMC) methods exist for sampling from the posterior of the regression coefficients given the penalty parameters, full Bayesian inference that incorporates uncertainty about the penalty parameters remains a challenge due to an intractable integrable in the posterior density function. Though sampling methods have been proposed that avoid computing this integral, all correctly-specified methods for full Bayesian inference that have appeared in the literature involve at least one "Metropolis-within-Gibbs" update, requiring tuning of proposal distributions. The computational landscape is complicated by the fact that two forms of the Bayesian elastic net prior have been introduced, and two representations (with and without data augmentation) of the prior suggest different MCMC algorithms. We review the forms and representations of the prior, discuss all combinations of these different treatments for the first time, and introduce one combination of form and representation that has yet to appear in the literature. We introduce MCMC algorithms for full Bayesian inference for all treatments of the prior. The algorithms allow for direct sampling of all parameters without any "Metropolis-within-Gibbs" steps. The key to the new approach is a careful transformation of the parameter space and an analysis of the resulting full conditional density functions that allows for efficient rejection sampling. We make empirical comparisons between our approaches and existing MCMC samplers for different data structures.

academic

Sampling the Bayesian Elastic Net

基本信息

论文ID: 2501.00594
标题: Sampling the Bayesian Elastic Net
作者: Christopher M. Hans, Ningyi Liu
分类: stat.CO stat.ME
发表时间: December 2024
论文链接: https://arxiv.org/abs/2501.00594

摘要

贝叶斯弹性网回归模型通过回归系数的先验分布来刻画，其负对数密度对应于弹性网惩罚函数。虽然存在MCMC方法可以在给定惩罚参数的情况下从回归系数的后验分布中采样，但由于后验密度函数中存在不可处理的积分，包含惩罚参数不确定性的完整贝叶斯推断仍然是一个挑战。尽管已提出避免计算该积分的采样方法，但文献中所有正确指定的完整贝叶斯推断方法都涉及至少一个"Metropolis-within-Gibbs"更新，需要调整提议分布。计算复杂性进一步加剧，因为文献中引入了两种形式的贝叶斯弹性网先验，以及先验的两种表示方法（有无数据增强）建议不同的MCMC算法。本文回顾了先验的形式和表示，首次讨论了这些不同处理方法的所有组合，并引入了一种尚未在文献中出现的形式和表示的组合。我们为所有先验处理方法引入了完整贝叶斯推断的MCMC算法，允许直接采样所有参数而无需任何"Metropolis-within-Gibbs"步骤。

研究背景与动机

核心问题

贝叶斯弹性网回归模型在许多研究领域已成为流行的回归方法。该模型的特征是回归系数的先验分布，其负对数密度对应于弹性网惩罚函数：

$\pi_c(\beta | \sigma^2, \lambda_1, \lambda_2) \propto \exp\left\{-\frac{1}{2\sigma^2}(\lambda_2\beta^T\beta + \lambda_1|\beta|_1)\right\}$

计算挑战

不可处理的积分：先验分布的归一化常数包含项 $\Phi(-\lambda_1/(2\sigma\sqrt{\lambda_2}))^{-p}$ ，其中 $\Phi(\cdot)$ 是标准正态累积分布函数，这是一个没有闭式解的积分表达式。
参数化复杂性：文献中存在两种不同的先验参数化形式：
- 共同缩放（commonly-scaled）： $\lambda_2\beta^T\beta$ 和 $\lambda_1|\beta|_1$ 都被 $2\sigma^2$ 缩放
- 差异缩放（differentially-scaled）：不同项使用不同的缩放因子
表示方法多样性：每种参数化形式都有两种表示方法：
- 直接表示：不使用数据增强
- 数据增强表示：引入潜在变量的层次模型

现有方法局限性

所有现有的正确指定方法都需要至少一个Metropolis-Hastings更新步骤，这要求：

指定和调整提议分布
选择随机游走的步长参数
可能导致收敛慢和混合差的问题

核心贡献

全面回顾：首次全面回顾了贝叶斯弹性网先验的所有形式和表示组合，并引入了一种新的组合（差异缩放的直接表示）
参数空间变换：提出了巧妙的参数空间变换，将复杂的 $\Phi(\cdot)$ 项限制在单个完整条件分布中
无调整MCMC算法：开发了不需要任何"Metropolis-within-Gibbs"步骤的MCMC算法，避免了提议分布的调整问题
高效拒绝采样：基于对数凹性分析，设计了自动调整的分段指数提议分布的高效拒绝采样算法
理论保证：提供了关键分布的对数凹性证明和模式界限的理论结果

这些变换的关键优势：

将 $\Phi(\cdot)$ 项集中到单个参数 $\theta$ 的完整条件分布中
产生对数凹的完整条件分布，便于高效采样

2. 拒绝采样算法

针对形如以下的密度函数设计了专门的拒绝采样方法： $f(x) \propto \Phi(-x)^{-q}x^{a-1}e^{-bx^2-cx-d/x}, \quad x > 0$

关键理论结果：

命题1：当 $q \in \{1,2,...\}$ , $a \geq 1$ , $b \geq q/2$ , $c > 0$ 时， $f(x)$ 是可积且对数凹的
命题2：提供了模式 $x^*$ 的精确界限，便于构造拒绝采样的节点点

3. 完整条件分布

变换后得到的完整条件分布包括：

广义逆高斯分布（GIG）： $u_1 | \text{其他参数} \sim \text{GIG}(\alpha, \beta, \gamma)$

修正半正态分布（MHN）： $u_2 | \text{其他参数} \sim \text{MHN}(\alpha, \beta, \gamma)$

含 $\Phi(\cdot)$ 项的分布： $\pi(\theta | \text{其他参数}) \propto \Phi(-\theta)^{-p}\theta^{L-1}e^{-\theta^2/2-\theta c}$

算法流程

初始化：设置参数初值
循环采样：
- 使用Devroye(2014)方法采样GIG分布
- 使用Sun et al.(2023)方法或新的拒绝采样方法采样MHN分布
- 使用自适应拒绝采样方法采样含 $\Phi(\cdot)$ 项的分布
回归系数更新：根据选择的表示方法（直接或数据增强）更新 $\beta$

实验设置

数据集

使用Zou and Hastie (2005)的四个仿真设置：

仿真1： $n=20$ , $p=8$ , $\beta=(3,1.5,0,0,2,0,0,0)^T$ , $\sigma=3$
仿真2： $n=20$ , $p=8$ , $\beta_j=0.85$ for $j=1,...,8$ , $\sigma=3$
仿真3： $n=100$ , $p=40$ , 高维设置， $\sigma=15$
仿真4： $n=100$ , $p=40$ , 块对角协方差结构， $\sigma=15$

每个设置生成50个数据集进行比较。

评价指标

使用**有效样本量（ESS）**作为MCMC算法效率的度量指标，通过R包mcmcse计算。

对比方法

RS：本文提出的拒绝采样方法（弱先验RS-W和强先验RS-S）
MH：Hans(2011)的Metropolis-Hastings方法（MH-W和MH-S）
EX：Wang and Wang(2023)的交换算法（EX和EX-B）

实现细节

MCMC迭代：10,000次（100次burn-in）
先验设置：
- 弱先验： $L=\nu_1=R=\nu_2=1$
- 强先验： $L=6$ , $\nu_L=4$ , $R=2$ , $\nu_R=4$

RS方法在非零回归系数上表现显著更好，ESS改善分布呈强右偏
对于零回归系数，各方法表现相似
RS-S在 $\lambda_1$ 参数上有高达149.86%的平均改善

高维设置（仿真3和4，p=40）

仿真3：EX方法总体表现更好，但RS方法的ESS减少通常较温和（<20%）
仿真4：RS-S在非零系数上与EX表现相当或略好

关键发现

参数特异性表现：
- $\beta$ 参数：RS方法在低维时优势明显，高维时表现合理
- $\sigma^2, \lambda_1, \lambda_2$ ：RS-S在多数情况下表现良好
调整敏感性：
- EX-B（调整不良的交换算法）证明了调整参数的重要性
- RS方法完全避免了调整需求
先验影响：
- 强先验（RS-S）通常比弱先验（RS-W）表现更好
- 特别是在 $\lambda_1$ 参数的采样效率上

性能比较表（平均ESS改善百分比）

参数	仿真1 RS-S	仿真2 RS-S	仿真3 RS-S	仿真4 RS-S
$\beta_1$	59.73%	5.87%	-15.2%	2.1%
$\sigma^2$	21.79%	19.83%	-40.95%	-42.93%
$\lambda_1$	149.86%	166.75%	90.42%	58.47%
$\lambda_2$	11.9%	18.39%	-53.17%	-39.56%

结论与讨论

主要结论

方法有效性：提出的拒绝采样方法成功消除了调整需求，在多数情况下提供了竞争性或更好的性能
理论贡献：参数变换和对数凹性分析为贝叶斯弹性网计算提供了新的理论基础
实用价值：算法的自动化特性使其更适合实际应用

局限性

高维性能：在某些高维设置下，方法的相对优势不如低维情况明显
先验限制：对数凹性要求 $L \geq 1$ ，限制了某些先验的使用
参数化依赖：性能对参数化选择敏感

未来方向

改进高维性能：结合部分折叠采样和广义Gibbs步骤
扩展到其他模型：将方法扩展到广义线性模型和其他正则化方法
理论优化：探索其他可能改善马尔可夫链动力学的参数化

深度评价

优点

技术创新：巧妙的参数变换和基于对数凹性的拒绝采样设计具有高度创新性
理论严谨：提供了完整的数学证明和理论保证
实用价值：消除调整需求显著提高了方法的可用性
全面比较：系统比较了所有现有方法，填补了文献空白

不足

复杂性权衡：虽然避免了调整，但方法本身的理论复杂性较高
适用范围：某些先验设置下的限制可能影响方法的普适性
高维挑战：在高维设置下的性能仍有改进空间

影响力

学术贡献：为贝叶斯正则化回归的计算方法提供了重要进展
实际应用：无调整特性使方法更容易被实践者采用
方法论价值：参数变换思路可能启发其他复杂贝叶斯模型的计算方法

适用场景

需要完整贝叶斯推断的弹性网回归分析
对MCMC调整敏感的自动化分析流程
中等维度的回归问题（p < 100）
需要量化惩罚参数不确定性的应用

参考文献

关键参考文献包括：

Li, Q. and Lin, N. (2010). The Bayesian elastic net. Bayesian Analysis, 5, 151-170.
Hans, C. (2011). Elastic net regression modeling with the orthant normal prior. Journal of the American Statistical Association, 106, 1383-1393.
Wang, H.-B. and Wang, J. (2023). An exact sampler for fully Bayesian elastic net. Computational Statistics, 38, 1721-1734.
Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society, B, 67, 301-320.

Sampling the Bayesian Elastic Net

Sampling the Bayesian Elastic Net

基本信息

摘要

研究背景与动机

核心问题

计算挑战

现有方法局限性

核心贡献

方法详解

任务定义

核心技术创新

1. 参数空间变换

2. 拒绝采样算法

3. 完整条件分布

算法流程

实验设置

数据集

评价指标

对比方法

实现细节

实验结果

主要结果

低维设置（仿真1和2，p=8）

高维设置（仿真3和4，p=40）

关键发现

性能比较表（平均ESS改善百分比）

相关工作

贝叶斯正则化回归发展

计算方法进展

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献