The Bayesian elastic net regression model is characterized by the regression coefficient prior distribution, the negative log density of which corresponds to the elastic net penalty function. While Markov chain Monte Carlo (MCMC) methods exist for sampling from the posterior of the regression coefficients given the penalty parameters, full Bayesian inference that incorporates uncertainty about the penalty parameters remains a challenge due to an intractable integrable in the posterior density function. Though sampling methods have been proposed that avoid computing this integral, all correctly-specified methods for full Bayesian inference that have appeared in the literature involve at least one "Metropolis-within-Gibbs" update, requiring tuning of proposal distributions. The computational landscape is complicated by the fact that two forms of the Bayesian elastic net prior have been introduced, and two representations (with and without data augmentation) of the prior suggest different MCMC algorithms. We review the forms and representations of the prior, discuss all combinations of these different treatments for the first time, and introduce one combination of form and representation that has yet to appear in the literature. We introduce MCMC algorithms for full Bayesian inference for all treatments of the prior. The algorithms allow for direct sampling of all parameters without any "Metropolis-within-Gibbs" steps. The key to the new approach is a careful transformation of the parameter space and an analysis of the resulting full conditional density functions that allows for efficient rejection sampling. We make empirical comparisons between our approaches and existing MCMC samplers for different data structures.
論文ID : 2501.00594タイトル : Sampling the Bayesian Elastic Net著者 : Christopher M. Hans, Ningyi Liu分類 : stat.CO stat.ME発表時期 : 2024年12月論文リンク : https://arxiv.org/abs/2501.00594 ベイズ弾性ネット回帰モデルは、回帰係数の事前分布によって特徴付けられ、その負対数密度は弾性ネット罰関数に対応している。与えられた罰パラメータの下で回帰係数の事後分布からサンプリングするMCMC法は存在するが、事後密度関数に含まれる処理不可能な積分のため、罰パラメータの不確実性を含む完全ベイズ推論は依然として課題である。この積分の計算を回避するサンプリング法が提案されているにもかかわらず、文献中のすべての正しく指定された完全ベイズ推論法は、少なくとも1つの「Metropolis-within-Gibbs」更新を含み、提案分布の調整が必要である。計算の複雑性はさらに増加している。なぜなら、文献では2つの形式のベイズ弾性ネット事前分布と、事前分布の2つの表現方法(データ拡張の有無)が導入されており、異なるMCMCアルゴリズムが推奨されているからである。本論文は事前分布の形式と表現を再検討し、これらの異なる処理方法のすべての組み合わせについて初めて論じ、文献にまだ現れていない形式と表現の組み合わせを導入する。すべての事前分布処理方法に対して完全ベイズ推論のMCMCアルゴリズムを導入し、「Metropolis-within-Gibbs」ステップを必要とせずにすべてのパラメータを直接サンプリングすることを可能にする。
ベイズ弾性ネット回帰モデルは多くの研究分野で一般的な回帰法となっている。このモデルは、回帰係数の事前分布によって特徴付けられ、その負対数密度は弾性ネット罰関数に対応している:
π c ( β ∣ σ 2 , λ 1 , λ 2 ) ∝ exp { − 1 2 σ 2 ( λ 2 β T β + λ 1 ∣ β ∣ 1 ) } \pi_c(\beta | \sigma^2, \lambda_1, \lambda_2) \propto \exp\left\{-\frac{1}{2\sigma^2}(\lambda_2\beta^T\beta + \lambda_1|\beta|_1)\right\} π c ( β ∣ σ 2 , λ 1 , λ 2 ) ∝ exp { − 2 σ 2 1 ( λ 2 β T β + λ 1 ∣ β ∣ 1 ) }
処理不可能な積分 :事前分布の正規化定数は項 Φ ( − λ 1 / ( 2 σ λ 2 ) ) − p \Phi(-\lambda_1/(2\sigma\sqrt{\lambda_2}))^{-p} Φ ( − λ 1 / ( 2 σ λ 2 ) ) − p を含み、ここで Φ ( ⋅ ) \Phi(\cdot) Φ ( ⋅ ) は標準正規累積分布関数であり、これは閉形式解を持たない積分表現である。パラメータ化の複雑性 :文献には2つの異なる事前分布パラメータ化形式が存在する:共通スケーリング (commonly-scaled):λ 2 β T β \lambda_2\beta^T\beta λ 2 β T β と λ 1 ∣ β ∣ 1 \lambda_1|\beta|_1 λ 1 ∣ β ∣ 1 の両方が 2 σ 2 2\sigma^2 2 σ 2 でスケーリングされる差分スケーリング (differentially-scaled):異なる項が異なるスケーリング係数を使用する表現方法の多様性 :各パラメータ化形式には2つの表現方法がある:直接表現 :データ拡張を使用しないデータ拡張表現 :潜在変数の階層モデルを導入するすべての既存の正しく指定された方法は、少なくとも1つのMetropolis-Hastings更新ステップを必要とし、以下が必要である:
提案分布の指定と調整 ランダムウォークのステップサイズパラメータの選択 収束が遅く、混合が悪い問題につながる可能性 包括的な再検討 :ベイズ弾性ネット事前分布のすべての形式と表現の組み合わせを初めて包括的に再検討し、新しい組み合わせ(差分スケーリングの直接表現)を導入するパラメータ空間変換 :複雑な Φ ( ⋅ ) \Phi(\cdot) Φ ( ⋅ ) 項を単一の完全条件分布に限定する巧妙なパラメータ空間変換を提案する調整不要なMCMCアルゴリズム :「Metropolis-within-Gibbs」ステップを必要としないMCMCアルゴリズムを開発し、提案分布の調整の問題を回避する効率的な棄却サンプリング :対数凹性分析に基づいて、自動調整される区分指数提案分布の効率的な棄却サンプリングアルゴリズムを設計する理論的保証 :重要な分布の対数凹性証明とモード境界の理論的結果を提供する正規線形回帰モデル y = X β + ε y = X\beta + \varepsilon y = Xβ + ε (ここで ε ∼ N ( 0 , σ 2 I n ) \varepsilon \sim N(0, \sigma^2I_n) ε ∼ N ( 0 , σ 2 I n ) )の下で、罰パラメータ λ 1 , λ 2 \lambda_1, \lambda_2 λ 1 , λ 2 と誤差分散 σ 2 \sigma^2 σ 2 の不確実性をモデル化する完全ベイズ弾性ネット推論を実施する。
共通スケーリング事前分布下の変換 :
( σ 2 , λ 1 , λ 2 ) → ( u 1 = σ 2 , u 2 = λ 2 / σ , θ = λ 1 / ( 2 σ λ 2 ) ) (σ^2, λ_1, λ_2) → (u_1 = σ^2, u_2 = \sqrt{λ_2}/σ, θ = λ_1/(2σ\sqrt{λ_2})) ( σ 2 , λ 1 , λ 2 ) → ( u 1 = σ 2 , u 2 = λ 2 / σ , θ = λ 1 / ( 2 σ λ 2 ))
差分スケーリング事前分布下の変換 :
( λ 2 , λ 1 ) → ( u 2 = λ 2 , θ = λ 1 / λ 2 ) (λ_2, λ_1) → (u_2 = \sqrt{λ_2}, θ = λ_1/\sqrt{λ_2}) ( λ 2 , λ 1 ) → ( u 2 = λ 2 , θ = λ 1 / λ 2 )
これらの変換の主な利点:
Φ ( ⋅ ) \Phi(\cdot) Φ ( ⋅ ) 項を単一パラメータ θ \theta θ の完全条件分布に集中させる対数凹の完全条件分布を生成し、効率的なサンプリングを容易にする 以下の形式の密度関数に対して特別な棄却サンプリング方法を設計する:
f ( x ) ∝ Φ ( − x ) − q x a − 1 e − b x 2 − c x − d / x , x > 0 f(x) \propto \Phi(-x)^{-q}x^{a-1}e^{-bx^2-cx-d/x}, \quad x > 0 f ( x ) ∝ Φ ( − x ) − q x a − 1 e − b x 2 − c x − d / x , x > 0
主要な理論的結果 :
命題1 :q ∈ { 1 , 2 , . . . } q \in \{1,2,...\} q ∈ { 1 , 2 , ... } 、a ≥ 1 a \geq 1 a ≥ 1 、b ≥ q / 2 b \geq q/2 b ≥ q /2 、c > 0 c > 0 c > 0 のとき、f ( x ) f(x) f ( x ) は可積分で対数凹である命題2 :モード x ∗ x^* x ∗ の正確な境界を提供し、棄却サンプリングのノード点の構築を容易にする変換後に得られる完全条件分布は以下を含む:
一般化逆ガウス分布(GIG) :
u 1 ∣ その他のパラメータ ∼ GIG ( α , β , γ ) u_1 | \text{その他のパラメータ} \sim \text{GIG}(\alpha, \beta, \gamma) u 1 ∣ その他のパラメータ ∼ GIG ( α , β , γ )
修正半正規分布(MHN) :
u 2 ∣ その他のパラメータ ∼ MHN ( α , β , γ ) u_2 | \text{その他のパラメータ} \sim \text{MHN}(\alpha, \beta, \gamma) u 2 ∣ その他のパラメータ ∼ MHN ( α , β , γ )
Φ ( ⋅ ) \Phi(\cdot) Φ ( ⋅ ) 項を含む分布 :
π ( θ ∣ その他のパラメータ ) ∝ Φ ( − θ ) − p θ L − 1 e − θ 2 / 2 − θ c \pi(\theta | \text{その他のパラメータ}) \propto \Phi(-\theta)^{-p}\theta^{L-1}e^{-\theta^2/2-\theta c} π ( θ ∣ その他のパラメータ ) ∝ Φ ( − θ ) − p θ L − 1 e − θ 2 /2 − θ c
初期化 :パラメータの初期値を設定するループサンプリング :
Devroye(2014)法を使用してGIG分布からサンプリングする Sun et al.(2023)法または新しい棄却サンプリング法を使用してMHN分布からサンプリングする 適応的棄却サンプリング法を使用して Φ ( ⋅ ) \Phi(\cdot) Φ ( ⋅ ) 項を含む分布からサンプリングする 回帰係数の更新 :選択された表現方法(直接またはデータ拡張)に従って β \beta β を更新するZou and Hastie (2005)の4つのシミュレーション設定を使用する:
シミュレーション1 :n = 20 n=20 n = 20 、p = 8 p=8 p = 8 、β = ( 3 , 1.5 , 0 , 0 , 2 , 0 , 0 , 0 ) T \beta=(3,1.5,0,0,2,0,0,0)^T β = ( 3 , 1.5 , 0 , 0 , 2 , 0 , 0 , 0 ) T 、σ = 3 \sigma=3 σ = 3 シミュレーション2 :n = 20 n=20 n = 20 、p = 8 p=8 p = 8 、β j = 0.85 \beta_j=0.85 β j = 0.85 for j = 1 , . . . , 8 j=1,...,8 j = 1 , ... , 8 、σ = 3 \sigma=3 σ = 3 シミュレーション3 :n = 100 n=100 n = 100 、p = 40 p=40 p = 40 、高次元設定、σ = 15 \sigma=15 σ = 15 シミュレーション4 :n = 100 n=100 n = 100 、p = 40 p=40 p = 40 、ブロック対角共分散構造、σ = 15 \sigma=15 σ = 15 各設定について50個のデータセットを生成して比較を行う。
MCMCアルゴリズムの効率の尺度として**有効サンプルサイズ(ESS)**を使用し、Rパッケージmcmcseで計算する。
RS :本論文で提案された棄却サンプリング法(弱事前分布RS-Wと強事前分布RS-S)MH :Hans(2011)のMetropolis-Hastings法(MH-WおよびMH-S)EX :Wang and Wang(2023)の交換アルゴリズム(EXおよびEX-B)MCMC反復:10,000回(バーンイン100回) 事前分布設定:
弱事前分布:L = ν 1 = R = ν 2 = 1 L=\nu_1=R=\nu_2=1 L = ν 1 = R = ν 2 = 1 強事前分布:L = 6 L=6 L = 6 、ν L = 4 \nu_L=4 ν L = 4 、R = 2 R=2 R = 2 、ν R = 4 \nu_R=4 ν R = 4 RS法は非ゼロ回帰係数で顕著に優れた性能を示し、ESS改善は強い右歪みを示す ゼロ回帰係数については、各方法の性能は類似している RS-Sは λ 1 \lambda_1 λ 1 パラメータで平均149.86%の改善を達成 シミュレーション3:EX法は全体的により良い性能を示すが、RS法のESS削減は通常温和である(<20%) シミュレーション4:RS-Sは非ゼロ係数でEX法と同等またはわずかに優れた性能を示す パラメータ固有の性能 :β \beta β パラメータ:RS法は低次元で明らかな優位性を示し、高次元では合理的な性能を示すσ 2 , λ 1 , λ 2 \sigma^2, \lambda_1, \lambda_2 σ 2 , λ 1 , λ 2 :RS-Sはほとんどの場合良好な性能を示す調整感度 :EX-B(調整が不十分な交換アルゴリズム)は調整パラメータの重要性を実証する RS法は調整の必要性を完全に回避する 事前分布の影響 :強事前分布(RS-S)は通常弱事前分布(RS-W)より優れた性能を示す 特に λ 1 \lambda_1 λ 1 パラメータのサンプリング効率において パラメータ シミュレーション1 RS-S シミュレーション2 RS-S シミュレーション3 RS-S シミュレーション4 RS-S β 1 \beta_1 β 1 59.73% 5.87% -15.2% 2.1% σ 2 \sigma^2 σ 2 21.79% 19.83% -40.95% -42.93% λ 1 \lambda_1 λ 1 149.86% 166.75% 90.42% 58.47% λ 2 \lambda_2 λ 2 11.9% 18.39% -53.17% -39.56%
Lassoとの関連 :Tibshirani(1996)が初めてベイズ事後モード と罰付き最適化の関連性を確立弾性ネット拡張 :Li and Lin(2010)、Hans(2011)、Kyung et al.(2010)などがベイズ弾性ネットを発展させた適応的方法 :Griffin and Brown(2007)、Leng et al.(2014)などが適応的lassoのベイズ版を研究データ拡張 :Park and Casella(2008)のスケール混合表現変分推論 :MCMCを回避する近似法交換アルゴリズム :Wang and Wang(2023)が Φ ( ⋅ ) \Phi(\cdot) Φ ( ⋅ ) の計算を回避する巧妙な方法方法の有効性 :提案された棄却サンプリング法は調整の必要性を成功裏に排除し、ほとんどの場合競争的またはより優れた性能を提供する理論的貢献 :パラメータ変換と対数凹性分析は、ベイズ弾性ネット計算に新しい理論的基礎を提供する実用的価値 :アルゴリズムの自動化特性により、実際の応用により適している高次元性能 :特定の高次元設定では、方法の相対的優位性は低次元の場合ほど明らかではない事前分布の制限 :対数凹性要件 L ≥ 1 L \geq 1 L ≥ 1 は特定の事前分布の使用を制限するパラメータ化依存性 :性能はパラメータ化選択に敏感である高次元性能の改善 :部分折りたたみサンプリングと一般化Gibbsステップの組み合わせ他のモデルへの拡張 :一般化線形モデルおよび他の正則化法への方法の拡張理論的最適化 :マルコフ連鎖ダイナミクスを改善する可能性のある他のパラメータ化の探索技術的革新 :巧妙なパラメータ変換と対数凹性に基づく棄却サンプリング設計は高度に革新的である理論的厳密性 :完全な数学的証明と理論的保証を提供する実用的価値 :調整の必要性を排除することで方法の有用性を大幅に向上させる包括的な比較 :すべての既存方法を体系的に比較し、文献の空白を埋める複雑性のトレードオフ :調整を回避する一方で、方法自体の理論的複雑性は高い適用範囲 :特定の事前分布設定下での制限が方法の普遍性に影響する可能性がある高次元の課題 :高次元設定での性能にはまだ改善の余地がある学術的貢献 :ベイズ正則化回帰の計算方法に重要な進展をもたらす実際の応用 :調整不要な特性により、実務者による方法の採用が容易になる方法論的価値 :パラメータ変換の考え方は、他の複雑なベイズモデルの計算方法に着想を与える可能性がある完全ベイズ推論が必要な弾性ネット回帰分析 MCMC調整に敏感な自動化分析パイプライン 中程度の次元の回帰問題(p < 100) 罰パラメータの不確実性を定量化する必要があるアプリケーション 主要な参考文献は以下を含む:
Li, Q. and Lin, N. (2010). The Bayesian elastic net. Bayesian Analysis , 5, 151-170. Hans, C. (2011). Elastic net regression modeling with the orthant normal prior. Journal of the American Statistical Association , 106, 1383-1393. Wang, H.-B. and Wang, J. (2023). An exact sampler for fully Bayesian elastic net. Computational Statistics , 38, 1721-1734. Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society, B , 67, 301-320.