The Bayesian elastic net regression model is characterized by the regression coefficient prior distribution, the negative log density of which corresponds to the elastic net penalty function. While Markov chain Monte Carlo (MCMC) methods exist for sampling from the posterior of the regression coefficients given the penalty parameters, full Bayesian inference that incorporates uncertainty about the penalty parameters remains a challenge due to an intractable integrable in the posterior density function. Though sampling methods have been proposed that avoid computing this integral, all correctly-specified methods for full Bayesian inference that have appeared in the literature involve at least one "Metropolis-within-Gibbs" update, requiring tuning of proposal distributions. The computational landscape is complicated by the fact that two forms of the Bayesian elastic net prior have been introduced, and two representations (with and without data augmentation) of the prior suggest different MCMC algorithms. We review the forms and representations of the prior, discuss all combinations of these different treatments for the first time, and introduce one combination of form and representation that has yet to appear in the literature. We introduce MCMC algorithms for full Bayesian inference for all treatments of the prior. The algorithms allow for direct sampling of all parameters without any "Metropolis-within-Gibbs" steps. The key to the new approach is a careful transformation of the parameter space and an analysis of the resulting full conditional density functions that allows for efficient rejection sampling. We make empirical comparisons between our approaches and existing MCMC samplers for different data structures.
Il modello di regressione della rete elastica bayesiana è caratterizzato da una distribuzione a priori sui coefficienti di regressione, la cui densità logaritmica negativa corrisponde alla funzione di penalizzazione della rete elastica. Sebbene esistano metodi MCMC per campionare dalla distribuzione a posteriori dei coefficienti di regressione dato il parametro di penalizzazione, l'inferenza bayesiana completa che include l'incertezza nei parametri di penalizzazione rimane una sfida a causa di integrali intrattabili nella funzione di densità a posteriori. Nonostante siano stati proposti metodi di campionamento che evitano il calcolo di questo integrale, tutti i metodi di inferenza bayesiana completa correttamente specificati in letteratura comportano almeno un aggiornamento "Metropolis-within-Gibbs", che richiede l'adattamento della distribuzione proposta. La complessità computazionale è ulteriormente aggravata dal fatto che in letteratura sono state introdotte due forme di priori della rete elastica bayesiana, e due rappresentazioni dei priori (con e senza aumento dei dati) suggeriscono algoritmi MCMC diversi. Questo articolo esamina le forme e le rappresentazioni dei priori, discute per la prima volta tutte le combinazioni di questi diversi approcci, e introduce una combinazione di forma e rappresentazione che non era ancora presente in letteratura. Presentiamo algoritmi MCMC per l'inferenza bayesiana completa per tutti gli approcci ai priori, consentendo il campionamento diretto di tutti i parametri senza alcun passo "Metropolis-within-Gibbs".
Il modello di regressione della rete elastica bayesiana è diventato un metodo di regressione popolare in molti ambiti di ricerca. Il modello è caratterizzato da una distribuzione a priori sui coefficienti di regressione, la cui densità logaritmica negativa corrisponde alla funzione di penalizzazione della rete elastica:
Integrali Intrattabili: La costante di normalizzazione della distribuzione a priori contiene il termine Φ(−λ1/(2σλ2))−p, dove Φ(⋅) è la funzione di distribuzione cumulativa normale standard, che è un'espressione integrale senza soluzione in forma chiusa.
Complessità Parametrica: In letteratura esistono due diverse forme di parametrizzazione del priore:
Scala Comune (commonly-scaled): sia λ2βTβ che λ1∣β∣1 sono scalati per 2σ2
Scala Differenziale (differentially-scaled): termini diversi utilizzano fattori di scala diversi
Diversità di Rappresentazione: Ogni forma di parametrizzazione ha due metodi di rappresentazione:
Rappresentazione Diretta: senza aumento dei dati
Rappresentazione con Aumento dei Dati: modello gerarchico con variabili latenti
Revisione Completa: Prima revisione completa di tutte le combinazioni di forme e rappresentazioni dei priori della rete elastica bayesiana, introducendo una nuova combinazione (rappresentazione diretta con scala differenziale)
Trasformazioni dello Spazio dei Parametri: Propone trasformazioni ingegnose dello spazio dei parametri che confinano il termine complesso Φ(⋅) in una singola distribuzione condizionata completa
Algoritmi MCMC Senza Adattamento: Sviluppa algoritmi MCMC che non richiedono alcun passo "Metropolis-within-Gibbs", evitando i problemi di adattamento della distribuzione proposta
Campionamento per Rifiuto Efficiente: Sulla base dell'analisi della log-concavità, progetta algoritmi di campionamento per rifiuto efficienti con distribuzioni proposte esponenziali a tratti auto-adattative
Garanzie Teoriche: Fornisce prove della log-concavità delle distribuzioni critiche e risultati teorici sui limiti della modalità
Nel modello di regressione lineare normale y=Xβ+ε (dove ε∼N(0,σ2In)), condurre inferenza bayesiana completa della rete elastica, includendo la modellazione dell'incertezza nei parametri di penalizzazione λ1,λ2 e nella varianza dell'errore σ2.
Il metodo RS mostra prestazioni significativamente migliori sui coefficienti di regressione non nulli, con distribuzione del miglioramento ESS fortemente asimmetrica a destra
Per i coefficienti di regressione nulli, i metodi mostrano prestazioni simili
RS-S mostra un miglioramento medio fino al 149,86% sul parametro λ1
Efficacia del Metodo: Il metodo di campionamento per rifiuto proposto elimina con successo la necessità di adattamento, fornendo prestazioni competitive o migliori nella maggior parte dei casi
Contributi Teorici: Le trasformazioni parametriche e l'analisi della log-concavità forniscono una nuova base teorica per il calcolo della rete elastica bayesiana
Valore Pratico: La natura automatizzata dell'algoritmo lo rende più adatto alle applicazioni pratiche
Prestazioni ad Alta Dimensionalità: In alcuni contesti ad alta dimensionalità, il vantaggio relativo del metodo non è così evidente come nei casi a bassa dimensionalità
Limitazioni dei Priori: Il requisito di log-concavità richiede L≥1, limitando l'uso di alcuni priori
Dipendenza dalla Parametrizzazione: Le prestazioni sono sensibili alla scelta della parametrizzazione
Innovazione Tecnica: Le trasformazioni parametriche ingegnose e il design del campionamento per rifiuto basato sulla log-concavità sono altamente innovativi
Rigore Teorico: Fornisce prove matematiche complete e garanzie teoriche
Valore Pratico: L'eliminazione della necessità di adattamento migliora significativamente l'usabilità del metodo
Confronto Completo: Confronta sistematicamente tutti i metodi esistenti, colmando le lacune in letteratura