The Bayesian elastic net regression model is characterized by the regression coefficient prior distribution, the negative log density of which corresponds to the elastic net penalty function. While Markov chain Monte Carlo (MCMC) methods exist for sampling from the posterior of the regression coefficients given the penalty parameters, full Bayesian inference that incorporates uncertainty about the penalty parameters remains a challenge due to an intractable integrable in the posterior density function. Though sampling methods have been proposed that avoid computing this integral, all correctly-specified methods for full Bayesian inference that have appeared in the literature involve at least one "Metropolis-within-Gibbs" update, requiring tuning of proposal distributions. The computational landscape is complicated by the fact that two forms of the Bayesian elastic net prior have been introduced, and two representations (with and without data augmentation) of the prior suggest different MCMC algorithms. We review the forms and representations of the prior, discuss all combinations of these different treatments for the first time, and introduce one combination of form and representation that has yet to appear in the literature. We introduce MCMC algorithms for full Bayesian inference for all treatments of the prior. The algorithms allow for direct sampling of all parameters without any "Metropolis-within-Gibbs" steps. The key to the new approach is a careful transformation of the parameter space and an analysis of the resulting full conditional density functions that allows for efficient rejection sampling. We make empirical comparisons between our approaches and existing MCMC samplers for different data structures.
Le modèle de régression du filet élastique bayésien est caractérisé par une distribution a priori sur les coefficients de régression, dont la densité logarithmique négative correspond à la fonction de pénalité du filet élastique. Bien que des méthodes MCMC existent pour échantillonner à partir de la distribution a posteriori des coefficients de régression étant donné les paramètres de pénalité, l'inférence bayésienne complète incorporant l'incertitude sur les paramètres de pénalité reste un défi en raison d'intégrales non traitables dans la densité a posteriori. Bien que des méthodes d'échantillonnage évitant le calcul de cette intégrale aient été proposées, toutes les méthodes d'inférence bayésienne complète correctement spécifiées dans la littérature impliquent au moins une mise à jour « Metropolis-within-Gibbs », nécessitant l'ajustement de la distribution de proposition. La complexité computationnelle est aggravée par le fait que deux formes de priors du filet élastique bayésien ont été introduites dans la littérature, ainsi que deux représentations de ces priors (avec et sans augmentation de données) suggérant différents algorithmes MCMC. Cet article examine les formes et représentations des priors, discute pour la première fois de toutes les combinaisons de ces différents traitements, et introduit une combinaison de forme et représentation n'ayant pas encore figuré dans la littérature. Nous introduisons des algorithmes MCMC pour l'inférence bayésienne complète pour tous les traitements des priors, permettant l'échantillonnage direct de tous les paramètres sans aucune étape « Metropolis-within-Gibbs ».
Le modèle de régression du filet élastique bayésien est devenu une méthode de régression populaire dans de nombreux domaines de recherche. Le modèle est caractérisé par une distribution a priori sur les coefficients de régression, dont la densité logarithmique négative correspond à la fonction de pénalité du filet élastique :
Intégrales non traitables : La constante de normalisation de la distribution a priori contient le terme Φ(−λ1/(2σλ2))−p, où Φ(⋅) est la fonction de distribution cumulative normale standard, une expression intégrale sans solution en forme fermée.
Complexité de paramétrisation : Deux formes de paramétrisation différentes existent dans la littérature :
Mise à l'échelle commune (commonly-scaled) : λ2βTβ et λ1∣β∣1 sont tous deux mis à l'échelle par 2σ2
Mise à l'échelle différentielle (differentially-scaled) : différents termes utilisent différents facteurs d'échelle
Diversité des représentations : Chaque forme de paramétrisation possède deux représentations :
Représentation directe : sans augmentation de données
Représentation avec augmentation de données : modèle hiérarchique introduisant des variables latentes
Examen complet : Premier examen complet de toutes les combinaisons de formes et représentations des priors du filet élastique bayésien, introduisant une nouvelle combinaison (représentation directe avec mise à l'échelle différentielle)
Transformations d'espace de paramètres : Proposition de transformations d'espace de paramètres ingénieuses, concentrant le terme complexe Φ(⋅) dans une seule distribution conditionnelle complète
Algorithmes MCMC sans ajustement : Développement d'algorithmes MCMC ne nécessitant aucune étape « Metropolis-within-Gibbs », évitant les problèmes d'ajustement de la distribution de proposition
Échantillonnage par rejet efficace : Conception d'algorithmes d'échantillonnage par rejet efficaces basés sur l'analyse de concavité logarithmique, utilisant des distributions de proposition exponentielles par morceaux auto-ajustées
Garanties théoriques : Fourniture de preuves de concavité logarithmique pour les distributions clés et résultats théoriques sur les bornes de mode
Sous le modèle de régression linéaire normale y=Xβ+ε (où ε∼N(0,σ2In)), effectuer l'inférence bayésienne complète du filet élastique, incluant la modélisation de l'incertitude sur les paramètres de pénalité λ1,λ2 et la variance d'erreur σ2.
La méthode RS montre une performance significativement meilleure sur les coefficients de régression non nuls, avec une distribution d'amélioration ESS fortement asymétrique à droite
Pour les coefficients de régression nuls, les méthodes montrent des performances similaires
RS-S montre une amélioration moyenne jusqu'à 149,86% sur le paramètre λ1
Efficacité de la méthode : La méthode d'échantillonnage par rejet proposée élimine avec succès le besoin d'ajustement, fournissant une performance compétitive ou meilleure dans la plupart des cas
Contributions théoriques : Les transformations de paramètres et l'analyse de concavité logarithmique fournissent une nouvelle base théorique pour le calcul du filet élastique bayésien
Valeur pratique : La nature automatisée de l'algorithme le rend plus adapté aux applications pratiques
Innovation Technique : Les transformations de paramètres ingénieuses et la conception d'échantillonnage par rejet basée sur la concavité logarithmique sont hautement innovantes
Rigueur Théorique : Fournit des preuves mathématiques complètes et des garanties théoriques
Valeur Pratique : L'élimination du besoin d'ajustement améliore significativement l'utilisabilité de la méthode
Comparaison Complète : Comparaison systématique de toutes les méthodes existantes, comblant les lacunes de la littérature
Contribution Académique : Fournit un progrès important dans les méthodes computationnelles pour la régression régularisée bayésienne
Application Pratique : La caractéristique sans ajustement rend la méthode plus facile à adopter par les praticiens
Valeur Méthodologique : L'approche de transformation de paramètres peut inspirer les méthodes computationnelles pour d'autres modèles bayésiens complexes