The Bayesian elastic net regression model is characterized by the regression coefficient prior distribution, the negative log density of which corresponds to the elastic net penalty function. While Markov chain Monte Carlo (MCMC) methods exist for sampling from the posterior of the regression coefficients given the penalty parameters, full Bayesian inference that incorporates uncertainty about the penalty parameters remains a challenge due to an intractable integrable in the posterior density function. Though sampling methods have been proposed that avoid computing this integral, all correctly-specified methods for full Bayesian inference that have appeared in the literature involve at least one "Metropolis-within-Gibbs" update, requiring tuning of proposal distributions. The computational landscape is complicated by the fact that two forms of the Bayesian elastic net prior have been introduced, and two representations (with and without data augmentation) of the prior suggest different MCMC algorithms. We review the forms and representations of the prior, discuss all combinations of these different treatments for the first time, and introduce one combination of form and representation that has yet to appear in the literature. We introduce MCMC algorithms for full Bayesian inference for all treatments of the prior. The algorithms allow for direct sampling of all parameters without any "Metropolis-within-Gibbs" steps. The key to the new approach is a careful transformation of the parameter space and an analysis of the resulting full conditional density functions that allows for efficient rejection sampling. We make empirical comparisons between our approaches and existing MCMC samplers for different data structures.
Das Bayessche Elastic-Net-Regressionsmodell wird durch eine Priorverteilung der Regressionskoeffizienten charakterisiert, deren negative Log-Dichte der Elastic-Net-Strafunktion entspricht. Obwohl MCMC-Methoden existieren, um bei gegebenen Strafparametern aus der Posteriorverteilung der Regressionskoeffizienten zu sampeln, bleibt die vollständige Bayessche Inferenz mit Unsicherheit über die Strafparameter aufgrund von nicht handhabbaren Integralen in der Posteriordichte eine Herausforderung. Obwohl Samplingmethoden vorgeschlagen wurden, die die Berechnung dieses Integrals vermeiden, beinhalten alle korrekt spezifizierten Methoden für vollständige Bayessche Inferenz in der Literatur mindestens ein "Metropolis-within-Gibbs"-Update, das eine Anpassung der Vorschlagsverteilung erfordert. Die Rechenkomplexität wird dadurch verschärft, dass zwei Formen von Bayesschen Elastic-Net-Priors in der Literatur eingeführt wurden, sowie zwei Darstellungsmethoden der Priors (mit und ohne Datenerweiterung), die unterschiedliche MCMC-Algorithmen nahelegen. Dieses Paper überprüft die Formen und Darstellungen der Priors, diskutiert erstmals alle Kombinationen dieser unterschiedlichen Behandlungen und führt eine Kombination von Form und Darstellung ein, die bisher nicht in der Literatur erschienen ist. Wir führen MCMC-Algorithmen für vollständige Bayessche Inferenz für alle Prior-Behandlungsmethoden ein, die direktes Sampeln aller Parameter ohne irgendwelche "Metropolis-within-Gibbs"-Schritte ermöglichen.
Das Bayessche Elastic-Net-Regressionsmodell ist in vielen Forschungsbereichen zu einer populären Regressionsmethode geworden. Das Modell ist durch eine Priorverteilung der Regressionskoeffizienten charakterisiert, deren negative Log-Dichte der Elastic-Net-Strafunktion entspricht:
Nicht handhabbare Integrale: Die Normalisierungskonstante der Priorverteilung enthält den Term Φ(−λ1/(2σλ2))−p, wobei Φ(⋅) die kumulative Verteilungsfunktion der Standardnormalverteilung ist. Dies ist ein Integralausdruck ohne geschlossene Lösung.
Parametrisierungskomplexität: In der Literatur existieren zwei verschiedene Parametrisierungsformen des Priors:
Gemeinsame Skalierung (commonly-scaled): Sowohl λ2βTβ als auch λ1∣β∣1 werden durch 2σ2 skaliert
Differentielle Skalierung (differentially-scaled): Verschiedene Terme verwenden unterschiedliche Skalierungsfaktoren
Vielfalt der Darstellungsmethoden: Jede Parametrisierungsform hat zwei Darstellungsmethoden:
Direkte Darstellung: Ohne Datenerweiterung
Datenerweiterungsdarstellung: Hierarchisches Modell mit latenten Variablen
Umfassende Überprüfung: Erste umfassende Überprüfung aller Formen und Darstellungskombinationen von Bayesschen Elastic-Net-Priors mit Einführung einer neuen Kombination (differentiell skalierte direkte Darstellung)
Parametraumtransformation: Vorschlag cleverer Parametraumtransformationen, die den komplexen Φ(⋅)-Term auf eine einzelne vollständige bedingte Verteilung konzentrieren
Anpassungsfreie MCMC-Algorithmen: Entwicklung von MCMC-Algorithmen, die keine "Metropolis-within-Gibbs"-Schritte benötigen und die Anpassung von Vorschlagsverteilungen vermeiden
Effiziente Ablehnungsstichprobennahme: Basierend auf Log-Konkavitätsanalyse, Entwurf von automatisch angepassten Ablehnungsstichprobenalgorithmen mit stückweise exponentiellen Vorschlagsverteilungen
Theoretische Garantien: Bereitstellung von Log-Konkavitätsbeweisen für kritische Verteilungen und theoretische Ergebnisse für Modusschranken
Unter dem normalen linearen Regressionsmodell y=Xβ+ε (wobei ε∼N(0,σ2In)) führen Sie vollständige Bayessche Elastic-Net-Inferenz durch, einschließlich Modellierung der Unsicherheit über Strafparameter λ1,λ2 und Fehlervarianzen σ2.
Methodische Effektivität: Die vorgeschlagene Ablehnungsstichprobenmethode eliminiert erfolgreich den Anpassungsbedarf und bietet in den meisten Fällen wettbewerbsfähige oder bessere Leistung
Theoretische Beiträge: Parametraumtransformation und Log-Konkavitätsanalyse bieten neue theoretische Grundlagen für Bayessche Elastic-Net-Berechnungen
Praktischer Wert: Die automatisierte Natur des Algorithmus macht ihn für praktische Anwendungen besser geeignet
Hochdimensionale Leistung: In einigen hochdimensionalen Einstellungen ist der relative Vorteil der Methode nicht so ausgeprägt wie in niedrigen Dimensionen
Prior-Einschränkungen: Log-Konkavitätsanforderung L≥1 begrenzt die Verwendung bestimmter Priors
Parametrisierungsabhängigkeit: Leistung ist empfindlich gegenüber Parametrisierungswahl