The Bayesian elastic net regression model is characterized by the regression coefficient prior distribution, the negative log density of which corresponds to the elastic net penalty function. While Markov chain Monte Carlo (MCMC) methods exist for sampling from the posterior of the regression coefficients given the penalty parameters, full Bayesian inference that incorporates uncertainty about the penalty parameters remains a challenge due to an intractable integrable in the posterior density function. Though sampling methods have been proposed that avoid computing this integral, all correctly-specified methods for full Bayesian inference that have appeared in the literature involve at least one "Metropolis-within-Gibbs" update, requiring tuning of proposal distributions. The computational landscape is complicated by the fact that two forms of the Bayesian elastic net prior have been introduced, and two representations (with and without data augmentation) of the prior suggest different MCMC algorithms. We review the forms and representations of the prior, discuss all combinations of these different treatments for the first time, and introduce one combination of form and representation that has yet to appear in the literature. We introduce MCMC algorithms for full Bayesian inference for all treatments of the prior. The algorithms allow for direct sampling of all parameters without any "Metropolis-within-Gibbs" steps. The key to the new approach is a careful transformation of the parameter space and an analysis of the resulting full conditional density functions that allows for efficient rejection sampling. We make empirical comparisons between our approaches and existing MCMC samplers for different data structures.
El modelo de regresión de red elástica bayesiana se caracteriza mediante distribuciones previas de los coeficientes de regresión, cuya densidad logarítmica negativa corresponde a la función de penalización de red elástica. Aunque existen métodos MCMC para muestrear de la distribución posterior de los coeficientes de regresión dado un parámetro de penalización, la inferencia bayesiana completa que incluye la incertidumbre en los parámetros de penalización sigue siendo un desafío debido a integrales intratables en la función de densidad posterior. Aunque se han propuesto métodos de muestreo que evitan calcular esta integral, todos los métodos de inferencia bayesiana completa correctamente especificados en la literatura implican al menos una actualización "Metropolis-within-Gibbs" que requiere ajustar la distribución propuesta. La complejidad computacional se agrava aún más porque la literatura ha introducido dos formas de priors de red elástica bayesiana, y dos representaciones de estos priors (con y sin aumento de datos) sugieren diferentes algoritmos MCMC. Este artículo revisa las formas y representaciones de los priors, discute por primera vez todas las combinaciones de estos diferentes tratamientos, e introduce una combinación de forma y representación que aún no ha aparecido en la literatura. Presentamos algoritmos MCMC para inferencia bayesiana completa para todos los tratamientos de priors, permitiendo muestreo directo de todos los parámetros sin ningún paso "Metropolis-within-Gibbs".
El modelo de regresión de red elástica bayesiana se ha convertido en un método de regresión popular en muchos campos de investigación. El modelo se caracteriza por una distribución previa de los coeficientes de regresión cuya densidad logarítmica negativa corresponde a la función de penalización de red elástica:
Integrales Intratables: La constante de normalización de la distribución previa contiene el término Φ(−λ1/(2σλ2))−p, donde Φ(⋅) es la función de distribución acumulada normal estándar, que es una expresión integral sin solución cerrada.
Complejidad de Parametrización: Existen dos formas diferentes de parametrización previa en la literatura:
Escalado Común (commonly-scaled): Tanto λ2βTβ como λ1∣β∣1 se escalan por 2σ2
Escalado Diferencial (differentially-scaled): Diferentes términos utilizan diferentes factores de escala
Diversidad de Representaciones: Cada forma de parametrización tiene dos representaciones:
Representación Directa: Sin aumento de datos
Representación con Aumento de Datos: Introduce un modelo jerárquico con variables latentes
Revisión Exhaustiva: Primera revisión exhaustiva de todas las combinaciones de formas y representaciones de priors de red elástica bayesiana, introduciendo una nueva combinación (representación directa con escalado diferencial)
Transformaciones de Espacio de Parámetros: Propone transformaciones ingeniosas del espacio de parámetros que confinan el término complejo Φ(⋅) a una única distribución condicional completa
Algoritmo MCMC sin Ajuste: Desarrolla algoritmos MCMC que no requieren ningún paso "Metropolis-within-Gibbs", evitando problemas de ajuste de distribuciones propuestas
Muestreo por Rechazo Eficiente: Diseña algoritmos de muestreo por rechazo eficientes con distribuciones propuestas exponenciales por tramos con ajuste automático, basados en análisis de log-concavidad
Garantías Teóricas: Proporciona pruebas de log-concavidad de distribuciones clave y resultados teóricos sobre límites de modas
Bajo el modelo de regresión lineal normal y=Xβ+ε (donde ε∼N(0,σ2In)), realizar inferencia bayesiana completa de red elástica, incluyendo modelado de incertidumbre en los parámetros de penalización λ1,λ2 y la varianza del error σ2.
El método RS muestra desempeño significativamente mejor en coeficientes de regresión no nulos, con distribución de mejora de ESS fuertemente sesgada hacia la derecha
Para coeficientes de regresión nulos, todos los métodos muestran desempeño similar
RS-S muestra mejora promedio de hasta 149.86% en el parámetro λ1
Efectividad del Método: El método de muestreo por rechazo propuesto elimina exitosamente la necesidad de ajuste, proporcionando desempeño competitivo o superior en la mayoría de casos
Contribuciones Teóricas: Las transformaciones de parámetros y el análisis de log-concavidad proporcionan nuevas bases teóricas para computación de red elástica bayesiana
Valor Práctico: La naturaleza automática del algoritmo lo hace más adecuado para aplicaciones prácticas