The Bayesian elastic net regression model is characterized by the regression coefficient prior distribution, the negative log density of which corresponds to the elastic net penalty function. While Markov chain Monte Carlo (MCMC) methods exist for sampling from the posterior of the regression coefficients given the penalty parameters, full Bayesian inference that incorporates uncertainty about the penalty parameters remains a challenge due to an intractable integrable in the posterior density function. Though sampling methods have been proposed that avoid computing this integral, all correctly-specified methods for full Bayesian inference that have appeared in the literature involve at least one "Metropolis-within-Gibbs" update, requiring tuning of proposal distributions. The computational landscape is complicated by the fact that two forms of the Bayesian elastic net prior have been introduced, and two representations (with and without data augmentation) of the prior suggest different MCMC algorithms. We review the forms and representations of the prior, discuss all combinations of these different treatments for the first time, and introduce one combination of form and representation that has yet to appear in the literature. We introduce MCMC algorithms for full Bayesian inference for all treatments of the prior. The algorithms allow for direct sampling of all parameters without any "Metropolis-within-Gibbs" steps. The key to the new approach is a careful transformation of the parameter space and an analysis of the resulting full conditional density functions that allows for efficient rejection sampling. We make empirical comparisons between our approaches and existing MCMC samplers for different data structures.
Байесовская модель регрессии эластичной сети характеризуется априорным распределением коэффициентов регрессии, отрицательный логарифм плотности которого соответствует штрафной функции эластичной сети. Хотя существуют методы MCMC для выборки из апостериорного распределения коэффициентов регрессии при заданных параметрах штрафа, полный байесовский вывод, включающий неопределённость параметров штрафа, остаётся сложной задачей из-за неразрешимого интеграла в апостериорной плотности. Несмотря на предложенные методы выборки, избегающие вычисления этого интеграла, все корректно специфицированные методы полного байесовского вывода в литературе включают по крайней мере одно обновление типа "Метрополис-в-Гиббсе", требующее настройки распределения предложений. Вычислительная сложность усугубляется тем, что в литературе введены две формы байесовской априорной сети эластичной сети и два способа представления приора (с данными увеличением и без него), предлагающие различные алгоритмы MCMC. В данной работе мы рассматриваем формы и представления приора, впервые обсуждаем все комбинации этих различных подходов и вводим комбинацию формы и представления, которая ранее не встречалась в литературе. Мы предлагаем алгоритмы MCMC для полного байесовского вывода для всех подходов к обработке приора, позволяющие прямую выборку всех параметров без каких-либо шагов "Метрополис-в-Гиббсе".
Байесовская модель регрессии эластичной сети стала популярным методом регрессии во многих областях исследований. Модель характеризуется априорным распределением коэффициентов регрессии, отрицательный логарифм плотности которого соответствует штрафной функции эластичной сети:
Неразрешимый интеграл: нормирующая константа априорного распределения содержит член Φ(−λ1/(2σλ2))−p, где Φ(⋅) — функция стандартного нормального распределения, что представляет собой интегральное выражение без замкнутого решения.
Сложность параметризации: в литературе существуют две различные формы параметризации приора:
Общее масштабирование (commonly-scaled): оба члена λ2βTβ и λ1∣β∣1 масштабируются на 2σ2
Дифференциальное масштабирование (differentially-scaled): различные члены используют различные коэффициенты масштабирования
Разнообразие методов представления: каждая форма параметризации имеет два способа представления:
Прямое представление: без увеличения данных
Представление с увеличением данных: иерархическая модель с введением скрытых переменных
Комплексный обзор: первый полный обзор всех комбинаций форм и представлений приора байесовской эластичной сети с введением нового сочетания (прямое представление с дифференциальным масштабированием)
Преобразования пространства параметров: предложены умные преобразования пространства параметров, концентрирующие сложный член Φ(⋅) в одном полном условном распределении
Алгоритмы MCMC без настройки: разработаны алгоритмы MCMC, не требующие никаких шагов "Метрополис-в-Гиббсе", избегая проблем с настройкой распределения предложений
Эффективная выборка отклонением: на основе анализа логарифмической вогнутости разработан эффективный алгоритм выборки отклонением с автоматически настраиваемым кусочно-экспоненциальным распределением предложений
Теоретические гарантии: предоставлены доказательства логарифмической вогнутости ключевых распределений и теоретические результаты о границах мод
При нормальной линейной модели регрессии y=Xβ+ε (где ε∼N(0,σ2In)) проводится полный байесовский вывод для эластичной сети, включающий моделирование неопределённости параметров штрафа λ1,λ2 и дисперсии ошибок σ2.
Метод RS показывает значительно лучшую производительность на ненулевых коэффициентах регрессии, с распределением улучшений ESS, сильно смещённым вправо
Для нулевых коэффициентов регрессии все методы показывают сходную производительность
RS-S показывает улучшение до 149,86% в среднем на параметре λ1
Эффективность метода: предложенный метод выборки отклонением успешно устраняет требование настройки, обеспечивая конкурентоспособную или лучшую производительность в большинстве случаев
Теоретический вклад: преобразования параметров и анализ логарифмической вогнутости предоставляют новую теоретическую основу для вычислений в байесовской эластичной сети
Практическая ценность: автоматизированный характер алгоритма делает его более подходящим для практических приложений
Производительность в высоких размерностях: относительное преимущество метода менее выражено в некоторых высокомерных случаях по сравнению с низкомерными
Ограничения приора: требование логарифмической вогнутости L≥1 ограничивает использование некоторых приоров
Зависимость от параметризации: производительность чувствительна к выбору параметризации
Техническая инновация: умные преобразования параметров и разработка выборки отклонением на основе логарифмической вогнутости отличаются высокой инновационностью
Теоретическая строгость: предоставлены полные математические доказательства и теоретические гарантии
Практическая ценность: устранение требования настройки значительно повышает применимость метода
Комплексное сравнение: систематическое сравнение всех существующих методов заполняет пробел в литературе