We develop a version of variational inference for Bayesian count response regression-type models that possesses attractive attributes such as convexity and closed form updates. The convex solution aspect entails numerically stable fitting algorithms, whilst the closed form aspect makes the methodology fast and easy to implement. The essence of the approach is the use of Pólya-Gamma augmentation of a Negative Binomial likelihood, a finite-valued prior on the shape parameter and the structured mean field variational Bayes paradigm. The approach applies to general count response situations. For concreteness, we focus on generalized linear mixed models within the semiparametric regression class of models. Real-time fitting is also described.
- ID статьи: 2510.12356
- Название: Variational Inference for Count Response Semiparametric Regression: A Convex Solution
- Авторы: Virginia Murru (Università di Padova), Matt P. Wand (University of Technology Sydney)
- Классификация: stat.ME (Статистика - Методология)
- Дата публикации: 14 октября 2025 г.
- Ссылка на статью: https://arxiv.org/abs/2510.12356
В данной работе разработан метод вариационного вывода для байесовских моделей регрессии с дискретным откликом, обладающий свойствами выпуклости и замкнутых обновлений. Выпуклость гарантирует численно устойчивый алгоритм подгонки, а замкнутые обновления обеспечивают быстроту и простоту реализации. Основу метода составляют Pólya-Gamma увеличение отрицательно-биномиального правдоподобия, конечные априорные распределения параметров формы и структурированная схема вариационного вывода среднего поля. Метод применим к общему случаю дискретного отклика и специализирован для обобщённых линейных смешанных моделей в категории полупараметрической регрессии. В статье также описан алгоритм реального времени.
Данное исследование решает задачу байесовского вывода в полупараметрической регрессии с дискретным откликом. Традиционные методы цепей Маркова Монте-Карло (MCMC) имеют узкие места в скорости и масштабируемости, а существующие методы вариационного вывода страдают от численной нестабильности, вызванной невыпуклостью.
- Проблемы численной устойчивости: Метод вариационного вывода фиксированной формы Luts & Wand (2015), хотя и обладает хорошей точностью, может привести к численным проблемам из-за невыпуклости. В имитационных исследованиях метод не сходился корректно в 13,6% репликаций для непараметрической регрессии Пуассона.
- Требования вычислительной эффективности: Существующие методы включают этапы численного интегрирования, тогда как предложенный метод имеет полностью замкнутые обновления, обеспечивающие быстрый и устойчивый алгоритм.
- Требования приложений реального времени: В приложениях потоковых данных необходимы методы, позволяющие обновлять параметры модели в режиме онлайн без сохранения всех исторических данных.
- Предложена структура вариационного вывода с выпуклостью: Разработан метод вариационного вывода, в котором все компоненты задач оптимизации являются выпуклыми, обеспечивая численную устойчивость.
- Реализованы замкнутые обновления: Благодаря технике Pólya-Gamma увеличения все этапы обновления имеют замкнутые решения, исключая необходимость численного интегрирования.
- Построена структурированная схема вариационного вывода среднего поля: Путём дискретизации параметра формы κ и применения усреднения моделей вариационного вывода решена сложная задача вывода параметра формы отрицательно-биномиального распределения.
- Разработан чистый онлайн-алгоритм реального времени: Предложен алгоритм, требующий только обновления и сохранения достаточных статистик, позволяющий отбрасывать потоковые данные после обработки.
Рассмотрим следующую байесовскую полупараметрическую модель регрессии с дискретным откликом:
yi∣β,u,κ∼ind.Negative-Binomial(exp{(Xβ+Zu)i},κ),1≤i≤n
где yi — переменная дискретного отклика, X и Z — матрицы плана для фиксированных и случайных эффектов соответственно.
Введены вспомогательные переменные Pólya-Gamma:
αi∣yi,β,u,κ∼ind.Poˊlya-Gamma(yi+κ,(Xβ+Zu)i+log(κ))
- Коэффициенты регрессии: β∼N(0,σβ2Ip)
- Случайные эффекты: u∣σ12,…,σr2∼N(0,blockdiag(σ12IK1,…,σr2IKr))
- Параметры дисперсии: σj∼ind.Half-Cauchy(sσ)
- Параметр формы: κ имеет дискретное априорное распределение с множеством атомов K и вероятностями p(κ)
Используется ограничение в виде произведения плотностей:
q(β,u,κ,α,σ2,a)=q(β,u,a∣κ)q(σ2,α∣κ)q(κ)
Алгоритм 1: Ключевые этапы обновления структурированного вариационного вывода среднего поля включают:
- Обновление параметров Pólya-Gamma:
μq(α∣κ)←2(y+κ1)⊙λJJ(cq(α∣κ))
- Обновление параметров регрессии:
Σq(β,u∣κ)←{CTdiag(μq(α∣κ))C+Mq(1/σ2∣κ)}−1
- Обновление параметров дисперсии: Обновление через достаточные статистики обратного гамма-распределения
где λJJ(x)=4xtanh(x/2) — функция Яаккола-Джордана.
- Гарантия выпуклости: Каждая отдельная (для κ∈K) задача оптимизации среднего поля является выпуклой, обеспечивая глобально оптимальное решение.
- Замкнутые обновления: Благодаря специальным свойствам Pólya-Gamma увеличения исключена необходимость численного интегрирования, все обновления имеют аналитические решения.
- Стратегия дискретизации: Непрерывный параметр формы κ дискретизирован в конечное множество, обработан через усреднение моделей вариационного вывода.
- Имитационные данные:
- Размер выборки: n=500
- Модель аддитивного отрицательно-биномиального распределения: ηtrue,1(x)=cos(4πx)+2x, ηtrue,2(x)=0.4ϕ(x;0.38,0.08)−1.02x+0.018x2+0.08ϕ(x;0.75,0.03)
- Истинный параметр формы: κtrue=3.8
- Реальные данные: Данные подсчёта пыльцы амброзии в городе Калямазу, США (1991-1994 гг.) (n=334)
Используется показатель точности, определённый как:
accuracy(q∗)=100(1−21∫−∞∞∣q∗(θ)−p(θ∣y)∣dθ)%
- Базовый MCMC: Использование байесовского механизма вывода JAGS, длина цепи 10000, burn-in 5000, коэффициент разреживания 5
- Существующие методы вариационного вывода: Метод полупараметрического вариационного вывода среднего поля Luts & Wand (2015)
- Множество атомов K: 50 точек геометрической последовательности в диапазоне [κtrue/10,10κtrue]
- Критерий сходимости: относительное изменение менее 10−10
- Базисные функции сплайна: использованы базисные функции O'Sullivan, количество базисных функций K1=K2=17
Имитационные исследования показывают, что метод достигает удовлетворительной точности по всем показателям:
- Точность оценки функции: точность оценки значений функции в различных квантилях составляет 89%-94%
- Оценка параметров дисперсии: точность для σ12 и σ22 составляет 80% и 73% соответственно
- Оценка параметра формы: точность для κ достигает 99%
По сравнению с методом Luts & Wand (2015), предложенный метод показывает улучшения по всем параметрам, наиболее значительное улучшение наблюдается для κ.
Значительное повышение вычислительной эффективности:
- Метод MCMC: среднее время 117,8 секунд (стандартное отклонение 1,876 сек)
- Предложенный метод: среднее время 2,088 секунд (стандартное отклонение 0,1440 сек)
Ускорение примерно в 56 раз при сохранении хорошей точности вывода.
Алгоритм 2 показывает следующие результаты реального времени:
- Оценки реального времени высоко согласуются с пакетной обработкой при увеличении размера выборки со 100 до 1000
- Алгоритм показывает стабильность для различных значений κtrue (5, 10, 20, 40)
- Вывод реального времени в основном применим к структуре среднего, вывод параметра κ в реальном времени относительно затруднён
Применение к данным подсчёта пыльцы амброзии показывает:
- Все коэффициенты линейных эффектов значимо отличаются от нуля
- Апостериорное распределение параметра формы κ сосредоточено в интервале 2-5, что подтверждает применимость модели отрицательно-биномиального отклика
- Кривые тренда за четыре года показывают сходное поведение: пик достигается примерно на 20-й день сезона, затем наблюдается снижение
- Методы вариационного вывода: Методы для моделей бинарного отклика Jaakkola & Jordan (2000), Durante & Rigon (2019)
- Pólya-Gamma увеличение: Методы увеличения отрицательно-биномиального правдоподобия Polson et al. (2013), Zhou et al. (2012), Miao et al. (2020)
- Полупараметрическая регрессия: Вариационный вывод для полупараметрической регрессии с дискретным откликом Luts & Wand (2015)
- По сравнению с Zhou et al. (2012) и Miao et al. (2020): Метод основан на минимизации дивергенции Кульбака-Лейблера для единственного совместного распределения, имеет более прочную теоретическую основу
- По сравнению с Luts & Wand (2015): Решена проблема невыпуклости, предоставлены полностью замкнутые обновления
- По сравнению с традиционным MCMC: Значительное повышение вычислительной скорости при сохранении разумной точности
- Успешно разработан метод вариационного вывода для полупараметрической регрессии с дискретным откликом, обладающий выпуклостью и замкнутыми обновлениями
- Через Pólya-Gamma увеличение и структурированный вариационный вывод среднего поля реализован численно устойчивый алгоритм
- Предоставлен чистый онлайн-алгоритм реального времени, применимый к приложениям потоковых данных
- Потеря точности: Вариационная аппроксимация имеет определённую потерю точности по сравнению с MCMC, особенно при оценке ширины апостериорного распределения
- Влияние дискретизации: Дискретизация непрерывного параметра формы κ может влиять на точность вывода
- Сокращение множества атомов в онлайн-алгоритме: В алгоритме онлайн требуется динамическая корректировка множества атомов, механизм требует дальнейшего исследования
- Расширение на модели случайных эффектов с параметрами матрицы ковариации
- Улучшение качества вывода параметра κ в алгоритме реального времени
- Исследование теоретических основ механизма сокращения множества атомов
- Теоретическая инновация: Комбинация Pólya-Gamma увеличения и структурированного вариационного вывода среднего поля решает технические трудности в регрессии с дискретным откликом
- Численная устойчивость: Выпуклость гарантирует стабильность и надёжность алгоритма
- Вычислительная эффективность: Замкнутые обновления и алгоритм реального времени значительно повышают вычислительную эффективность
- Практическая ценность: Метод имеет широкий диапазон применения и легко реализуется
- Недостаточный теоретический анализ: Отсутствует теоретический анализ ошибки вариационной аппроксимации
- Отсутствие руководства по выбору параметров: Отсутствует систематическое руководство по выбору множества атомов K
- Ограниченный диапазон экспериментов: Сценарии имитационных экспериментов относительно ограничены
- Академический вклад: Предоставляет новый технический путь для вариационного вывода в моделях с дискретным откликом
- Практическая ценность: Имеет важное значение в приложениях больших данных и потоковых данных
- Воспроизводимость: Подробное описание алгоритма облегчает воспроизведение и реализацию
- Анализ дискретных данных, требующий быстрого байесовского вывода
- Моделирование в реальном времени в среде потоковых данных
- Крупномасштабные задачи полупараметрической регрессии с дискретным откликом
- Приложения с высокими требованиями к численной устойчивости
Основные цитируемые работы включают:
- Luts, J. and Wand, M.P. (2015). Variational inference for count response semiparametric regression. Bayesian Analysis, 10, 991–1023.
- Polson, N.G., Scott, J.G. & Windle, J. (2013). Bayesian inference for logistic models using Pólya-Gamma latent variables. Journal of the American Statistical Association, 108, 1339–1349.
- Durante, D. & Rigon, T. (2019). Conditionally conjugate mean-field variational Bayes for logistic models. Statistical Science, 34, 472–485.
Данная работа вносит значительный вклад в область вариационного вывода для полупараметрической регрессии с дискретным откликом, решая ключевые проблемы существующих методов посредством умелой комбинации технических приёмов и открывая новые направления развития в этой области.