2025-11-22T22:49:16.866759

Variational Inference for Count Response Semiparametric Regression: A Convex Solution

Murru, Wand
We develop a version of variational inference for Bayesian count response regression-type models that possesses attractive attributes such as convexity and closed form updates. The convex solution aspect entails numerically stable fitting algorithms, whilst the closed form aspect makes the methodology fast and easy to implement. The essence of the approach is the use of Pólya-Gamma augmentation of a Negative Binomial likelihood, a finite-valued prior on the shape parameter and the structured mean field variational Bayes paradigm. The approach applies to general count response situations. For concreteness, we focus on generalized linear mixed models within the semiparametric regression class of models. Real-time fitting is also described.
academic

Вариационный вывод для полупараметрической регрессии с дискретным откликом: выпуклое решение

Основная информация

  • ID статьи: 2510.12356
  • Название: Variational Inference for Count Response Semiparametric Regression: A Convex Solution
  • Авторы: Virginia Murru (Università di Padova), Matt P. Wand (University of Technology Sydney)
  • Классификация: stat.ME (Статистика - Методология)
  • Дата публикации: 14 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.12356

Аннотация

В данной работе разработан метод вариационного вывода для байесовских моделей регрессии с дискретным откликом, обладающий свойствами выпуклости и замкнутых обновлений. Выпуклость гарантирует численно устойчивый алгоритм подгонки, а замкнутые обновления обеспечивают быстроту и простоту реализации. Основу метода составляют Pólya-Gamma увеличение отрицательно-биномиального правдоподобия, конечные априорные распределения параметров формы и структурированная схема вариационного вывода среднего поля. Метод применим к общему случаю дискретного отклика и специализирован для обобщённых линейных смешанных моделей в категории полупараметрической регрессии. В статье также описан алгоритм реального времени.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование решает задачу байесовского вывода в полупараметрической регрессии с дискретным откликом. Традиционные методы цепей Маркова Монте-Карло (MCMC) имеют узкие места в скорости и масштабируемости, а существующие методы вариационного вывода страдают от численной нестабильности, вызванной невыпуклостью.

Исследовательская мотивация

  1. Проблемы численной устойчивости: Метод вариационного вывода фиксированной формы Luts & Wand (2015), хотя и обладает хорошей точностью, может привести к численным проблемам из-за невыпуклости. В имитационных исследованиях метод не сходился корректно в 13,6% репликаций для непараметрической регрессии Пуассона.
  2. Требования вычислительной эффективности: Существующие методы включают этапы численного интегрирования, тогда как предложенный метод имеет полностью замкнутые обновления, обеспечивающие быстрый и устойчивый алгоритм.
  3. Требования приложений реального времени: В приложениях потоковых данных необходимы методы, позволяющие обновлять параметры модели в режиме онлайн без сохранения всех исторических данных.

Основные вклады

  1. Предложена структура вариационного вывода с выпуклостью: Разработан метод вариационного вывода, в котором все компоненты задач оптимизации являются выпуклыми, обеспечивая численную устойчивость.
  2. Реализованы замкнутые обновления: Благодаря технике Pólya-Gamma увеличения все этапы обновления имеют замкнутые решения, исключая необходимость численного интегрирования.
  3. Построена структурированная схема вариационного вывода среднего поля: Путём дискретизации параметра формы κ и применения усреднения моделей вариационного вывода решена сложная задача вывода параметра формы отрицательно-биномиального распределения.
  4. Разработан чистый онлайн-алгоритм реального времени: Предложен алгоритм, требующий только обновления и сохранения достаточных статистик, позволяющий отбрасывать потоковые данные после обработки.

Подробное описание метода

Определение задачи

Рассмотрим следующую байесовскую полупараметрическую модель регрессии с дискретным откликом:

yiβ,u,κind.Negative-Binomial(exp{(Xβ+Zu)i},κ),1iny_i|\beta,u,\kappa \stackrel{ind.}{\sim} \text{Negative-Binomial}(\exp\{(X\beta + Zu)_i\}, \kappa), \quad 1 \leq i \leq n

где yiy_i — переменная дискретного отклика, XX и ZZ — матрицы плана для фиксированных и случайных эффектов соответственно.

Архитектура модели

1. Pólya-Gamma увеличение

Введены вспомогательные переменные Pólya-Gamma: αiyi,β,u,κind.Poˊlya-Gamma(yi+κ,(Xβ+Zu)i+log(κ))\alpha_i|y_i,\beta,u,\kappa \stackrel{ind.}{\sim} \text{Pólya-Gamma}(y_i + \kappa, (X\beta + Zu)_i + \log(\kappa))

2. Установка априорных распределений

  • Коэффициенты регрессии: βN(0,σβ2Ip)\beta \sim N(0, \sigma_\beta^2 I_p)
  • Случайные эффекты: uσ12,,σr2N(0,blockdiag(σ12IK1,,σr2IKr))u|\sigma_1^2,\ldots,\sigma_r^2 \sim N(0, \text{blockdiag}(\sigma_1^2 I_{K_1}, \ldots, \sigma_r^2 I_{K_r}))
  • Параметры дисперсии: σjind.Half-Cauchy(sσ)\sigma_j \stackrel{ind.}{\sim} \text{Half-Cauchy}(s_\sigma)
  • Параметр формы: κ\kappa имеет дискретное априорное распределение с множеством атомов K\mathcal{K} и вероятностями p(κ)p(\kappa)

3. Структурированный вариационный вывод среднего поля

Используется ограничение в виде произведения плотностей: q(β,u,κ,α,σ2,a)=q(β,u,aκ)q(σ2,ακ)q(κ)q(\beta,u,\kappa,\alpha,\sigma^2,a) = q(\beta,u,a|\kappa)q(\sigma^2,\alpha|\kappa)q(\kappa)

Основной алгоритм

Алгоритм 1: Ключевые этапы обновления структурированного вариационного вывода среднего поля включают:

  1. Обновление параметров Pólya-Gamma: μq(ακ)2(y+κ1)λJJ(cq(ακ))\mu_q(\alpha|\kappa) \leftarrow 2(y + \kappa\mathbf{1}) \odot \lambda_{JJ}(c_q(\alpha|\kappa))
  2. Обновление параметров регрессии: Σq(β,uκ){CTdiag(μq(ακ))C+Mq(1/σ2κ)}1\Sigma_q(\beta,u|\kappa) \leftarrow \{C^T\text{diag}(\mu_q(\alpha|\kappa))C + M_q(1/\sigma^2|\kappa)\}^{-1}
  3. Обновление параметров дисперсии: Обновление через достаточные статистики обратного гамма-распределения

где λJJ(x)=tanh(x/2)4x\lambda_{JJ}(x) = \frac{\tanh(x/2)}{4x} — функция Яаккола-Джордана.

Технические инновации

  1. Гарантия выпуклости: Каждая отдельная (для κK\kappa \in \mathcal{K}) задача оптимизации среднего поля является выпуклой, обеспечивая глобально оптимальное решение.
  2. Замкнутые обновления: Благодаря специальным свойствам Pólya-Gamma увеличения исключена необходимость численного интегрирования, все обновления имеют аналитические решения.
  3. Стратегия дискретизации: Непрерывный параметр формы κ\kappa дискретизирован в конечное множество, обработан через усреднение моделей вариационного вывода.

Экспериментальная установка

Наборы данных

  1. Имитационные данные:
    • Размер выборки: n=500
    • Модель аддитивного отрицательно-биномиального распределения: ηtrue,1(x)=cos(4πx)+2x\eta_{\text{true},1}(x) = \cos(4\pi x) + 2x, ηtrue,2(x)=0.4ϕ(x;0.38,0.08)1.02x+0.018x2+0.08ϕ(x;0.75,0.03)\eta_{\text{true},2}(x) = 0.4\phi(x;0.38,0.08) - 1.02x + 0.018x^2 + 0.08\phi(x;0.75,0.03)
    • Истинный параметр формы: κtrue=3.8\kappa_{\text{true}} = 3.8
  2. Реальные данные: Данные подсчёта пыльцы амброзии в городе Калямазу, США (1991-1994 гг.) (n=334)

Показатели оценки

Используется показатель точности, определённый как: accuracy(q)=100(112q(θ)p(θy)dθ)%\text{accuracy}(q^*) = 100\left(1 - \frac{1}{2}\int_{-\infty}^{\infty}|q^*(θ) - p(θ|y)|dθ\right)\%

Методы сравнения

  • Базовый MCMC: Использование байесовского механизма вывода JAGS, длина цепи 10000, burn-in 5000, коэффициент разреживания 5
  • Существующие методы вариационного вывода: Метод полупараметрического вариационного вывода среднего поля Luts & Wand (2015)

Детали реализации

  • Множество атомов K\mathcal{K}: 50 точек геометрической последовательности в диапазоне [κtrue/10,10κtrue][\kappa_{\text{true}}/10, 10\kappa_{\text{true}}]
  • Критерий сходимости: относительное изменение менее 101010^{-10}
  • Базисные функции сплайна: использованы базисные функции O'Sullivan, количество базисных функций K1=K2=17K_1 = K_2 = 17

Результаты экспериментов

Основные результаты

Оценка точности

Имитационные исследования показывают, что метод достигает удовлетворительной точности по всем показателям:

  • Точность оценки функции: точность оценки значений функции в различных квантилях составляет 89%-94%
  • Оценка параметров дисперсии: точность для σ12\sigma_1^2 и σ22\sigma_2^2 составляет 80% и 73% соответственно
  • Оценка параметра формы: точность для κ\kappa достигает 99%

По сравнению с методом Luts & Wand (2015), предложенный метод показывает улучшения по всем параметрам, наиболее значительное улучшение наблюдается для κ\kappa.

Сравнение скорости

Значительное повышение вычислительной эффективности:

  • Метод MCMC: среднее время 117,8 секунд (стандартное отклонение 1,876 сек)
  • Предложенный метод: среднее время 2,088 секунд (стандартное отклонение 0,1440 сек)

Ускорение примерно в 56 раз при сохранении хорошей точности вывода.

Оценка алгоритма реального времени

Алгоритм 2 показывает следующие результаты реального времени:

  • Оценки реального времени высоко согласуются с пакетной обработкой при увеличении размера выборки со 100 до 1000
  • Алгоритм показывает стабильность для различных значений κtrue\kappa_{\text{true}} (5, 10, 20, 40)
  • Вывод реального времени в основном применим к структуре среднего, вывод параметра κ\kappa в реальном времени относительно затруднён

Приложение к реальным данным

Применение к данным подсчёта пыльцы амброзии показывает:

  • Все коэффициенты линейных эффектов значимо отличаются от нуля
  • Апостериорное распределение параметра формы κ\kappa сосредоточено в интервале 2-5, что подтверждает применимость модели отрицательно-биномиального отклика
  • Кривые тренда за четыре года показывают сходное поведение: пик достигается примерно на 20-й день сезона, затем наблюдается снижение

Связанные работы

Основные направления исследований

  1. Методы вариационного вывода: Методы для моделей бинарного отклика Jaakkola & Jordan (2000), Durante & Rigon (2019)
  2. Pólya-Gamma увеличение: Методы увеличения отрицательно-биномиального правдоподобия Polson et al. (2013), Zhou et al. (2012), Miao et al. (2020)
  3. Полупараметрическая регрессия: Вариационный вывод для полупараметрической регрессии с дискретным откликом Luts & Wand (2015)

Преимущества данной работы

  1. По сравнению с Zhou et al. (2012) и Miao et al. (2020): Метод основан на минимизации дивергенции Кульбака-Лейблера для единственного совместного распределения, имеет более прочную теоретическую основу
  2. По сравнению с Luts & Wand (2015): Решена проблема невыпуклости, предоставлены полностью замкнутые обновления
  3. По сравнению с традиционным MCMC: Значительное повышение вычислительной скорости при сохранении разумной точности

Заключение и обсуждение

Основные выводы

  1. Успешно разработан метод вариационного вывода для полупараметрической регрессии с дискретным откликом, обладающий выпуклостью и замкнутыми обновлениями
  2. Через Pólya-Gamma увеличение и структурированный вариационный вывод среднего поля реализован численно устойчивый алгоритм
  3. Предоставлен чистый онлайн-алгоритм реального времени, применимый к приложениям потоковых данных

Ограничения

  1. Потеря точности: Вариационная аппроксимация имеет определённую потерю точности по сравнению с MCMC, особенно при оценке ширины апостериорного распределения
  2. Влияние дискретизации: Дискретизация непрерывного параметра формы κ\kappa может влиять на точность вывода
  3. Сокращение множества атомов в онлайн-алгоритме: В алгоритме онлайн требуется динамическая корректировка множества атомов, механизм требует дальнейшего исследования

Направления будущих исследований

  1. Расширение на модели случайных эффектов с параметрами матрицы ковариации
  2. Улучшение качества вывода параметра κ\kappa в алгоритме реального времени
  3. Исследование теоретических основ механизма сокращения множества атомов

Глубокая оценка

Преимущества

  1. Теоретическая инновация: Комбинация Pólya-Gamma увеличения и структурированного вариационного вывода среднего поля решает технические трудности в регрессии с дискретным откликом
  2. Численная устойчивость: Выпуклость гарантирует стабильность и надёжность алгоритма
  3. Вычислительная эффективность: Замкнутые обновления и алгоритм реального времени значительно повышают вычислительную эффективность
  4. Практическая ценность: Метод имеет широкий диапазон применения и легко реализуется

Недостатки

  1. Недостаточный теоретический анализ: Отсутствует теоретический анализ ошибки вариационной аппроксимации
  2. Отсутствие руководства по выбору параметров: Отсутствует систематическое руководство по выбору множества атомов K\mathcal{K}
  3. Ограниченный диапазон экспериментов: Сценарии имитационных экспериментов относительно ограничены

Влияние

  1. Академический вклад: Предоставляет новый технический путь для вариационного вывода в моделях с дискретным откликом
  2. Практическая ценность: Имеет важное значение в приложениях больших данных и потоковых данных
  3. Воспроизводимость: Подробное описание алгоритма облегчает воспроизведение и реализацию

Применимые сценарии

  1. Анализ дискретных данных, требующий быстрого байесовского вывода
  2. Моделирование в реальном времени в среде потоковых данных
  3. Крупномасштабные задачи полупараметрической регрессии с дискретным откликом
  4. Приложения с высокими требованиями к численной устойчивости

Список литературы

Основные цитируемые работы включают:

  • Luts, J. and Wand, M.P. (2015). Variational inference for count response semiparametric regression. Bayesian Analysis, 10, 991–1023.
  • Polson, N.G., Scott, J.G. & Windle, J. (2013). Bayesian inference for logistic models using Pólya-Gamma latent variables. Journal of the American Statistical Association, 108, 1339–1349.
  • Durante, D. & Rigon, T. (2019). Conditionally conjugate mean-field variational Bayes for logistic models. Statistical Science, 34, 472–485.

Данная работа вносит значительный вклад в область вариационного вывода для полупараметрической регрессии с дискретным откликом, решая ключевые проблемы существующих методов посредством умелой комбинации технических приёмов и открывая новые направления развития в этой области.