2025-11-22T22:49:16.866759

Variational Inference for Count Response Semiparametric Regression: A Convex Solution

Murru, Wand
We develop a version of variational inference for Bayesian count response regression-type models that possesses attractive attributes such as convexity and closed form updates. The convex solution aspect entails numerically stable fitting algorithms, whilst the closed form aspect makes the methodology fast and easy to implement. The essence of the approach is the use of Pólya-Gamma augmentation of a Negative Binomial likelihood, a finite-valued prior on the shape parameter and the structured mean field variational Bayes paradigm. The approach applies to general count response situations. For concreteness, we focus on generalized linear mixed models within the semiparametric regression class of models. Real-time fitting is also described.
academic

Inférence Variationnelle pour la Régression Semiparamétrique à Réponse de Comptage : Une Solution Convexe

Informations Fondamentales

  • ID de l'article: 2510.12356
  • Titre: Variational Inference for Count Response Semiparametric Regression: A Convex Solution
  • Auteurs: Virginia Murru (Università di Padova), Matt P. Wand (University of Technology Sydney)
  • Classification: stat.ME (Statistiques - Méthodologie)
  • Date de publication: 14 octobre 2025
  • Lien de l'article: https://arxiv.org/abs/2510.12356

Résumé

Cet article développe une méthode d'inférence variationnelle pour les modèles de régression bayésienne à réponse de comptage, possédant les propriétés avantageuses de convexité et de mises à jour en forme fermée. La convexité garantit un algorithme d'ajustement numériquement stable, tandis que les mises à jour en forme fermée rendent la méthode rapide et facile à implémenter. Le cœur de la méthode repose sur l'utilisation de la vraisemblance binomiale négative augmentée par Pólya-Gamma, des priors de valeur finie pour le paramètre de forme, et un schéma de Bayes variationnel à champ moyen structuré. La méthode s'applique aux cas généraux de réponse de comptage et se concentre spécifiquement sur les modèles linéaires généralisés mixtes dans la catégorie de la régression semiparamétrique. L'article décrit également un algorithme d'ajustement en temps réel.

Contexte et Motivation de la Recherche

Définition du Problème

Cette recherche aborde principalement le problème de l'inférence bayésienne dans la régression semiparamétrique à réponse de comptage. Les méthodes traditionnelles de chaîne de Markov Monte-Carlo (MCMC) présentent des goulots d'étranglement en termes de vitesse et d'extensibilité, tandis que les méthodes d'inférence variationnelle existantes souffrent de problèmes d'instabilité numérique dus à la non-convexité.

Motivation de la Recherche

  1. Problèmes de stabilité numérique: La méthode variationnelle de forme fixe de Luts & Wand (2015), bien que précise, peut présenter des problèmes numériques dus à la non-convexité. Dans les études de simulation, la méthode variationnelle de forme fixe pour la régression non paramétrique de Poisson n'a pas convergé correctement dans 13,6 % des réplications.
  2. Besoin d'efficacité computationnelle: Les méthodes existantes impliquent des étapes d'intégration numérique, tandis que la méthode proposée possède des mises à jour complètement en forme fermée, permettant un algorithme rapide et stable.
  3. Besoin d'applications en temps réel: Dans les applications de flux de données, il est nécessaire de disposer de méthodes capables de mettre à jour les paramètres du modèle en ligne sans stocker l'intégralité des données historiques.

Contributions Principales

  1. Proposition d'un cadre d'inférence variationnelle convexe: Développement d'une méthode d'inférence variationnelle où tous les problèmes d'optimisation des composants sont convexes, garantissant la stabilité numérique.
  2. Réalisation de mises à jour en forme fermée: Grâce à la technique d'augmentation Pólya-Gamma, toutes les étapes de mise à jour possèdent des solutions analytiques, évitant l'intégration numérique.
  3. Construction d'un schéma de Bayes variationnel à champ moyen structuré: Traitement de la discrétisation du paramètre de forme κ, combiné avec la moyenne de modèle de Bayes variationnel pour résoudre le problème difficile de l'inférence du paramètre de forme de la distribution binomiale négative.
  4. Développement d'un algorithme en temps réel purement en ligne: Proposition d'un algorithme qui ne nécessite que la mise à jour et le stockage de statistiques suffisantes, permettant de rejeter les données de flux après traitement.

Détails de la Méthode

Définition de la Tâche

Considérons le modèle de régression semiparamétrique bayésienne à réponse de comptage suivant :

yiβ,u,κind.Binomiale-Neˊgative(exp{(Xβ+Zu)i},κ),1iny_i|\beta,u,\kappa \stackrel{ind.}{\sim} \text{Binomiale-Négative}(\exp\{(X\beta + Zu)_i\}, \kappa), \quad 1 \leq i \leq n

yiy_i est la variable de réponse de comptage, et XX et ZZ sont respectivement les matrices de plan pour les effets fixes et aléatoires.

Architecture du Modèle

1. Augmentation Pólya-Gamma

Introduction de variables auxiliaires Pólya-Gamma : αiyi,β,u,κind.Poˊlya-Gamma(yi+κ,(Xβ+Zu)i+log(κ))\alpha_i|y_i,\beta,u,\kappa \stackrel{ind.}{\sim} \text{Pólya-Gamma}(y_i + \kappa, (X\beta + Zu)_i + \log(\kappa))

2. Spécification des Priors

  • Coefficients de régression : βN(0,σβ2Ip)\beta \sim N(0, \sigma_\beta^2 I_p)
  • Effets aléatoires : uσ12,,σr2N(0,blockdiag(σ12IK1,,σr2IKr))u|\sigma_1^2,\ldots,\sigma_r^2 \sim N(0, \text{blockdiag}(\sigma_1^2 I_{K_1}, \ldots, \sigma_r^2 I_{K_r}))
  • Paramètres de variance : σjind.Half-Cauchy(sσ)\sigma_j \stackrel{ind.}{\sim} \text{Half-Cauchy}(s_\sigma)
  • Paramètre de forme : κ\kappa possède un prior discret avec ensemble d'atomes K\mathcal{K} et probabilités p(κ)p(\kappa)

3. Bayes Variationnel à Champ Moyen Structuré

Utilisation de la restriction de forme de densité produit suivante : q(β,u,κ,α,σ2,a)=q(β,u,aκ)q(σ2,ακ)q(κ)q(\beta,u,\kappa,\alpha,\sigma^2,a) = q(\beta,u,a|\kappa)q(\sigma^2,\alpha|\kappa)q(\kappa)

Algorithme Principal

Algorithme 1: Les étapes de mise à jour clés de l'algorithme de Bayes variationnel à champ moyen structuré incluent :

  1. Mise à jour des paramètres Pólya-Gamma: μq(ακ)2(y+κ1)λJJ(cq(ακ))\mu_q(\alpha|\kappa) \leftarrow 2(y + \kappa\mathbf{1}) \odot \lambda_{JJ}(c_q(\alpha|\kappa))
  2. Mise à jour des paramètres de régression: Σq(β,uκ){CTdiag(μq(ακ))C+Mq(1/σ2κ)}1\Sigma_q(\beta,u|\kappa) \leftarrow \{C^T\text{diag}(\mu_q(\alpha|\kappa))C + M_q(1/\sigma^2|\kappa)\}^{-1}
  3. Mise à jour des paramètres de variance: Mise à jour via les statistiques suffisantes de la distribution Gamma inverse

λJJ(x)=tanh(x/2)4x\lambda_{JJ}(x) = \frac{\tanh(x/2)}{4x} est la fonction de Jaakkola-Jordan.

Points d'Innovation Technique

  1. Garantie de convexité: Chaque problème d'optimisation à champ moyen individuel (pour κK\kappa \in \mathcal{K}) est convexe, garantissant une solution globalement optimale.
  2. Mises à jour en forme fermée: Grâce aux propriétés spéciales de l'augmentation Pólya-Gamma, l'intégration numérique est évitée et toutes les mises à jour possèdent des solutions analytiques.
  3. Stratégie de discrétisation: Discrétisation du paramètre de forme continu κ\kappa en un ensemble fini, traité par la moyenne de modèle de Bayes variationnel.

Configuration Expérimentale

Ensembles de Données

  1. Données simulées:
    • Taille d'échantillon: n=500
    • Modèle additif binomial négatif: ηtrue,1(x)=cos(4πx)+2x\eta_{\text{true},1}(x) = \cos(4\pi x) + 2x, ηtrue,2(x)=0.4ϕ(x;0.38,0.08)1.02x+0.018x2+0.08ϕ(x;0.75,0.03)\eta_{\text{true},2}(x) = 0.4\phi(x;0.38,0.08) - 1.02x + 0.018x^2 + 0.08\phi(x;0.75,0.03)
    • Paramètre de forme vrai: κtrue=3.8\kappa_{\text{true}} = 3.8
  2. Données réelles: Données de comptage de pollen d'ambroisie de Kalamazoo, États-Unis (1991-1994) (n=334)

Indicateurs d'Évaluation

Utilisation du score de précision défini comme : preˊcision(q)=100(112q(θ)p(θy)dθ)%\text{précision}(q^*) = 100\left(1 - \frac{1}{2}\int_{-\infty}^{\infty}|q^*(θ) - p(θ|y)|dθ\right)\%

Méthodes de Comparaison

  • Référence MCMC: Utilisation du moteur d'inférence bayésienne JAGS, longueur de chaîne 10000, burn-in 5000, facteur d'amincissement 5
  • Méthode variationnelle existante: Méthode de Bayes variationnel à champ moyen semiparamétrique de Luts & Wand (2015)

Détails d'Implémentation

  • Ensemble d'atomes K\mathcal{K}: 50 points de séquence géométrique, plage [κtrue/10,10κtrue][\kappa_{\text{true}}/10, 10\kappa_{\text{true}}]
  • Critère de convergence: changement relatif inférieur à 101010^{-10}
  • Fonctions de base spline: utilisation de bases spline O'Sullivan, nombre de fonctions de base K1=K2=17K_1 = K_2 = 17

Résultats Expérimentaux

Résultats Principaux

Évaluation de la Précision

Les études de simulation montrent que cette méthode atteint une précision satisfaisante sur tous les indicateurs :

  • Précision d'estimation de fonction: la précision des valeurs de fonction estimées à différents quantiles se situe entre 89 % et 94 %
  • Estimation des paramètres de variance: les précisions de σ12\sigma_1^2 et σ22\sigma_2^2 sont respectivement de 80 % et 73 %
  • Estimation du paramètre de forme: la précision de κ\kappa atteint 99 %

Par rapport à la méthode de Luts & Wand (2015), cette méthode montre des améliorations sur tous les paramètres, l'amélioration étant la plus significative pour κ\kappa.

Comparaison de Vitesse

L'efficacité computationnelle est considérablement améliorée :

  • Méthode MCMC: moyenne de 117,8 secondes (écart-type 1,876 secondes)
  • Méthode proposée: moyenne de 2,088 secondes (écart-type 0,1440 secondes)

Accélération d'environ 56 fois, tout en maintenant une bonne précision d'inférence.

Évaluation de l'Algorithme en Temps Réel

Les résultats d'ajustement en temps réel de l'Algorithme 2 montrent :

  • Haute cohérence entre les estimations en temps réel et les estimations par traitement par lots au fur et à mesure que la taille d'échantillon augmente de 100 à 1000
  • Stabilité de l'algorithme pour différentes valeurs de κtrue\kappa_{\text{true}} (5, 10, 20, 40)
  • L'inférence en temps réel se concentre principalement sur la structure moyenne, l'inférence en temps réel du paramètre κ\kappa étant relativement difficile

Application aux Données Réelles

L'application aux données de comptage de pollen d'ambroisie montre :

  • Tous les coefficients d'effet linéaire sont significativement non nuls
  • La distribution postérieure du paramètre de forme κ\kappa est concentrée entre 2 et 5, soutenant l'applicabilité du modèle de réponse binomiale négative
  • Les courbes de tendance sur quatre ans montrent un comportement similaire : pic autour du jour 20 de la saison, suivi d'une tendance décroissante

Travaux Connexes

Principales Directions de Recherche

  1. Méthodes d'inférence variationnelle: Méthodes pour modèles de réponse binaire de Jaakkola & Jordan (2000), Durante & Rigon (2019)
  2. Augmentation Pólya-Gamma: Méthodes d'augmentation de vraisemblance binomiale négative de Polson et al. (2013), Zhou et al. (2012), Miao et al. (2020)
  3. Régression semiparamétrique: Inférence variationnelle de régression semiparamétrique à réponse de comptage de Luts & Wand (2015)

Avantages de Cet Article

  1. Par rapport à Zhou et al. (2012) et Miao et al. (2020): La méthode proposée est basée sur la divergence KL minimale d'une seule distribution conjointe, avec une base théorique plus solide
  2. Par rapport à Luts & Wand (2015): Résolution du problème de non-convexité, fourniture de mises à jour complètement en forme fermée
  3. Par rapport au MCMC traditionnel: Amélioration significative de la vitesse de calcul tout en maintenant une précision raisonnable

Conclusions et Discussion

Conclusions Principales

  1. Développement réussi d'une méthode d'inférence variationnelle pour la régression semiparamétrique à réponse de comptage possédant convexité et mises à jour en forme fermée
  2. Réalisation d'un algorithme numériquement stable grâce à l'augmentation Pólya-Gamma et au Bayes variationnel à champ moyen structuré
  3. Fourniture d'un algorithme d'ajustement en temps réel purement en ligne, applicable aux applications de flux de données

Limitations

  1. Perte de précision: L'approximation variationnelle présente une certaine perte de précision par rapport au MCMC, particulièrement dans l'estimation de la largeur de la distribution postérieure
  2. Impact de la discrétisation: La discrétisation du paramètre de forme κ\kappa peut affecter la précision de l'inférence
  3. Réduction de l'ensemble d'atomes dans l'algorithme en temps réel: L'algorithme en ligne nécessite un ajustement dynamique de l'ensemble d'atomes, dont le mécanisme nécessite une étude plus approfondie

Directions Futures

  1. Extension aux modèles d'effets aléatoires avec paramètres de matrice de covariance
  2. Amélioration de la qualité de l'inférence du paramètre κ\kappa dans l'algorithme en temps réel
  3. Étude des fondements théoriques du mécanisme de réduction de l'ensemble d'atomes

Évaluation Approfondie

Points Forts

  1. Innovation théorique: Combinaison de l'augmentation Pólya-Gamma avec le Bayes variationnel à champ moyen structuré, résolvant les difficultés techniques de la régression à réponse de comptage
  2. Stabilité numérique: La convexité garantit la stabilité et la fiabilité de l'algorithme
  3. Efficacité computationnelle: Les mises à jour en forme fermée et l'algorithme en temps réel améliorent considérablement l'efficacité computationnelle
  4. Valeur pratique: La méthode s'applique largement et est facile à implémenter

Insuffisances

  1. Analyse théorique insuffisante: Manque d'analyse théorique de l'erreur d'approximation variationnelle
  2. Orientation pour la sélection de paramètres: Manque de guidance systématique pour la sélection de l'ensemble d'atomes K\mathcal{K}
  3. Portée expérimentale: Les scénarios des expériences de simulation sont relativement limités

Impact

  1. Contribution académique: Fourniture d'une nouvelle voie technique pour l'inférence variationnelle des modèles à réponse de comptage
  2. Valeur pratique: Importance significative dans les applications de données massives et de flux de données
  3. Reproductibilité: Description détaillée de l'algorithme, facile à reproduire et implémenter

Scénarios d'Application

  1. Analyse de données de comptage nécessitant une inférence bayésienne rapide
  2. Modélisation en temps réel dans un environnement de flux de données
  3. Problèmes de régression semiparamétrique à réponse de comptage à grande échelle
  4. Scénarios d'application exigeant une stabilité numérique élevée

Références Bibliographiques

Les principales références incluent :

  • Luts, J. et Wand, M.P. (2015). Variational inference for count response semiparametric regression. Bayesian Analysis, 10, 991–1023.
  • Polson, N.G., Scott, J.G. & Windle, J. (2013). Bayesian inference for logistic models using Pólya-Gamma latent variables. Journal of the American Statistical Association, 108, 1339–1349.
  • Durante, D. & Rigon, T. (2019). Conditionally conjugate mean-field variational Bayes for logistic models. Statistical Science, 34, 472–485.

Cet article apporte une contribution importante au domaine de l'inférence variationnelle pour la régression semiparamétrique à réponse de comptage. Grâce à une combinaison ingénieuse de techniques, il résout les problèmes clés des méthodes existantes et ouvre de nouvelles directions pour le développement du domaine.