We develop a version of variational inference for Bayesian count response regression-type models that possesses attractive attributes such as convexity and closed form updates. The convex solution aspect entails numerically stable fitting algorithms, whilst the closed form aspect makes the methodology fast and easy to implement. The essence of the approach is the use of Pólya-Gamma augmentation of a Negative Binomial likelihood, a finite-valued prior on the shape parameter and the structured mean field variational Bayes paradigm. The approach applies to general count response situations. For concreteness, we focus on generalized linear mixed models within the semiparametric regression class of models. Real-time fitting is also described.
- ID de l'article: 2510.12356
- Titre: Variational Inference for Count Response Semiparametric Regression: A Convex Solution
- Auteurs: Virginia Murru (Università di Padova), Matt P. Wand (University of Technology Sydney)
- Classification: stat.ME (Statistiques - Méthodologie)
- Date de publication: 14 octobre 2025
- Lien de l'article: https://arxiv.org/abs/2510.12356
Cet article développe une méthode d'inférence variationnelle pour les modèles de régression bayésienne à réponse de comptage, possédant les propriétés avantageuses de convexité et de mises à jour en forme fermée. La convexité garantit un algorithme d'ajustement numériquement stable, tandis que les mises à jour en forme fermée rendent la méthode rapide et facile à implémenter. Le cœur de la méthode repose sur l'utilisation de la vraisemblance binomiale négative augmentée par Pólya-Gamma, des priors de valeur finie pour le paramètre de forme, et un schéma de Bayes variationnel à champ moyen structuré. La méthode s'applique aux cas généraux de réponse de comptage et se concentre spécifiquement sur les modèles linéaires généralisés mixtes dans la catégorie de la régression semiparamétrique. L'article décrit également un algorithme d'ajustement en temps réel.
Cette recherche aborde principalement le problème de l'inférence bayésienne dans la régression semiparamétrique à réponse de comptage. Les méthodes traditionnelles de chaîne de Markov Monte-Carlo (MCMC) présentent des goulots d'étranglement en termes de vitesse et d'extensibilité, tandis que les méthodes d'inférence variationnelle existantes souffrent de problèmes d'instabilité numérique dus à la non-convexité.
- Problèmes de stabilité numérique: La méthode variationnelle de forme fixe de Luts & Wand (2015), bien que précise, peut présenter des problèmes numériques dus à la non-convexité. Dans les études de simulation, la méthode variationnelle de forme fixe pour la régression non paramétrique de Poisson n'a pas convergé correctement dans 13,6 % des réplications.
- Besoin d'efficacité computationnelle: Les méthodes existantes impliquent des étapes d'intégration numérique, tandis que la méthode proposée possède des mises à jour complètement en forme fermée, permettant un algorithme rapide et stable.
- Besoin d'applications en temps réel: Dans les applications de flux de données, il est nécessaire de disposer de méthodes capables de mettre à jour les paramètres du modèle en ligne sans stocker l'intégralité des données historiques.
- Proposition d'un cadre d'inférence variationnelle convexe: Développement d'une méthode d'inférence variationnelle où tous les problèmes d'optimisation des composants sont convexes, garantissant la stabilité numérique.
- Réalisation de mises à jour en forme fermée: Grâce à la technique d'augmentation Pólya-Gamma, toutes les étapes de mise à jour possèdent des solutions analytiques, évitant l'intégration numérique.
- Construction d'un schéma de Bayes variationnel à champ moyen structuré: Traitement de la discrétisation du paramètre de forme κ, combiné avec la moyenne de modèle de Bayes variationnel pour résoudre le problème difficile de l'inférence du paramètre de forme de la distribution binomiale négative.
- Développement d'un algorithme en temps réel purement en ligne: Proposition d'un algorithme qui ne nécessite que la mise à jour et le stockage de statistiques suffisantes, permettant de rejeter les données de flux après traitement.
Considérons le modèle de régression semiparamétrique bayésienne à réponse de comptage suivant :
yi∣β,u,κ∼ind.Binomiale-Neˊgative(exp{(Xβ+Zu)i},κ),1≤i≤n
où yi est la variable de réponse de comptage, et X et Z sont respectivement les matrices de plan pour les effets fixes et aléatoires.
Introduction de variables auxiliaires Pólya-Gamma :
αi∣yi,β,u,κ∼ind.Poˊlya-Gamma(yi+κ,(Xβ+Zu)i+log(κ))
- Coefficients de régression : β∼N(0,σβ2Ip)
- Effets aléatoires : u∣σ12,…,σr2∼N(0,blockdiag(σ12IK1,…,σr2IKr))
- Paramètres de variance : σj∼ind.Half-Cauchy(sσ)
- Paramètre de forme : κ possède un prior discret avec ensemble d'atomes K et probabilités p(κ)
Utilisation de la restriction de forme de densité produit suivante :
q(β,u,κ,α,σ2,a)=q(β,u,a∣κ)q(σ2,α∣κ)q(κ)
Algorithme 1: Les étapes de mise à jour clés de l'algorithme de Bayes variationnel à champ moyen structuré incluent :
- Mise à jour des paramètres Pólya-Gamma:
μq(α∣κ)←2(y+κ1)⊙λJJ(cq(α∣κ))
- Mise à jour des paramètres de régression:
Σq(β,u∣κ)←{CTdiag(μq(α∣κ))C+Mq(1/σ2∣κ)}−1
- Mise à jour des paramètres de variance: Mise à jour via les statistiques suffisantes de la distribution Gamma inverse
où λJJ(x)=4xtanh(x/2) est la fonction de Jaakkola-Jordan.
- Garantie de convexité: Chaque problème d'optimisation à champ moyen individuel (pour κ∈K) est convexe, garantissant une solution globalement optimale.
- Mises à jour en forme fermée: Grâce aux propriétés spéciales de l'augmentation Pólya-Gamma, l'intégration numérique est évitée et toutes les mises à jour possèdent des solutions analytiques.
- Stratégie de discrétisation: Discrétisation du paramètre de forme continu κ en un ensemble fini, traité par la moyenne de modèle de Bayes variationnel.
- Données simulées:
- Taille d'échantillon: n=500
- Modèle additif binomial négatif: ηtrue,1(x)=cos(4πx)+2x, ηtrue,2(x)=0.4ϕ(x;0.38,0.08)−1.02x+0.018x2+0.08ϕ(x;0.75,0.03)
- Paramètre de forme vrai: κtrue=3.8
- Données réelles: Données de comptage de pollen d'ambroisie de Kalamazoo, États-Unis (1991-1994) (n=334)
Utilisation du score de précision défini comme :
preˊcision(q∗)=100(1−21∫−∞∞∣q∗(θ)−p(θ∣y)∣dθ)%
- Référence MCMC: Utilisation du moteur d'inférence bayésienne JAGS, longueur de chaîne 10000, burn-in 5000, facteur d'amincissement 5
- Méthode variationnelle existante: Méthode de Bayes variationnel à champ moyen semiparamétrique de Luts & Wand (2015)
- Ensemble d'atomes K: 50 points de séquence géométrique, plage [κtrue/10,10κtrue]
- Critère de convergence: changement relatif inférieur à 10−10
- Fonctions de base spline: utilisation de bases spline O'Sullivan, nombre de fonctions de base K1=K2=17
Les études de simulation montrent que cette méthode atteint une précision satisfaisante sur tous les indicateurs :
- Précision d'estimation de fonction: la précision des valeurs de fonction estimées à différents quantiles se situe entre 89 % et 94 %
- Estimation des paramètres de variance: les précisions de σ12 et σ22 sont respectivement de 80 % et 73 %
- Estimation du paramètre de forme: la précision de κ atteint 99 %
Par rapport à la méthode de Luts & Wand (2015), cette méthode montre des améliorations sur tous les paramètres, l'amélioration étant la plus significative pour κ.
L'efficacité computationnelle est considérablement améliorée :
- Méthode MCMC: moyenne de 117,8 secondes (écart-type 1,876 secondes)
- Méthode proposée: moyenne de 2,088 secondes (écart-type 0,1440 secondes)
Accélération d'environ 56 fois, tout en maintenant une bonne précision d'inférence.
Les résultats d'ajustement en temps réel de l'Algorithme 2 montrent :
- Haute cohérence entre les estimations en temps réel et les estimations par traitement par lots au fur et à mesure que la taille d'échantillon augmente de 100 à 1000
- Stabilité de l'algorithme pour différentes valeurs de κtrue (5, 10, 20, 40)
- L'inférence en temps réel se concentre principalement sur la structure moyenne, l'inférence en temps réel du paramètre κ étant relativement difficile
L'application aux données de comptage de pollen d'ambroisie montre :
- Tous les coefficients d'effet linéaire sont significativement non nuls
- La distribution postérieure du paramètre de forme κ est concentrée entre 2 et 5, soutenant l'applicabilité du modèle de réponse binomiale négative
- Les courbes de tendance sur quatre ans montrent un comportement similaire : pic autour du jour 20 de la saison, suivi d'une tendance décroissante
- Méthodes d'inférence variationnelle: Méthodes pour modèles de réponse binaire de Jaakkola & Jordan (2000), Durante & Rigon (2019)
- Augmentation Pólya-Gamma: Méthodes d'augmentation de vraisemblance binomiale négative de Polson et al. (2013), Zhou et al. (2012), Miao et al. (2020)
- Régression semiparamétrique: Inférence variationnelle de régression semiparamétrique à réponse de comptage de Luts & Wand (2015)
- Par rapport à Zhou et al. (2012) et Miao et al. (2020): La méthode proposée est basée sur la divergence KL minimale d'une seule distribution conjointe, avec une base théorique plus solide
- Par rapport à Luts & Wand (2015): Résolution du problème de non-convexité, fourniture de mises à jour complètement en forme fermée
- Par rapport au MCMC traditionnel: Amélioration significative de la vitesse de calcul tout en maintenant une précision raisonnable
- Développement réussi d'une méthode d'inférence variationnelle pour la régression semiparamétrique à réponse de comptage possédant convexité et mises à jour en forme fermée
- Réalisation d'un algorithme numériquement stable grâce à l'augmentation Pólya-Gamma et au Bayes variationnel à champ moyen structuré
- Fourniture d'un algorithme d'ajustement en temps réel purement en ligne, applicable aux applications de flux de données
- Perte de précision: L'approximation variationnelle présente une certaine perte de précision par rapport au MCMC, particulièrement dans l'estimation de la largeur de la distribution postérieure
- Impact de la discrétisation: La discrétisation du paramètre de forme κ peut affecter la précision de l'inférence
- Réduction de l'ensemble d'atomes dans l'algorithme en temps réel: L'algorithme en ligne nécessite un ajustement dynamique de l'ensemble d'atomes, dont le mécanisme nécessite une étude plus approfondie
- Extension aux modèles d'effets aléatoires avec paramètres de matrice de covariance
- Amélioration de la qualité de l'inférence du paramètre κ dans l'algorithme en temps réel
- Étude des fondements théoriques du mécanisme de réduction de l'ensemble d'atomes
- Innovation théorique: Combinaison de l'augmentation Pólya-Gamma avec le Bayes variationnel à champ moyen structuré, résolvant les difficultés techniques de la régression à réponse de comptage
- Stabilité numérique: La convexité garantit la stabilité et la fiabilité de l'algorithme
- Efficacité computationnelle: Les mises à jour en forme fermée et l'algorithme en temps réel améliorent considérablement l'efficacité computationnelle
- Valeur pratique: La méthode s'applique largement et est facile à implémenter
- Analyse théorique insuffisante: Manque d'analyse théorique de l'erreur d'approximation variationnelle
- Orientation pour la sélection de paramètres: Manque de guidance systématique pour la sélection de l'ensemble d'atomes K
- Portée expérimentale: Les scénarios des expériences de simulation sont relativement limités
- Contribution académique: Fourniture d'une nouvelle voie technique pour l'inférence variationnelle des modèles à réponse de comptage
- Valeur pratique: Importance significative dans les applications de données massives et de flux de données
- Reproductibilité: Description détaillée de l'algorithme, facile à reproduire et implémenter
- Analyse de données de comptage nécessitant une inférence bayésienne rapide
- Modélisation en temps réel dans un environnement de flux de données
- Problèmes de régression semiparamétrique à réponse de comptage à grande échelle
- Scénarios d'application exigeant une stabilité numérique élevée
Les principales références incluent :
- Luts, J. et Wand, M.P. (2015). Variational inference for count response semiparametric regression. Bayesian Analysis, 10, 991–1023.
- Polson, N.G., Scott, J.G. & Windle, J. (2013). Bayesian inference for logistic models using Pólya-Gamma latent variables. Journal of the American Statistical Association, 108, 1339–1349.
- Durante, D. & Rigon, T. (2019). Conditionally conjugate mean-field variational Bayes for logistic models. Statistical Science, 34, 472–485.
Cet article apporte une contribution importante au domaine de l'inférence variationnelle pour la régression semiparamétrique à réponse de comptage. Grâce à une combinaison ingénieuse de techniques, il résout les problèmes clés des méthodes existantes et ouvre de nouvelles directions pour le développement du domaine.