We develop a version of variational inference for Bayesian count response regression-type models that possesses attractive attributes such as convexity and closed form updates. The convex solution aspect entails numerically stable fitting algorithms, whilst the closed form aspect makes the methodology fast and easy to implement. The essence of the approach is the use of Pólya-Gamma augmentation of a Negative Binomial likelihood, a finite-valued prior on the shape parameter and the structured mean field variational Bayes paradigm. The approach applies to general count response situations. For concreteness, we focus on generalized linear mixed models within the semiparametric regression class of models. Real-time fitting is also described.
- पेपर ID: 2510.12356
- शीर्षक: Variational Inference for Count Response Semiparametric Regression: A Convex Solution
- लेखक: Virginia Murru (Università di Padova), Matt P. Wand (University of Technology Sydney)
- वर्गीकरण: stat.ME (सांख्यिकी - पद्धति)
- प्रकाशन तिथि: 14 अक्टूबर 2025
- पेपर लिंक: https://arxiv.org/abs/2510.12356
यह पेपर बेयेसियन गणना प्रतिक्रिया प्रतिगमन मॉडल के लिए एक परिवर्तनशील अनुमान विधि विकसित करता है, जिसमें उत्तलता और बंद-रूप अद्यतन के उत्तम गुण हैं। उत्तलता संख्यात्मक रूप से स्थिर फिटिंग एल्गोरिदम की गारंटी देती है, जबकि बंद-रूप अद्यतन विधि को तेज़ और कार्यान्वयन में आसान बनाते हैं। इस विधि का मूल Pólya-Gamma संवर्धित नकारात्मक द्विपद संभावना, आकार पैरामीटर के लिए परिमित-मान पूर्व, और संरचित माध्य-क्षेत्र परिवर्तनशील बेयेस प्रतिमान का उपयोग है। यह विधि सामान्य गणना प्रतिक्रिया स्थितियों पर लागू होती है और विशेष रूप से अर्ध-पैरामीट्रिक प्रतिगमन श्रेणी में सामान्यीकृत रैखिक मिश्रित मॉडल के लिए लक्षित है। लेख वास्तविक समय फिटिंग एल्गोरिदम का भी वर्णन करता है।
यह अनुसंधान गणना प्रतिक्रिया अर्ध-पैरामीट्रिक प्रतिगमन में बेयेसियन अनुमान की समस्या को संबोधित करता है। पारंपरिक मार्कोव चेन मोंटे कार्लो (MCMC) विधियों में गति और स्केलेबिलिटी के संदर्भ में बाधाएं हैं, जबकि मौजूदा परिवर्तनशील अनुमान विधियों में गैर-उत्तलता के कारण संख्यात्मक अस्थिरता की समस्या है।
- संख्यात्मक स्थिरता समस्या: Luts & Wand (2015) की निश्चित-रूप परिवर्तनशील विधि हालांकि अच्छी सटीकता प्रदान करती है, लेकिन गैर-उत्तलता संख्यात्मक समस्याओं का कारण बन सकती है। सिमुलेशन अध्ययन में, पॉइसन गैर-पैरामीट्रिक प्रतिगमन की निश्चित-रूप परिवर्तनशील विधि 13.6% प्रतिकृतियों में सही ढंग से अभिसरित नहीं हुई।
- कम्प्यूटेशनल दक्षता की आवश्यकता: मौजूदा विधियों में संख्यात्मक एकीकरण चरण शामिल हैं, जबकि इस पेपर द्वारा प्रस्तावित विधि में पूरी तरह से बंद-रूप अद्यतन हैं, जो तेज़ और स्थिर एल्गोरिदम को सक्षम करते हैं।
- वास्तविक समय अनुप्रयोग की आवश्यकता: स्ट्रीमिंग डेटा अनुप्रयोगों में, ऐसी विधियों की आवश्यकता है जो सभी ऐतिहासिक डेटा को संग्रहीत किए बिना मॉडल पैरामीटर को ऑनलाइन अपडेट कर सकें।
- उत्तल परिवर्तनशील अनुमान ढांचा प्रस्तावित किया: एक परिवर्तनशील अनुमान विधि विकसित की जहां सभी घटक अनुकूलन समस्याएं उत्तल हैं, जो संख्यात्मक स्थिरता सुनिश्चित करती हैं।
- बंद-रूप अद्यतन को लागू किया: Pólya-Gamma संवर्धन तकनीक के माध्यम से, सभी अद्यतन चरणों के बंद-रूप समाधान हैं, जो संख्यात्मक एकीकरण से बचते हैं।
- संरचित माध्य-क्षेत्र परिवर्तनशील बेयेस योजना का निर्माण किया: आकार पैरामीटर κ के विवेकीकरण के माध्यम से, परिवर्तनशील बेयेस मॉडल औसत के साथ मिलकर नकारात्मक द्विपद वितरण के आकार पैरामीटर अनुमान की कठिन समस्या को संभालता है।
- शुद्ध ऑनलाइन वास्तविक समय एल्गोरिदम विकसित किया: एक वास्तविक समय एल्गोरिदम प्रस्तावित किया जो केवल पर्याप्त सांख्यिकी को अपडेट और संग्रहीत करता है, स्ट्रीमिंग डेटा प्रसंस्करण के बाद सीधे त्याग दिया जा सकता है।
निम्नलिखित गणना प्रतिक्रिया बेयेसियन अर्ध-पैरामीट्रिक प्रतिगमन मॉडल पर विचार करें:
yi∣β,u,κ∼ind.Negative-Binomial(exp{(Xβ+Zu)i},κ),1≤i≤n
जहां yi गणना प्रतिक्रिया चर है, X और Z क्रमशः निश्चित प्रभाव और यादृच्छिक प्रभाव के डिज़ाइन मैट्रिक्स हैं।
Pólya-Gamma सहायक चर का परिचय दें:
αi∣yi,β,u,κ∼ind.Poˊlya-Gamma(yi+κ,(Xβ+Zu)i+log(κ))
- प्रतिगमन गुणांक: β∼N(0,σβ2Ip)
- यादृच्छिक प्रभाव: u∣σ12,…,σr2∼N(0,blockdiag(σ12IK1,…,σr2IKr))
- विचरण पैरामीटर: σj∼ind.Half-Cauchy(sσ)
- आकार पैरामीटर: κ में विवेकीकृत पूर्व है, परमाणु सेट K के साथ, संभावनाएं p(κ)
निम्नलिखित उत्पाद घनत्व रूप के प्रतिबंध का उपयोग करें:
q(β,u,κ,α,σ2,a)=q(β,u,a∣κ)q(σ2,α∣κ)q(κ)
एल्गोरिदम 1: संरचित माध्य-क्षेत्र परिवर्तनशील बेयेस एल्गोरिदम के मुख्य अद्यतन चरण में शामिल हैं:
- Pólya-Gamma पैरामीटर अद्यतन:
μq(α∣κ)←2(y+κ1)⊙λJJ(cq(α∣κ))
- प्रतिगमन पैरामीटर अद्यतन:
Σq(β,u∣κ)←{CTdiag(μq(α∣κ))C+Mq(1/σ2∣κ)}−1
- विचरण पैरामीटर अद्यतन: व्युत्क्रम गामा वितरण की पर्याप्त सांख्यिकी के माध्यम से अद्यतन
जहां λJJ(x)=4xtanh(x/2) Jaakkola-Jordan फ़ंक्शन है।
- उत्तलता गारंटी: प्रत्येक व्यक्तिगत (के लिए κ∈K) माध्य-क्षेत्र अनुकूलन समस्या उत्तल है, वैश्विक इष्टतम समाधान सुनिश्चित करता है।
- बंद-रूप अद्यतन: Pólya-Gamma संवर्धन के विशेष गुणों के माध्यम से, संख्यात्मक एकीकरण से बचा जाता है, सभी अद्यतन विश्लेषणात्मक समाधान हैं।
- विवेकीकरण रणनीति: निरंतर आकार पैरामीटर κ को परिमित सेट में विवेकीकृत करें, परिवर्तनशील बेयेस मॉडल औसत के माध्यम से संभालें।
- सिमुलेशन डेटा:
- नमूना आकार: n=500
- नकारात्मक द्विपद योगात्मक मॉडल: ηtrue,1(x)=cos(4πx)+2x, ηtrue,2(x)=0.4ϕ(x;0.38,0.08)−1.02x+0.018x2+0.08ϕ(x;0.75,0.03)
- सच्चा आकार पैरामीटर: κtrue=3.8
- वास्तविक डेटा: 1991-1994 में अमेरिकी कलामाज़ू शहर में रैगवीड पराग गणना डेटा (n=334)
सटीकता स्कोर का उपयोग करें:
accuracy(q∗)=100(1−21∫−∞∞∣q∗(θ)−p(θ∣y)∣dθ)%
- MCMC बेंचमार्क: JAGS बेयेसियन अनुमान इंजन का उपयोग करें, चेन लंबाई 10000, burn-in 5000, विरलता कारक 5
- मौजूदा परिवर्तनशील विधि: Luts & Wand (2015) की अर्ध-पैरामीट्रिक माध्य-क्षेत्र परिवर्तनशील बेयेस विधि
- परमाणु सेट K: 50 ज्यामितीय अनुक्रम बिंदु, श्रेणी [κtrue/10,10κtrue]
- अभिसरण मानदंड: सापेक्ष परिवर्तन 10−10 से कम
- स्पलाइन आधार फ़ंक्शन: O'Sullivan स्पलाइन आधार का उपयोग करें, आधार फ़ंक्शन संख्या K1=K2=17
सिमुलेशन अध्ययन दर्शाता है कि यह विधि सभी मेट्रिक्स पर संतोषजनक सटीकता प्राप्त करती है:
- फ़ंक्शन अनुमान सटीकता: विभिन्न मात्रात्मक बिंदुओं पर फ़ंक्शन मान अनुमान सटीकता 89%-94% के बीच है
- विचरण पैरामीटर अनुमान: σ12 और σ22 की सटीकता क्रमशः 80% और 73% है
- आकार पैरामीटर अनुमान: κ की सटीकता 99% तक पहुंचती है
Luts & Wand (2015) की विधि की तुलना में, यह विधि सभी पैरामीटर पर सुधार दिखाती है, जहां κ में सुधार सबसे महत्वपूर्ण है।
कम्प्यूटेशनल दक्षता में महत्वपूर्ण सुधार:
- MCMC विधि: औसत 117.8 सेकंड (मानक विचलन 1.876 सेकंड)
- यह विधि: औसत 2.088 सेकंड (मानक विचलन 0.1440 सेकंड)
गति में लगभग 56 गुना सुधार, साथ ही अच्छी अनुमान सटीकता बनाए रखी गई।
एल्गोरिदम 2 के वास्तविक समय फिटिंग परिणाम दर्शाते हैं:
- नमूना आकार 100 से 1000 तक बढ़ने की प्रक्रिया में, वास्तविक समय अनुमान बैच प्रसंस्करण अनुमान के साथ अत्यधिक सुसंगत हैं
- विभिन्न κtrue मानों (5, 10, 20, 40) के लिए, एल्गोरिदम स्थिर प्रदर्शन दिखाता है
- वास्तविक समय अनुमान मुख्य रूप से माध्य संरचना के लिए है, κ पैरामीटर के वास्तविक समय अनुमान में अपेक्षाकृत कठिन है
रैगवीड पराग गणना डेटा पर अनुप्रयोग दर्शाता है:
- सभी रैखिक प्रभाव गुणांक महत्वपूर्ण रूप से गैर-शून्य हैं
- आकार पैरामीटर κ का पश्च वितरण 2-5 के बीच केंद्रित है, नकारात्मक द्विपद प्रतिक्रिया मॉडल की प्रयोज्यता का समर्थन करता है
- चार वर्षों का प्रवृत्ति वक्र समान व्यवहार दिखाता है: मौसम के 20वें दिन के आसपास शिखर तक पहुंचता है, इसके बाद गिरावट की प्रवृत्ति
- परिवर्तनशील अनुमान विधियां: Jaakkola & Jordan (2000), Durante & Rigon (2019) की द्विआधारी प्रतिक्रिया मॉडल विधियां
- Pólya-Gamma संवर्धन: Polson et al. (2013), Zhou et al. (2012), Miao et al. (2020) की नकारात्मक द्विपद संभावना संवर्धन विधियां
- अर्ध-पैरामीट्रिक प्रतिगमन: Luts & Wand (2015) की गणना प्रतिक्रिया अर्ध-पैरामीट्रिक प्रतिगमन परिवर्तनशील अनुमान
- Zhou et al. (2012) और Miao et al. (2020) की तुलना में: यह विधि एकल संयुक्त वितरण के न्यूनतम KL विचलन पर आधारित है, सैद्धांतिक आधार अधिक मजबूत है
- Luts & Wand (2015) की तुलना में: गैर-उत्तलता समस्या को हल करता है, पूरी तरह से बंद-रूप अद्यतन प्रदान करता है
- पारंपरिक MCMC की तुलना में: कम्प्यूटेशनल गति में बड़ी वृद्धि, साथ ही उचित सटीकता बनाए रखी गई
- गणना प्रतिक्रिया अर्ध-पैरामीट्रिक प्रतिगमन के लिए उत्तलता और बंद-रूप अद्यतन के साथ परिवर्तनशील अनुमान विधि सफलतापूर्वक विकसित की
- Pólya-Gamma संवर्धन और संरचित माध्य-क्षेत्र परिवर्तनशील बेयेस के माध्यम से, संख्यात्मक रूप से स्थिर एल्गोरिदम प्राप्त किया
- शुद्ध ऑनलाइन वास्तविक समय फिटिंग एल्गोरिदम प्रदान किया, स्ट्रीमिंग डेटा अनुप्रयोगों के लिए उपयुक्त
- सटीकता हानि: परिवर्तनशील सन्निकटन MCMC की तुलना में सटीकता में कुछ हानि है, विशेषकर पश्च वितरण चौड़ाई के अनुमान में
- विवेकीकरण प्रभाव: आकार पैरामीटर κ का विवेकीकरण अनुमान सटीकता को प्रभावित कर सकता है
- वास्तविक समय एल्गोरिदम का परमाणु सेट कमी: ऑनलाइन एल्गोरिदम में परमाणु सेट को गतिशील रूप से समायोजित करने की आवश्यकता है, तंत्र को आगे अनुसंधान की आवश्यकता है
- सहप्रसरण मैट्रिक्स पैरामीटर के यादृच्छिक प्रभाव मॉडल तक विस्तार
- वास्तविक समय एल्गोरिदम में κ पैरामीटर अनुमान की गुणवत्ता में सुधार
- परमाणु सेट कमी तंत्र के सैद्धांतिक आधार का अनुसंधान
- सैद्धांतिक नवाचार: Pólya-Gamma संवर्धन को संरचित माध्य-क्षेत्र परिवर्तनशील बेयेस के साथ जोड़ा, गणना प्रतिक्रिया प्रतिगमन में तकनीकी समस्याओं को हल किया
- संख्यात्मक स्थिरता: उत्तलता एल्गोरिदम की स्थिरता और विश्वसनीयता सुनिश्चित करता है
- कम्प्यूटेशनल दक्षता: बंद-रूप अद्यतन और वास्तविक समय एल्गोरिदम कम्प्यूटेशनल दक्षता में महत्वपूर्ण सुधार करते हैं
- व्यावहारिक मूल्य: विधि व्यापक रूप से लागू होती है, कार्यान्वयन में आसान है
- अपर्याप्त सैद्धांतिक विश्लेषण: परिवर्तनशील सन्निकटन त्रुटि का सैद्धांतिक विश्लेषण अभाव है
- पैरामीटर चयन मार्गदर्शन: परमाणु सेट K के चयन के लिए व्यवस्थित मार्गदर्शन की कमी है
- प्रायोगिक श्रेणी: सिमुलेशन प्रयोग के परिदृश्य अपेक्षाकृत सीमित हैं
- शैक्षणिक योगदान: गणना प्रतिक्रिया मॉडल के परिवर्तनशील अनुमान के लिए नई तकनीकी पथ प्रदान करता है
- व्यावहारिक मूल्य: बड़े डेटा और स्ट्रीमिंग डेटा अनुप्रयोगों में महत्वपूर्ण महत्व है
- पुनरुत्पादनीयता: एल्गोरिदम विवरण विस्तृत है, पुनरुत्पादन और कार्यान्वयन में आसान है
- तेज़ बेयेसियन अनुमान की आवश्यकता वाले गणना डेटा विश्लेषण
- स्ट्रीमिंग डेटा वातावरण में वास्तविक समय मॉडलिंग
- बड़े पैमाने पर गणना प्रतिक्रिया अर्ध-पैरामीट्रिक प्रतिगमन समस्याएं
- संख्यात्मक स्थिरता के लिए उच्च आवश्यकता वाले अनुप्रयोग परिदृश्य
मुख्य संदर्भ में शामिल हैं:
- Luts, J. and Wand, M.P. (2015). Variational inference for count response semiparametric regression. Bayesian Analysis, 10, 991–1023.
- Polson, N.G., Scott, J.G. & Windle, J. (2013). Bayesian inference for logistic models using Pólya-Gamma latent variables. Journal of the American Statistical Association, 108, 1339–1349.
- Durante, D. & Rigon, T. (2019). Conditionally conjugate mean-field variational Bayes for logistic models. Statistical Science, 34, 472–485.
यह पेपर गणना प्रतिक्रिया अर्ध-पैरामीट्रिक प्रतिगमन के परिवर्तनशील अनुमान क्षेत्र में महत्वपूर्ण योगदान देता है, चतुर तकनीकी संयोजन के माध्यम से मौजूदा विधियों की मुख्य समस्याओं को हल करता है, और इस क्षेत्र के विकास के लिए नई दिशा प्रदान करता है।