A valued stochastic blockmodel (SBM) is a general way to view networked data in which nodes are grouped into blocks and links between them are measured by counts or labels. This family allows for varying dyad sampling schemes, thereby including the classical, Poisson, and labeled SBMs, as well as those in which some edge observations are censored. This paper addresses the question of testing goodness-of-fit of such non-Bernoulli SBMs, focusing in particular on finite-sample tests. We derive explicit Markov bases moves necessary to generate samples from reference distributions and define goodness-of-fit statistics for determining model fit, comparable to those in the literature for related model families.
For the labeled SBM, which includes in particular the censored-edge model, we study the asymptotic behavior of said statistics. One of the main purposes of testing goodness-of-fit of an SBM is to determine whether block membership of the nodes influences network formation. Power and Type 1 error rates are verified on simulated data. Additionally, we discuss the use of asymptotic results in selecting the number of blocks under the latent-block modeling assumption. The method derived for Poisson SBM is applied to ecological networks of host-parasite interactions. Our data analysis conclusions differ in selecting the number of blocks for the species from previous results in the literature.
- पेपर ID: 2510.13636
- शीर्षक: मूल्यवान स्टोकेस्टिक ब्लॉकमॉडल में गैर-अनंतस्पर्शी सुसंगतता परीक्षण और मॉडल चयन
- लेखक: फेलिक्स अल्मेंड्रा-हर्नांडेज़, माइल्स बेकेनहस, विशेष कर्वा, मित्सुनोरी ओगावा, सोन्जा पेट्रोविक
- वर्गीकरण: stat.ME cs.SI math.ST stat.TH
- प्रकाशन तिथि: 16 अक्टूबर 2025
- पेपर लिंक: https://arxiv.org/abs/2510.13636
यह पेपर मूल्यवान स्टोकेस्टिक ब्लॉकमॉडल (valued stochastic blockmodel, SBM) के लिए सुसंगतता परीक्षण समस्या का अध्ययन करता है। मूल्यवान SBM नेटवर्क डेटा मॉडलिंग के लिए एक सार्वभौमिक विधि है, जो नोड्स को ब्लॉक में विभाजित करता है, और नोड्स के बीच कनेक्शन को गणना या लेबल द्वारा मापा जाता है। यह मॉडल परिवार विभिन्न dyad नमूनाकरण योजनाओं की अनुमति देता है, जिसमें शास्त्रीय SBM, पॉइसन SBM और लेबल किए गए SBM शामिल हैं, साथ ही कुछ किनारे अवलोकन सेंसर किए गए मामले भी शामिल हैं। पेपर गैर-बर्नौली SBM के परिमित नमूना परीक्षण पर ध्यान केंद्रित करता है, संदर्भ वितरण नमूना उत्पन्न करने के लिए आवश्यक स्पष्ट मार्कोव आधार चाल प्राप्त करता है, और मॉडल फिटिंग निर्धारित करने के लिए सुसंगतता सांख्यिकी को परिभाषित करता है। लेबल किए गए SBM (सेंसर किए गए किनारे मॉडल सहित) के लिए, इन सांख्यिकी के स्पर्शोन्मुख व्यवहार का अध्ययन किया गया है।
- मुख्य समस्या: गैर-बर्नौली मूल्यवान स्टोकेस्टिक ब्लॉकमॉडल के लिए सुसंगतता परीक्षण कैसे करें, विशेष रूप से परिमित नमूना स्थिति में
- महत्व:
- नेटवर्क डेटा विश्लेषण में, यह निर्धारित करना कि क्या नोड्स की ब्लॉक सदस्यता नेटवर्क गठन को प्रभावित करती है, एक महत्वपूर्ण प्रश्न है
- मौजूदा विधियां मुख्य रूप से सरल ग्राफ़ (बर्नौली dyad) के लिए हैं, जबकि वास्तविक नेटवर्क डेटा में अक्सर गणना या कई प्रकार के कनेक्शन होते हैं
- परिमित नमूना परीक्षण छोटे नमूना डेटा में व्यावहारिक महत्व रखते हैं
- शास्त्रीय SBM सीमाएं: अधिकांश मौजूदा ढांचे सरल ग्राफ़ का उपयोग करते हैं, dyad को बर्नौली यादृच्छिक चर के रूप में मॉडल करते हैं
- स्पर्शोन्मुख विधि समस्याएं: BIC जैसे बड़े नमूना मानदंड नेटवर्क मॉडल में पैरामीटर आयाम बढ़ने पर विफल हो जाते हैं
- सैद्धांतिक गारंटी की कमी: मौजूदा विधियों में शून्य परिकल्पना वितरण और स्पर्शोन्मुख शक्ति के लिए सैद्धांतिक गारंटी की कमी है
- बीजगणितीय सांख्यिकी में मार्कोव आधार विधि को गैर-बर्नौली नेटवर्क मॉडल तक विस्तारित करना
- पैरामीटर अनिश्चितता पर विचार करने वाली आंशिक बेयेसियन परीक्षण ढांचा बनाना
- मॉडल चयन के लिए सैद्धांतिक मार्गदर्शन प्रदान करना, विशेष रूप से ब्लॉक संख्या के चयन के लिए
- सैद्धांतिक योगदान:
- पॉइसन SBM और लेबल किए गए SBM के लिए स्पष्ट मार्कोव आधार प्राप्त किए
- प्रक्षेप अनुमानकर्ता की सुसंगतता साबित की
- सुसंगतता सांख्यिकी के लिए स्पर्शोन्मुख सिद्धांत स्थापित किए
- विधि योगदान:
- निश्चित ब्लॉक आवंटन और अज्ञात ब्लॉक आवंटन स्थितियों में सशर्त सुसंगतता परीक्षण प्रस्तावित किए
- आंशिक बेयेसियन p-मान गणना ढांचा बनाया
- MCMC-आधारित फाइबर नमूनाकरण एल्गोरिदम विकसित किया
- अनुप्रयोग योगदान:
- पारिस्थितिक नेटवर्क के होस्ट-परजीवी पारस्परिक क्रिया विश्लेषण में विधि लागू की
- सिम्युलेटेड डेटा पर विधि की शक्ति और प्रथम प्रकार की त्रुटि दर सत्यापित की
- मॉडल चयन के लिए व्यावहारिक मार्गदर्शन सिद्धांत प्रदान किए
एक मूल्यवान नेटवर्क G=(Guv)1≤u<v≤n दिया गया है, जहां Guv नोड्स की जोड़ी {u,v} के बीच कनेक्शन की शक्ति (गणना या लेबल) को दर्शाता है, लक्ष्य है:
- जांचना कि क्या नेटवर्क दिए गए मूल्यवान SBM के अनुरूप है
- ब्लॉक आवंटन अज्ञात होने पर मॉडल फिटिंग परीक्षण करना
- उपयुक्त ब्लॉक संख्या k का चयन करना
n नोड्स और k ब्लॉक के लिए, मूल्यवान SBM मानता है:
- सशर्त स्वतंत्रता: Guv⊥⊥Gu′v′∣Z किसी भी दो dyad के लिए
- घातांकीय परिवार रूप:
Pθ(G=g∣Z=z)=∏1≤u<v≤nψ(θzuzv)h(guv)exp⟨Tz(guv),θzuzv⟩
जहां h आधार माप है, Tz पर्याप्त सांख्यिकी है, θ पैरामीटर वेक्टर है।
- शास्त्रीय SBM: Guv∣Z=z∼Bernoulli(θzuzv)
- पॉइसन SBM: Guv∣Z=z∼Poisson(θzuzv)
- लेबल किया गया SBM: Guv∣Z=z∼Multinomial(N,(θzuzv(ℓ))ℓ=1L)
पॉइसन SBM के लिए मार्कोव आधार:
B={εuv−εu′v′:zu=zu′,zv=zv′}
लेबल किए गए SBM के लिए मार्कोव आधार:
B={εuv(ℓ)+εu′v′(ℓ′)−εuv(ℓ′)−εu′v′(ℓ):ℓ,ℓ′∈[L],zu=zu′,zv=zv′}
- फाइबर परिभाषा: Fz,t:={g∈G:Tz(g)=t}
- सशर्त वितरण: P(G=g∣Tz(g)=t)=∑g′∈Fz,th(g′)h(g)
- सटीक p-मान: p(z,g)=P(GoFz(G)≥GoFz(g)∣Tz(g))
अज्ञात ब्लॉक आवंटन के लिए, आंशिक बेयेसियन p-मान को परिभाषित करें:
pb(g)=∑z∈Zn,kp(z,g)P(Z=z∣g)
यह विधि ब्लॉक आवंटन की अनिश्चितता को संभालने के लिए पश्च वितरण पर औसत लेकर काम करता है।
पॉइसन SBM:
GoFz(g)=∑u=1n∑i=1kniθ^zui(mui−niθ^zui)2
लेबल किया गया SBM:
GoFz(g)=χBC2(g,z)=∑u=1n∑i=1k∑ℓ=1L−1niθ^zui(ℓ)(mui(ℓ)−niθ^zui(ℓ))2
- सिम्युलेटेड डेटा:
- नोड्स की संख्या: n=50,100
- 4 विभिन्न कनेक्शन मैट्रिक्स θ(1),θ(2),θ(3),θ(4)
- प्रत्येक सेटिंग के लिए 100 ग्राफ़ उत्पन्न किए
- वास्तविक डेटा:
- परजीवी कवक प्रजाति नेटवर्क (154 नोड्स)
- वृक्ष प्रजाति नेटवर्क (51 नोड्स)
- किनारे वजन साझा होस्ट/परजीवी प्रजातियों की संख्या को दर्शाता है
- प्रथम प्रकार की त्रुटि दर: महत्व स्तर 0.05 पर शून्य परिकल्पना अस्वीकार दर
- परीक्षण शक्ति: विभिन्न ब्लॉक संख्याओं में मॉडल अस्वीकार दर
- मॉडल चयन सटीकता: ICL मानदंड के साथ तुलना
- ICL (समन्वित पूर्ण संभावना) मानदंड
- ब्लॉक आवंटन अनुमान के लिए भिन्नता EM एल्गोरिदम
- sbm R पैकेज कार्यान्वयन
- MCMC श्रृंखला लंबाई: numGraphs पैरामीटर द्वारा नियंत्रित
- ब्लॉक आवंटन अनुमान: भिन्नता EM एल्गोरिदम का उपयोग
- पश्च संभावना थ्रेशहोल्ड: ε=1/m, जहां m समर्थन सेट आकार है
n=50 पर परिणाम:
| θ | 2 ब्लॉक | 3 ब्लॉक | 4 ब्लॉक | 5 ब्लॉक |
|---|
| θ⁽¹⁾ | 1.00 | 0.59 | 0.05 | 0.01 |
| θ⁽²⁾ | 1.00 | 0.66 | 0.03 | 0.03 |
| θ⁽³⁾ | 0.88 | 1.00 | 0.07 | 0.04 |
| θ⁽⁴⁾ | 1.00 | 0.99 | 0.06 | 0.03 |
n=100 पर परिणाम:
| θ | 2 ब्लॉक | 3 ब्लॉक | 4 ब्लॉक | 5 ब्लॉक |
|---|
| θ⁽¹⁾ | 1.00 | 0.98 | 0.05 | 0.00 |
| θ⁽²⁾ | 1.00 | 1.00 | 0.06 | 0.01 |
| θ⁽³⁾ | 1.00 | 1.00 | 0.08 | 0.02 |
| θ⁽⁴⁾ | 1.00 | 1.00 | 0.08 | 0.02 |
वृक्ष प्रजाति नेटवर्क:
- ब्लॉक संख्या 3-7: p-मान = 0
- ब्लॉक संख्या 8-9: p-मान = 0.01
- ब्लॉक संख्या 10: p-मान = 0.19
- ब्लॉक संख्या 11-15: p-मान ≥ 0.68
कवक प्रजाति नेटवर्क:
- ब्लॉक संख्या 3-17: p-मान = 0
- ब्लॉक संख्या 18-21: p-मान = 0.01
- ब्लॉक संख्या 22: p-मान = 0.07
- विधि प्रभावशीलता: 2 या 3 ब्लॉक का उपयोग करते समय अस्वीकार दर लगभग 1 के करीब है, 4 या 5 ब्लॉक का उपयोग करते समय 0 के करीब है, जो अपेक्षित है
- नमूना आकार प्रभाव: बड़ा नमूना आकार (n=100) अधिक मजबूत सांख्यिकीय शक्ति प्रदान करता है
- मौजूदा विधियों के साथ अंतर:
- यह विधि वृक्ष प्रजाति नेटवर्क के लिए 10 ब्लॉक, कवक नेटवर्क के लिए 22 ब्लॉक चुनती है
- ICL मानदंड वृक्ष प्रजाति नेटवर्क के लिए 7 ब्लॉक, कवक नेटवर्क के लिए 9 ब्लॉक चुनता है
- अंतर विधि की रूढ़िवादिता और मॉडल फिटिंग के प्रति कठोर आवश्यकता के कारण हो सकता है
- वर्णक्रमीय विधियां: Lei (2016) की वर्णक्रमीय सुसंगतता परीक्षण
- ERGM विधि: Hunter आदि (2008) की संदर्भ वितरण तुलना विधि
- सुधारी गई परीक्षण: Hu आदि (2021) द्वारा सीधे कम्प्यूटेशनल लागत और सैद्धांतिक गारंटी समस्या को संबोधित करना
- शास्त्रीय SBM: Holland आदि (1983) की अव्यक्त ब्लॉक विस्तार
- मूल्यवान नेटवर्क: Krivitsky (2012) का ERGM गणना नेटवर्क तक विस्तार
- मॉडल चयन: Wang और Bickel (2017) की संभावना मॉडल चयन
- मार्कोव आधार: Diaconis और Sturmfels (1998) की मूल सिद्धांत
- नेटवर्क अनुप्रयोग: Karwa आदि (2023) द्वारा बर्नौली SBM पर परिमित नमूना परीक्षण
- गतिशील निर्माण: Gross आदि (2014) की गतिशील मार्कोव आधार विधि
- सैद्धांतिक योगदान: बीजगणितीय सांख्यिकी विधि को गैर-बर्नौली नेटवर्क मॉडल तक सफलतापूर्वक विस्तारित किया, कठोर सैद्धांतिक आधार प्रदान किया
- विधि प्रभावशीलता: प्रस्तावित परीक्षण विधि सिम्युलेटेड और वास्तविक डेटा दोनों पर अच्छे सांख्यिकीय गुण दिखाती है
- व्यावहारिक मूल्य: मूल्यवान नेटवर्क के मॉडल चयन के लिए व्यावहारिक समाधान प्रदान करता है
- कम्प्यूटेशनल जटिलता: MCMC विधि बड़े पैमाने के नेटवर्क पर अभिसरण समस्याओं का सामना कर सकती है
- रूढ़िवादिता: विधि अत्यधिक रूढ़िवादी हो सकती है, जिससे अधिक ब्लॉक संख्या का चयन हो सकता है
- ब्लॉक आवंटन निर्भरता: विधि ब्लॉक आवंटन अनुमान की गुणवत्ता पर निर्भर करती है
- समग्र मार्कोव श्रृंखला: कई फाइबर को नमूना करने में सक्षम विधियां विकसित करना
- कम्प्यूटेशनल अनुकूलन: MCMC अभिसरण और कम्प्यूटेशनल दक्षता में सुधार
- विस्तारित अनुप्रयोग: गतिशील नेटवर्क और बहु-स्तरीय नेटवर्क के साथ संयोजन
- सैद्धांतिक कठोरता: पूर्ण सैद्धांतिक ढांचा प्रदान करता है, जिसमें सुसंगतता प्रमाण और स्पर्शोन्मुख विश्लेषण शामिल है
- विधि नवीनता: पहली बार मार्कोव आधार विधि को गैर-बर्नौली SBM पर लागू करता है
- व्यापक प्रयोग: शक्ति विश्लेषण, प्रथम प्रकार की त्रुटि दर सत्यापन और वास्तविक डेटा अनुप्रयोग शामिल है
- स्पष्ट लेखन: पेपर संरचना तार्किक है, तकनीकी विवरण सटीक रूप से वर्णित हैं
- कम्प्यूटेशनल चुनौतियां: बड़े पैमाने के नेटवर्क के लिए कम्प्यूटेशनल जटिलता एक बाधा हो सकती है
- पैरामीटर संवेदनशीलता: विधि ब्लॉक आवंटन अनुमान की गुणवत्ता के प्रति काफी संवेदनशील है
- सीमित तुलना: अन्य गैर-अनंतस्पर्शी विधियों के साथ तुलना पर्याप्त नहीं है
- शैक्षणिक मूल्य: नेटवर्क सांख्यिकी और बीजगणितीय सांख्यिकी के अंतर्विषय अनुसंधान के लिए नई दिशा खोलता है
- व्यावहारिक मूल्य: पारिस्थितिकी, सामाजिक विज्ञान आदि क्षेत्रों में नेटवर्क विश्लेषण के लिए उपकरण प्रदान करता है
- पुनरुत्पादनीयता: विस्तृत एल्गोरिदम विवरण प्रदान करता है, कार्यान्वयन और पुनरुत्पादन को सुविधाजनक बनाता है
- छोटे से मध्यम आकार के नेटवर्क: विधि नोड्स संख्या कुछ सौ से अधिक न होने पर अच्छी तरह काम करती है
- मूल्यवान नेटवर्क डेटा: विशेष रूप से गणना या बहु-लेबल नेटवर्क डेटा के लिए उपयुक्त
- कठोर सांख्यिकीय परीक्षण: सटीक सांख्यिकीय अनुमान की आवश्यकता वाले अनुप्रयोग परिदृश्य
मुख्य संदर्भ साहित्य में शामिल हैं:
- Diaconis, P. और Sturmfels, B. (1998). सशर्त वितरण से नमूनाकरण के लिए बीजगणितीय एल्गोरिदम
- Holland, P. W., Laskey, K. B., और Leinhardt, S. (1983). स्टोकेस्टिक ब्लॉकमॉडल: पहले कदम
- Karwa, V. आदि (2023). डिग्री सुधारी और संबंधित स्टोकेस्टिक ब्लॉकमॉडल के लिए मोंटे कार्लो सुसंगतता परीक्षण
- Wang, Y. X. R. और Bickel, P. J. (2017). स्टोकेस्टिक ब्लॉकमॉडल के लिए संभावना-आधारित मॉडल चयन