A valued stochastic blockmodel (SBM) is a general way to view networked data in which nodes are grouped into blocks and links between them are measured by counts or labels. This family allows for varying dyad sampling schemes, thereby including the classical, Poisson, and labeled SBMs, as well as those in which some edge observations are censored. This paper addresses the question of testing goodness-of-fit of such non-Bernoulli SBMs, focusing in particular on finite-sample tests. We derive explicit Markov bases moves necessary to generate samples from reference distributions and define goodness-of-fit statistics for determining model fit, comparable to those in the literature for related model families.
For the labeled SBM, which includes in particular the censored-edge model, we study the asymptotic behavior of said statistics. One of the main purposes of testing goodness-of-fit of an SBM is to determine whether block membership of the nodes influences network formation. Power and Type 1 error rates are verified on simulated data. Additionally, we discuss the use of asymptotic results in selecting the number of blocks under the latent-block modeling assumption. The method derived for Poisson SBM is applied to ecological networks of host-parasite interactions. Our data analysis conclusions differ in selecting the number of blocks for the species from previous results in the literature.
- معرّف الورقة: 2510.13636
- العنوان: اختبارات حسن التوفيق غير المقاربة واختيار النموذج في نماذج الكتل العشوائية ذات القيم
- المؤلفون: Félix Almendra-Hernández, Miles Bakenhus, Vishesh Karwa, Mitsunori Ogawa, Sonja Petrović
- التصنيفات: stat.ME cs.SI math.ST stat.TH
- تاريخ النشر: 16 أكتوبر 2025
- رابط الورقة: https://arxiv.org/abs/2510.13636
تدرس هذه الورقة مشكلة اختبارات حسن التوفيق لنماذج الكتل العشوائية ذات القيم (valued stochastic blockmodel, SBM). تمثل نماذج SBM ذات القيم طريقة عامة لنمذجة بيانات الشبكات، حيث يتم تجميع العقد في كتل، وتُقاس الاتصالات بين العقد بواسطة أعداد أو تسميات. تسمح عائلة النموذج هذه بأنظمة أخذ عينات dyad مختلفة، بما في ذلك SBM الكلاسيكي وSBM بواسون والـ SBM المُسمى، بالإضافة إلى الحالات التي تكون فيها بعض ملاحظات الحافة مرقوبة. تركز الورقة على الاختبارات ذات العينات المحدودة لنماذج SBM غير برنولي، وتشتق الحركات الصريحة للقاعدة ماركوفية اللازمة لأخذ عينات من توزيع مرجعي، وتحدد إحصائيات حسن التوفيق لتحديد ملاءمة النموذج. بالنسبة لـ SBM المُسمى (بما في ذلك نماذج الحافة المرقوبة)، يتم دراسة السلوك المقارب لهذه الإحصائيات.
- المشكلة الأساسية: كيفية إجراء اختبارات حسن التوفيق لنماذج الكتل العشوائية ذات القيم غير برنولي، خاصة في حالات العينات المحدودة
- الأهمية:
- في تحليل بيانات الشبكات، يعتبر تحديد ما إذا كانت عضوية الكتلة للعقد تؤثر على تشكيل الشبكة مسألة حاسمة
- تركز الطرق الموجودة بشكل أساسي على الرسوم البيانية البسيطة (dyad برنولي)، بينما تحتوي بيانات الشبكات الفعلية غالباً على أعداد أو أنواع متعددة من الاتصالات
- الاختبارات ذات العينات المحدودة لها قيمة عملية مهمة في البيانات الصغيرة
- قيود SBM الكلاسيكي: تستخدم معظم الأطر الموجودة رسوم بيانية بسيطة، حيث يتم نمذجة dyad كمتغيرات عشوائية برنولي
- مشاكل الطرق المقاربة: معايير العينات الكبيرة مثل BIC تفشل في نماذج الشبكات عندما تنمو أبعاد المعاملات
- نقص الضمانات النظرية: تفتقر الطرق الموجودة إلى ضمانات نظرية لتوزيع الفرضية الصفرية والقوة المقاربة
- توسيع طرق القاعدة ماركوفية من الإحصائيات الجبرية إلى نماذج الشبكات غير برنولي
- بناء إطار اختبار بايزي جزئي يأخذ في الاعتبار عدم اليقين في المعاملات
- توفير إرشادات نظرية لاختيار النموذج، خاصة اختيار عدد الكتل
- المساهمات النظرية:
- اشتقاق القواعس ماركوفية الصريحة لـ SBM بواسون و SBM المُسمى
- إثبات اتساق مقدرات الاستيفاء
- إنشاء نظرية مقاربة لإحصائيات حسن التوفيق
- المساهمات المنهجية:
- اقتراح اختبارات حسن التوفيق الشرطية للتخصيص الثابت للكتل والتخصيص غير المعروف
- بناء إطار حساب قيم p بايزي جزئي
- تطوير خوارزمية أخذ عينات الألياف القائمة على MCMC
- المساهمات التطبيقية:
- تطبيق الطريقة على تحليل التفاعلات بين المضيف والطفيلي في الشبكات البيئية
- التحقق من قوة الطريقة ومعدلات الخطأ من النوع الأول على البيانات المحاكاة
- توفير مبادئ إرشادية عملية لاختيار النموذج
بالنظر إلى شبكة ذات قيم G=(Guv)1≤u<v≤n، حيث يمثل Guv قوة الاتصال (العد أو التسمية) بين زوج العقد {u,v}، الهدف هو:
- اختبار ما إذا كانت الشبكة تتوافق مع نموذج SBM ذي قيم معطى
- إجراء اختبار ملاءمة النموذج عندما يكون التخصيص للكتل غير معروف
- اختيار عدد الكتل المناسب k
بالنسبة لـ n عقدة و k كتلة، يفترض SBM ذو القيم:
- الاستقلال الشرطي: Guv⊥⊥Gu′v′∣Z لأي dyad اثنين
- صيغة العائلة الأسية:
Pθ(G=g∣Z=z)=∏1≤u<v≤nψ(θzuzv)h(guv)exp⟨Tz(guv),θzuzv⟩
حيث h هي القياس الأساسي، Tz هي الإحصائية الكافية، و θ هو متجه المعاملات.
- SBM الكلاسيكي: Guv∣Z=z∼Bernoulli(θzuzv)
- SBM بواسون: Guv∣Z=z∼Poisson(θzuzv)
- SBM المُسمى: Guv∣Z=z∼Multinomial(N,(θzuzv(ℓ))ℓ=1L)
القاعدة ماركوفية لـ SBM بواسون:
B={εuv−εu′v′:zu=zu′,zv=zv′}
القاعدة ماركوفية لـ SBM المُسمى:
B={εuv(ℓ)+εu′v′(ℓ′)−εuv(ℓ′)−εu′v′(ℓ):ℓ,ℓ′∈[L],zu=zu′,zv=zv′}
- تعريف الألياف: Fz,t:={g∈G:Tz(g)=t}
- التوزيع الشرطي: P(G=g∣Tz(g)=t)=∑g′∈Fz,th(g′)h(g)
- قيمة p الدقيقة: p(z,g)=P(GoFz(G)≥GoFz(g)∣Tz(g))
بالنسبة لتخصيص الكتل غير المعروف، يتم تعريف قيمة p بايزية جزئية:
pb(g)=∑z∈Zn,kp(z,g)P(Z=z∣g)
تتعامل هذه الطريقة مع عدم اليقين في تخصيص الكتل من خلال حساب المتوسط على التوزيع اللاحق.
SBM بواسون:
GoFz(g)=∑u=1n∑i=1kniθ^zui(mui−niθ^zui)2
SBM المُسمى:
GoFz(g)=χBC2(g,z)=∑u=1n∑i=1k∑ℓ=1L−1niθ^zui(ℓ)(mui(ℓ)−niθ^zui(ℓ))2
- البيانات المحاكاة:
- عدد العقد: n=50,100
- 4 مصفوفات اتصال مختلفة θ(1),θ(2),θ(3),θ(4)
- إنشاء 100 رسم بياني لكل إعداد
- البيانات الحقيقية:
- شبكة الفطريات الطفيلية (154 عقدة)
- شبكة أنواع الأشجار (51 عقدة)
- أوزان الحافة تمثل عدد الأنواع المضيفة/الطفيلية المشتركة
- معدل الخطأ من النوع الأول: معدل رفض الفرضية الصفرية عند مستوى الدلالة 0.05
- قوة الاختبار: معدل رفض النموذج عند أعداد كتل مختلفة
- دقة اختيار النموذج: المقارنة مع معيار ICL
- معيار ICL (الاحتمالية المتكاملة الكاملة)
- خوارزمية EM المتغيرة لتقدير تخصيص الكتل
- حزمة sbm في R
- طول سلسلة MCMC: يتحكم فيه معامل numGraphs
- تقدير تخصيص الكتل: استخدام خوارزمية EM المتغيرة
- عتبة الاحتمالية اللاحقة: ε=1/m، حيث m هو حجم المجموعة الداعمة
النتائج عند n=50:
| θ | كتلتان | 3 كتل | 4 كتل | 5 كتل |
|---|
| θ⁽¹⁾ | 1.00 | 0.59 | 0.05 | 0.01 |
| θ⁽²⁾ | 1.00 | 0.66 | 0.03 | 0.03 |
| θ⁽³⁾ | 0.88 | 1.00 | 0.07 | 0.04 |
| θ⁽⁴⁾ | 1.00 | 0.99 | 0.06 | 0.03 |
النتائج عند n=100:
| θ | كتلتان | 3 كتل | 4 كتل | 5 كتل |
|---|
| θ⁽¹⁾ | 1.00 | 0.98 | 0.05 | 0.00 |
| θ⁽²⁾ | 1.00 | 1.00 | 0.06 | 0.01 |
| θ⁽³⁾ | 1.00 | 1.00 | 0.08 | 0.02 |
| θ⁽⁴⁾ | 1.00 | 1.00 | 0.08 | 0.02 |
شبكة أنواع الأشجار:
- الكتل 3-7: قيمة p = 0
- الكتل 8-9: قيمة p = 0.01
- الكتلة 10: قيمة p = 0.19
- الكتل 11-15: قيمة p ≥ 0.68
شبكة الفطريات:
- الكتل 3-17: قيمة p = 0
- الكتل 18-21: قيمة p = 0.01
- الكتلة 22: قيمة p = 0.07
- فعالية الطريقة: معدل الرفض قريب من 1 عند استخدام كتلتين أو 3 كتل، وقريب من 0 عند استخدام 4 أو 5 كتل، وهو ما يتوافق مع التوقعات
- تأثير حجم العينة: حجم عينة أكبر (n=100) يوفر قوة إحصائية أقوى
- الاختلاف عن الطرق الموجودة:
- تختار هذه الطريقة 10 كتل لشبكة الأشجار و22 كتلة لشبكة الفطريات
- يختار معيار ICL 7 كتل لشبكة الأشجار و9 كتل لشبكة الفطريات
- قد يكون الاختلاف بسبب تحفظ الطريقة والمتطلبات الصارمة لملاءمة النموذج
- الطرق الطيفية: اختبار حسن التوفيق الطيفي لـ Lei (2016)
- طرق ERGM: طريقة مقارنة التوزيع المرجعي لـ Hunter وآخرين (2008)
- الاختبارات المحسّنة: طريقة Hu وآخرين (2021) التي تعالج مباشرة تكاليف الحساب والضمانات النظرية
- SBM الكلاسيكي: تمديد الكتل الكامنة لـ Holland وآخرين (1983)
- الشبكات ذات القيم: تمديد ERGM للشبكات ذات الأعداد لـ Krivitsky (2012)
- اختيار النموذج: اختيار النموذج القائم على الاحتمالية لـ Wang و Bickel (2017)
- القاعدة ماركوفية: النظرية الأساسية لـ Diaconis و Sturmfels (1998)
- تطبيقات الشبكات: اختبارات العينات المحدودة لـ SBM برنولي لـ Karwa وآخرين (2023)
- البناء الديناميكي: طريقة القاعدة ماركوفية الديناميكية لـ Gross وآخرين (2014)
- المساهمة النظرية: توسيع ناجح لطرق الإحصائيات الجبرية إلى نماذج الشبكات غير برنولي، مع توفير أساس نظري صارم
- فعالية الطريقة: تظهر طريقة الاختبار المقترحة خصائص إحصائية جيدة على البيانات المحاكاة والحقيقية
- القيمة العملية: توفير حل قابل للتطبيق لاختيار النموذج للشبكات ذات القيم
- التعقيد الحسابي: قد تواجه طريقة MCMC مشاكل في التقارب على الشبكات الكبيرة
- التحفظ: قد تكون الطريقة متحفظة جداً، مما يؤدي إلى اختيار عدد أكبر من الكتل
- الاعتماد على تخصيص الكتل: تعتمد الطريقة على جودة تقدير تخصيص الكتل
- سلاسل ماركوف المركبة: تطوير طرق قادرة على أخذ عينات من ألياف متعددة
- تحسين الحساب: تحسين التقارب والكفاءة الحسابية لـ MCMC
- التطبيقات الموسعة: الدمج مع الشبكات الديناميكية والشبكات متعددة الطبقات
- الصرامة النظرية: توفير إطار نظري كامل، بما في ذلك إثباتات الاتساق والتحليل المقارب
- الابتكار المنهجي: أول تطبيق لطريقة القاعدة ماركوفية على SBM غير برنولي
- التجارب الشاملة: تتضمن تحليل القوة والتحقق من معدل الخطأ من النوع الأول والتطبيقات على بيانات حقيقية
- الكتابة الواضحة: هيكل الورقة منطقي وتفاصيل تقنية دقيقة
- التحديات الحسابية: قد يكون التعقيد الحسابي عائقاً للشبكات الكبيرة
- حساسية المعاملات: تعتمد الطريقة بشكل كبير على جودة تقدير تخصيص الكتل
- المقارنات المحدودة: المقارنة مع طرق غير مقاربة أخرى غير كافية
- القيمة الأكاديمية: فتح اتجاهات بحثية جديدة في التقاطع بين إحصائيات الشبكات والإحصائيات الجبرية
- القيمة العملية: توفير أدوات لتحليل الشبكات في علم البيئة والعلوم الاجتماعية وغيرها
- قابلية التكرار: توفير وصف خوارزمي مفصل يسهل التنفيذ والتكرار
- الشبكات الصغيرة إلى المتوسطة: تعمل الطريقة بشكل جيد عندما لا يتجاوز عدد العقد بضع مئات
- بيانات الشبكات ذات القيم: مناسبة بشكل خاص لبيانات الشبكات ذات الأعداد أو التسميات المتعددة
- الاستدلال الإحصائي الصارم: سيناريوهات التطبيق التي تتطلب استدلالاً إحصائياً دقيقاً
تتضمن المراجع الرئيسية:
- Diaconis, P. and Sturmfels, B. (1998). خوارزميات جبرية لأخذ عينات من التوزيعات الشرطية
- Holland, P. W., Laskey, K. B., and Leinhardt, S. (1983). نماذج الكتل العشوائية: الخطوات الأولى
- Karwa, V. et al. (2023). اختبارات حسن التوفيق مونت كارلو لنماذج الكتل العشوائية المصححة بالدرجة والنماذج ذات الصلة
- Wang, Y. X. R. and Bickel, P. J. (2017). اختيار النموذج القائم على الاحتمالية لنماذج الكتل العشوائية