A valued stochastic blockmodel (SBM) is a general way to view networked data in which nodes are grouped into blocks and links between them are measured by counts or labels. This family allows for varying dyad sampling schemes, thereby including the classical, Poisson, and labeled SBMs, as well as those in which some edge observations are censored. This paper addresses the question of testing goodness-of-fit of such non-Bernoulli SBMs, focusing in particular on finite-sample tests. We derive explicit Markov bases moves necessary to generate samples from reference distributions and define goodness-of-fit statistics for determining model fit, comparable to those in the literature for related model families.
For the labeled SBM, which includes in particular the censored-edge model, we study the asymptotic behavior of said statistics. One of the main purposes of testing goodness-of-fit of an SBM is to determine whether block membership of the nodes influences network formation. Power and Type 1 error rates are verified on simulated data. Additionally, we discuss the use of asymptotic results in selecting the number of blocks under the latent-block modeling assumption. The method derived for Poisson SBM is applied to ecological networks of host-parasite interactions. Our data analysis conclusions differ in selecting the number of blocks for the species from previous results in the literature.
- Paper-ID: 2510.13636
- Titel: Non-asymptotic goodness-of-fit tests and model selection in valued stochastic blockmodels
- Autoren: Félix Almendra-Hernández, Miles Bakenhus, Vishesh Karwa, Mitsunori Ogawa, Sonja Petrović
- Klassifizierung: stat.ME cs.SI math.ST stat.TH
- Veröffentlichungsdatum: 16. Oktober 2025
- Paper-Link: https://arxiv.org/abs/2510.13636
Diese Arbeit untersucht Anpassungsgütetests für bewertete stochastische Blockmodelle (valued stochastic blockmodel, SBM). Bewertete SBMs sind eine universelle Modellierungsmethode für Netzwerkdaten, die Knoten in Blöcke gruppiert und Verbindungen zwischen Knoten durch Zählungen oder Etiketten misst. Diese Modellfamilie ermöglicht verschiedene Dyaden-Stichprobenschemata, einschließlich klassischer SBMs, Poisson-SBMs und gekennzeichneter SBMs sowie bestimmter zensierter Kantenbeobachtungen. Der Artikel konzentriert sich auf endliche Stichprobentests für nicht-Bernoulli-SBMs, leitet explizite Markov-Basis-Bewegungen ab, die zur Erzeugung von Referenzverteilungsstichproben erforderlich sind, und definiert Anpassungsgütestatistiken zur Bestimmung der Modellanpassung. Für gekennzeichnete SBMs (einschließlich zensierter Kantenmodelle) wird das asymptotische Verhalten dieser Statistiken untersucht.
- Kernproblem: Wie führt man Anpassungsgütetests für nicht-Bernoulli-bewertete stochastische Blockmodelle durch, besonders in endlichen Stichprobensituationen?
- Bedeutung:
- Bei der Netzwerkdatenanalyse ist die Bestimmung, ob die Blockzugehörigkeit von Knoten die Netzwerkbildung beeinflusst, eine Schlüsselfrage
- Bestehende Methoden konzentrieren sich hauptsächlich auf einfache Graphen (Bernoulli-Dyaden), während reale Netzwerkdaten häufig Zählungen oder mehrere Arten von Verbindungen enthalten
- Endliche Stichprobentests haben praktischen Wert bei kleinen Datensätzen
- Klassische SBM-Einschränkungen: Die meisten bestehenden Rahmenwerke verwenden einfache Graphen und modellieren Dyaden als Bernoulli-Zufallsvariablen
- Probleme asymptotischer Methoden: Großstichprobenkriterien wie BIC versagen bei Netzwerkmodellen, wenn die Parameterdimension wächst
- Mangel an theoretischen Garantien: Bestehende Methoden bieten keine theoretischen Garantien für die Nullhypothesenverteilung und asymptotische Macht
- Erweiterung von Markov-Basis-Methoden aus der algebraischen Statistik auf nicht-Bernoulli-Netzwerkmodelle
- Konstruktion eines teilweise Bayesschen Testrahmenwerks, der Parameterunsicherheit berücksichtigt
- Bereitstellung theoretischer Anleitung für Modellauswahl, besonders für die Wahl der Blockanzahl
- Theoretische Beiträge:
- Ableitung expliziter Markov-Basen für Poisson-SBMs und gekennzeichnete SBMs
- Beweis der Konsistenz von Interpolationsschätzern
- Etablierung asymptotischer Theorie für Anpassungsgütestatistiken
- Methodische Beiträge:
- Vorschlag bedingter Anpassungsgütetests für feste und unbekannte Blockzuweisungen
- Konstruktion eines teilweise Bayesschen p-Wert-Berechnungsrahmens
- Entwicklung eines MCMC-basierten Fasersampling-Algorithmus
- Anwendungsbeiträge:
- Anwendung der Methode auf die Analyse von Wirt-Parasit-Wechselwirkungen in Ökologischen Netzwerken
- Validierung der Methoden-Macht und Fehlerrate erster Art auf simulierten Daten
- Bereitstellung praktischer Richtlinien für Modellauswahl
Gegeben ein bewertetes Netzwerk G=(Guv)1≤u<v≤n, wobei Guv die Verbindungsstärke (Zählung oder Etikett) zwischen dem Knotenpaar {u,v} darstellt, ist das Ziel:
- Zu testen, ob das Netzwerk einem gegebenen bewerteten SBM entspricht
- Durchführung von Modellanpassungstests, wenn Blockzuweisungen unbekannt sind
- Auswahl einer geeigneten Blockanzahl k
Für n Knoten und k Blöcke nimmt ein bewertetes SBM an:
- Bedingte Unabhängigkeit: Guv⊥⊥Gu′v′∣Z für beliebige zwei Dyaden
- Exponentialfamilienform:
Pθ(G=g∣Z=z)=∏1≤u<v≤nψ(θzuzv)h(guv)exp⟨Tz(guv),θzuzv⟩
wobei h das Basismass ist, Tz die suffiziente Statistik, und θ der Parametervektor.
- Klassisches SBM: Guv∣Z=z∼Bernoulli(θzuzv)
- Poisson-SBM: Guv∣Z=z∼Poisson(θzuzv)
- Gekennzeichnetes SBM: Guv∣Z=z∼Multinomial(N,(θzuzv(ℓ))ℓ=1L)
Markov-Basis für Poisson-SBM:
B={εuv−εu′v′:zu=zu′,zv=zv′}
Markov-Basis für gekennzeichnetes SBM:
B={εuv(ℓ)+εu′v′(ℓ′)−εuv(ℓ′)−εu′v′(ℓ):ℓ,ℓ′∈[L],zu=zu′,zv=zv′}
- Faserdefinition: Fz,t:={g∈G:Tz(g)=t}
- Bedingte Verteilung: P(G=g∣Tz(g)=t)=∑g′∈Fz,th(g′)h(g)
- Exakter p-Wert: p(z,g)=P(GoFz(G)≥GoFz(g)∣Tz(g))
Für unbekannte Blockzuweisungen wird der teilweise Bayessche p-Wert definiert als:
pb(g)=∑z∈Zn,kp(z,g)P(Z=z∣g)
Diese Methode behandelt die Unsicherheit der Blockzuweisung durch Mittelung über die Posteriori-Verteilung.
Poisson-SBM:
GoFz(g)=∑u=1n∑i=1kniθ^zui(mui−niθ^zui)2
Gekennzeichnetes SBM:
GoFz(g)=χBC2(g,z)=∑u=1n∑i=1k∑ℓ=1L−1niθ^zui(ℓ)(mui(ℓ)−niθ^zui(ℓ))2
- Simulierte Daten:
- Knotenzahl: n=50,100
- 4 verschiedene Verbindungsmatrizen θ(1),θ(2),θ(3),θ(4)
- 100 Graphen pro Einstellung generiert
- Reale Daten:
- Parasitärer Pilzartenetzwerk (154 Knoten)
- Baumartennetzwerk (51 Knoten)
- Kantengewichte stellen die Anzahl gemeinsamer Wirt-/Parasitenarten dar
- Fehlerrate erster Art: Ablehnungsrate der Nullhypothese auf Signifikanzniveau 0,05
- Testmacht: Modellablehnungsrate bei verschiedenen Blockanzahlen
- Modellauswahlgenauigkeit: Vergleich mit ICL-Kriterium
- ICL-Kriterium (Integrated Complete Likelihood)
- Variationelles EM-Algorithmus für Blockzuweisungsschätzung
- sbm R-Paket-Implementierung
- MCMC-Kettenlänge: durch numGraphs-Parameter gesteuert
- Blockzuweisungsschätzung: Verwendung des variationellen EM-Algorithmus
- Posteriori-Wahrscheinlichkeitsschwelle: ε=1/m, wobei m die Trägergröße ist
Ergebnisse bei n=50:
| θ | 2 Blöcke | 3 Blöcke | 4 Blöcke | 5 Blöcke |
|---|
| θ⁽¹⁾ | 1,00 | 0,59 | 0,05 | 0,01 |
| θ⁽²⁾ | 1,00 | 0,66 | 0,03 | 0,03 |
| θ⁽³⁾ | 0,88 | 1,00 | 0,07 | 0,04 |
| θ⁽⁴⁾ | 1,00 | 0,99 | 0,06 | 0,03 |
Ergebnisse bei n=100:
| θ | 2 Blöcke | 3 Blöcke | 4 Blöcke | 5 Blöcke |
|---|
| θ⁽¹⁾ | 1,00 | 0,98 | 0,05 | 0,00 |
| θ⁽²⁾ | 1,00 | 1,00 | 0,06 | 0,01 |
| θ⁽³⁾ | 1,00 | 1,00 | 0,08 | 0,02 |
| θ⁽⁴⁾ | 1,00 | 1,00 | 0,08 | 0,02 |
Baumartennetzwerk:
- Blöcke 3-7: p-Wert = 0
- Blöcke 8-9: p-Wert = 0,01
- Block 10: p-Wert = 0,19
- Blöcke 11-15: p-Wert ≥ 0,68
Pilzartennetzwerk:
- Blöcke 3-17: p-Wert = 0
- Blöcke 18-21: p-Wert = 0,01
- Block 22: p-Wert = 0,07
- Methodeneffektivität: Ablehnungsraten nahe 1 bei Verwendung von 2 oder 3 Blöcken, nahe 0 bei 4 oder 5 Blöcken, wie erwartet
- Stichprobengrösseneffekt: Grössere Stichprobenumfänge (n=100) bieten stärkere statistische Macht
- Unterschiede zu bestehenden Methoden:
- Diese Methode wählt 10 Blöcke für Baumartennetzwerk, 22 für Pilznetzwerk
- ICL-Kriterium wählt 7 Blöcke für Baumartennetzwerk, 9 für Pilznetzwerk
- Unterschiede können auf die Konservativität der Methode und strenge Anforderungen an Modellanpassung zurückgeführt werden
- Spektrale Methoden: Lei (2016) spektrale Anpassungsgütetests
- ERGM-Methoden: Hunter et al. (2008) Referenzverteilungsvergleichsmethoden
- Verbesserte Tests: Hu et al. (2021) direkte Behandlung von Rechenkosten und theoretischen Garantien
- Klassische SBMs: Holland et al. (1983) latente Blockerweiterung
- Bewertete Netzwerke: Krivitsky (2012) ERGM-Erweiterung auf Zählnetzwerke
- Modellauswahl: Wang und Bickel (2017) Likelihood-Modellauswahl
- Markov-Basen: Diaconis und Sturmfels (1998) Grundlagentheorie
- Netzwerkanwendungen: Karwa et al. (2023) endliche Stichprobentests für Bernoulli-SBMs
- Dynamische Konstruktion: Gross et al. (2014) dynamische Markov-Basis-Methoden
- Theoretischer Beitrag: Erfolgreiche Erweiterung algebraischer Statistikmethoden auf nicht-Bernoulli-Netzwerkmodelle mit strengem theoretischem Fundament
- Methodeneffektivität: Vorgeschlagene Testmethode zeigt gute statistische Eigenschaften auf simulierten und realen Daten
- Praktischer Wert: Bietet praktikable Lösung für Modellauswahl in bewerteten Netzwerken
- Rechenkomplexität: MCMC-Methoden können bei grossen Netzwerken auf Konvergenzprobleme stossen
- Konservativität: Methode kann zu konservativ sein, was zur Auswahl mehr Blöcke führt
- Blockzuweisungsabhängigkeit: Methode hängt von der Qualität der Blockzuweisungsschätzung ab
- Zusammengesetzte Markov-Ketten: Entwicklung von Methoden zum Sampling mehrerer Fasern
- Rechnerische Optimierung: Verbesserung der MCMC-Konvergenz und Recheneffizienz
- Erweiterte Anwendungen: Integration mit dynamischen und mehrschichtigen Netzwerken
- Theoretische Strenge: Vollständiger theoretischer Rahmen mit Konsistenzbeweisen und asymptotischer Analyse
- Methodische Neuheit: Erste Anwendung von Markov-Basis-Methoden auf nicht-Bernoulli-SBMs
- Umfassende Experimente: Einschliesslich Machtanalyse, Fehlerrate-erster-Art-Validierung und reale Datenanwendungen
- Klare Darstellung: Gut strukturiertes Papier mit präzisen technischen Details
- Rechnerische Herausforderungen: Rechenkomplexität kann bei grossen Netzwerken zum Engpass werden
- Parametersensitivität: Methode ist relativ empfindlich gegenüber der Qualität der Blockzuweisungsschätzung
- Begrenzte Vergleiche: Vergleiche mit anderen nicht-asymptotischen Methoden sind nicht ausreichend
- Akademischer Wert: Eröffnet neue Richtungen für Schnittstellen zwischen Netzwerkstatistik und algebraischer Statistik
- Praktischer Wert: Bietet Werkzeuge für Netzwerkanalyse in Ökologie, Sozialwissenschaften und anderen Bereichen
- Reproduzierbarkeit: Detaillierte Algorithmusbeschreibungen ermöglichen einfache Implementierung und Reproduktion
- Kleine bis mittlere Netzwerke: Methode funktioniert gut bei Netzwerken mit bis zu einigen hundert Knoten
- Bewertete Netzwerkdaten: Besonders geeignet für Zähl- oder Multi-Label-Netzwerkdaten
- Strenge statistische Inferenz: Anwendungsszenarien, die präzise statistische Tests erfordern
Wichtige Referenzen umfassen:
- Diaconis, P. and Sturmfels, B. (1998). Algebraic algorithms for sampling from conditional distributions
- Holland, P. W., Laskey, K. B., and Leinhardt, S. (1983). Stochastic blockmodels: First steps
- Karwa, V. et al. (2023). Monte Carlo goodness-of-fit tests for degree corrected and related stochastic blockmodels
- Wang, Y. X. R. and Bickel, P. J. (2017). Likelihood-based model selection for stochastic block models