2025-11-23T19:04:16.167784

Non-asymptotic goodness-of-fit tests and model selection in valued stochastic blockmodels

Almendra-Hernández, Bakenhus, Karwa et al.
A valued stochastic blockmodel (SBM) is a general way to view networked data in which nodes are grouped into blocks and links between them are measured by counts or labels. This family allows for varying dyad sampling schemes, thereby including the classical, Poisson, and labeled SBMs, as well as those in which some edge observations are censored. This paper addresses the question of testing goodness-of-fit of such non-Bernoulli SBMs, focusing in particular on finite-sample tests. We derive explicit Markov bases moves necessary to generate samples from reference distributions and define goodness-of-fit statistics for determining model fit, comparable to those in the literature for related model families. For the labeled SBM, which includes in particular the censored-edge model, we study the asymptotic behavior of said statistics. One of the main purposes of testing goodness-of-fit of an SBM is to determine whether block membership of the nodes influences network formation. Power and Type 1 error rates are verified on simulated data. Additionally, we discuss the use of asymptotic results in selecting the number of blocks under the latent-block modeling assumption. The method derived for Poisson SBM is applied to ecological networks of host-parasite interactions. Our data analysis conclusions differ in selecting the number of blocks for the species from previous results in the literature.
academic

Test di bontà di adattamento non asintotici e selezione del modello nei modelli di blocco stocastico valutati

Informazioni di base

  • ID articolo: 2510.13636
  • Titolo: Test di bontà di adattamento non asintotici e selezione del modello nei modelli di blocco stocastico valutati
  • Autori: Félix Almendra-Hernández, Miles Bakenhus, Vishesh Karwa, Mitsunori Ogawa, Sonja Petrović
  • Classificazione: stat.ME cs.SI math.ST stat.TH
  • Data di pubblicazione: 16 ottobre 2025
  • Link articolo: https://arxiv.org/abs/2510.13636

Riassunto

Questo articolo affronta il problema dei test di bontà di adattamento per modelli di blocco stocastico valutati (valued stochastic blockmodel, SBM). I modelli SBM valutati rappresentano un approccio generale per la modellazione di dati di rete, che raggruppa i nodi in blocchi, dove le connessioni tra nodi sono misurate mediante conteggi o etichette. Questa famiglia di modelli consente diversi schemi di campionamento dei dyad, inclusi SBM classici, SBM di Poisson e SBM etichettati, nonché situazioni in cui alcune osservazioni di archi sono censurate. L'articolo si concentra sui test a campione finito per SBM non bernoulliani, derivando i movimenti espliciti della base di Markov necessari per generare campioni dalla distribuzione di riferimento e definendo statistiche di bontà di adattamento per determinare l'adattamento del modello. Per gli SBM etichettati (inclusi i modelli con archi censurati), vengono studiate le proprietà asintotiche di queste statistiche.

Contesto di ricerca e motivazione

Definizione del problema

  1. Problema centrale: Come condurre test di bontà di adattamento per modelli di blocco stocastico valutati non bernoulliani, in particolare nel caso di campioni finiti
  2. Importanza:
    • Nell'analisi dei dati di rete, determinare se l'appartenenza ai blocchi dei nodi influenza la formazione della rete è una questione cruciale
    • I metodi esistenti si concentrano principalmente su grafi semplici (dyad bernoulliani), mentre i dati di rete reali spesso contengono conteggi o molteplici tipi di connessioni
    • I test a campione finito hanno un valore pratico significativo per dati con piccoli campioni

Limitazioni dei metodi esistenti

  1. Limitazioni dell'SBM classico: La maggior parte dei framework esistenti utilizza grafi semplici, modellando i dyad come variabili casuali bernoulliane
  2. Problemi dei metodi asintotici: Criteri per grandi campioni come il BIC falliscono nei modelli di rete quando la dimensionalità dei parametri aumenta
  3. Mancanza di garanzie teoriche: I metodi esistenti mancano di garanzie teoriche sulla distribuzione dell'ipotesi nulla e sulla potenza asintotica

Motivazione della ricerca

  • Estendere i metodi della base di Markov dalla statistica algebrica ai modelli di rete non bernoulliani
  • Costruire un framework di test bayesiano parziale che consideri l'incertezza parametrica
  • Fornire guida teorica per la selezione del modello, in particolare per la scelta del numero di blocchi

Contributi principali

  1. Contributi teorici:
    • Derivazione delle basi di Markov esplicite per SBM di Poisson e SBM etichettati
    • Dimostrazione della coerenza degli stimatori per interpolazione
    • Stabilimento della teoria asintotica per le statistiche di bontà di adattamento
  2. Contributi metodologici:
    • Proposizione di test di bontà di adattamento condizionati per assegnazioni di blocchi fisse e sconosciute
    • Costruzione di un framework per il calcolo dei p-value bayesiani parziali
    • Sviluppo di algoritmi di campionamento delle fibre basati su MCMC
  3. Contributi applicativi:
    • Applicazione del metodo all'analisi delle interazioni ospite-parassita nelle reti ecologiche
    • Verifica della potenza del metodo e dei tassi di errore di tipo I su dati simulati
    • Fornitura di linee guida pratiche per la selezione del modello

Dettagli metodologici

Definizione del compito

Dato un grafo valutato G=(Guv)1u<vnG = (G_{uv})_{1≤u<v≤n}, dove GuvG_{uv} rappresenta l'intensità della connessione (conteggio o etichetta) tra la coppia di nodi {u,v}\{u,v\}, l'obiettivo è:

  1. Verificare se la rete è conforme a un dato SBM valutato
  2. Condurre test di adattamento del modello quando l'assegnazione dei blocchi è sconosciuta
  3. Selezionare il numero appropriato di blocchi kk

Architettura del modello

1. Definizione dell'SBM valutato

Per nn nodi e kk blocchi, l'SBM valutato assume:

  • Indipendenza condizionata: Guv ⁣ ⁣ ⁣GuvZG_{uv} \perp\!\!\!\perp G_{u'v'} | Z per qualsiasi coppia di dyad
  • Forma della famiglia esponenziale: Pθ(G=gZ=z)=1u<vnh(guv)expTz(guv),θzuzvψ(θzuzv)P_θ(G = g | Z = z) = \prod_{1≤u<v≤n} \frac{h(g_{uv})\exp⟨T_z(g_{uv}), θ_{z_uz_v}⟩}{ψ(θ_{z_uz_v})}

dove hh è la misura di base, TzT_z è la statistica sufficiente, e θθ è il vettore dei parametri.

2. Casi speciali

  • SBM classico: GuvZ=zBernoulli(θzuzv)G_{uv} | Z = z \sim \text{Bernoulli}(θ_{z_uz_v})
  • SBM di Poisson: GuvZ=zPoisson(θzuzv)G_{uv} | Z = z \sim \text{Poisson}(θ_{z_uz_v})
  • SBM etichettato: GuvZ=zMultinomial(N,(θzuzv())=1L)G_{uv} | Z = z \sim \text{Multinomial}(N, (θ^{(ℓ)}_{z_uz_v})^L_{ℓ=1})

3. Costruzione della base di Markov

Base di Markov per l'SBM di Poisson: B={εuvεuv:zu=zu,zv=zv}B = \{ε_{uv} - ε_{u'v'} : z_u = z_{u'}, z_v = z_{v'}\}

Base di Markov per l'SBM etichettato: B={εuv()+εuv()εuv()εuv():,[L],zu=zu,zv=zv}B = \{ε^{(ℓ)}_{uv} + ε^{(ℓ')}_{u'v'} - ε^{(ℓ')}_{uv} - ε^{(ℓ)}_{u'v'} : ℓ,ℓ' ∈ [L], z_u = z_{u'}, z_v = z_{v'}\}

Punti di innovazione tecnica

1. Framework di test condizionato

  • Definizione della fibra: Fz,t:={gG:Tz(g)=t}F_{z,t} := \{g ∈ G : T_z(g) = t\}
  • Distribuzione condizionata: P(G=gTz(g)=t)=h(g)gFz,th(g)P(G = g | T_z(g) = t) = \frac{h(g)}{\sum_{g' ∈ F_{z,t}} h(g')}
  • p-value esatto: p(z,g)=P(GoFz(G)GoFz(g)Tz(g))p(z,g) = P(\text{GoF}_z(G) ≥ \text{GoF}_z(g) | T_z(g))

2. Metodo bayesiano parziale

Per assegnazioni di blocchi sconosciute, si definisce il p-value bayesiano parziale: pb(g)=zZn,kp(z,g)P(Z=zg)p_b(g) = \sum_{z ∈ Z_{n,k}} p(z,g)P(Z = z | g)

Questo approccio gestisce l'incertezza nell'assegnazione dei blocchi mediando sulla distribuzione posteriore.

3. Statistiche di bontà di adattamento

SBM di Poisson: GoFz(g)=u=1ni=1k(muiniθ^zui)2niθ^zui\text{GoF}_z(g) = \sum_{u=1}^n \sum_{i=1}^k \frac{(m_{ui} - n_iθ̂_{z_ui})^2}{n_iθ̂_{z_ui}}

SBM etichettato: GoFz(g)=χBC2(g,z)=u=1ni=1k=1L1(mui()niθ^zui())2niθ^zui()\text{GoF}_z(g) = χ^2_{BC}(g,z) = \sum_{u=1}^n \sum_{i=1}^k \sum_{ℓ=1}^{L-1} \frac{(m^{(ℓ)}_{ui} - n_iθ̂^{(ℓ)}_{z_ui})^2}{n_iθ̂^{(ℓ)}_{z_ui}}

Configurazione sperimentale

Dataset

  1. Dati simulati:
    • Numero di nodi: n=50,100n = 50, 100
    • 4 diverse matrici di connessione θ(1),θ(2),θ(3),θ(4)θ^{(1)}, θ^{(2)}, θ^{(3)}, θ^{(4)}
    • 100 grafi generati per ogni configurazione
  2. Dati reali:
    • Rete di funghi parassiti (154 nodi)
    • Rete di specie arboree (51 nodi)
    • I pesi degli archi rappresentano il numero di specie ospite/parassita condivise

Metriche di valutazione

  1. Tasso di errore di tipo I: Tasso di rifiuto dell'ipotesi nulla al livello di significatività 0.05
  2. Potenza del test: Tasso di rifiuto del modello con diversi numeri di blocchi
  3. Accuratezza della selezione del modello: Confronto con il criterio ICL

Metodi di confronto

  • Criterio ICL (Integrated Complete Likelihood)
  • Algoritmo EM variazionale per la stima dell'assegnazione dei blocchi
  • Implementazione del pacchetto R sbm

Dettagli di implementazione

  • Lunghezza della catena MCMC: controllata dal parametro numGraphs
  • Stima dell'assegnazione dei blocchi: utilizzo dell'algoritmo EM variazionale
  • Soglia di probabilità posteriore: ε=1/mε = 1/m, dove mm è la dimensione del supporto

Risultati sperimentali

Risultati principali

1. Verifica della potenza e del tasso di errore di tipo I

Risultati per n=50n=50:

θ2 blocchi3 blocchi4 blocchi5 blocchi
θ⁽¹⁾1.000.590.050.01
θ⁽²⁾1.000.660.030.03
θ⁽³⁾0.881.000.070.04
θ⁽⁴⁾1.000.990.060.03

Risultati per n=100n=100:

θ2 blocchi3 blocchi4 blocchi5 blocchi
θ⁽¹⁾1.000.980.050.00
θ⁽²⁾1.001.000.060.01
θ⁽³⁾1.001.000.080.02
θ⁽⁴⁾1.001.000.080.02

2. Applicazione ai dati reali

Rete di specie arboree:

  • Numero di blocchi 3-7: p-value = 0
  • Numero di blocchi 8-9: p-value = 0.01
  • Numero di blocchi 10: p-value = 0.19
  • Numero di blocchi 11-15: p-value ≥ 0.68

Rete di specie fungine:

  • Numero di blocchi 3-17: p-value = 0
  • Numero di blocchi 18-21: p-value = 0.01
  • Numero di blocchi 22: p-value = 0.07

Scoperte sperimentali

  1. Validità del metodo: I tassi di rifiuto sono prossimi a 1 quando si utilizzano 2 o 3 blocchi e prossimi a 0 con 4 o 5 blocchi, come previsto
  2. Effetto della dimensione del campione: Campioni più grandi (n=100n=100) forniscono una potenza statistica più forte
  3. Differenze dai metodi esistenti:
    • Questo metodo seleziona 10 blocchi per la rete arborea e 22 per la rete fungina
    • Il criterio ICL seleziona 7 blocchi per la rete arborea e 9 per la rete fungina
    • Le differenze potrebbero essere dovute alla natura conservativa del metodo e ai requisiti rigorosi per l'adattamento del modello

Lavori correlati

Test di bontà di adattamento per reti

  1. Metodi spettrali: Test di bontà di adattamento spettrale di Lei (2016)
  2. Metodo ERGM: Metodo di confronto della distribuzione di riferimento di Hunter et al. (2008)
  3. Test migliorati: Hu et al. (2021) affrontano direttamente i costi computazionali e le garanzie teoriche

Modelli di blocco stocastico

  1. SBM classico: Estensione di blocchi latenti di Holland et al. (1983)
  2. Reti valutate: Estensione ERGM a reti di conteggi di Krivitsky (2012)
  3. Selezione del modello: Selezione del modello basata sulla verosimiglianza di Wang e Bickel (2017)

Statistica algebrica

  1. Base di Markov: Teoria fondamentale di Diaconis e Sturmfels (1998)
  2. Applicazioni di rete: Test a campione finito per SBM bernoulliani di Karwa et al. (2023)
  3. Costruzione dinamica: Metodo di base di Markov dinamica di Gross et al. (2014)

Conclusioni e discussione

Conclusioni principali

  1. Contributo teorico: Estensione riuscita dei metodi di statistica algebrica ai modelli di rete non bernoulliani, fornendo una base teorica rigorosa
  2. Validità del metodo: Il metodo di test proposto mostra buone proprietà statistiche sia su dati simulati che reali
  3. Valore pratico: Fornisce una soluzione fattibile per la selezione del modello nelle reti valutate

Limitazioni

  1. Complessità computazionale: Il metodo MCMC potrebbe affrontare problemi di convergenza su reti su larga scala
  2. Conservatività: Il metodo potrebbe essere eccessivamente conservativo, portando alla selezione di un numero maggiore di blocchi
  3. Dipendenza dall'assegnazione dei blocchi: Il metodo dipende dalla qualità della stima dell'assegnazione dei blocchi

Direzioni future

  1. Catene di Markov composte: Sviluppo di metodi in grado di campionare da più fibre
  2. Ottimizzazione computazionale: Miglioramento della convergenza MCMC e dell'efficienza computazionale
  3. Estensione delle applicazioni: Integrazione con reti dinamiche e reti multistrato

Valutazione approfondita

Punti di forza

  1. Rigore teorico: Fornisce un framework teorico completo, incluse prove di coerenza e analisi asintotica
  2. Novità metodologica: Prima applicazione del metodo della base di Markov agli SBM non bernoulliani
  3. Esperimenti completi: Include analisi della potenza, verifica del tasso di errore di tipo I e applicazioni a dati reali
  4. Chiarezza della presentazione: La struttura dell'articolo è logica e i dettagli tecnici sono descritti accuratamente

Carenze

  1. Sfide computazionali: Per reti su larga scala, la complessità computazionale potrebbe diventare un collo di bottiglia
  2. Sensibilità ai parametri: Il metodo è relativamente sensibile alla qualità della stima dell'assegnazione dei blocchi
  3. Confronti limitati: I confronti con altri metodi non asintotici non sono sufficientemente approfonditi

Impatto

  1. Valore accademico: Apre nuove direzioni per la ricerca interdisciplinare tra statistica di rete e statistica algebrica
  2. Valore pratico: Fornisce strumenti per l'analisi di rete in ecologia, scienze sociali e altri campi
  3. Riproducibilità: La descrizione dettagliata degli algoritmi facilita l'implementazione e la riproduzione

Scenari di applicazione

  1. Reti di piccole e medie dimensioni: Il metodo funziona bene per reti con non più di qualche centinaio di nodi
  2. Dati di rete valutati: Particolarmente adatto per dati di rete con conteggi o etichette multiple
  3. Inferenza statistica rigorosa: Scenari di applicazione che richiedono inferenza statistica precisa

Bibliografia

Le principali referenze includono:

  • Diaconis, P. e Sturmfels, B. (1998). Algoritmi algebrici per il campionamento da distribuzioni condizionate
  • Holland, P. W., Laskey, K. B., e Leinhardt, S. (1983). Modelli di blocco stocastico: primi passi
  • Karwa, V. et al. (2023). Test di bontà di adattamento Monte Carlo per modelli di blocco stocastico corretti per il grado e correlati
  • Wang, Y. X. R. e Bickel, P. J. (2017). Selezione del modello basata sulla verosimiglianza per modelli di blocco stocastico