A valued stochastic blockmodel (SBM) is a general way to view networked data in which nodes are grouped into blocks and links between them are measured by counts or labels. This family allows for varying dyad sampling schemes, thereby including the classical, Poisson, and labeled SBMs, as well as those in which some edge observations are censored. This paper addresses the question of testing goodness-of-fit of such non-Bernoulli SBMs, focusing in particular on finite-sample tests. We derive explicit Markov bases moves necessary to generate samples from reference distributions and define goodness-of-fit statistics for determining model fit, comparable to those in the literature for related model families.
For the labeled SBM, which includes in particular the censored-edge model, we study the asymptotic behavior of said statistics. One of the main purposes of testing goodness-of-fit of an SBM is to determine whether block membership of the nodes influences network formation. Power and Type 1 error rates are verified on simulated data. Additionally, we discuss the use of asymptotic results in selecting the number of blocks under the latent-block modeling assumption. The method derived for Poisson SBM is applied to ecological networks of host-parasite interactions. Our data analysis conclusions differ in selecting the number of blocks for the species from previous results in the literature.
- ID del Artículo: 2510.13636
- Título: Pruebas de bondad de ajuste no asintóticas y selección de modelos en modelos de bloques estocásticos valorados
- Autores: Félix Almendra-Hernández, Miles Bakenhus, Vishesh Karwa, Mitsunori Ogawa, Sonja Petrović
- Clasificación: stat.ME cs.SI math.ST stat.TH
- Fecha de Publicación: 16 de octubre de 2025
- Enlace del Artículo: https://arxiv.org/abs/2510.13636
Este artículo estudia el problema de pruebas de bondad de ajuste para modelos de bloques estocásticos valorados (valued stochastic blockmodel, SBM). Los SBM valorados constituyen un método de modelado versátil para datos de redes, que agrupa nodos en bloques, donde las conexiones entre nodos se miden mediante conteos o etiquetas. Esta familia de modelos permite diferentes esquemas de muestreo de díadas, incluyendo SBM clásicos, SBM de Poisson y SBM etiquetados, así como casos donde algunas observaciones de aristas están censuradas. El artículo se enfoca en pruebas de muestra finita para SBM no-Bernoulli, derivando movimientos explícitos de bases de Markov necesarios para generar muestras de distribuciones de referencia, y definiendo estadísticas de bondad de ajuste que determinan el ajuste del modelo. Para SBM etiquetados (incluyendo modelos con aristas censuradas), se estudia el comportamiento asintótico de estas estadísticas.
- Problema Central: Cómo realizar pruebas de bondad de ajuste para modelos de bloques estocásticos valorados no-Bernoulli, particularmente en situaciones de muestra finita
- Importancia:
- En análisis de datos de redes, determinar si la pertenencia a bloques de nodos influye en la formación de la red es una cuestión clave
- Los métodos existentes se enfocan principalmente en grafos simples (díadas Bernoulli), mientras que los datos reales de redes frecuentemente contienen conteos o múltiples tipos de conexiones
- Las pruebas de muestra finita tienen valor práctico significativo en datos de pequeña muestra
- Restricciones del SBM Clásico: La mayoría de marcos existentes utilizan grafos simples, modelando díadas como variables aleatorias Bernoulli
- Problemas de Métodos Asintóticos: Criterios de muestra grande como BIC fallan en modelos de redes cuando la dimensión de parámetros crece
- Falta de Garantías Teóricas: Los métodos existentes carecen de garantías teóricas sobre la distribución bajo la hipótesis nula y la potencia asintótica
- Extender métodos de bases de Markov de la estadística algebraica a modelos de redes no-Bernoulli
- Construir un marco de prueba parcialmente bayesiano que considere la incertidumbre paramétrica
- Proporcionar orientación teórica para selección de modelos, particularmente para la elección del número de bloques
- Contribuciones Teóricas:
- Derivación de bases de Markov explícitas para SBM de Poisson y SBM etiquetados
- Demostración de consistencia de estimadores interpolados
- Establecimiento de teoría asintótica para estadísticas de bondad de ajuste
- Contribuciones Metodológicas:
- Proposición de pruebas de bondad de ajuste condicionales para asignaciones de bloques fijas y desconocidas
- Construcción de marco de cálculo de valores p parcialmente bayesianos
- Desarrollo de algoritmo de muestreo de fibras basado en MCMC
- Contribuciones de Aplicación:
- Aplicación del método al análisis de interacciones hospedador-parásito en redes ecológicas
- Verificación de potencia del método y tasas de error tipo I en datos simulados
- Provisión de principios prácticos de orientación para selección de modelos
Dado un grafo valorado G=(Guv)1≤u<v≤n, donde Guv representa la intensidad de conexión (conteo o etiqueta) entre el par de nodos {u,v}, los objetivos son:
- Probar si la red se ajusta a un SBM valorado dado
- Realizar prueba de ajuste de modelo cuando la asignación de bloques es desconocida
- Seleccionar el número apropiado de bloques k
Para n nodos y k bloques, el SBM valorado asume:
- Independencia Condicional: Guv⊥⊥Gu′v′∣Z para cualesquiera dos díadas
- Forma de Familia Exponencial:
Pθ(G=g∣Z=z)=∏1≤u<v≤nψ(θzuzv)h(guv)exp⟨Tz(guv),θzuzv⟩
donde h es la medida base, Tz es la estadística suficiente, y θ es el vector de parámetros.
- SBM Clásico: Guv∣Z=z∼Bernoulli(θzuzv)
- SBM de Poisson: Guv∣Z=z∼Poisson(θzuzv)
- SBM Etiquetado: Guv∣Z=z∼Multinomial(N,(θzuzv(ℓ))ℓ=1L)
Base de Markov para SBM de Poisson:
B={εuv−εu′v′:zu=zu′,zv=zv′}
Base de Markov para SBM Etiquetado:
B={εuv(ℓ)+εu′v′(ℓ′)−εuv(ℓ′)−εu′v′(ℓ):ℓ,ℓ′∈[L],zu=zu′,zv=zv′}
- Definición de Fibra: Fz,t:={g∈G:Tz(g)=t}
- Distribución Condicional: P(G=g∣Tz(g)=t)=∑g′∈Fz,th(g′)h(g)
- Valor p Exacto: p(z,g)=P(GoFz(G)≥GoFz(g)∣Tz(g))
Para asignación de bloques desconocida, se define el valor p parcialmente bayesiano:
pb(g)=∑z∈Zn,kp(z,g)P(Z=z∣g)
Este enfoque maneja la incertidumbre en la asignación de bloques promediando sobre la distribución posterior.
SBM de Poisson:
GoFz(g)=∑u=1n∑i=1kniθ^zui(mui−niθ^zui)2
SBM Etiquetado:
GoFz(g)=χBC2(g,z)=∑u=1n∑i=1k∑ℓ=1L−1niθ^zui(ℓ)(mui(ℓ)−niθ^zui(ℓ))2
- Datos Simulados:
- Número de nodos: n=50,100
- 4 matrices de conexión diferentes θ(1),θ(2),θ(3),θ(4)
- 100 grafos generados para cada configuración
- Datos Reales:
- Red de especies de hongos parásitos (154 nodos)
- Red de especies de árboles (51 nodos)
- Pesos de aristas representan número de especies hospedador/parásito compartidas
- Tasa de Error Tipo I: Tasa de rechazo de hipótesis nula al nivel de significancia 0.05
- Potencia de Prueba: Tasa de rechazo de modelo bajo diferentes números de bloques
- Precisión de Selección de Modelo: Comparación con criterio ICL
- Criterio ICL (Verosimilitud Completa Integrada)
- Algoritmo EM variacional para estimación de asignación de bloques
- Paquete R sbm
- Longitud de cadena MCMC: controlada por parámetro numGraphs
- Estimación de asignación de bloques: usando algoritmo EM variacional
- Umbral de probabilidad posterior: ε=1/m, donde m es el tamaño del conjunto de soporte
Resultados para n=50:
| θ | 2 bloques | 3 bloques | 4 bloques | 5 bloques |
|---|
| θ⁽¹⁾ | 1.00 | 0.59 | 0.05 | 0.01 |
| θ⁽²⁾ | 1.00 | 0.66 | 0.03 | 0.03 |
| θ⁽³⁾ | 0.88 | 1.00 | 0.07 | 0.04 |
| θ⁽⁴⁾ | 1.00 | 0.99 | 0.06 | 0.03 |
Resultados para n=100:
| θ | 2 bloques | 3 bloques | 4 bloques | 5 bloques |
|---|
| θ⁽¹⁾ | 1.00 | 0.98 | 0.05 | 0.00 |
| θ⁽²⁾ | 1.00 | 1.00 | 0.06 | 0.01 |
| θ⁽³⁾ | 1.00 | 1.00 | 0.08 | 0.02 |
| θ⁽⁴⁾ | 1.00 | 1.00 | 0.08 | 0.02 |
Red de Especies de Árboles:
- Bloques 3-7: valor p = 0
- Bloques 8-9: valor p = 0.01
- Bloque 10: valor p = 0.19
- Bloques 11-15: valor p ≥ 0.68
Red de Especies de Hongos:
- Bloques 3-17: valor p = 0
- Bloques 18-21: valor p = 0.01
- Bloque 22: valor p = 0.07
- Validez del Método: Las tasas de rechazo cercanas a 1 con 2 o 3 bloques y cercanas a 0 con 4 o 5 bloques coinciden con lo esperado
- Efecto del Tamaño de Muestra: Muestras más grandes (n=100) proporcionan potencia estadística más fuerte
- Diferencias con Métodos Existentes:
- Este método selecciona 10 bloques para la red de árboles y 22 para la red de hongos
- El criterio ICL selecciona 7 bloques para la red de árboles y 9 para la red de hongos
- Las diferencias pueden deberse al carácter conservador del método y requisitos más estrictos de ajuste del modelo
- Métodos Espectrales: Prueba de bondad de ajuste espectral de Lei (2016)
- Métodos ERGM: Método de comparación de distribución de referencia de Hunter et al. (2008)
- Pruebas Mejoradas: Hu et al. (2021) abordando directamente costos computacionales y garantías teóricas
- SBM Clásico: Extensión de bloques latentes de Holland et al. (1983)
- Redes Valoradas: Extensión ERGM a redes de conteos de Krivitsky (2012)
- Selección de Modelos: Selección de modelos basada en verosimilitud de Wang y Bickel (2017)
- Bases de Markov: Teoría fundamental de Diaconis y Sturmfels (1998)
- Aplicaciones en Redes: Pruebas de muestra finita para SBM Bernoulli de Karwa et al. (2023)
- Construcción Dinámica: Método de bases de Markov dinámicas de Gross et al. (2014)
- Contribución Teórica: Extensión exitosa de métodos de estadística algebraica a modelos de redes no-Bernoulli, proporcionando base teórica rigurosa
- Validez del Método: El método de prueba propuesto muestra buenas propiedades estadísticas en datos simulados y reales
- Valor Práctico: Proporciona solución viable para selección de modelos en redes valoradas
- Complejidad Computacional: Los métodos MCMC pueden enfrentar problemas de convergencia en redes a gran escala
- Conservadurismo: El método puede ser excesivamente conservador, resultando en selección de más bloques
- Dependencia de Asignación de Bloques: El método depende de la calidad de la estimación de asignación de bloques
- Cadenas de Markov Compuestas: Desarrollo de métodos que puedan muestrear múltiples fibras
- Optimización Computacional: Mejora de convergencia MCMC y eficiencia computacional
- Extensión de Aplicaciones: Integración con redes dinámicas y redes multicapa
- Rigor Teórico: Proporciona marco teórico completo, incluyendo pruebas de consistencia y análisis asintótico
- Novedad Metodológica: Primera aplicación de métodos de bases de Markov a SBM no-Bernoulli
- Experimentación Integral: Incluye análisis de potencia, verificación de tasa de error tipo I y aplicaciones a datos reales
- Claridad de Presentación: Estructura de artículo razonable, descripción técnica precisa
- Desafíos Computacionales: Para redes a gran escala, la complejidad computacional puede convertirse en cuello de botella
- Sensibilidad Paramétrica: El método es relativamente sensible a la calidad de estimación de asignación de bloques
- Comparación Limitada: Comparación insuficiente con otros métodos no-asintóticos
- Valor Académico: Abre nuevas direcciones para investigación interdisciplinaria entre estadística de redes y estadística algebraica
- Valor Práctico: Proporciona herramientas para análisis de redes en ecología, ciencias sociales y otros campos
- Reproducibilidad: Descripción detallada de algoritmos facilita implementación y reproducción
- Redes de Tamaño Pequeño a Mediano: El método funciona bien cuando el número de nodos no excede varios cientos
- Datos de Redes Valoradas: Particularmente adecuado para datos de redes con conteos o múltiples etiquetas
- Inferencia Estadística Rigurosa: Escenarios de aplicación que requieren pruebas estadísticas precisas
Las referencias principales incluyen:
- Diaconis, P. and Sturmfels, B. (1998). Algebraic algorithms for sampling from conditional distributions
- Holland, P. W., Laskey, K. B., and Leinhardt, S. (1983). Stochastic blockmodels: First steps
- Karwa, V. et al. (2023). Monte Carlo goodness-of-fit tests for degree corrected and related stochastic blockmodels
- Wang, Y. X. R. and Bickel, P. J. (2017). Likelihood-based model selection for stochastic block models