2025-11-23T19:04:16.167784

Non-asymptotic goodness-of-fit tests and model selection in valued stochastic blockmodels

Almendra-HernÃ¡ndez, Bakenhus, Karwa et al.

A valued stochastic blockmodel (SBM) is a general way to view networked data in which nodes are grouped into blocks and links between them are measured by counts or labels. This family allows for varying dyad sampling schemes, thereby including the classical, Poisson, and labeled SBMs, as well as those in which some edge observations are censored. This paper addresses the question of testing goodness-of-fit of such non-Bernoulli SBMs, focusing in particular on finite-sample tests. We derive explicit Markov bases moves necessary to generate samples from reference distributions and define goodness-of-fit statistics for determining model fit, comparable to those in the literature for related model families. For the labeled SBM, which includes in particular the censored-edge model, we study the asymptotic behavior of said statistics. One of the main purposes of testing goodness-of-fit of an SBM is to determine whether block membership of the nodes influences network formation. Power and Type 1 error rates are verified on simulated data. Additionally, we discuss the use of asymptotic results in selecting the number of blocks under the latent-block modeling assumption. The method derived for Poisson SBM is applied to ecological networks of host-parasite interactions. Our data analysis conclusions differ in selecting the number of blocks for the species from previous results in the literature.

academic

Pruebas de bondad de ajuste no asintóticas y selección de modelos en modelos de bloques estocásticos valorados

Información Básica

ID del Artículo: 2510.13636
Título: Pruebas de bondad de ajuste no asintóticas y selección de modelos en modelos de bloques estocásticos valorados
Autores: Félix Almendra-Hernández, Miles Bakenhus, Vishesh Karwa, Mitsunori Ogawa, Sonja Petrović
Clasificación: stat.ME cs.SI math.ST stat.TH
Fecha de Publicación: 16 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.13636

Resumen

Este artículo estudia el problema de pruebas de bondad de ajuste para modelos de bloques estocásticos valorados (valued stochastic blockmodel, SBM). Los SBM valorados constituyen un método de modelado versátil para datos de redes, que agrupa nodos en bloques, donde las conexiones entre nodos se miden mediante conteos o etiquetas. Esta familia de modelos permite diferentes esquemas de muestreo de díadas, incluyendo SBM clásicos, SBM de Poisson y SBM etiquetados, así como casos donde algunas observaciones de aristas están censuradas. El artículo se enfoca en pruebas de muestra finita para SBM no-Bernoulli, derivando movimientos explícitos de bases de Markov necesarios para generar muestras de distribuciones de referencia, y definiendo estadísticas de bondad de ajuste que determinan el ajuste del modelo. Para SBM etiquetados (incluyendo modelos con aristas censuradas), se estudia el comportamiento asintótico de estas estadísticas.

Contexto de Investigación y Motivación

Definición del Problema

Problema Central: Cómo realizar pruebas de bondad de ajuste para modelos de bloques estocásticos valorados no-Bernoulli, particularmente en situaciones de muestra finita
Importancia:
- En análisis de datos de redes, determinar si la pertenencia a bloques de nodos influye en la formación de la red es una cuestión clave
- Los métodos existentes se enfocan principalmente en grafos simples (díadas Bernoulli), mientras que los datos reales de redes frecuentemente contienen conteos o múltiples tipos de conexiones
- Las pruebas de muestra finita tienen valor práctico significativo en datos de pequeña muestra

Limitaciones de Métodos Existentes

Restricciones del SBM Clásico: La mayoría de marcos existentes utilizan grafos simples, modelando díadas como variables aleatorias Bernoulli
Problemas de Métodos Asintóticos: Criterios de muestra grande como BIC fallan en modelos de redes cuando la dimensión de parámetros crece
Falta de Garantías Teóricas: Los métodos existentes carecen de garantías teóricas sobre la distribución bajo la hipótesis nula y la potencia asintótica

Motivación de la Investigación

Extender métodos de bases de Markov de la estadística algebraica a modelos de redes no-Bernoulli
Construir un marco de prueba parcialmente bayesiano que considere la incertidumbre paramétrica
Proporcionar orientación teórica para selección de modelos, particularmente para la elección del número de bloques

Contribuciones Principales

Contribuciones Teóricas:
- Derivación de bases de Markov explícitas para SBM de Poisson y SBM etiquetados
- Demostración de consistencia de estimadores interpolados
- Establecimiento de teoría asintótica para estadísticas de bondad de ajuste
Contribuciones Metodológicas:
- Proposición de pruebas de bondad de ajuste condicionales para asignaciones de bloques fijas y desconocidas
- Construcción de marco de cálculo de valores p parcialmente bayesianos
- Desarrollo de algoritmo de muestreo de fibras basado en MCMC
Contribuciones de Aplicación:
- Aplicación del método al análisis de interacciones hospedador-parásito en redes ecológicas
- Verificación de potencia del método y tasas de error tipo I en datos simulados
- Provisión de principios prácticos de orientación para selección de modelos

Explicación Detallada de Métodos

Definición de Tareas

Dado un grafo valorado $G = (G_{uv})_{1≤u<v≤n}$ , donde $G_{uv}$ representa la intensidad de conexión (conteo o etiqueta) entre el par de nodos $\{u,v\}$ , los objetivos son:

Probar si la red se ajusta a un SBM valorado dado
Realizar prueba de ajuste de modelo cuando la asignación de bloques es desconocida
Seleccionar el número apropiado de bloques $k$

Arquitectura del Modelo

1. Definición de SBM Valorado

Para $n$ nodos y $k$ bloques, el SBM valorado asume:

Independencia Condicional: $G_{uv} \perp\!\!\!\perp G_{u'v'} | Z$ para cualesquiera dos díadas
Forma de Familia Exponencial: $P_θ(G = g | Z = z) = \prod_{1≤u<v≤n} \frac{h(g_{uv})\exp⟨T_z(g_{uv}), θ_{z_uz_v}⟩}{ψ(θ_{z_uz_v})}$

donde $h$ es la medida base, $T_z$ es la estadística suficiente, y $θ$ es el vector de parámetros.

2. Casos Especiales

SBM Clásico: $G_{uv} | Z = z \sim \text{Bernoulli}(θ_{z_uz_v})$
SBM de Poisson: $G_{uv} | Z = z \sim \text{Poisson}(θ_{z_uz_v})$
SBM Etiquetado: $G_{uv} | Z = z \sim \text{Multinomial}(N, (θ^{(ℓ)}_{z_uz_v})^L_{ℓ=1})$

3. Construcción de Bases de Markov

Base de Markov para SBM de Poisson: $B = \{ε_{uv} - ε_{u'v'} : z_u = z_{u'}, z_v = z_{v'}\}$

Base de Markov para SBM Etiquetado: $B = \{ε^{(ℓ)}_{uv} + ε^{(ℓ')}_{u'v'} - ε^{(ℓ')}_{uv} - ε^{(ℓ)}_{u'v'} : ℓ,ℓ' ∈ [L], z_u = z_{u'}, z_v = z_{v'}\}$

Puntos de Innovación Técnica

1. Marco de Prueba Condicional

Definición de Fibra: $F_{z,t} := \{g ∈ G : T_z(g) = t\}$
Distribución Condicional: $P(G = g | T_z(g) = t) = \frac{h(g)}{\sum_{g' ∈ F_{z,t}} h(g')}$
Valor p Exacto: $p(z,g) = P(\text{GoF}_z(G) ≥ \text{GoF}_z(g) | T_z(g))$

Datos Simulados:
- Número de nodos: $n = 50, 100$
- 4 matrices de conexión diferentes $θ^{(1)}, θ^{(2)}, θ^{(3)}, θ^{(4)}$
- 100 grafos generados para cada configuración
Datos Reales:
- Red de especies de hongos parásitos (154 nodos)
- Red de especies de árboles (51 nodos)
- Pesos de aristas representan número de especies hospedador/parásito compartidas

Métricas de Evaluación

Tasa de Error Tipo I: Tasa de rechazo de hipótesis nula al nivel de significancia 0.05
Potencia de Prueba: Tasa de rechazo de modelo bajo diferentes números de bloques
Precisión de Selección de Modelo: Comparación con criterio ICL

Métodos de Comparación

Criterio ICL (Verosimilitud Completa Integrada)
Algoritmo EM variacional para estimación de asignación de bloques
Paquete R sbm

Detalles de Implementación

Longitud de cadena MCMC: controlada por parámetro numGraphs
Estimación de asignación de bloques: usando algoritmo EM variacional
Umbral de probabilidad posterior: $ε = 1/m$ , donde $m$ es el tamaño del conjunto de soporte

θ	2 bloques	3 bloques	4 bloques	5 bloques
θ⁽¹⁾	1.00	0.59	0.05	0.01
θ⁽²⁾	1.00	0.66	0.03	0.03
θ⁽³⁾	0.88	1.00	0.07	0.04
θ⁽⁴⁾	1.00	0.99	0.06	0.03

Resultados para $n=100$ :

θ	2 bloques	3 bloques	4 bloques	5 bloques
θ⁽¹⁾	1.00	0.98	0.05	0.00
θ⁽²⁾	1.00	1.00	0.06	0.01
θ⁽³⁾	1.00	1.00	0.08	0.02
θ⁽⁴⁾	1.00	1.00	0.08	0.02

2. Aplicación a Datos Reales

Red de Especies de Árboles:

Bloques 3-7: valor p = 0
Bloques 8-9: valor p = 0.01
Bloque 10: valor p = 0.19
Bloques 11-15: valor p ≥ 0.68

Red de Especies de Hongos:

Bloques 3-17: valor p = 0
Bloques 18-21: valor p = 0.01
Bloque 22: valor p = 0.07

Hallazgos Experimentales

Validez del Método: Las tasas de rechazo cercanas a 1 con 2 o 3 bloques y cercanas a 0 con 4 o 5 bloques coinciden con lo esperado
Efecto del Tamaño de Muestra: Muestras más grandes ( $n=100$ ) proporcionan potencia estadística más fuerte
Diferencias con Métodos Existentes:
- Este método selecciona 10 bloques para la red de árboles y 22 para la red de hongos
- El criterio ICL selecciona 7 bloques para la red de árboles y 9 para la red de hongos
- Las diferencias pueden deberse al carácter conservador del método y requisitos más estrictos de ajuste del modelo

Trabajo Relacionado

Pruebas de Bondad de Ajuste en Redes

Métodos Espectrales: Prueba de bondad de ajuste espectral de Lei (2016)
Métodos ERGM: Método de comparación de distribución de referencia de Hunter et al. (2008)
Pruebas Mejoradas: Hu et al. (2021) abordando directamente costos computacionales y garantías teóricas

Modelos de Bloques Estocásticos

SBM Clásico: Extensión de bloques latentes de Holland et al. (1983)
Redes Valoradas: Extensión ERGM a redes de conteos de Krivitsky (2012)
Selección de Modelos: Selección de modelos basada en verosimilitud de Wang y Bickel (2017)

Estadística Algebraica

Bases de Markov: Teoría fundamental de Diaconis y Sturmfels (1998)
Aplicaciones en Redes: Pruebas de muestra finita para SBM Bernoulli de Karwa et al. (2023)
Construcción Dinámica: Método de bases de Markov dinámicas de Gross et al. (2014)

Conclusiones y Discusión

Conclusiones Principales

Contribución Teórica: Extensión exitosa de métodos de estadística algebraica a modelos de redes no-Bernoulli, proporcionando base teórica rigurosa
Validez del Método: El método de prueba propuesto muestra buenas propiedades estadísticas en datos simulados y reales
Valor Práctico: Proporciona solución viable para selección de modelos en redes valoradas

Limitaciones

Complejidad Computacional: Los métodos MCMC pueden enfrentar problemas de convergencia en redes a gran escala
Conservadurismo: El método puede ser excesivamente conservador, resultando en selección de más bloques
Dependencia de Asignación de Bloques: El método depende de la calidad de la estimación de asignación de bloques

Direcciones Futuras

Cadenas de Markov Compuestas: Desarrollo de métodos que puedan muestrear múltiples fibras
Optimización Computacional: Mejora de convergencia MCMC y eficiencia computacional
Extensión de Aplicaciones: Integración con redes dinámicas y redes multicapa

Evaluación Profunda

Fortalezas

Rigor Teórico: Proporciona marco teórico completo, incluyendo pruebas de consistencia y análisis asintótico
Novedad Metodológica: Primera aplicación de métodos de bases de Markov a SBM no-Bernoulli
Experimentación Integral: Incluye análisis de potencia, verificación de tasa de error tipo I y aplicaciones a datos reales
Claridad de Presentación: Estructura de artículo razonable, descripción técnica precisa

Deficiencias

Desafíos Computacionales: Para redes a gran escala, la complejidad computacional puede convertirse en cuello de botella
Sensibilidad Paramétrica: El método es relativamente sensible a la calidad de estimación de asignación de bloques
Comparación Limitada: Comparación insuficiente con otros métodos no-asintóticos

Impacto

Valor Académico: Abre nuevas direcciones para investigación interdisciplinaria entre estadística de redes y estadística algebraica
Valor Práctico: Proporciona herramientas para análisis de redes en ecología, ciencias sociales y otros campos
Reproducibilidad: Descripción detallada de algoritmos facilita implementación y reproducción

Escenarios de Aplicabilidad

Redes de Tamaño Pequeño a Mediano: El método funciona bien cuando el número de nodos no excede varios cientos
Datos de Redes Valoradas: Particularmente adecuado para datos de redes con conteos o múltiples etiquetas
Inferencia Estadística Rigurosa: Escenarios de aplicación que requieren pruebas estadísticas precisas

Referencias

Las referencias principales incluyen:

Diaconis, P. and Sturmfels, B. (1998). Algebraic algorithms for sampling from conditional distributions
Holland, P. W., Laskey, K. B., and Leinhardt, S. (1983). Stochastic blockmodels: First steps
Karwa, V. et al. (2023). Monte Carlo goodness-of-fit tests for degree corrected and related stochastic blockmodels
Wang, Y. X. R. and Bickel, P. J. (2017). Likelihood-based model selection for stochastic block models