2025-11-23T19:04:16.167784

Non-asymptotic goodness-of-fit tests and model selection in valued stochastic blockmodels

Almendra-Hernández, Bakenhus, Karwa et al.
A valued stochastic blockmodel (SBM) is a general way to view networked data in which nodes are grouped into blocks and links between them are measured by counts or labels. This family allows for varying dyad sampling schemes, thereby including the classical, Poisson, and labeled SBMs, as well as those in which some edge observations are censored. This paper addresses the question of testing goodness-of-fit of such non-Bernoulli SBMs, focusing in particular on finite-sample tests. We derive explicit Markov bases moves necessary to generate samples from reference distributions and define goodness-of-fit statistics for determining model fit, comparable to those in the literature for related model families. For the labeled SBM, which includes in particular the censored-edge model, we study the asymptotic behavior of said statistics. One of the main purposes of testing goodness-of-fit of an SBM is to determine whether block membership of the nodes influences network formation. Power and Type 1 error rates are verified on simulated data. Additionally, we discuss the use of asymptotic results in selecting the number of blocks under the latent-block modeling assumption. The method derived for Poisson SBM is applied to ecological networks of host-parasite interactions. Our data analysis conclusions differ in selecting the number of blocks for the species from previous results in the literature.
academic

Pruebas de bondad de ajuste no asintóticas y selección de modelos en modelos de bloques estocásticos valorados

Información Básica

  • ID del Artículo: 2510.13636
  • Título: Pruebas de bondad de ajuste no asintóticas y selección de modelos en modelos de bloques estocásticos valorados
  • Autores: Félix Almendra-Hernández, Miles Bakenhus, Vishesh Karwa, Mitsunori Ogawa, Sonja Petrović
  • Clasificación: stat.ME cs.SI math.ST stat.TH
  • Fecha de Publicación: 16 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.13636

Resumen

Este artículo estudia el problema de pruebas de bondad de ajuste para modelos de bloques estocásticos valorados (valued stochastic blockmodel, SBM). Los SBM valorados constituyen un método de modelado versátil para datos de redes, que agrupa nodos en bloques, donde las conexiones entre nodos se miden mediante conteos o etiquetas. Esta familia de modelos permite diferentes esquemas de muestreo de díadas, incluyendo SBM clásicos, SBM de Poisson y SBM etiquetados, así como casos donde algunas observaciones de aristas están censuradas. El artículo se enfoca en pruebas de muestra finita para SBM no-Bernoulli, derivando movimientos explícitos de bases de Markov necesarios para generar muestras de distribuciones de referencia, y definiendo estadísticas de bondad de ajuste que determinan el ajuste del modelo. Para SBM etiquetados (incluyendo modelos con aristas censuradas), se estudia el comportamiento asintótico de estas estadísticas.

Contexto de Investigación y Motivación

Definición del Problema

  1. Problema Central: Cómo realizar pruebas de bondad de ajuste para modelos de bloques estocásticos valorados no-Bernoulli, particularmente en situaciones de muestra finita
  2. Importancia:
    • En análisis de datos de redes, determinar si la pertenencia a bloques de nodos influye en la formación de la red es una cuestión clave
    • Los métodos existentes se enfocan principalmente en grafos simples (díadas Bernoulli), mientras que los datos reales de redes frecuentemente contienen conteos o múltiples tipos de conexiones
    • Las pruebas de muestra finita tienen valor práctico significativo en datos de pequeña muestra

Limitaciones de Métodos Existentes

  1. Restricciones del SBM Clásico: La mayoría de marcos existentes utilizan grafos simples, modelando díadas como variables aleatorias Bernoulli
  2. Problemas de Métodos Asintóticos: Criterios de muestra grande como BIC fallan en modelos de redes cuando la dimensión de parámetros crece
  3. Falta de Garantías Teóricas: Los métodos existentes carecen de garantías teóricas sobre la distribución bajo la hipótesis nula y la potencia asintótica

Motivación de la Investigación

  • Extender métodos de bases de Markov de la estadística algebraica a modelos de redes no-Bernoulli
  • Construir un marco de prueba parcialmente bayesiano que considere la incertidumbre paramétrica
  • Proporcionar orientación teórica para selección de modelos, particularmente para la elección del número de bloques

Contribuciones Principales

  1. Contribuciones Teóricas:
    • Derivación de bases de Markov explícitas para SBM de Poisson y SBM etiquetados
    • Demostración de consistencia de estimadores interpolados
    • Establecimiento de teoría asintótica para estadísticas de bondad de ajuste
  2. Contribuciones Metodológicas:
    • Proposición de pruebas de bondad de ajuste condicionales para asignaciones de bloques fijas y desconocidas
    • Construcción de marco de cálculo de valores p parcialmente bayesianos
    • Desarrollo de algoritmo de muestreo de fibras basado en MCMC
  3. Contribuciones de Aplicación:
    • Aplicación del método al análisis de interacciones hospedador-parásito en redes ecológicas
    • Verificación de potencia del método y tasas de error tipo I en datos simulados
    • Provisión de principios prácticos de orientación para selección de modelos

Explicación Detallada de Métodos

Definición de Tareas

Dado un grafo valorado G=(Guv)1u<vnG = (G_{uv})_{1≤u<v≤n}, donde GuvG_{uv} representa la intensidad de conexión (conteo o etiqueta) entre el par de nodos {u,v}\{u,v\}, los objetivos son:

  1. Probar si la red se ajusta a un SBM valorado dado
  2. Realizar prueba de ajuste de modelo cuando la asignación de bloques es desconocida
  3. Seleccionar el número apropiado de bloques kk

Arquitectura del Modelo

1. Definición de SBM Valorado

Para nn nodos y kk bloques, el SBM valorado asume:

  • Independencia Condicional: Guv ⁣ ⁣ ⁣GuvZG_{uv} \perp\!\!\!\perp G_{u'v'} | Z para cualesquiera dos díadas
  • Forma de Familia Exponencial: Pθ(G=gZ=z)=1u<vnh(guv)expTz(guv),θzuzvψ(θzuzv)P_θ(G = g | Z = z) = \prod_{1≤u<v≤n} \frac{h(g_{uv})\exp⟨T_z(g_{uv}), θ_{z_uz_v}⟩}{ψ(θ_{z_uz_v})}

donde hh es la medida base, TzT_z es la estadística suficiente, y θθ es el vector de parámetros.

2. Casos Especiales

  • SBM Clásico: GuvZ=zBernoulli(θzuzv)G_{uv} | Z = z \sim \text{Bernoulli}(θ_{z_uz_v})
  • SBM de Poisson: GuvZ=zPoisson(θzuzv)G_{uv} | Z = z \sim \text{Poisson}(θ_{z_uz_v})
  • SBM Etiquetado: GuvZ=zMultinomial(N,(θzuzv())=1L)G_{uv} | Z = z \sim \text{Multinomial}(N, (θ^{(ℓ)}_{z_uz_v})^L_{ℓ=1})

3. Construcción de Bases de Markov

Base de Markov para SBM de Poisson: B={εuvεuv:zu=zu,zv=zv}B = \{ε_{uv} - ε_{u'v'} : z_u = z_{u'}, z_v = z_{v'}\}

Base de Markov para SBM Etiquetado: B={εuv()+εuv()εuv()εuv():,[L],zu=zu,zv=zv}B = \{ε^{(ℓ)}_{uv} + ε^{(ℓ')}_{u'v'} - ε^{(ℓ')}_{uv} - ε^{(ℓ)}_{u'v'} : ℓ,ℓ' ∈ [L], z_u = z_{u'}, z_v = z_{v'}\}

Puntos de Innovación Técnica

1. Marco de Prueba Condicional

  • Definición de Fibra: Fz,t:={gG:Tz(g)=t}F_{z,t} := \{g ∈ G : T_z(g) = t\}
  • Distribución Condicional: P(G=gTz(g)=t)=h(g)gFz,th(g)P(G = g | T_z(g) = t) = \frac{h(g)}{\sum_{g' ∈ F_{z,t}} h(g')}
  • Valor p Exacto: p(z,g)=P(GoFz(G)GoFz(g)Tz(g))p(z,g) = P(\text{GoF}_z(G) ≥ \text{GoF}_z(g) | T_z(g))

2. Método Parcialmente Bayesiano

Para asignación de bloques desconocida, se define el valor p parcialmente bayesiano: pb(g)=zZn,kp(z,g)P(Z=zg)p_b(g) = \sum_{z ∈ Z_{n,k}} p(z,g)P(Z = z | g)

Este enfoque maneja la incertidumbre en la asignación de bloques promediando sobre la distribución posterior.

3. Estadísticas de Bondad de Ajuste

SBM de Poisson: GoFz(g)=u=1ni=1k(muiniθ^zui)2niθ^zui\text{GoF}_z(g) = \sum_{u=1}^n \sum_{i=1}^k \frac{(m_{ui} - n_iθ̂_{z_ui})^2}{n_iθ̂_{z_ui}}

SBM Etiquetado: GoFz(g)=χBC2(g,z)=u=1ni=1k=1L1(mui()niθ^zui())2niθ^zui()\text{GoF}_z(g) = χ^2_{BC}(g,z) = \sum_{u=1}^n \sum_{i=1}^k \sum_{ℓ=1}^{L-1} \frac{(m^{(ℓ)}_{ui} - n_iθ̂^{(ℓ)}_{z_ui})^2}{n_iθ̂^{(ℓ)}_{z_ui}}

Configuración Experimental

Conjuntos de Datos

  1. Datos Simulados:
    • Número de nodos: n=50,100n = 50, 100
    • 4 matrices de conexión diferentes θ(1),θ(2),θ(3),θ(4)θ^{(1)}, θ^{(2)}, θ^{(3)}, θ^{(4)}
    • 100 grafos generados para cada configuración
  2. Datos Reales:
    • Red de especies de hongos parásitos (154 nodos)
    • Red de especies de árboles (51 nodos)
    • Pesos de aristas representan número de especies hospedador/parásito compartidas

Métricas de Evaluación

  1. Tasa de Error Tipo I: Tasa de rechazo de hipótesis nula al nivel de significancia 0.05
  2. Potencia de Prueba: Tasa de rechazo de modelo bajo diferentes números de bloques
  3. Precisión de Selección de Modelo: Comparación con criterio ICL

Métodos de Comparación

  • Criterio ICL (Verosimilitud Completa Integrada)
  • Algoritmo EM variacional para estimación de asignación de bloques
  • Paquete R sbm

Detalles de Implementación

  • Longitud de cadena MCMC: controlada por parámetro numGraphs
  • Estimación de asignación de bloques: usando algoritmo EM variacional
  • Umbral de probabilidad posterior: ε=1/mε = 1/m, donde mm es el tamaño del conjunto de soporte

Resultados Experimentales

Resultados Principales

1. Verificación de Potencia y Tasa de Error Tipo I

Resultados para n=50n=50:

θ2 bloques3 bloques4 bloques5 bloques
θ⁽¹⁾1.000.590.050.01
θ⁽²⁾1.000.660.030.03
θ⁽³⁾0.881.000.070.04
θ⁽⁴⁾1.000.990.060.03

Resultados para n=100n=100:

θ2 bloques3 bloques4 bloques5 bloques
θ⁽¹⁾1.000.980.050.00
θ⁽²⁾1.001.000.060.01
θ⁽³⁾1.001.000.080.02
θ⁽⁴⁾1.001.000.080.02

2. Aplicación a Datos Reales

Red de Especies de Árboles:

  • Bloques 3-7: valor p = 0
  • Bloques 8-9: valor p = 0.01
  • Bloque 10: valor p = 0.19
  • Bloques 11-15: valor p ≥ 0.68

Red de Especies de Hongos:

  • Bloques 3-17: valor p = 0
  • Bloques 18-21: valor p = 0.01
  • Bloque 22: valor p = 0.07

Hallazgos Experimentales

  1. Validez del Método: Las tasas de rechazo cercanas a 1 con 2 o 3 bloques y cercanas a 0 con 4 o 5 bloques coinciden con lo esperado
  2. Efecto del Tamaño de Muestra: Muestras más grandes (n=100n=100) proporcionan potencia estadística más fuerte
  3. Diferencias con Métodos Existentes:
    • Este método selecciona 10 bloques para la red de árboles y 22 para la red de hongos
    • El criterio ICL selecciona 7 bloques para la red de árboles y 9 para la red de hongos
    • Las diferencias pueden deberse al carácter conservador del método y requisitos más estrictos de ajuste del modelo

Trabajo Relacionado

Pruebas de Bondad de Ajuste en Redes

  1. Métodos Espectrales: Prueba de bondad de ajuste espectral de Lei (2016)
  2. Métodos ERGM: Método de comparación de distribución de referencia de Hunter et al. (2008)
  3. Pruebas Mejoradas: Hu et al. (2021) abordando directamente costos computacionales y garantías teóricas

Modelos de Bloques Estocásticos

  1. SBM Clásico: Extensión de bloques latentes de Holland et al. (1983)
  2. Redes Valoradas: Extensión ERGM a redes de conteos de Krivitsky (2012)
  3. Selección de Modelos: Selección de modelos basada en verosimilitud de Wang y Bickel (2017)

Estadística Algebraica

  1. Bases de Markov: Teoría fundamental de Diaconis y Sturmfels (1998)
  2. Aplicaciones en Redes: Pruebas de muestra finita para SBM Bernoulli de Karwa et al. (2023)
  3. Construcción Dinámica: Método de bases de Markov dinámicas de Gross et al. (2014)

Conclusiones y Discusión

Conclusiones Principales

  1. Contribución Teórica: Extensión exitosa de métodos de estadística algebraica a modelos de redes no-Bernoulli, proporcionando base teórica rigurosa
  2. Validez del Método: El método de prueba propuesto muestra buenas propiedades estadísticas en datos simulados y reales
  3. Valor Práctico: Proporciona solución viable para selección de modelos en redes valoradas

Limitaciones

  1. Complejidad Computacional: Los métodos MCMC pueden enfrentar problemas de convergencia en redes a gran escala
  2. Conservadurismo: El método puede ser excesivamente conservador, resultando en selección de más bloques
  3. Dependencia de Asignación de Bloques: El método depende de la calidad de la estimación de asignación de bloques

Direcciones Futuras

  1. Cadenas de Markov Compuestas: Desarrollo de métodos que puedan muestrear múltiples fibras
  2. Optimización Computacional: Mejora de convergencia MCMC y eficiencia computacional
  3. Extensión de Aplicaciones: Integración con redes dinámicas y redes multicapa

Evaluación Profunda

Fortalezas

  1. Rigor Teórico: Proporciona marco teórico completo, incluyendo pruebas de consistencia y análisis asintótico
  2. Novedad Metodológica: Primera aplicación de métodos de bases de Markov a SBM no-Bernoulli
  3. Experimentación Integral: Incluye análisis de potencia, verificación de tasa de error tipo I y aplicaciones a datos reales
  4. Claridad de Presentación: Estructura de artículo razonable, descripción técnica precisa

Deficiencias

  1. Desafíos Computacionales: Para redes a gran escala, la complejidad computacional puede convertirse en cuello de botella
  2. Sensibilidad Paramétrica: El método es relativamente sensible a la calidad de estimación de asignación de bloques
  3. Comparación Limitada: Comparación insuficiente con otros métodos no-asintóticos

Impacto

  1. Valor Académico: Abre nuevas direcciones para investigación interdisciplinaria entre estadística de redes y estadística algebraica
  2. Valor Práctico: Proporciona herramientas para análisis de redes en ecología, ciencias sociales y otros campos
  3. Reproducibilidad: Descripción detallada de algoritmos facilita implementación y reproducción

Escenarios de Aplicabilidad

  1. Redes de Tamaño Pequeño a Mediano: El método funciona bien cuando el número de nodos no excede varios cientos
  2. Datos de Redes Valoradas: Particularmente adecuado para datos de redes con conteos o múltiples etiquetas
  3. Inferencia Estadística Rigurosa: Escenarios de aplicación que requieren pruebas estadísticas precisas

Referencias

Las referencias principales incluyen:

  • Diaconis, P. and Sturmfels, B. (1998). Algebraic algorithms for sampling from conditional distributions
  • Holland, P. W., Laskey, K. B., and Leinhardt, S. (1983). Stochastic blockmodels: First steps
  • Karwa, V. et al. (2023). Monte Carlo goodness-of-fit tests for degree corrected and related stochastic blockmodels
  • Wang, Y. X. R. and Bickel, P. J. (2017). Likelihood-based model selection for stochastic block models