A valued stochastic blockmodel (SBM) is a general way to view networked data in which nodes are grouped into blocks and links between them are measured by counts or labels. This family allows for varying dyad sampling schemes, thereby including the classical, Poisson, and labeled SBMs, as well as those in which some edge observations are censored. This paper addresses the question of testing goodness-of-fit of such non-Bernoulli SBMs, focusing in particular on finite-sample tests. We derive explicit Markov bases moves necessary to generate samples from reference distributions and define goodness-of-fit statistics for determining model fit, comparable to those in the literature for related model families.
For the labeled SBM, which includes in particular the censored-edge model, we study the asymptotic behavior of said statistics. One of the main purposes of testing goodness-of-fit of an SBM is to determine whether block membership of the nodes influences network formation. Power and Type 1 error rates are verified on simulated data. Additionally, we discuss the use of asymptotic results in selecting the number of blocks under the latent-block modeling assumption. The method derived for Poisson SBM is applied to ecological networks of host-parasite interactions. Our data analysis conclusions differ in selecting the number of blocks for the species from previous results in the literature.
- ID de l'article: 2510.13636
- Titre: Tests de qualité d'ajustement non-asymptotiques et sélection de modèles dans les modèles de blocs stochastiques valorisés
- Auteurs: Félix Almendra-Hernández, Miles Bakenhus, Vishesh Karwa, Mitsunori Ogawa, Sonja Petrović
- Classification: stat.ME cs.SI math.ST stat.TH
- Date de publication: 16 octobre 2025
- Lien de l'article: https://arxiv.org/abs/2510.13636
Cet article étudie les tests de qualité d'ajustement pour les modèles de blocs stochastiques valorisés (valued stochastic blockmodel, SBM). Les SBM valorisés constituent une approche générale de modélisation des données de réseau, partitionnant les nœuds en blocs, où les connexions entre nœuds sont mesurées par des comptages ou des étiquettes. Cette famille de modèles permet différents schémas d'échantillonnage de dyades, incluant le SBM classique, le SBM de Poisson et le SBM étiqueté, ainsi que certains cas où les observations d'arêtes sont censurées. L'article se concentre sur les tests à taille d'échantillon fini pour les SBM non-bernouilliens, en dérivant les mouvements explicites de bases de Markov nécessaires pour générer des échantillons de distributions de référence, et en définissant des statistiques de qualité d'ajustement pour déterminer l'ajustement du modèle. Pour les SBM étiquetés (incluant les modèles avec arêtes censurées), le comportement asymptotique de ces statistiques est étudié.
- Problème central: Comment effectuer des tests de qualité d'ajustement pour les modèles de blocs stochastiques valorisés non-bernouilliens, particulièrement dans les cas à taille d'échantillon fini
- Importance:
- En analyse de réseaux, déterminer si l'appartenance des nœuds aux blocs influence la formation du réseau est une question clé
- Les méthodes existantes se concentrent principalement sur les graphes simples (dyades bernouilliens), alors que les données de réseau réelles contiennent souvent des comptages ou plusieurs types de connexions
- Les tests à taille d'échantillon fini ont une valeur pratique importante pour les données de petits échantillons
- Restrictions du SBM classique: La plupart des cadres existants utilisent des graphes simples, modélisant les dyades comme des variables aléatoires bernouilliens
- Problèmes des approches asymptotiques: Les critères de grands échantillons comme le BIC échouent dans les modèles de réseau lorsque la dimensionnalité des paramètres augmente
- Absence de garanties théoriques: Les méthodes existantes manquent de garanties théoriques concernant la distribution sous l'hypothèse nulle et la puissance asymptotique
- Étendre les méthodes de bases de Markov de la statistique algébrique aux modèles de réseau non-bernouilliens
- Construire un cadre de test partiellement bayésien tenant compte de l'incertitude paramétrique
- Fournir des orientations théoriques pour la sélection de modèles, particulièrement le choix du nombre de blocs
- Contributions théoriques:
- Dérivation des bases de Markov explicites pour les SBM de Poisson et les SBM étiquetés
- Preuve de la cohérence des estimateurs par interpolation
- Établissement de la théorie asymptotique des statistiques de qualité d'ajustement
- Contributions méthodologiques:
- Proposition de tests de qualité d'ajustement conditionnels pour les assignations de blocs fixes et inconnues
- Construction d'un cadre de calcul de valeurs p partiellement bayésiennes
- Développement d'algorithmes d'échantillonnage de fibres basés sur MCMC
- Contributions applicatives:
- Application de la méthode à l'analyse des interactions hôte-parasite dans les réseaux écologiques
- Vérification de la puissance et du taux d'erreur de type I sur des données simulées
- Fourniture de principes directeurs pratiques pour la sélection de modèles
Étant donné un réseau valorisé G=(Guv)1≤u<v≤n, où Guv représente l'intensité de la connexion (comptage ou étiquette) entre la paire de nœuds {u,v}, l'objectif est:
- Tester si le réseau se conforme à un SBM valorisé donné
- Effectuer un test de qualité d'ajustement du modèle lorsque l'assignation de blocs est inconnue
- Sélectionner le nombre approprié de blocs k
Pour n nœuds et k blocs, le SBM valorisé suppose:
- Indépendance conditionnelle: Guv⊥⊥Gu′v′∣Z pour toute paire de dyades
- Forme de famille exponentielle:
Pθ(G=g∣Z=z)=∏1≤u<v≤nψ(θzuzv)h(guv)exp⟨Tz(guv),θzuzv⟩
où h est la mesure de base, Tz est la statistique suffisante, et θ est le vecteur de paramètres.
- SBM classique: Guv∣Z=z∼Bernoulli(θzuzv)
- SBM de Poisson: Guv∣Z=z∼Poisson(θzuzv)
- SBM étiqueté: Guv∣Z=z∼Multinomial(N,(θzuzv(ℓ))ℓ=1L)
Base de Markov pour le SBM de Poisson:
B={εuv−εu′v′:zu=zu′,zv=zv′}
Base de Markov pour le SBM étiqueté:
B={εuv(ℓ)+εu′v′(ℓ′)−εuv(ℓ′)−εu′v′(ℓ):ℓ,ℓ′∈[L],zu=zu′,zv=zv′}
- Définition de fibre: Fz,t:={g∈G:Tz(g)=t}
- Distribution conditionnelle: P(G=g∣Tz(g)=t)=∑g′∈Fz,th(g′)h(g)
- Valeur p exacte: p(z,g)=P(GoFz(G)≥GoFz(g)∣Tz(g))
Pour l'assignation de blocs inconnue, la valeur p partiellement bayésienne est définie comme:
pb(g)=∑z∈Zn,kp(z,g)P(Z=z∣g)
Cette approche traite l'incertitude de l'assignation de blocs en moyennant sur la distribution a posteriori.
SBM de Poisson:
GoFz(g)=∑u=1n∑i=1kniθ^zui(mui−niθ^zui)2
SBM étiqueté:
GoFz(g)=χBC2(g,z)=∑u=1n∑i=1k∑ℓ=1L−1niθ^zui(ℓ)(mui(ℓ)−niθ^zui(ℓ))2
- Données simulées:
- Nombre de nœuds: n=50,100
- 4 matrices de connexion différentes θ(1),θ(2),θ(3),θ(4)
- 100 graphes générés pour chaque configuration
- Données réelles:
- Réseau d'espèces de champignons parasites (154 nœuds)
- Réseau d'espèces d'arbres (51 nœuds)
- Les poids des arêtes représentent le nombre d'espèces hôtes/parasites partagées
- Taux d'erreur de type I: Taux de rejet de l'hypothèse nulle au niveau de signification 0,05
- Puissance du test: Taux de rejet du modèle sous différents nombres de blocs
- Précision de la sélection de modèles: Comparaison avec le critère ICL
- Critère ICL (Integrated Complete Likelihood)
- Algorithme EM variationnel pour l'estimation de l'assignation de blocs
- Implémentation du package R sbm
- Longueur de la chaîne MCMC: contrôlée par le paramètre numGraphs
- Estimation de l'assignation de blocs: utilisation de l'algorithme EM variationnel
- Seuil de probabilité a posteriori: ε=1/m, où m est la taille du support
Résultats pour n=50:
| θ | 2 blocs | 3 blocs | 4 blocs | 5 blocs |
|---|
| θ⁽¹⁾ | 1,00 | 0,59 | 0,05 | 0,01 |
| θ⁽²⁾ | 1,00 | 0,66 | 0,03 | 0,03 |
| θ⁽³⁾ | 0,88 | 1,00 | 0,07 | 0,04 |
| θ⁽⁴⁾ | 1,00 | 0,99 | 0,06 | 0,03 |
Résultats pour n=100:
| θ | 2 blocs | 3 blocs | 4 blocs | 5 blocs |
|---|
| θ⁽¹⁾ | 1,00 | 0,98 | 0,05 | 0,00 |
| θ⁽²⁾ | 1,00 | 1,00 | 0,06 | 0,01 |
| θ⁽³⁾ | 1,00 | 1,00 | 0,08 | 0,02 |
| θ⁽⁴⁾ | 1,00 | 1,00 | 0,08 | 0,02 |
Réseau d'espèces d'arbres:
- Nombre de blocs 3-7: valeur p = 0
- Nombre de blocs 8-9: valeur p = 0,01
- Nombre de blocs 10: valeur p = 0,19
- Nombre de blocs 11-15: valeur p ≥ 0,68
Réseau d'espèces de champignons:
- Nombre de blocs 3-17: valeur p = 0
- Nombre de blocs 18-21: valeur p = 0,01
- Nombre de blocs 22: valeur p = 0,07
- Validité de la méthode: Le taux de rejet est proche de 1 avec 2 ou 3 blocs, et proche de 0 avec 4 ou 5 blocs, conformément aux attentes
- Effet de la taille d'échantillon: Une taille d'échantillon plus grande (n=100) fournit une puissance statistique plus forte
- Différences avec les méthodes existantes:
- Notre méthode sélectionne 10 blocs pour le réseau d'arbres et 22 blocs pour le réseau de champignons
- Le critère ICL sélectionne 7 blocs pour le réseau d'arbres et 9 blocs pour le réseau de champignons
- Les différences peuvent être dues au caractère conservateur de la méthode et aux exigences strictes concernant l'ajustement du modèle
- Méthodes spectrales: Test de qualité d'ajustement spectral de Lei (2016)
- Méthode ERGM: Approche de comparaison de distribution de référence de Hunter et al. (2008)
- Tests améliorés: Résolution directe par Hu et al. (2021) des coûts de calcul et des garanties théoriques
- SBM classique: Extension de blocs latents de Holland et al. (1983)
- Réseaux valorisés: Extension ERGM aux réseaux de comptage de Krivitsky (2012)
- Sélection de modèles: Sélection de modèles par vraisemblance de Wang et Bickel (2017)
- Bases de Markov: Théorie fondamentale de Diaconis et Sturmfels (1998)
- Applications aux réseaux: Tests à taille d'échantillon fini pour SBM bernouillien de Karwa et al. (2023)
- Construction dynamique: Méthode de bases de Markov dynamiques de Gross et al. (2014)
- Contribution théorique: Extension réussie des méthodes de statistique algébrique aux modèles de réseau non-bernouilliens, fournissant une base théorique rigoureuse
- Validité de la méthode: La méthode de test proposée montre de bonnes propriétés statistiques sur les données simulées et réelles
- Valeur pratique: Fourniture d'une solution viable pour la sélection de modèles dans les réseaux valorisés
- Complexité de calcul: La méthode MCMC peut faire face à des problèmes de convergence sur les réseaux de grande taille
- Caractère conservateur: La méthode peut être trop conservatrice, conduisant à la sélection d'un nombre plus élevé de blocs
- Dépendance de l'assignation de blocs: La méthode dépend de la qualité de l'estimation de l'assignation de blocs
- Chaînes de Markov composites: Développement de méthodes capable d'échantillonner plusieurs fibres
- Optimisation de calcul: Amélioration de la convergence MCMC et de l'efficacité de calcul
- Extensions applicatives: Intégration avec les réseaux dynamiques et les réseaux multicouches
- Rigueur théorique: Fourniture d'un cadre théorique complet, incluant les preuves de cohérence et l'analyse asymptotique
- Nouveauté méthodologique: Première application de la méthode des bases de Markov aux SBM non-bernouilliens
- Expériences complètes: Incluant l'analyse de puissance, la vérification du taux d'erreur de type I et l'application sur données réelles
- Clarté de la rédaction: Structure de l'article rationnelle, description précise des détails techniques
- Défis de calcul: La complexité de calcul peut devenir un goulot d'étranglement pour les réseaux de grande taille
- Sensibilité paramétrique: La méthode est relativement sensible à la qualité de l'estimation de l'assignation de blocs
- Comparaisons limitées: Les comparaisons avec d'autres méthodes non-asymptotiques sont insuffisantes
- Valeur académique: Ouverture de nouvelles directions pour la recherche interdisciplinaire entre statistique des réseaux et statistique algébrique
- Valeur pratique: Fourniture d'outils pour l'analyse de réseaux dans les domaines de l'écologie, des sciences sociales, etc.
- Reproductibilité: Fourniture de descriptions d'algorithmes détaillées, facilitant l'implémentation et la reproduction
- Réseaux de petite à moyenne taille: La méthode fonctionne bien pour les réseaux avec un nombre de nœuds ne dépassant pas quelques centaines
- Données de réseaux valorisés: Particulièrement adaptée aux données de réseaux avec comptages ou étiquettes multiples
- Inférence statistique rigoureuse: Scénarios d'application nécessitant une inférence statistique précise
Les principales références incluent:
- Diaconis, P. and Sturmfels, B. (1998). Algebraic algorithms for sampling from conditional distributions
- Holland, P. W., Laskey, K. B., and Leinhardt, S. (1983). Stochastic blockmodels: First steps
- Karwa, V. et al. (2023). Monte Carlo goodness-of-fit tests for degree corrected and related stochastic blockmodels
- Wang, Y. X. R. and Bickel, P. J. (2017). Likelihood-based model selection for stochastic block models