Hypothesis testing for the dimension of random geometric graph
Yuan, Yu
Random geometric graphs (RGGs) offer a powerful tool for analyzing the geometric and dependence structures in real-world networks. For example, it has been observed that RGGs are a good model for protein-protein interaction networks. In RGGs, nodes are randomly distributed over an $m$-dimensional metric space, and edges connect the nodes if and only if their distance is less than some threshold. When fitting RGGs to real-world networks, the first step is probably to input or estimate the dimension $m$. However, it is not clear whether the prespecified dimension is equal to the true dimension. In this paper, we investigate this problem using hypothesis testing. Under the null hypothesis, the dimension is equal to a specific value, while the alternative hypothesis asserts the dimension is not equal to that value. We propose the first statistical test. Under the null hypothesis, the proposed test statistic converges in law to the standard normal distribution, and under the alternative hypothesis, the test statistic is unbounded in probability. We derive the asymptotic distribution by leveraging the asymptotic theory of degenerate U-statistics with kernel function dependent on the number of nodes. This approach differs significantly from prevailing methods used in network hypothesis testing problems. Moreover, we also propose an efficient approach to compute the test statistic based on the adjacency matrix. Simulation studies show that the proposed test performs well. We also apply the proposed test to multiple real-world networks to test their dimensions.
academic
Test d'hypothèse pour la dimension du graphe géométrique aléatoire
Les graphes géométriques aléatoires (RGGs) constituent un outil puissant pour analyser les structures géométriques et les dépendances dans les réseaux réels. Dans les RGGs, les nœuds sont distribués aléatoirement dans un espace métrique de dimension m, et deux nœuds sont connectés par une arête si et seulement si la distance entre eux est inférieure à un seuil donné. Lors de l'ajustement des RGGs aux réseaux réels, l'étape préalable consiste à spécifier ou estimer la dimension m. Cependant, il n'est pas clair si la dimension présupposée est égale à la dimension réelle. Cet article aborde cette question par le biais d'un test d'hypothèse : l'hypothèse nulle stipule que la dimension est égale à une valeur spécifique, tandis que l'hypothèse alternative stipule que la dimension n'est pas égale à cette valeur. Les auteurs proposent la première méthode de test statistique, où la statistique de test converge en distribution vers une distribution normale standard sous l'hypothèse nulle, et diverge en probabilité sous l'hypothèse alternative.
Problème central: Comment vérifier si la dimension m présupposée ou estimée est égale à la dimension réelle lors de l'ajustement d'un graphe géométrique aléatoire à un réseau réel
Besoin pratique: Dans les recherches existantes, les chercheurs supposent généralement directement une valeur de dimension (par exemple, m=2,3,4 dans les réseaux d'interaction protéique), mais il manque une méthode de vérification statistique
Importance applicative: Les RGGs sont largement utilisés dans les réseaux d'interaction protéique, les réseaux sociaux, les réseaux cérébraux et de nombreux autres domaines
Suppose une distribution uniforme des nœuds sur l'hypercube unitaire
Utilise une fonction de distance métrique spécifique
Exige que le réseau soit clairsemé (r_n = o(1))
Complexité computationnelle: Bien qu'optimisée, peut faire face à des défis pour les réseaux de très grande taille
Plage de dimension: Principalement validée en cas de faible dimension, les performances en haute dimension nécessitent une investigation supplémentaire
Cet article cite 40 références importantes couvrant la théorie des graphes géométriques aléatoires, l'analyse de réseaux, la théorie statistique et d'autres domaines, fournissant une base théorique solide pour la recherche. Les références clés incluent la théorie des U-statistiques de Fan & Li (1996), l'application aux réseaux protéiques par Higham et al. (2008), ainsi que les articles de synthèse récents connexes.
Évaluation globale: Ceci est un article de haute qualité en méthodologie statistique, excellant dans l'innovation théorique, la conception méthodologique et la vérification expérimentale. Bien qu'il présente certaines limitations, il apporte une contribution importante au domaine de l'analyse de réseaux, avec une valeur académique et pratique considérable.