Hypothesis testing for the dimension of random geometric graph
Yuan, Yu
Random geometric graphs (RGGs) offer a powerful tool for analyzing the geometric and dependence structures in real-world networks. For example, it has been observed that RGGs are a good model for protein-protein interaction networks. In RGGs, nodes are randomly distributed over an $m$-dimensional metric space, and edges connect the nodes if and only if their distance is less than some threshold. When fitting RGGs to real-world networks, the first step is probably to input or estimate the dimension $m$. However, it is not clear whether the prespecified dimension is equal to the true dimension. In this paper, we investigate this problem using hypothesis testing. Under the null hypothesis, the dimension is equal to a specific value, while the alternative hypothesis asserts the dimension is not equal to that value. We propose the first statistical test. Under the null hypothesis, the proposed test statistic converges in law to the standard normal distribution, and under the alternative hypothesis, the test statistic is unbounded in probability. We derive the asymptotic distribution by leveraging the asymptotic theory of degenerate U-statistics with kernel function dependent on the number of nodes. This approach differs significantly from prevailing methods used in network hypothesis testing problems. Moreover, we also propose an efficient approach to compute the test statistic based on the adjacency matrix. Simulation studies show that the proposed test performs well. We also apply the proposed test to multiple real-world networks to test their dimensions.
academic
Prueba de hipótesis para la dimensión de grafos geométricos aleatorios
Los grafos geométricos aleatorios (RGGs) proporcionan herramientas poderosas para analizar estructuras geométricas y de dependencia en redes reales. En los RGGs, los nodos se distribuyen aleatoriamente en un espacio métrico de dimensión m, y se conectan mediante aristas si y solo si la distancia entre ellos es menor que un umbral específico. Al ajustar RGGs a redes reales, el primer paso es especificar o estimar la dimensión m. Sin embargo, no está claro si la dimensión preestablecida es igual a la dimensión verdadera. Este artículo aborda este problema mediante prueba de hipótesis: la hipótesis nula establece que la dimensión es igual a un valor específico, mientras que la hipótesis alternativa establece que la dimensión no es igual a ese valor. Los autores proponen el primer método de prueba estadística, donde el estadístico de prueba converge en distribución a una distribución normal estándar bajo la hipótesis nula, y diverge en probabilidad bajo la hipótesis alternativa.
Problema Central: Al ajustar grafos geométricos aleatorios a redes reales, ¿cómo verificar si la dimensión m preestablecida o estimada es igual a la dimensión verdadera?
Necesidad Práctica: En investigaciones existentes, los investigadores típicamente asumen directamente valores de dimensión (como m=2,3,4 en redes de interacción de proteínas), pero carecen de métodos de validación estadística
Importancia Aplicada: Los RGGs se aplican ampliamente en redes de interacción de proteínas, redes sociales, redes cerebrales y otros múltiples campos
Este artículo cita 40 referencias importantes que abarcan teoría de grafos geométricos aleatorios, análisis de redes, teoría estadística y otros aspectos múltiples, proporcionando una base teórica sólida para la investigación. Las referencias clave incluyen la teoría de U-estadísticos de Fan & Li (1996), aplicaciones en redes de proteínas de Higham et al. (2008), y artículos de revisión recientes relacionados.
Evaluación General: Este es un artículo de alta calidad en metodología estadística que demuestra excelencia en innovación teórica, diseño de métodos y verificación experimental. Aunque presenta algunas limitaciones, realiza contribuciones importantes al campo del análisis de redes, con considerable valor académico y práctico.