Hypothesis testing for the dimension of random geometric graph
Yuan, Yu
Random geometric graphs (RGGs) offer a powerful tool for analyzing the geometric and dependence structures in real-world networks. For example, it has been observed that RGGs are a good model for protein-protein interaction networks. In RGGs, nodes are randomly distributed over an $m$-dimensional metric space, and edges connect the nodes if and only if their distance is less than some threshold. When fitting RGGs to real-world networks, the first step is probably to input or estimate the dimension $m$. However, it is not clear whether the prespecified dimension is equal to the true dimension. In this paper, we investigate this problem using hypothesis testing. Under the null hypothesis, the dimension is equal to a specific value, while the alternative hypothesis asserts the dimension is not equal to that value. We propose the first statistical test. Under the null hypothesis, the proposed test statistic converges in law to the standard normal distribution, and under the alternative hypothesis, the test statistic is unbounded in probability. We derive the asymptotic distribution by leveraging the asymptotic theory of degenerate U-statistics with kernel function dependent on the number of nodes. This approach differs significantly from prevailing methods used in network hypothesis testing problems. Moreover, we also propose an efficient approach to compute the test statistic based on the adjacency matrix. Simulation studies show that the proposed test performs well. We also apply the proposed test to multiple real-world networks to test their dimensions.
무작위 기하 그래프(RGGs)는 실제 네트워크의 기하학적 및 종속 구조를 분석하기 위한 강력한 도구를 제공합니다. RGGs에서 노드는 m차원 메트릭 공간에 무작위로 분포하며, 노드 간 거리가 특정 임계값보다 작을 때만 간선으로 연결됩니다. RGGs를 실제 네트워크에 적합시킬 때, 첫 번째 단계는 차원 m을 입력하거나 추정하는 것입니다. 그러나 사전 설정된 차원이 실제 차원과 같은지 여부는 명확하지 않습니다. 본 논문은 가설 검정을 통해 이 문제를 연구합니다: 귀무가설은 차원이 특정 값과 같고, 대립가설은 차원이 그 값과 다릅니다. 저자들은 첫 번째 통계 검정 방법을 제안하며, 귀무가설 하에서 검정 통계량이 표준 정규분포로 분포 수렴하고, 대립가설 하에서 검정 통계량이 확률적으로 무한대로 발산함을 보입니다.
본 논문은 무작위 기하 그래프 이론, 네트워크 분석, 통계 이론 등 여러 분야를 포괄하는 40편의 중요 문헌을 인용하며, 연구에 견고한 이론적 기초를 제공합니다. 핵심 참고문헌에는 Fan & Li (1996)의 U-통계량 이론, Higham 등(2008)의 단백질 네트워크 응용, 그리고 최근의 관련 종합 논문이 포함됩니다.
종합 평가: 이는 이론적 혁신, 방법 설계, 실험 검증 측면에서 모두 우수한 고품질의 통계 방법론 논문입니다. 몇 가지 한계가 있지만, 네트워크 분석 분야에 중요한 기여를 하였으며, 높은 학술적 가치와 실용적 의의를 가집니다.